分析概述
采用自然语言处理技术对2017年4月至10月期间提交给联邦通信委员会的网络中立性评论进行分析,结果显示存在大量异常情况。
关键发现
- 某个支持废除网络中立的垃圾邮件活动使用邮件合并技术,将130万条评论伪装成独特的基层提交
- 很可能存在其他多个活动旨在向系统注入总计可能达数百万条的支持废除评论
- 真正独特评论中超过99%支持保留网络中立
数据处理方法
由于评论提交过程存在大量 documented 异常情况,数据明显存在重复和混乱问题。为进行分析,将超过2200万条评论和60GB以上的文本数据及元数据分解为更小的部分。
通过MD5哈希函数计算重复评论,获得2,955,182条独特评论及其重复计数。随后将每条评论映射到语义空间向量,并对评论含义运行聚类算法。该方法识别出近150个不同规模的评论提交文本集群。
虚假评论识别
最大的支持废除评论集群特别值得注意:每条评论都是独特的,但语气、语言和含义基本一致。通过正则表达式匹配集群评论中的词语,发现这些评论看起来是由计算机程序生成的。邮件合并技术通过替换同义词来生成看似独特的评论。
评论分布特征
支持废除的评论(约860万条)更可能是完全重复的(深红色条),并且以更大的块提交。即使其中25%被确认为垃圾邮件,仍会导致超过200万条伪造的支持废除评论。
另一方面,支持网络中立的评论更可能偏离固定格式(浅绿色条),并且在长尾中数量更多。如果双方评论的类型、提交方式和"垃圾邮件性"相同,预计整个条形图中浅色和深色、红色和绿色的分布大致均匀,但实际情况并非如此。
真实公众意见
在不到80万条非重复或未聚类的评论中,随机抽取1000条样本进行分析,仅发现3条明确支持废除的评论。这表明人口比例估计为99.7%,绝大多数对此问题充满热情并自行撰写评论的个人都支持保留网络中立。
结论
公众参与和公民参与是民主运作的基础。真实公众辩论中的声音(超过99%支持保留网络中立)被垃圾邮件机器人的合唱所淹没,这一现象令人担忧。鉴于这些发现,联邦监管公众评论过程可能成为另一个被垃圾邮件和虚假信息侵占的公共论坛。
技术方法详注
- 使用spaCy获取词向量(采用Levy和Goldberg(2014)论文中的词向量)
- 对文档向量进行两次聚类:首先使用DBSCAN和欧几里得距离度量,然后使用HDBSCAN对10万条评论样本进行聚类
- 使用近似预测方法将剩余评论分类为已识别集群或异常值
- 最终获得不到80万条独特的"有机"评论异常值