您现在的位置是:首页 >要闻 > 2020-12-11 08:17:22 来源:
新研究有助于消除社交媒体的错误信息
赖斯大学的研究人员发现了一种更有效的方法,可以使社交媒体公司使用经过人工智能训练的概率过滤器来防止错误信息在网上传播。赖斯计算机科学家Anshumali Shrivastava和统计专业的研究生Dai Zhenwei今天在仅在线的2020年神经信息处理系统大会(NeurIPS 2020)上发表的一项研究中概述了扫描社交媒体的新方法。他们的方法以更智能的方式应用了机器学习,以改善Bloom滤波器的性能,Bloom滤波器是半个世纪前设计的一种广泛使用的技术。
通过使用虚假新闻和计算机病毒的测试数据库,Shrivastava和Dai展示了他们的自适应学习型Bloom过滤器(Ada-BF)所需的内存减少了50%,以实现与学习型Bloom过滤器相同的性能水平。
为了解释他们的过滤方法,Shrivastava和Dai引用了Twitter的一些数据。这家社交媒体巨头最近透露,其用户每天增加约5亿条推文,而这些推文通常在用户点击“发送”后一秒钟就在线出现。
Shrivastava说:“在选举期间,他们每秒收到约10,000条推文,而一秒钟的延迟大约是每毫秒六条推文。” “如果您想应用一个过滤器来读取每条推文,并用已知为伪造的信息标记这些推文,则您的标记机制不能慢于6毫秒,否则您将落在后面而永不追赶。”
如果发送标记的tweet进行额外的手动审核,则低假阳性率也至关重要。换句话说,您需要最大程度地减少错误标记的真实推文数量。
他说:“如果您的假阳性率低至0.1%,那么即使您错误地将每秒10条推文(或每天超过80万条)标记为要人工审核,” “这就是为什么大多数传统的仅使用AI的方法禁止控制错误信息的原因。”
Shrivastava表示,Twitter并未透露其过滤推文的方法,但据信它们采用了Bloom过滤器,Bloom过滤器是1970年发明的一种低内存技术,用于检查特定数据元素(例如一段计算机代码)是否是其中的一部分已知元素集的集合,例如已知计算机病毒的数据库。布隆过滤器可以确保找到与数据库匹配的所有代码,但它也会记录一些误报。
Shrivastava说:“假设您发现了一条错误信息,并希望确保它不会在推文中传播。” “ Bloom过滤器可让您在百万分之一秒或更短的时间内非常快地检查tweet。如果它说tweet是干净的,则它与您的错误信息数据库中的任何内容都不匹配,这是100%保证的。因此没有可以通过已知的错误信息发送一条推文。但是Bloom过滤器会在很短的时间内标记无害的推文。”
在过去三年中,研究人员提供了各种使用机器学习的方案,以增强Bloom过滤器并提高其效率。可以训练语言识别软件来识别和批准大多数推文,从而减少需要使用Bloom过滤器处理的数量。机器学习分类器的使用可以减少过滤数据所需的计算开销,从而使公司可以在更短的时间内使用相同的资源处理更多的信息。
“当人们今天使用机器学习模型时,他们浪费了许多来自机器学习模型的有用信息,”戴说。
典型的方法是设置容差阈值,并将低于该阈值的所有内容发送到Bloom过滤器。如果置信度阈值为85%,则意味着分类器认为安全性为80%的信息所接受的检查级别与仅10%的信息相同。
戴说:“即使我们不能完全依靠机器学习分类器,它仍然可以为我们提供有价值的信息,可以减少Bloom过滤器资源的数量。” “我们所做的是概率性地应用这些资源。当分类器只有10%的置信度时,我们会提供更多的资源;而当分类器只有20%的置信度时,我们会提供较少的资源,依此类推。我们将整个分类器用于分析并使用可以从布隆过滤器分配的全部资源。”
Shrivastava说,Ada-BF减少的内存需求直接转化为实时过滤系统的额外容量。
他说:“我们需要一半的空间。” “因此,实质上,我们可以使用相同的资源处理两倍的信息。”