您现在的位置是:首页 >要闻 > 2020-12-07 16:01:35 来源:

一种新的卷积神经网络模型来检测Twitter上的滥用和不活跃

导读 西北大学,麦吉尔大学和印度理工学院的研究人员最近开发了一种字符级卷积神经网络(CNN)模型,该模型可以帮助检测Twitter上的辱骂帖子。发现

西北大学,麦吉尔大学和印度理工学院的研究人员最近开发了一种字符级卷积神经网络(CNN)模型,该模型可以帮助检测Twitter上的辱骂帖子。发现该模型优于几种基线方法,达到了93.3%的准确度。

近年来,在线平台上的辱骂行为呈指数增长,特别是在Twitter上。因此,社交媒体公司正在寻求有效的新方法来识别此行为,以便进行干预并防止其造成严重伤害。

从事这项研究的研究人员之一阿米什·穆克吉(Animesh Mukherjee)对Tech Xplore表示: “推特最初被认为是一个'电子城广场',现在已经变成一个沼泽地。” “每天都在报道越来越多的网络侵略,网络欺凌和不活跃事件,其中许多严重影响了用户。实际上,这是Twitter失去活跃的追随者群体的主要原因之一。”

在线内容可以迅速传播并覆盖非常广泛的受众,因此在线滥用案例经常拖延很长时间,产生严重的影响。一个或多个受害者,以及其他敏感的旁观者,可能最终无数次阅读了罪犯的话语,然后才从Twitter上消失。这就是为什么社交媒体平台有效且快速地检测此内容,及时进行干预以将其删除的原因。

穆克吉说:“我们的目标是开发一种机制,该机制可以在不严重的推文造成严重损害之前尽早自动检测到这些推文。” “我们观察到,通常情况下,受害者/目标对象在对某些具名实体表达强烈感情后遭到攻击。这导致我们提出了利用观点冲突来检测不文明推文的中心思想。”

穆克吉(Mukherjee)和他的同事意识到,滥用职权通常与者和目标对象之间的意见分歧相关,尤其是对知名公众人物或实体的意见。因此,他们将特定于实体的情感信息整合到了他们的CNN模型中,希望这将改善其检测滥用内容的性能。

进行这项研究的另一位研究人员Pawan Goyal说:“ CNN试图从不文明的推文中自动提取图案,以区别于其他推文。” “我们还选择使用字符级嵌入,而不是单词级嵌入。由于推文通常很小,只包含几个单词,并且拼写形式很多,因此发现字符级模型比单词更健壮级模型。”

此字符级别的CNN模型比最佳基线方法的性能高出4.9%,在检测不文明推文中的准确性达到93.3%。研究人员还进行了事后分析,仔细研究了Twitter上者和受害者的行为方面,希望能更好地理解不活跃事件。