您现在的位置是:首页 >要闻 > 2020-11-27 16:25:43 来源:

数据挖掘连字标题改善命名实体的识别

导读 数据挖掘和从不同来源提取知识是大数据,大业务。但是,搜索软件如何处理提到的仅使用其一部分名称或通常不使用名称连字符的实体?发表在《

数据挖掘和从不同来源提取知识是大数据,大业务。但是,搜索软件如何处理提到的仅使用其一部分名称或通常不使用名称连字符的实体?发表在《国际智能信息与数据库系统杂志》上的研究揭示了一种新方法的细节,该方法可改善新闻标题中的命名实体识别和歧义消除。

印度技术学院计算机科学与工程系的Jayendra Barua和Rajdeep Niyogi位于印度北阿坎德邦罗尔市的Roorkee,他们解释说,他们对当前新闻头条进行这种分析的方法是基于经过训练的算法,该算法被教导删除连字符,并填写不完整的名称以消除歧义。

团队对其新颖方法的评估表明,该方法的工作精度比传统系统高出约10%,因此可以改善与特定公司,组织,事件,公众人物以及这些数据挖掘感兴趣的其他实体相关的新闻的自动检索。新闻。该系统与新闻源(例如由定期更新的网站生成的RSS类型的新闻源)配合得很好。来自此类消息来源的标题通常可能比传统报纸的标题更长,但仍然简洁,通常只有十个或更少的单词。这样,每个单词在数据挖掘上下文中可能都很重要,因此消除歧义至关重要。