您现在的位置是:首页 >财经 > 2021-04-28 10:18:37 来源:

人工智能研究项目分类的11世纪字形

导读 人工智能可以检测面部,杂货,甚至可能有毒的蘑菇。那为什么不是历史涂鸦呢? 在预印本服务器Arxiv org上发表的一篇论文( 用于自动识别历史

人工智能可以检测面部,杂货,甚至可能有毒的蘑菇。那为什么不是历史涂鸦呢?

在预印本服务器Arxiv.org上发表的一篇论文(“ 用于自动识别历史涂鸦的开源数据集和机器学习技术 ”),乌克兰国立技术大学和惠州大学信息科学与技术学院的研究人员描述了机器学习模型,检测,隔离和分类雕刻在基辅大教堂的石墙上的古代字母。

人工智能研究项目分类的11世纪字形

“[C] arved手写通常具有更差的质量和破旧状态,以提供类似的准确值...通常,预处理需要有关整个字形的先验知识,但[某些]数据集目前不可用作开源数据库......“团队写道。“本文的主要目的是应用一些机器学习技术来自动识别历史涂鸦......并从复杂的几何形状,几乎不可辨别的形状和低统计代表性的角度估计它们的效率。”

研究人员将他们的大部分工作集中在Glagolitic和Cyrillic上,这两种字母通常用于东斯拉夫视觉文本。考古学家在乌克兰的圣索菲亚大教堂发现了两者的雕文 - 有些可以追溯到11世纪。迄今为止,已检测到并研究了约7,000个。

不言而喻,历史字母数据集并不像阿拉伯字母那样常见,因此团队组装并预处理了34种字母类型的4,000多张图像的集合。他们使用notMINST,第二个数据库包含字母AJ的公共字体和字形,来比较两个输出。

他们接下来开始训练卷积神经网络 - 一种通常用于计算机视觉的机器学习算法 - 通过从notMINST及其新颖数据集中提供数据来识别涂鸦,注意水平和垂直翻转一些原始数据图像以防止过度拟合。

神经网络在分别从团队数据集和notMINST中分离字符的准确率为99%%。

将来,研究人员希望通过“教导”它来考虑诸如日期,语言,作者,真实性和意义等因素来改进模型。此外,他们建议以“开放科学,志愿者数据收集,处理和计算”的精神创建“世界各地”共享的更大数据集,他们说这将导致进一步的发展。

“[G]涂鸦是非常强大的历史知识来源。[F]或例子,Safaitic语言的唯一已知来源是叙利亚南部,约旦东部和沙特阿拉伯北部的岩石表面上的涂鸦铭文,“他们写道。“计算机视觉和机器学习方法的最新进展允许应用其中一些来改进当前的识别,识别,定位,语义分割和各种起源的历史涂鸦的解释.