您现在的位置是:首页 >要闻 > 2020-11-13 09:01:09 来源:
通过挖掘人类测试人员来增强AI
人工智能的进步取决于对大量数据的持续测试。通过该基准测试,研究人员可以确定AI的“智能”程度,发现弱点,然后开发更强大,更智能的模型。
但是,该过程很耗时。当AI系统处理一系列计算机生成的任务并最终达到最佳性能时,研究人员必须回到图纸上,设计更新,更复杂的项目,以进一步增强AI的性能。
Facebook本周宣布,它已经找到了更好的工具来执行此任务-人员。为了创建更好,更灵活的AI,它构建了Dynabench,该平台利用人和计算机模型来收集数据和基准AI。
它依赖于称为动态对抗性数据收集的程序,正如周四发布的Facebook白皮书所解释的那样,它“彻底地重新思考了AI基准测试”。
通过与自然语言处理模型进行对话,人们尝试通过使用语言上具有挑战性的问题来破坏程序。该程序可能会跳出具有挑战性的词汇或习惯用法,或者可能会误解讽刺。人类的问题越有挑战性,人工智能就越会学会在棘手的地形上导航。
Facebook解释说:“它衡量了人类对AI系统的欺骗程度,这比当前的静态基准更好地表明了模型的质量。” “最终,该指标将更好地反映最重要情况下的AI模型的性能:与人互动时,他们的行为和反应以复杂,变化的方式发生,而这些方式无法反映在一组固定的数据点中。”
实际上,最近的研究发现传统的基准测试并不可靠,发现自然语言学习模型中提供的答案中有多达三分之二实际上不知不觉地嵌入了测试中,并且仅允许模型记住答案。
Facebook研究员Douwe Kiela说,依靠错误的基准会阻碍AI的增长。
Kiela说:“最终,您的系统在测试上要比人类更好,但在整体任务上却没有更好。” “这非常具有欺骗性,因为它使我们看上去比实际情况要远得多。”
正如Facebook白皮书所指出的那样,Dynabench指标“将在最重要的情况下更好地反映AI模型的性能:与人互动时,他们的行为方式和反应方式复杂而变化,而固定方式无法体现数据点集。”
华盛顿大学的AI研究人员强调,由于机器学习能够熟练地检测人类无法感知的数据集相关性,因此当前AI的基准测试已失真:这些机器正确回答了问题,但没有必要的“理解”含义。
崔业珍说:“我们看到了汉斯的聪明处境。” 她指的是1907年的一则启示,即一匹马可以执行数学任务。实际上,一位心理学家发现这匹马正在对训练者的身体提示做出反应,该提示将动物提示了适当的反应。最有趣的是,这名心理学家得知培训师实际上并没有意识到糟糕的情况会导致他的非自愿线索被阅读。该场景已被称为“观察者期望效应”或“聪明汉斯效应”。
同样,Dynabench希望确保AI不仅响应意外提示。
通过在dynabench.org上与其自然语言处理模型进行对话,邀请公众参与Dynabench项目。
“我们想让AI社区相信有更好的方法来衡量进度,” Kiela说。“希望它将导致更快的进度,并更好地理解为什么机器学习模型仍然会失败。”