您现在的位置是:首页 >财经 > 2021-05-10 09:52:48 来源:
Facebook和谷歌的人工智能会产生3D人体姿势
预测3D人体姿势可能不属于大多数人的范围,但机器人技术,计算机图形学和其他主要关注运动学的领域 - 与物体运动有关的力学分支 - 可以从能够做到这一点的系统中受益。姿势预测是之前应用人工智能(AI)的一项任务,最近由谷歌推出,但一些先前的工作遇到了障碍:它在不自然的方向拉伸数字关节和骨骼,特别是当关节旋转时。
Facebook的人工智能研究部门,谷歌大脑和苏黎世联邦理工学院的新研究有望解决这个问题,幸运的是。在本周发布在预印本服务器Arxiv.org上的一篇论文(“ 基于四元数的人体运动神经网络 ”)中,研究人员描述了一个人工智能系统--QuaterNet--通过将联合旋转表示为称为四元数的复数系统来改善姿势生成,并通过惩罚联合位置错误。
正如本文的共同作者所解释的那样,循环神经网络 - 一种能够学习长期依赖性的AI算法 - 历来用于执行短期和长期姿态预测,而卷积神经网络 - 算法非常擅长于分析视觉图像 - 已成功应用于长期生成运动(从一个地方移动到另一个地方)。但由于人体姿势的固有随机性,一个完美的模型仍然是难以捉摸的。
“人体运动是一个具有高度不确定性的随机过程,”研究人员写道。“对于给定的过去,将来会有多个可能的未来帧序列,并且不确定性会随着持续时间而增加。”
大多数模型使用转换运算符来预测先前姿势的下一个姿势。它们从它们摄取的记录帧中输出记录的目标帧,这在大多数情况下都很有效。但它不会将它们暴露给自己的错误,因此会阻止它们从这些错误中恢复。
相比之下,研究人员提出的系统采用卷积神经网络,该网络查看过去的帧,随着时间的推移学习进行长期预测,因为它逐渐暴露于自己的预测中。同时,损失函数 - 将一个或多个变量的值映射到实数上的函数 - 作为输入关节旋转并计算每个关节的位置。共同作者说,这既改善了模型的稳定性,又减少了误差。
为了验证该模型的短期姿势预测能力,研究人员采购了Human3.6M,这是一个开源3D人体姿势数据集,包含来自7名演员执行15次动作的360万人类姿势以及相应的图像。在包含运动样本的不同数据集上评估长期生成测试。
在短期预测任务中,共同作者报告了人类3.6M基线的改进。并且在长期姿势生成的情况下,其目标是在给定平均速度和地面轨迹的情况下生成姿势序列,它们将模型表征为“定性地”与最近的工作相比较,同时允许更好地控制时间和空间约束。
他们留待未来的工作将QuaterNet扩展到其他与运动相关的任务,例如动作识别或视频的姿势估计,以及使用“直接在四元数域中执行计算”的神经网络。