您现在的位置是:首页 >科技 > 2022-08-11 01:41:07 来源:
英伟达推出智能机器人对话人工智能技术
既然几乎所有可能的移动设备和设备都已经采用或至少尝试了语音控制,会话人工智能正迅速成为新的前沿。与处理一个查询并提供一个响应或动作不同,对话人工智能旨在提供一个能够跨越多个问题、答案和评论的实时交互系统。虽然会话人工智能的基本构件,如用于语言建模的BERT和RoBERTa,与用于一次性语音识别的构件类似,但该概念对训练、推理和模型大小有额外的性能要求。今天,Nvidia发布了三种开源技术来解决这些问题。
虽然在许多情况下,只需进行一些调优就可以使用预先训练好的语言模型来处理新任务,但是为了在特定的上下文中获得最佳性能,重新训练是必要的。Nvidia已经证明,它现在可以在一个不到一小时的时间内,在一个DGX超级pod上训练BERT(谷歌的参考语言模型),该超级pod由1472台Tesla v100 - sx63 - 32gb gpu、92台DGX- 2h服务器和每个节点10个Mellanox Infiniband组成。不,我甚至不想试着估算每小时的租金是多少。但由于像这样的模型通常需要几天的时间来训练,甚至在高端GPU集群,这将肯定有助于时间为公司谁能负担得起的成本。
对于自然对话,行业基准是10ms响应时间。理解查询并给出建议的回复只是这个过程的一部分,因此需要花费少于10ms的时间。通过使用TensorRT 5.1优化BERT, Nvidia可以在一个Nvidia T4上在2.2ms内进行推论。很酷的是,T4实际上可以用于任何重要的项目。我将它们用于我的文本生成系统的谷歌计算云。在我做这个项目的时候,我租了一台4-vCPU的T4虚拟服务器,每小时租金刚刚超过1美元。
神经网络的一个致命弱点是要求所有的模型参数(包括大量的权重)必须同时存储在内存中。这就限制了可以在GPU上训练的模型的复杂性,使其限制在RAM的大小上。以我为例,我的台式机Nvidia GTX 1080只能训练8GB容量的机型。我可以在我的CPU上训练更大的模型,它有更多的内存,但是它需要更长的时间。例如,完整的GPT-2语言模型有15亿个参数,扩展版本有83亿个参数。
不过,Nvidia提出了一种允许多个gpu并行处理语言建模任务的方法。就像今天的其他公告一样,他们已经开源了代码来实现它。我很好奇这项技术是专门针对语言模型的,还是可以应用于其他类型的神经网络的多gpu训练。
随着这些技术的发展和代码在GitHub上的发布,Nvidia宣布他们将与微软合作,以改善必应的搜索结果,并与Clinc合作开发语音代理,在聊天机器人上开发人工智能,在对话分析上开发RecordSure。