您现在的位置是:首页 >要闻 > 2021-09-09 03:44:23 来源:
为什么谷歌相信机器学习是它的未来?
本周谷歌I/O主题演讲中最有趣的演示之一是谷歌语音助手的新版本,该版本将于今年晚些时候推出。一名谷歌员工要求谷歌助理调出她的照片,然后展示她与动物的照片。她拍了拍一个说:“给贾斯汀。”照片已放入通信应用程序中。
从那里,事情变得更加令人印象深刻。
她说:“嘿,谷歌,给杰西卡发封电子邮件。”“嗨,杰西卡,我刚从黄石国家公园回来,完全爱上了它。”电话录下了她的话,并在她的线上打了“嗨,杰西卡”。
进一步阅读
谷歌首次推出“下一代”助手,将用于下一代Pixel手机。
她说:“受黄石公园探险的影响。”助手得知“黄石历险记”应该放在主题行,而不是消息正文。
然后,没有任何明确的命令,女人回到了命令邮件正文的位置。最后,她说“发送”,谷歌的助手做到了。
谷歌还表示,谷歌也在努力扩大其助手对个人推荐的理解。如果用户说“嘿谷歌,妈妈家的天气怎么样”,谷歌可以查到“妈妈家”是指用户妈妈的家,找到她的地址,提供她所在城市的天气预报。
谷歌表示,其下一代助手将在今年晚些时候推出“新Pixel手机”,即目前Pixel 3系列之后的手机。
显然,罐装演示和运输产品有很大的区别。我们将不得不等待,看看与新助手的典型交互是否运行良好。但是谷歌似乎正在朝着建立一个能够处理语音处理的虚拟助手的梦想稳步前进。
I/O上的很多公告都是这样的:谷歌的一系列产品不是发布主要的新产品,而是利用机器学习技术逐渐变得更加复杂和有用。谷歌还吹捧了其机器学习软件的一些幕后改进,这将允许谷歌创建的软件和第三方软件使用更复杂的机器学习技术。
如果你问机器学习专家,当当前深度学习的热潮开始时,很多人会在主要作者Alex Krizhevsky之后指出2012年的论文《AlexNet》。作者是多伦多大学的三名研究人员,他们参加了ImageNet竞赛,并将图像分为1000个类别。
ImageNet组织者提供了100多万个带标签的样本图像来训练网络。AlexNet通过使用具有八个可训练层和65万个神经元的深度神经网络,实现了前所未有的精度。他们之所以能在如此大量的数据上训练出如此庞大的网络,是因为他们已经想出了如何使用专为大规模并行处理而设计的消费级GPU。
亚历克斯。net展示了所谓的三脚凳对于深度学习的重要性:更好的算法、更多的训练数据和更强的计算能力。在过去的七年里,公司一直在努力增强三个方面的能力,以获得越来越好的业绩。
谷歌几乎从一开始就带头指责。在2012年AlexNet获得名为ImageNet的图像识别大赛冠军两年后,谷歌以更深层次的神经网络参加了大赛,并获得了最高奖。该公司已经聘请了数十位顶级机器学习专家,包括2014年收购深度学习初创公司DeepMind,这让该公司一直处于神经网络设计的前沿。
该公司还拥有无与伦比的大型数据集访问权限。2013年的一份文件描述了谷歌如何使用深度神经网络来识别通过谷歌街景拍摄的数千万张图像中的地址号码。
谷歌在硬件上也很努力。2016年,谷歌宣布打造了一款名为Tensor Processing Unit的定制芯片,专门设计用于加速使用神经网络的操作。
“尽管谷歌早在2006年就考虑为神经网络构建专用集成电路(ASIC),但这种情况在2013年变得紧迫起来,”谷歌在2017年写道。“当时,我们意识到神经网络的计算需求正在快速增长。我们可能需要将运营的数据中心数量增加一倍。”
这就是为什么谷歌I/O在过去三年一直专注于机器学习。公司认为,这些资产(一小批机器学习专家、大量数据和自身定制的芯片)使其成为利用机器学习带来的机会的理想选择。
事实上,今年的谷歌I/O并没有发布多少与ML相关的新产品,因为公司已经将机器学习集成到了很多主要产品中。安卓已经有语音识别和谷歌助手很多年了。一直以来,谷歌照片都有着令人印象深刻的基于ML的搜索功能。去年,谷歌推出了Google Duplex,它代表用户通过使用软件创建的逼真人声进行预订。
相反,关于机器学习的I/O演示集中在两个方面:将更多的机器学习活动转移到智能手机上,利用机器学习帮助弱势群体(包括聋哑人,文)。
盲或患癌症的人)。过去使神经网络更准确的努力涉及使它们更深,更复杂。这种方法产生了令人印象深刻的结果,但是它有很大的缺点:网络经常变得过于复杂而无法在智能手机上运行。
人们大多通过将计算工作卸载到云来解决这个问题。谷歌和苹果语音助手的早期版本会录制音频并将其上传到公司服务器进行处理。一切正常,但它具有三个明显的缺点:延迟时间较长,隐私保护功能较弱,并且该功能只能在线运行。
因此,谷歌一直致力于在设备上转移越来越多的计算。当前的Android设备已经具有基本的设备上语音识别功能,但是Google的虚拟助手需要Internet连接。谷歌表示,这种情况将在今年晚些时候随着谷歌助手的新离线模式而改变。
这项新功能是本周演示演示闪电般快速响应时间的重要原因。谷歌表示,对于某些任务,助手将“快10倍”。
进行此切换的关键是显着减小用于语音识别的神经网络的大小。无论是Google内部还是外部的研究人员都在研究这个问题已有一段时间了。
例如,2016年的一篇论文描述了一组研究人员如何精简经典的AlexNet架构。他们发现卷积神经网络中的某些元素会增加很多参数,而不会大大提高网络的准确性。通过明智地改造网络结构,他们能够将AlexNet中的参数数量减少50倍,而不会降低其准确性。进一步的压缩技术使他们可以将模型的大小压缩500倍。
谷歌表示,它已经使用更复杂的神经网络实现了类似的壮举,该网络用于理解Google助手命令,从而将网络大小从100GB减小到约500MB。
Google还一直在努力使Google Assistant更快地做出响应。关于谷歌如何做到这一点的线索来自几位谷歌研究人员在2018年发表的一篇论文。其他研究人员已经手动调整了神经网络的结构,而Google研究人员则使该过程自动化。他们使用软件对不同的神经网络配置进行了实验,并考虑了实际智能手机的功能和局限性,从而测量了所得网络的速度和准确性。
今年早些时候,谷歌宣布了另一项举措,以加速设备上机器学习功能。TensorFlow是Google创建的用于机器学习应用程序的框架。TensorFlow Lite是该软件的移动版本。1月,Google宣布TensorFlow Lite现在在某些智能手机型号上支持GPU加速。
我们还看到Google和其他公司开始为智能手机开发AI专用硬件。Pixel 2推出了由Google设计的新型图像处理芯片。 苹果最新的芯片包括针对机器学习应用进行了优化的“神经引擎”。高通公司的最新芯片还带有用于AI的专用芯片。有趣的是,下一代Pixel手机是否配备了功能更强大的自定义硬件,以支持Google的设备上助手和其他机器学习应用程序。
今年早些时候,谷歌推出了一种名为Edge TPU的芯片,这是该公司过去几年在其数据中心拥有的机器学习芯片的一种小型,低功耗版本。该公司目前正在将其作为“物联网”产品进行营销,但是很难想象Google将在下一代Pixel手机和其他未来的硬件产品(如智能扬声器)中使用该芯片的版本。
Google不仅为自己的应用程序使用了更多的设备上机器学习。该公司还为第三方开发人员提供了一个名为ML Kit的库,该库可用于iOS和Android。它为开发人员提供了现成的机器学习模型,用于执行常见任务,例如识别图像中的文本和对象,检测面部以及将文本从一种语言翻译成另一种语言。
本周,Google宣布了一种新的ML Kit API,可用于59种语言的设备上翻译,提供可在有或没有网络连接的情况下运行的私有快速翻译。ML Kit现在还提供了执行设备上对象检测和跟踪的功能。
Google翻译应用程序已经允许用户将相机对准现实世界中的一段文字,并查看即时翻译成另一种语言的信息。现在,用户将能够请求软件以原始语言或其他语言大声阅读文本,并在阅读文本时突出显示相应的单词。
Google强调了其最近推出的实时转录应用程序,该应用程序为听障人士提供了真实对话的字幕。一项名为“实时字幕”的新功能将使Android用户可以显示手机正在播放的任何音频的实时转录。另一个称为实时中继的功能使聋人可以将电话当作文本聊天来对待:呼叫者的话被实时转录为聊天消息。接收者可以打回单词并让他们大声朗读给呼叫者。
Google还尝试使用机器学习来帮助患有退化性疾病的人,使他们完全无法说话。当前,这些人经常不得不缓慢地键入消息(如果不是用手指,而是用眼睛),然后用合成语音阅读。Google希望基于机器学习的软件能够吸收更复杂的线索,从而使这些人能够“说话”得足够快,可以实时参与对话。
Google的使命是整理世界各地的信息,并使其易于使用。Google在该任务说明的前半部分取得了很大进展-它可能比该星球上的任何其他公司拥有更多的数据访问权限。但是,使信息更有用将需要软件以更复杂的方式理解信息,而这正是机器学习技术可以做到的。
在本周的I / O大会上,Google发出了明确信号,表明Google的机器学习推动才刚刚起步。该公司正在投入大量资源来开发新的芯片,算法和平台,因为它认为这些技术有很大的空间来改进其现有产品-或允许创建全新的产品。Google相信,它拥有独特的人才和资源组合,可以充分利用这些机会。