您现在的位置是：首页 >互联网 > 2020-10-29 11:24:07 来源：

信任但要验证机器学习的魔力掩盖了隐藏的弱点

导读这个想法在理论上听起来很不错：大学不给全额奖学金，而是可以优化使用奖学金的资金，以吸引愿意支付大部分学费的学生。因此，与其向一个有

这个想法在理论上听起来很不错：大学不给全额奖学金，而是可以优化使用奖学金的资金，以吸引愿意支付大部分学费的学生。

因此，与其向一个有需要的学生提供20,000美元的奖学金，不如将相同的金额分成四个分别为5,000美元的奖学金，并悬在他们面前，让更富有的学生选择其他学校。吸引4名付费学生而不是1名非付费学生，将在四年内创造240,000美元的额外学费收入。

广泛使用的实践被称为“财务援助利用”，它是机器学习的一种完美应用，机器学习是预测分析的一种形式，已经席卷了整个商业世界。但事实证明，这种杠杆作用的长期意想不到的结果是经济类之间的学生人数失衡，较富裕的申请人获得录取，却牺牲了较贫穷但同样合格的同龄人。

机器学习是人工智能的一个分支，它对大型数据集应用专门的算法，以发现影响结果的因素，由于涉及的数据量巨大，这些结果可能对人类是不可见的。研究人员正在使用机器学习来解决各种难以想象的复杂性任务，例如通过关联数百万患者用药记录来确定有害药物的相互作用或确定导致工厂设备故障的新因素。

诸如Facebook Inc.，Google LLC和Microsoft Corp.等网络规模的巨头通过在开源许可下发布强大的机器学习框架而引起了人们的狂热。自2010年以来，顶级大学的机器学习课程注册人数增加了两倍。自2012年以来，使用“机器学习”一词的Google搜索量增长了近七倍。

现在，公司将机器学习作为从企业供应链管理软件到娃娃的一切内容的组成部分。然而，尽管有很多炒作，但许多人仍然对机器学习的功能还只有初步的了解，最重要的是，它会出错。

可疑的结果

金融援助的杠杆作用是康奈尔大学的萨米尔·帕西(Samir Passi)和索伦·巴洛卡斯(Solon Barocas)在有关问题制定的公平性的最新论文中引用的机器学习成果令人质疑的几个例子之一。错误的假设，未能就期望的结果达成共识以及不完整的训练数据引入的无意偏见只是一些因素可能导致机器学习程序脱轨，产生的数据充其量是最无用的，最糟糕的是会引起误解。

“人们通常认为不良的机器学习系统等同于不良行为者，但我认为更常见的问题是意料之外的不良副作用，” Passi在接受SiliconANGLE采访时说。

尽管没有证据表明误导的机器学习算法已杀死任何人，但有大量证据表明它们造成了伤害。2016年Pro Publica对美国执法机构广泛用于预测屡犯的风险评估算法的分析发现，尽管种族在技术上并不是影响方程式的因素，但大多数人对非裔美国人的被告表现出强烈的偏见。

这并不会让Passi感到惊讶。他指出，执法机构经常将逮捕视为的代理。他说：“因此，他们寻找逮捕最多的地区，并在那里分配更多的警察资源。” “部署更多人员会导致更多人被捕，这会增加率的统计数据。”

在一个例子中，对于企业高管而言，亚马逊公司在经过三年的开发后于2017年放弃了基于机器学习的招聘应用程序，当时该软件显示出对男性候选人的持续偏见，尽管亚马逊做出了努力。问题的根源是亚马逊用来培训应用程序的数据：它主要由男性主导的计算机行业的候选人的简历组成。即使在被指示忽略候选人的性别之后，该算法还是学会了偏爱男性通常用来形容自己的某些术语。

另一种结果

这些示例强调了机器学习和AI其他应用程序所特有的动态：传统程序定义了严格的过程以实现可重现的结果，而机器学习算法可以识别方程式中未明确说明的因素。因此，想要使用这些功能强大的新工具的组织需要特别注意数据质量，测试和透明过程。

MapR Technologies Inc.的首席应用架构师Ted Dunning说：“当您学习而不是根据规范进行设计时，您对系统应该做什么一无所知，因此很难预测结果。” 2014年出版的“实用机器学习异常检测”一书。

这些示例并不意味着暗示机器学习本质上是不可信的，也不意味着贬低其巨大的价值。但是，这是一个警告性的故事，说明了在不了解影响人工智能决策的因素的情况下，将人工智能引擎的建议按其实际价值承担的风险。

像大多数人工智能分支一样，机器学习也获得了一种黑匣子式的神秘感，可以轻易掩盖其某些固有的弱点。尽管计算机在下棋和驾驶无人驾驶汽车等任务方面取得了令人印象深刻的进步，但它们的算法仅与制造它们的人和获得的数据一样好。

结果：在未来几年中，机器学习的工作可能会集中在破解黑匣子上，并设计出更强大的方法来确保这些算法能够实现应有的作用并避免附带损害。

任何开始使用机器学习的组织都应了解该技术的局限性及其功能。SiliconANGLE联络的专家列举了五个要注意的方面：

1.定义术语

成功对不同的人意味着不同的事情。让他们达成共识可能是一项非常艰巨的任务。

Passi和Barocas在问题解答纸中讲述了一家公司的真实故事，该公司专门收集有关需要购车贷款但信用评级不佳的人的财务数据。该公司将这些人的名字卖给汽车经销商，他们可以选择向他们出售汽车。该公司希望利用数据科学来提高销售线索的质量，这个目标似乎很简单。希望是，数据科学能够在粗糙的环境下产生出钻石：信用历史混杂的买家仍然是良好的信用风险。

但是该项目失败了，因为在从什么构成良好的线索到定义高信用分数的所有方面都存在分歧。数据科学团队无法保护将信用评级与个人匹配所需的数据，并且由于评分机制不一致，因此不得不将潜在购买者分为两类。

结果是经销商将被限制为两组候选人：一组被认为具有良好的信用风险，而另一组则没有。较低级别的候选人将永远不会考虑获得资助，从而实际上破坏了该项目的最初目标。

这个故事象征着一个容易使机器学习项目受挫的问题：同一个团队中同一公司中的人们对成功的定义常常不同。通常他们甚至都不知道。

Indico Data Solutions Inc.公司的首席执行官Tom Wilde回忆说，该公司使用机器学习通过解释非结构化数据来改善流程，他回忆说与一家金融机构合作开展了一个项目，该项目希望自动分析提案请求。该任务涉及评估大约40个属性，团队成员认为这些属性已经很好理解。

王尔德说：“我们发现这些定义的一致性约为20%。” “这种模式不可能成功。”

在Couchbase Inc.，一个客户想要优化促销活动，以最大程度地吸引最大的潜在花费者，原因是其供应商之间在最基本的数据元素上缺乏共识。

Couchbase产品管理总监Sachin Smotra说：“我们在定义过程中发现，他们有七个不同的性别定义，分别是男性，女性，未定和几种变体。” “他们正在与五个不同的合作伙伴合作，每个合作伙伴都有自己的定义。”

MapR的Dunning回忆起他从事的一个旨在推荐视频的项目。团队选择根据用户点击最多的标题来构建模型，但最初的结果令人失望。事实证明，“人们在视频上放了可怕的标题，”邓宁说。“我们将数据从点击更改为30秒，结果是建议的价值提高了400%至500%。” 因此，输入变量的微小变化会对结果质量产生巨大的放大作用。

专家们说，在所有这些例子中都得到了教训：达成共识，即要衡量的内容和有意义的数据是必不可少的第一步。否则，从一开始就将误导假设。

2.选择正确的问题来解决

作为预测分析的一种形式，当过去的数据可以预测未来的结果时，机器学习效果最佳。这使其非常适合诸如机器日志文件中的异常检测和预测性维护之类的应用程序，但对于股票市场预测或诸如“生命的意义是什么?

“使用机器学习的原因有两个：要么是数据量太多，要么是输入矢量太多，”红帽公司卓越人工智能中心的高级主管丹尼尔·里耶克(Daniel Riek)说。适用于机器学习的用例。”

专家建议着重解决输入范围有限和可能产生的结果方面的问题。Indico的Wilde说：“我们发现许多AI计划都是从发现项目开始的，没有考虑到任何实际的业务成果。” “几乎所有人都失速了。”

即使变量和结果定义明确，预测模型也很少能确定。IBM公司分析部门副总裁兼首席数据官Seth Dobrin说：“这是概率，而不是确定性。您没有明确的答案，而是有可能的。”

最近的一个突出例子是2016年美国总统大选。基于详细记录的人口统计资料和历史投票模式，大多数机器学习模型都预测希拉里·克林顿会获胜。但是这些模型无法考虑到意外事件，例如重新启动FBI调查或虚假新闻。

即使没有这些因素，最好的模型也只能以大约70%的概率预测克林顿获胜，这给他留下了很大的余地。选民和新闻媒体可能会对结果感到惊讶，但统计学家并不对此感到惊讶。

政治和体育分析网站FiveThirtyEight的创始人兼总编辑内特·西尔弗( Nate Silver)写道：“在民意测验中勉强获胜的情况下勉强获胜，这确实是例行公事，而且引人注目。” “可以说，结果完全在'不确定性的范围内'。”

充其量来说，机器学习过程的结果应该是一粒盐。“从您的训练数据中得出的基本概率是，一定的输入会产生一定的输出，” Red Hat的Riek说。“然后遍历生产，看看结果是否可以接受。”

重复结果的能力很重要。当呈现相似但不相同的数据集时，机器学习模型每次运行时都应返回相似的结果。连续的验证测试和重复可提高信心。“如果您运行相同的模型30次，则每次都应获得相同的排名，”多布林说。但是即使如此，现实世界的结果也可能有所不同。

3.使用全面的相关数据

使用事务系统的开发人员知道错误数据的定义：邮政编码字段中的四位数是个问题。在机器学习中，区别并不那么明显。

实际上，机器学习算法对“脏”数据具有更高的容忍度，因为它们可以随着时间的推移学会识别并丢弃它。Actian Corp产品营销总监Pradeep Bhanot表示：“数据质量随着您学习的次数而提高。”

与强调缩小数据和汇总数据的传统数据清理相反，机器学习算法在处理大量原始信息和迭代改进方法时效果最佳。“更大的样本量和更多的迭代可以为您提供更高的准确性，” Bhanot说。

因为机器学习是概率性的，所以输出更像是判断，而不是绝对答案。模型拥有的数据越多，结果应该越好，并且不必对数据进行清理和规范化以达到事务处理的程度。

MapR的Dunning说：“传统的假设是数据质量必须是完美的，而如果您有一个学习系统，那是不正确的。” “很多时候学习系统可以学会补偿。” 实际上，Dunning建议向数据中注入一些噪声，以查看算法是否成功将其滤除。他说：“从短期来看，您将使系统运行不佳，但从长期来看，它将变得更好。”

更大的潜在问题在于数据不能代表问题的全部领域。大多数数据集有偏差，因此找到全面的训练数据是成功的关键因素。

幸运的是，公共数据集的领域正在增长。谷歌已经贡献了超过60到公共领域，许多人都可以从政府和私人来源。IBM的Watson OpenScale和MapR的Data Science Refinery是确保机器学习部署中数据质量的新兴工具类别的示例

4.了解可能的结果

机器学习过程的输出应该是有意义的，即使它们是意外的。如果对问题的定义足够清楚，并且具有领域专业知识的人员参与了结果评估，那么结果应该不会令任何人感到惊讶。

这并不意味着模型应该告诉您已经知道的内容。如果惊喜发掘出新的见解，那就很好。诀窍是要在获得显而易见的结果与极其不可能的结果之间找到平衡。

“当您得到与您的直觉相符的结果时，是否正确?” 帕西问。“与此同时，如果结果违反直觉，这是否会使它们天生错误?”

专家说，至关重要的是让专家参与测试过程来设定对合理结果的期望。Indico的Wilde说：“设想在此过程结束时取得什么样的成功，然后倒退，而不是通过收集大量数据来寻找有趣的东西。”

还建议将重点放在解决方案集有限的小问题上，同时要记住，机器学习比发明新过程更适合于寻找改善现有过程的方法。王尔德说：“如果您无法定义所需的状态，请不要指望AI为您做到这一点。”

但是公司还应该选择具有改进潜力的问题，以使该模型不会仅仅增强现有知识。Passi说：“如果系统与肠道感觉完全匹配，那么它就毫无用处，就好像传递完全相反的感觉一样。”

用于训练算法的数据应与期望的结果相关，但不应严格限制以至于不会出现开箱即用的解决方案。Dunning说：“您需要将训练数据与您知道和不知道的东西混合在一起。” “探索数据的灰色区域可以使模型更好。”

人类也需要保持循环，以避免相关性和因果关系之间的混淆。两个变量似乎与结果相关联的事实并不意味着它们会影响结果。冰淇淋的销售量与溺水死亡的频率相关，但这并不意味着冰淇淋会导致溺水。一个更可能的因果因素是夏天。

算法并不总是能够分辨出差异，因此需要人工监督来发现没有意义的假设。Google的“负责任的AI实践”代码建议：“经过训练以检测相关性的模型不应用于进行因果推理。”

5.注意隐藏的偏见

亚马逊候选人筛选和执法风险评估应用程序的失败在于人们没有预料到的偏见。由于几乎没有数据集能够真正代表现实世界，而且偏差的来源可能很微妙，因此很难准确地确定这些偏差所在的位置。

IBM的Dobrin涉及一家金融服务公司的示例，该公司的住房抵押贷款候选人评估应用程序无意中将种族因素纳入了方程式，因为培训数据中包含邮政编码。尽管没有在源数据中记录种族，但该算法得知某些邮政编码的候选人的抵押贷款风险更高，因此开始更频繁地拒绝其申请。他说：“因为该公司不了解隐藏的偏见，所以他们无法预测这种情况会发生。”

所有人类都有偏见，但也有控制它们的机制。电脑至少还没有这样的防护栏，这意味着可以放大有偏见的数据的结果。Dunning说：“使您能够在社会中发挥作用的相同机制可能会导致可怕的顽固行为。”

重复测试和验证是核心防御措施。偏差倾向于随时间推移进入模型，这意味着必须根据一组实际的输出对算法进行持续监控。Riek说：“您需要一套有限的输出和故障信号。” “您不能产生细微差别的输出。”

但是有时候偏见是必要的，这就是数据科学家及其业务方面的同事的利益可能发生冲突的地方。机器学习算法擅长于找到最佳解决方案，但是无论是出于合规性，法律辩护还是利他主义的目的，最佳并不总是最佳的。例如，在考虑应聘者或抵押申请人时，企业可能希望偏爱某些性别或种族的候选人。

在这些情况下，业务目标需要胜过算法。卡内基·梅隆大学哲学与心理学教授戴维·丹克斯(David Danks)表示：“您有很多人了解道德和社会影响，但不了解AI，而AI中的很多人都不了解道德和社会影响。”大学。“编写代码的人不必是伦理学家，但是他们需要能够与伦理学家对话。”

Danks认为，创建机器学习模型的任务通常留给数据科学家，而无需业务利益相关者的前期参与，而这些利益相关者必须依靠他们的模型结果。数据科学家倾向于统计学上的完美，但这并不总是令人满意的。他说：“您可以拥有一个在统计学上没有偏见的模型，在道德上并非没有偏见。”

合作需要从头开始。维尔德说：“在业务人员介入之前，太多的AI项目走得太远了。” “一旦发生这种情况，要使项目重回正轨可能会非常困难。”

信任问题

我们与计算机的关系由信任定义。多年的经验告诉我们，如果输入相同的信息，程序将始终产生相同的结果。机器学习挑战了这些假设。

输出可能会根据推理模型中的排列而有所不同。结果通过概率限定。源数据中的遗漏会造成意外的偏差。相关可能被误解为因果关系。

如果可以理解这些限制，那就没关系。专家建议，在智能机器时代，透明度比以往任何时候都更为重要。CMU的Danks说：“可解释的AI是如何获得可信赖的AI。”

另一个难题是信任是情景性的。教导自动驾驶汽车避免撞到行人的机器模型需要100%正确的时间。电子商务网站上的推荐引擎更容易出错。

关键是要了解如何做出决定，以及做出正确决定的可能性。目前，人是这个方程式中的必要因素。在过去的几年中，关于使人类过时的智能机器的所有讨论，今天的技术仅与人类定义的参数一样好。