您现在的位置是：首页 >互联网 > 2021-01-08 13:57:05 来源：

真正的大数据问题以及为什么只有机器学习才能解决它

导读为什么这么多公司仍在努力建立从数据到见解的平稳运行的管道?他们投资于大肆宣传的机器学习算法，以分析数据并做出业务预测。但是，然后，

为什么这么多公司仍在努力建立从数据到见解的平稳运行的管道?他们投资于大肆宣传的机器学习算法，以分析数据并做出业务预测。

但是，然后，他们不可避免地意识到算法不是魔术：如果将垃圾数据提供给他们，他们的见识就不会那么出色。因此，他们聘用了数据科学家，他们花费90%的时间在数据清洁自助洗衣店里清洗和折叠，而只剩下10%的时间去做被雇用的工作。

这个过程的另一个缺点是，公司只会为在线端算法的机器学习而感到兴奋。Tamr Inc.联合创始人兼首席执行官安迪·帕尔默(Andy Palmer)表示，他们应该在清理的早期阶段就自由地应用机器学习，而不是依靠人们来处理庞大的数据集，这有助于组织使用机器学习来统一他们的机器。数据孤岛。

许多公司已经在用于大数据收集的系统上花费了大量金钱。他们对数据量超过质量的重视显而易见。帕尔默说：“在这些大公司之一工作的任何人都可以告诉你，他们从大多数内部系统中获得的数据都是简单明了的。”

Tamr的联合创始人兼首席技术官Palmer和Michael Stonebraker(如图)与 SiliconANGLE Media移动直播工作室CUBE的联合主持人Dave Vellante 和Paul Gillin进行了交谈，该会议涵盖了最近在马萨诸塞州剑桥举行的MIT CDOIQ研讨会。他们讨论了大数据清洗中的机器学习，以及为什么Tamr毫不奇怪地相信初创企业提供的技术要比传统公司更好，更具扩展性的大数据解决方案(请参阅此处和此处的全文访谈 )。

本周，CUBE在其每周启动功能中聚焦Tamr Inc.。

大数据?大呼啦

多年来，帕尔默和斯通布雷克一直在努力消除大数据的炒作泡沫。一直追溯到2007年，他们预测Apache Hadoop大数据框架不会提供如此多的预期结果。

帕尔默说：“迈克实际上非常激进地说这将是一场灾难。”

并不是说大数据集是坏的。显然，它们对于训练分析模型和人工智能是必不可少的。有一种观点认为，只要数据量很大，其余的分析或AI片段就会落在原地，这让很多公司都幻灭了。

企业现在意识到数据质量不可忽略。他们还知道，数据科学家不必花费80%至90%或更多的时间来清理和整理数据。必须有一种更好，更快的方法来准备好数据以供分析和AI使用。

答案是开始将机器学习视为完成这些笨拙，繁琐的任务的高度实用的工具。因此，许多供应商都使用机器学习使预测，推荐引擎等软件营销更具吸引力。Tarr将其用于最没有魅力的东西：在任何人使用任何东西进行分析，预测，营销或出售之前，都要清理和整理大数据。它。

机器学习提示规模

市场并不完全缺乏针对数据交换问题的建议解决方案。大量的科技公司正在将它们带出或更新其原始产品。Stonebraker指出，这些系统中通常使用的主要技术存在关键缺陷。这些传统技术包括提取，转换，加载系统和主数据管理系统。

Stonebraker说：“一个肮脏的小秘密是技术无法扩展。”

ETL的前提是，真正聪明的人会为用户想要的所有数据源提供一个全局数据模型。然后，人员与每个业务部门进行面谈，以查看他们拥有的数据，如何在全局数据模型中获取数据，将其加载到数据仓库中，等等。过程是人类密集的往往不是规模，按照斯通布雷克。他补充说，他们通常在数据仓库中集成10或20个源。

这足够吗?让我们看一个现实世界的公司。Tamr客户 Toyota Motor Europe在不同国家(有时是州)设有分销商。如果有人在西班牙买了一辆丰田汽车，然后搬到法国，那法国公司对车主一无所知。

总计，TME 拥有250个独立的客户数据库，以50种语言记录了4000万条记录。该公司正在将它们集成到单个客户数据库中，以解决此客户服务问题。机器学习提供了一种可行的方法。 “我从未见过能够处理这种规模的ETL系统，” Stonebraker说。

Stonebraker解释说，MDM无法扩展的原因基本上是因为它基于规则。另一个Tamr客户，通用电气公司(General Electric Co.)，希望进行支出分析。从前一年开始，它有2000万笔支出交易。它试图将所有这些分类为基于规则的层次结构。

他说：“因此，通用电气制定了500条规则，这几乎是任何一个人都能武装起来的规则。” “牛逼帽子分为20万次交易的200万美元。您现在有18了。另外500条规则不会给您200万条规则。

他指出，这就是收益递减的规律。斯通布雷克说： “你将不得不编写大量没人能理解的规则。” “如果您不使用机器学习，那绝对是敬酒。”

文化商

Stonebraker承认，机器学习不是万灵药。要成为真正的数据驱动者，就需要进行技术和文化调整。实际上，根据NewVantage Partners LLC的研究，接受调查的高管中有77%的人表示，企业对其组织难以采用大数据/人工智能计划。尽管有大量新软件涌入市场，但仍比去年有所增加。

这些高管列举了许多阻碍采用的障碍，其中有95%是文化或组织上的，而不是技术上的。“组织……需要制定计划才能投入生产。Gartner公司分析师Nick Heudecker表示： “大多数人都不将大数据作为技术零售疗法来对待和计划。”

尽管如此，技术仍然在一定程度上影响着文化，反之亦然。以上案例说明了数据科学家如何花90%的时间进行筛选和排序-而不是帮助实际的混合动力设备得到维修或开发燃气轮机。根据Stonebraker的说法，如果大数据对现实世界的企业来说可行，那么机器学习是前进的方向。

他说：“您必须用机器学习代替人类…… 人们意识到，大规模地使用传统的数据集成技术是行不通的。”

年轻的公司正在解决这个问题，并将机器学习融入其产品的核心。Stonebraker说：“传统的供应商总体上比时代落后了10年，如果您想获得最前沿的产品，就必须去创业公司。”

这些“最前沿”的东西是否为数据货币化提供了简便的途径?它会弥补因数据沼泽而在沮丧中所花费的时间吗?帕尔默指出，我们正在进入一个阶段，可以更快地使数据“消耗”。

“这一阶段会最终达到20年前30年来企业数据仓库设定的高期望吗?” 他说：“我不知道。但是我们肯定会越来越接近。”

免责声明：本文由用户上传，如有侵权请联系删除！

标签：真正大数据问题

上一篇:企业是否使用优质数据新研究评估数据质量工具中的变量

下一篇:数据居留合规公司InCountry筹集了美元

猜你喜欢

印度政府未来数周将对谷歌的反垄断行为采取行动

谷歌母公司Alphabet一季度营收697点87亿美元

欧盟数字服务法案生效

您现在的位置是：首页 >互联网 > 2021-01-08 13:57:05 来源：

真正的大数据问题以及为什么只有机器学习才能解决它

猜你喜欢

最新文章

点击排行

热门推荐

随机推荐