您现在的位置是：首页 >互联网 > 2021-01-08 13:57:05 来源：

企业是否使用优质数据新研究评估数据质量工具中的变量

导读数据是至关重要的资源。它的见解不仅会推动针对Google，Facebook和亚马逊等大数据巨头的运营和战略决策，而且还会推动一系列行业的发展，从

数据是至关重要的资源。它的见解不仅会推动针对Google，Facebook和亚马逊等大数据巨头的运营和战略决策，而且还会推动一系列行业的发展，从喷气发动机制造商到职业篮球大联盟，再到使用数据来提高作物产量的农业学家。

通常将原始数据作为资源与原油作为经济变化的驱动力进行比较。与原油一样，数据在其自然状态下也无法使用。仅在将基础产品精炼成可用形式后才能获得该值。与石油一样，输出的质量也会变化。

但是与基于石油的产品不同，数据没有明确的标签系统，这意味着企业通常对使用100辛烷航空燃料或高硫越野柴油的数据视而不见。

统计数据显示，全球首席执行官中有 84%担心数据标准，有缺陷的数据每年给企业造成1500万美元的损失。这导致用于监视数据质量的软件工具的激增;其中一些本身的质量令人怀疑。在刚刚发布的“数据质量测量和监视工具调查”中记录了确定“如何在最新的数据质量工具中实现数据质量测量和监视”的信息。

约翰内斯·开普勒大学高级研究员，该研究的合著者Lisa Ehrlinger(如图)说：“这项研究的主要动机实际上是一种非常实用的动机。” “我们在[我们的]大数据项目中花费了大部分时间来进行数据质量测量和改进任务。因此，我们[询问]市场上有哪些工具可以自动化这些数据质量任务。”

Ehrlinger采访过戴夫Vellante表示和保罗·吉林，theCUBE，SiliconANGLE Media的移动即时串流工作室共同主办的MIT CDOIQ研讨会在马萨诸塞州剑桥期间。他们讨论了研究方法和研究结果(请在此处查看完整的采访记录)。

本周，CUBE在其“科技女性”专题节目中聚焦了Lisa Ehrlinger 。

自动化数据质量测量

从大学时代起，埃林格就一直在奥地利林茨的约翰内斯开普勒大学就读，并拥有该大学的计算机科学学士学位和硕士学位。目前，她正在约翰内斯·开普勒(Johannes Kepler)面向应用的知识处理研究所的WolframWöß教授的指导下，从事自动连续数据质量测量的博士学位论文。

在学习期间，Ehrlinger通过为各种雇主从事信息技术项目而扩展了她的经验。其中包括甲骨文，软件情报公司Dynatrace LLC，奥地利林茨市的罗马教区，以及最近的哈根堡软件能力中心。

在过去的四年中，Ehrlinger发表了她的硕士论文“集成信息系统的模式级数据质量评估”，与他人合着了10篇研究论文，并共同编辑了第十届国际进步大会的会议记录。在数据库，知识和数据应用程序中。

Ehrlinger是麻省理工学院CDOIQ专题讨论会的演讲嘉宾，她的博士论文题为“使用工具自动进行数据质量测量”。

并非所有的数据质量工具都是平等的

Ehrlinger和她的团队确定了市场上的667种数据质量工具，然后根据其域独立性，非特异性和免费或试用的可用性，将该数字缩小到13个，以进行详细的测试和分析。仅有一半以上(50.8%)的工具被排除在外，因为它们是特定于领域的。意味着它们专用于特定的数据类型或专有工具。

“我们真的只是想找到通常适用于不同种类的数据，结构化数据，非结构化数据等的工具，” Ehrlinger说。

排除了另外40%，因为它们专用于特定的管理任务，例如数据可视化，集成或清理。

所选择的工具必须提供研究团队确定为最重要的三个功能区域：数据概要分析，质量指标和质量监视：“数据概要分析可以对数据质量有一个初步的了解……在维度，指标和指标方面进行数据质量管理规则……[以及随时间推移的数据质量监控，” Ehrlinger解释说。

Ehrlinger表示，尽管Gartner数据质量工具魔力象限是该领域最著名的研究，但它并未关注特定的测量功能。她的研究团队花了整整一年的时间亲身实践这些工具，并获得了使用它们的第一手经验。

Ehrlinger团队与Gartner研究之间的另一个区别是所评估工具的范围。Ehrlinger选择的最后13种工具包括9种商业和封闭源代码工具，其中4种(Informatica数据质量，Oracle企业数据质量，SAS数据质量和Talend Open Studio for Data Quality)在Gartner的魔力象限中被列为领导者。

研究中评估的其他五种工具是免费和开源的，而Gartner仅提及了其中一种(Talend)。其他四个是OpenRefine，Aggregate Profiler，Moby DQ和Apache Griffin，“它们确实具有很好的监视功能，但缺少这些综合工具中的其他功能，” Ehrlinger说。

个人风格与众不同

除了功能之外，客户服务也被考虑在总体评估中。“重点是功能，但我们当然必须联系客户支持，”埃林格说。

对于商业工具来说尤其如此。Ehrlinger说：“我们必须要求他们向我们提供一些试用许可证，在那里，我们感受到了来自这些公司的不同反馈。”

她还询问参加者有关其客户体验的数据质量事件：“获得有关单个工具的反馈并验证我们的结果很有趣，而且匹配得很好，”她说。

客户服务方面的赢家是Informatica Data Quality和Experian Pandora。“在支持，试用许可证和特定功能方面，我们认为与[Informatica]的互动非常紧密，” Ehrlinger说。

其他公司，例如IBM，得分不高。她补充说：“他们专注于大厂商。”

使埃林格和她的团队感到惊讶的一个结果是，许多工具缺乏自动化。她说：“我们认为自动化的潜力肯定更大。”

工具需要改进的另一个领域是详细信息。“我们观察到一些工具说……'我们应用机器学习'，然后查看它们的文档，找不到关于哪种算法，哪些参数，哪些阈值的信息，” Ehrlinger说。“如果您想评估数据质量，您确实需要知道什么算法以及如何对其进行调整。”

这一点特别重要，因为这些工具的用户通常具有很高的技术专长。她补充说：“他(或她)确实需要调整这些算法以获得可靠的结果，并知道发生了什么以及为什么，选择了哪些记录，”。

对质量数据的追求仍在继续

Ehrlinger和她的研究团队已经开始了他们的下一个研究，名为“用于数据质量评估的知识图”。根据Ehrlinger的说法，该项目与当前的企业级自动化趋势紧密相关，可以“同时解决两个问题”。