Syncsort quality manager旨在净化Hadoop数据湖

2019-12-14 16:40:50
导读SyncSortInc.正在扩展Trillium软件公司的数据质量特性。去年11月,它收购了一家在Hadoop本地环境下拥有Trillium质量的大数据子公司。该产品将Trillium的数据质量特性与其智能执行数据集成平台结合起来,使信息技术组织能够同时规范和集成数据。Trillium平台以前只有在Linux、Unix和Windows操作系统上才有原生格式。Hadoop支持是SyncSort首次

SyncSortInc.正在扩展Trillium软件公司的数据质量特性。去年11月,它收购了一家在Hadoop本地环境下拥有Trillium质量的大数据子公司。

该产品将Trillium的数据质量特性与其智能执行数据集成平台结合起来,使信息技术组织能够同时规范和集成数据。Trillium平台以前只有在Linux、Unix和Windows操作系统上才有原生格式。Hadoop支持是SyncSort首次将其数据质量特性应用于应用程序。

数据质量是指识别不一致、错误或重复。示例包括在日期字段中输入的邮政编码或由于拼写错误而显得不同的重复客户记录。数据正常化是一个棘手的过程。例如,不同的国家有不同的地址和日期格式,在同一邮政编码中有两个同名的人可能是同一个人,也可能不是同一个人。

用户急于从生产系统中提取数据并将其加载到分析引擎中,但发现质量问题限制了它们的有效性。“一旦数据进入数据湖,每个人都在试图管理这些数据,这样它就不会变成数据沼泽,”Syncsort首席技术官卡吕约·穆特苏特(ğUtu)表示。“数据的数量和多样性使得它变得复杂。”

Yogurtcu说,Trillium有数百种匹配算法来识别这些问题,并且可以配置为自动应用纠正算法。提供的服务包括150个国家的地址和名称匹配数据以及邮政目录和地理编码。智能执行检查数据流的拓扑结构,并在不改变应用程序的情况下优化作业资源。它支持跨Hadoop、Map Reduce和Apache Spark的新的和现有的Trillium数据质量项目。

“一旦你理解了这些数据,你就可以创建规则来清理这些数据,”YOğUtu说。“例如,如果您有副本,您可以指定一个进程来标记它们或删除它们。”

大数据的Trillium质量可在所有Hadoop发行版上获得,包括Cloudera Inc.的CDH、Hortonworks Inc.的HDP和MapR Technologies Inc.的聚合数据平台。它通过ClouderaManager和ApacheAmbari部署和安装。定价是基于每个节点或云订阅,但SyncSort没有提供具体细节。


免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章