数据质量提升必达之路


发布者 chenjunji123456  发布时间 1470884114300
关键字 分享 

随着数据量日益剧增,企业决策比以往更需要具备强大的信息管理和掌控能力,协助解决关键问题;若要提升企业竞争优势,必须随时掌握企业内的准确信息,如何去解决数据质量问题是一条必经之路。

ETL

纵观众多用户经常碰到的数据质量问题,概括归纳如下。

ETL

策略与思想

IBM公司针对数据质量问题,从计划、设计、部署和管理等方面,为用户提供了全面的、有效的、长久的战略手段和解决方案。

ETL

调查研究

“没有调查研究,就没有发言权”,这是中国伟人毛泽东思想,也是指导我们对数据质量进行了解、分析和认知的原则。

ETL

使用 IBM InfoSphere Information Analyzer 软件工具实现对数据进行全面分析,包括技术层面和业务层面,体现如下:

  • 标准评估:为您数据源的结构、内容和质量建立一个全面、整体的认知。
  • 数据规则:通过定制并不断地调整自定义数据质量规则来对您的数据进行更深入的质量验证,趋势预测和模式分析。
  • 报告指标:通过对分析结果的鉴别、评估以及异常管理来限制数据质量的恶化,从而降低风险。

转换与变身

当全面了解清楚数据,明察秋毫后,有了依据就对“问题”数据进行大刀阔斧地转换,重点在使用 DataStage ETL工具进行技术层面处理,主要包括:数据格式标准化、数据裁剪,合并和转化等。

ETL
  • 交付一致、准确的业务数据,提供可重用的信息服务;
  • 无需编码,在数分钟内就可以构建并发布一个数据整合服务;
  • 灵活的部署,支持多种协议和数据格式,能为各种类型的应用提供可重用的信息服务。

清洗与提升

使用 QualityStage数据清洗工具,按照业务要求进行数据规范化处理,对自由格式数据按照业务规则进行标准、匹配、去重复等处理。

ETL
  • 通过数据调研可以揭示数据中的趋势和潜在异常,验证和发现数据字段中的业务规则,识别无效值、或默认值,在上下文环境中全面了解面向业务的数据语义。
  • 标准化数据,将不同格式的数据转换成统一标准的格式,识别并改正无效值,标准化拼写和缩写格式。
  • 利用业界领先的基于统计的概率性匹配算法识别一个或多个数据源之间的重复数据,建立不同记录间的数据联系。
  • 根据重复数据交叉填充“最佳的”可用数据,保留“最佳”的信息创建一个“合并的”记录。
  • 直观易用的图形化用户界面,与DataStage无缝整合。

实现目标

  • 建立了业务数据质量问题分析和评估系统,作为制定数据质量控制流程的依据;
  • 对所有数据进行扫描, 发现数据中潜在的不规则和不一致;
  • 定位不合法的值,残缺不全的值,发现未被记录下来的业务规则,进行数据清洗和转换;
  • 实现企业的数据质量验证、监控,流程化管理和生产运行。

总结

数据质量提升是个“很大”的话题,涉及业务法规、技术手段和监管等多方面。IBM为其客户提供了能“脚踏实地”提升数据质量的解决方案,领先竞争对手,和开展更好业务。

ETL

在全球,IBM已拥有大批采用该解决方案去实施数据治理项目,并取得成功。

ETL

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

详情请咨询在线客服

客服热线:023-66090381









  开源的 OurJS
OurJS开源博客已经迁移到 OnceOA 平台。

  关注我们
扫一扫即可关注我们:
OnceJS

OnceOA