数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力,一切业务、技术和管理活动都围绕这个目标和开展。数据质量问题
数据质量问题通常会存在以下几个方面的问题,通常对数据质量的评估也是围绕这几个维度进行的。
数据质量问题的根因分析
影响数据质量的原因包括技术、业务、管理三个方面。
现在从这三方面分析下产生数据质量问题具体因素。
1技术层面
2业务层面
3管理层面
数量质量的把控定义数据质量标准
常用的数据质量评价标准在上述内容提到过:数据唯一性、数据完整性、数据准确性、数据一致性、数据关联性、数据及时性等。
数据加工过程把控
在这些环节中,可以采用以下方式来保障数据质量:
(1)代码核查开发相关的规则分类大致为:-代码规范类规则:如表命名规范、字段命名规范、生命周期设置、表注释等
-代码质量类规则:数据清洗规则是否符合业务预期需求、特定字段的数据格式是否标准统一等。
-代码性能类规则:如是否存在大小表join操作、多表进行join操作等
(2)代码发布核查加强测试环节,测试环境测试后再发布到生成环境,且生成环境测试通过后才算发布成功。
总结:从数据的源头抓起,严格落实规范和机制。关于数据需求的逻辑、模型设计如何规范化、代码是否有CR(CodeReview)机制等方面的流程,一定要有明确的定义以及标准。
设置质量管理点或质量控制点,从根本上解决数据质量问题。一旦发现数据的异常值,抓住影响数据质量的关键因素,可以根据数据产生的逻辑顺藤摸瓜找到产生数据的业务环节。
- 完 -