数据质量管理 数据质量管理可以确保数据的质量得到可靠保障,从而使得数据安全保护的对象具有更高的价值,在数据采集的整个过程中,数据质量管理可以保证数据采集过程中收集和
数据质量管理
- 数据质量管理可以确保数据的质量得到可靠保障,从而使得数据安全保护的对象具有更高的价值,在数据采集的整个过程中,数据质量管理可以保证数据采集过程中收集和产生的数据具有一致性,完整性和可用性。
建立负责数据质量管理的职能部门
- 组织机构需要专门设立负责数据质量管理的岗位,相关人员需要为组织机构建立数据质量管理体系,负责为公司制定统一的数据质量管理规范,推动数据质量管理制度的有效实施,明确责任主体,明确对数据质量进行监督和管理的相关责任人或责任部门。
明确数据质量管理岗位的能力要求
- 熟悉国家网络安全法以及组织机构所属行业的政策和监管要求。
- 具备良好的数据安全风险意识。
- 了解当前行业内数据质量管理的最佳实践路线。
- 了解数据采集阶段中的数据质量控制要素。
- 数据质量管理规范能有一致性的理解,能够根据组织机构的实际数据质量管理需求,以及组织机构不同业务的特点开展数据质量评估工作。
数据质量管理岗位的建设及人员能力的评估方法
- 可通过内部审计,外部审计等形式以调研访谈,问卷调查,流程观察,文件调阅,技术检测等多种方式实现。
- 调研访谈
- 主要包含对数据质量管理团队人员和业务团队向人员进行访谈。
- 问卷调查
- 以纸面问卷的形式调研数据质量管理部门是否可以针对不同的业务环境开展数据质量评估工作。
- 流程观察
- 以中立视角观察公司数据质量管理团队的工作流程,包括在为公司制定统一的数据质量管理制度和规范时,方法流程是否符合标准,对数据的完整性,规范性,一致性,准确性,唯一性,关联性是否进行了管理和监控,是否明确了数据质量监控责任人,响应异常数据质量问题时,操作流程是否符合规范,整个响应链(即对异常数据质量问题,从发现,上报,评估,更正到继续监控的整个过程)是否完善。
- 技术检测
- 使用技术工具确认数据质量管理覆盖了数据的全生命周期,确认在真实业务环境下的关键数据得到了有效的数据质量管理和监控,且监控结果符合预期效果,保证了数据的完整性,一致性和准确性,能够准确,快速地识别出异常数据质量问题,且对识别出异常数据质量问题及时进行响应,告警和更正处理。
明确数据质量管理的目的
- 对信息系统的各个信息采集点进行规范化管理,包括建立模式化的操作规程,原始信息的校验,错误信息的反馈和纠正等一系列的过程。
- 数据安全保护的对象是有价值的数据,而有价值的前提是要能保证数据的质量,所以必须要有与数据质量相关的管理体系,数据质量管理的目的是保证数据采集过程中收集和产生的数据的准确性,一致性和完整性。
数据质量评估维度
- 数据质量可以进行8个维度进行衡量,分别是真实性,完整性,规范性,一致性,准确性,唯一性,关联性和及时性。
实施数据质量校验
- 数据质量校验是指实现数据的完整性和一致性检查,从而提升数据的质量
- 关联性检查:是否存在Key值关联
- 行级别:数据量是否一致
- 列级别:表结构是否一致,如字段数量,字段类型和宽度等是否一致
- 内容级别:数据内容是否一致,以及数据内容是否缺失
- 数据质量校验可分为一下三个层次
- 人工对比
- 程序对比
- 统计分析
- 数据质量校验的流程如下:
- 解析待校验的数据源,以得到数据源的元数据。
- 配置检验规则,例如:数据唯一性校验,完整性校验,精度校验,格式校验,长度校验等。
- 根据数据源的元数据对数据源进行校验运算,得到校验结果。
实施数据清洗
- 数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据的一致性,以及处理无效值和缺失值等。
- 缺失值处理
- 根据同一字段的数据进行填充,例如:均值,中位数,众数等。
- 根据其他字段的数据进行填充,例如:通过身份证号码提取出生日期等。
- 设定一个全局变量,例如:缺失值用“unkonwn”,等填充。
- 直接剔除,避免缺失值过多影响结果。
- 通过建模法进行归纳,可以用回归算法,贝叶斯形式化方法等基于推理的工具决策树归纳确定。
- 重复值处理
- 根据主键去重,利用工具去除重复记录的数据。
- 根据组合去重,编写一系列的规则,对重复情况比较复杂的数据进行去重操作。
- 异常值处理
- 根据同一字段的数据进行修改,例如:均值,中位数,众数等。
- 直接剔除,避免异常值过多影响结果。
- 设为缺失值,可以按照处理缺失值的方法来处理。
- 不一致值处理
- 从根源入手,建立统一的数据体系。
- 从结果入手,设立中心标准,对不同来源的数据进行值域对照处理。
- 丢失关联值处理
- 重新建立关联。
明确数据质量管理规范
- 设立负责数据质量管理的岗位和工作人员,负责制定数据质量管理规范,以对数据质量进行管理和监控,数据质量管理规范中需要包含但不限于数据格式要求,数据完整性要求,数据质量要素,数据源质量评价标准等内容。
- 对数据质量进行管理时,需要对数据的真实性,完整性,规范性,一致性,准确性,唯一性,关联性,及时性,进行定义和监控。
- 建立数据采集过程中的质量监控规则,明确数据质量监控范围及监控方式。
- 设置数据质量校验和监控方法,例如:人工对比,程序对比,统计分析等。
- 设置数据质量异常问题上报流程和操作规范,并持续跟踪每个已上报的异常问题的解决状态。
- 根据实际情况,设置数据清洗的规则和方法。
制定数据质量管理的实施流程
- 提高数据质量最好的方法如下:首先,根据要分析的目标确定数据希望达到的标准,根据这些标准衡量现有的数据集,然后使用各种提高数据质量的技术和方法,持续不断地提高数据的质量,以达到预定义的标准。下面是常用的数据质量管理项目的实施流程。
- 发现数据质量问题,这是实施数据质量管理的第一步。
- 分析与数据质量相关的业务环节。
- 分析现有数据的数据质量,收集数据质量的管理需求。
- 设计项目使用的技术平台,技术平台可从软件供应商处购买,也可以自行开发。
- 建立元数据模型。
- 建立数据质量管理系统架构。
- 评估数据质量管理程序的运行结果。
- 清洗数据。
- 持续监控数据。
使用技术工具
- 数据质量是描述数据价值含量的指标,就像铁矿石的质量一样,矿石的质量越高,则其能提炼出来的钢材就越多。
数据清洗工具的原理
- 所谓的数据清洗,其目的是检测数据集合中存在的不符合规范的数据,并进行数据修复,提高数据质量。
- 数据清洗一般是自动完成,只有在少数情况下需要人工参与完成,以提高数据质量。
- 常见的数据缺陷类型,数据清洗方法可以分为五大类:
- 解决空值数据的方法
- 解决错误数据的方法
- 解决重复数据的方法
- 解决不一致数据的方法
- 解决数据不规范的方法
技术工具的使用目标和工作流程
- 质量需求管理
- 规则设置
- 规则校验
- 任务管理
- 监控分析
- 质量报警
- 报告生成
迷茫的人生,需要不断努力,才能看清远方模糊的志向!