什么是数据治理?(目的方法流程)

Maynor学长 Maynor学长     2022-10-21     320

关键词:

文章目录

1、什么是[数据治理]

数据治理(Data Governance)是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。

数据的质量直接影响着数据的价值,并且直接影响着数据分析的结果以及我们以此做出的决策的质量。我们常说,用数据说话,用数据支撑决策管理,但低质量的数据、甚至存在错误的数据,必然会"说假话"!!! 数据治理即提高数据的质量,发挥数据资产价值

2、数据治理的目的

  • 降低风险
  • 建立数据使用内部规则
  • 实施合规要求
  • 改善内部和外部沟通
  • 增加数据价值
  • 方便数据管理
  • 降低成本
  • 通过风险管理和优化来帮助确保公司的持续生存

3、数据治理的方法

从技术实施角度看,数据治理包含**“理”“采”“存”“管”“用”**这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。

数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单,包含组织机构、业务事项、信息系统,以及以数据库、网页、文件和 API 接口形式存在的数据项资源,本步骤的输出物为分门别类的数据资源清单。

数据采集清洗:通过可视化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

基础库主题库建设:一般情况下,可以将数据分为基础数据、业务主题数据和分析数据。基础数据一般指的是核心实体数据,或称主数据,例如智慧城市中的人口、法人、地理信息、信用、电子证照等数据。主题数据一般指的是某个业务主题数据,例如市场监督管理局的食品监管、质量监督检查、企业综合监管等数据。而分析数据指的是基于业务主题数据综合分析而得的分析结果数据,例如市场监督管理局的企业综合评价、产业区域分布、高危企业分布等。那么基础库和主题库的建设就是在对业务理解的基础上,基于易存储、易管理、易使用的原则抽像数据存储结构,说白了,就是基于一定的原则设计数据库表结构,然后再根据数据资源清单设计数据采集清洗流程,将整洁干净的数据存储到数据库或数据仓库中。

元数据管理:元数据管理是对基础库和主题库中的数据项属性的管理,同时,将数据项的业务含义与数据项进行了关联,便于业务人员也能够理解数据库中的数据字段含义,并且,元数据是后面提到的自动化数据共享、数据交换和商业智能(BI)的基础。需要注意的是,元数据管理一般是对基础库和主题库中(即核心数据资产)的数据项属性的管理,而数据资源清单是对各类数据来源的数据项的管理。

血缘追踪:数据被业务场景使用时,发现数据错误,数据治理团队需要快速定位数据来源,修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库,核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系,且业务团队使用的数据项由元数据组合配置而来,这样,就建立了数据使用场景与数据源头之间的血缘关系。 数据资源目录:数据资源目录一般应用于数据共享的场景,例如政府部门之间的数据共享,数据资源目录是基于业务场景和行业规范而创建,同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

质量管理:数据价值的成功发掘必须依托于高质量的数据,唯有准确、完整、一致的数据才有使用价值。因此,需要从多维度来分析数据的质量,例如:偏移量、非空检查、值域检查、规范性检查、重复性检查、关联关系检查、离群值检查、波动检查等等。需要注意的是,优秀的数据质量模型的设计必须依赖于对业务的深刻理解,在技术上也推荐使用大数据相关技术来保障检测性能和降低对业务系统的性能影响,例如 Hadoop,MapReduce,HBase 等。

商业智能(BI):数据治理的目的是使用,对于一个大型的数据仓库来说,数据使用的场景和需求是多变的,那么可以使用 BI 类的产品快速获取需要的数据,并分析形成报表,比较知名的产品有 Microsoft Power BI,QlikView,Tableau,帆软等。

数据共享交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为库表、文件和 API 接口三种共享方式,库表共享比较直接粗暴,文件共享方式通过 ETL 工具做一个反向的数据交换也就可以实现。我们比较推荐的是 API 接口共享方式,在这种方式下,能够让中心数据仓库保留数据所有权,把数据使用权通过 API 接口的形式进行了转移。API 接口共享可以使用 API 网关实现,常见的功能是自动化的接口生成、申请审核、限流、限并发、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等等。

4、数据质量8个衡量标准

  • 数据的准确性

数据采集值或者观测值和真实值之间的接近程度,也叫做误差值,误差越大,准确度越低。

  • 数据的精确性

指对同一对象的观测数据在重复测量时所得到不同数据间的接近程度。

  • 数据的真实性
  • 数据的及时性

数据能否在需要的时候得到保证,比如月初的财务对账,能不能在月初就完成

  • 数据的即时性

指数据采集时间节点和数据传输的时间节点,一个数据在数据源头采集后立即存储,并立即加工呈现,就是即时数据,而经过一段时间之后再传输到信息系统中,则数据即时性就稍差。

  • 数据的完整性

是应采集和实际采集到数据之间的比例。

  • 数据的全面性

完整性衡量的是应采集和实际采集的差异。而全面性指的是数据采集点的遗漏情况。

  • 数据的关联性

指各个数据集之间的关联关系。比如员工工资数据和员工绩效考核数据是通过员工这个资源关联在一起来的。

5、数据治理流程

基本流程**:**发现数据质量问题 > 定义数据质量规则 > 质量控制 > 质量评估 > 质量优化

参考文献:数据治理国际通行标准ISO38505

小编有话:数据治理的课题实在太大,小编准备找几个点入手细写,如:前期的规范设计,元数据管理等,详见数仓系列 https://blog.csdn.net/weixin_39032019/category_8871528.html

什么是数据治理?

从技术实施角度看,数据治理包含“理”“采”“存”“管”“用”这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。数据资源梳理:数据治理的第一个步骤是从业务的视角厘清组... 查看详情

数据治理视角下的可观测性

...的评估及不足基于观测云的数据治理效果可观测性实现01什么是数据治理1.数据治理概念《DAMA数据管理知识体系指南》一书给出的定义:数据治理是对数据资产管理行使权力和控制的活动集合。从范围来讲,数据治理涵盖... 查看详情

腾讯数据治理技术实践

...和概念,以便大家对数据治理有一定了解和认识。1.什么是数据治理个人理解的数据治理是整个数据相关组织架构以及各种活动能力的集合,因此,数据治理并不是单一组织或者系统能够完成的事情。数据治理和数据... 查看详情

谈谈对数据治理的理解

谈谈对数据治理的理解一、什么是数据治理?为什么要做数据治理?1、数据标准2、数据模型3、元数据4、主数据5、数据质量管理二、怎样做数据治理一、什么是数据治理?为什么要做数据治理?数据治理可以理... 查看详情

数据治理的方法

从技术实施角度看,数据治理包含**“理”“采”“存”“管”“用”**这五个步骤,即业务和数据资源梳理、数据采集清洗、数据库设计和存储、数据管理、数据使用。数据资源梳理:数据治理的第一个步骤是从业... 查看详情

数据治理系列1:数据治理框架解读分析

目录一、什么是数据治理?二、为什么需要数据治理?三、DMBOK的数据治理框架四、数据治理框架的理解和解读五、数据治理框架总结一、什么是数据治理?维基百科:数据治理对于确保数据的准确、适度分享和... 查看详情

数据仓库(11)什么是大数据治理,数据治理的范围是哪些

什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着... 查看详情

阿里云数据治理系列:治理项目启动前的必答三问

...咨询:数据治理不是很多年前就有的概念么?为什么忽然很多企业都在提及?是不是新瓶装旧酒?和数据中台之间是什么关系?本文中,小编将通过三个核心问题,帮助大家清晰上述疑问,更重要... 查看详情

企业进行高质量数据管理,实施数据治理的关键是什么?

随着数据通过各种方式创造了巨大价值,各领域的企业开始不断挖掘数据的作用,数据的重要性得到了社会各界的共同认可。像我们熟知的数据治理、数据管理、数据标准以及数据资产都是因为数据地位不断提升,企... 查看详情

关于数据治理的读书笔记-数据治理能力成熟度评估

...读书笔记-理现状和定目标》《关于数据治理的读书笔记-什么是数据文化?》《关于数据治理的读书笔记-什么是组织机制?》《关于数据治理的读书笔记-什么是数据战略?》《关于数据治理的读书笔记-企业数据治理... 查看详情

大数据之数据治理架构——atlas(代码片段)

文章目录什么是数据治理?什么是Atlas?Atlas的作用Atlas架构Atlas架构解析Atlas大数据集群搭建JDK与Hadoop搭建MySQL与Hive搭建Zookeeper与HBase搭建Kafka搭建Solr搭建Atlas搭建与集成Atlas启动Hive元数据导入Atlas模拟生成血缘依赖什么是数据... 查看详情

数据治理--数据管理标准规范的初步认识

什么是数据治理维基百科针对数据治理的定义是:数据治理对于确保数据的准确、适度分享和保护是至关重要的。有效的数据治理计划会通过改进决策、缩减成本、降低风险和提高安全合规等方式,将价值回馈于业务ÿ... 查看详情

关于数据治理的读书笔记-数据治理路线图规划

...读书笔记-理现状和定目标》《关于数据治理的读书笔记-什么是数据文化?》《关于数据治理的读书笔记-什么是组织机制?》《关于数据治理的读书笔记-什么是数据战略?》《关于数据治理的读书笔记-企业数据治理... 查看详情

数据分析的步骤

...此。每一次分析前,都必须要先明确做这次分析的目的是什么。只有先明确了目的,后 查看详情

大数据平台下的数据治理

文章目录什么是数据治理难题大数据平台下的数据生命周期数据治理关键场景数据治理面临的挑战数据治理关键问题1.海量系统规模2.复杂存储3.复杂采集数据治理目标数据治理平台与周边系统关系数据治理-元数据系统数据治理-... 查看详情

数据治理三大模式详解,治理新范式释放数据潜能

随着世界经济由工业经济向数字经济转型,数据逐步成为关键的生产要素,企业开始将数据作为一种战略资产进行管理。数据从业务中产生,在IT系统中承载,要对数据进行有效治理,需要业务充分参与,IT系统确保遵从,这是... 查看详情

dataops-数据开发治理一体化之网易数帆数据治理2.0实践分享

...产品矩阵3.网易数帆大数据商业化定位4.用户案例墙0X02为什么数据治理项目经常失败1.我们为什么要做数据治理2.网易数帆数据生产力架构3.传统数据治理1.00X03网易数帆数据治理2.01.到底什么是数据治理?2.网易数帆对数据治理... 查看详情

关于数据治理的读书笔记-什么是组织机制?

读书笔记的历史文章,《关于数据治理的读书笔记-什么是数据战略?》《关于数据治理的读书笔记-企业数据治理的“道、法、术、器”》《关于数据治理的读书笔记-数据治理、数据管理和数据管控的理解》《关于数据... 查看详情