数据治理体系(代码片段)

爱是与世界平行 爱是与世界平行     2022-12-13     671

关键词:

数据治理是企业数据建设必不可少的一个环节。

好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集存储计算使用过程的可控和可追溯。

如何构建企业数据治理体系?企业数据治理过程需要注意哪些问题?总体而言,不能一口一个胖子,路要一步一步地走。

下面我将结合企业级数据治理经验,详细介绍从0到1搭建数据治理体系全流程,帮你梳理数据治理的主要内容以及过程中会遇到的哪些坑。

1 数据治理到底是在做什么

1.1 一个小故事

在正文之前,我先介绍一个小故事。

年底了,企业财务管理员小张需要统计公司的金融财务情况。忙碌了一年,公司老板亟需知道公司目前的运营状况。

小张需要考虑哪几个点呢:

  1. 公司目前有哪些财产?
  2. 这些财产从哪里来?用到了哪些地方?
  3. 是否所有财产的使用均符合规范和制度?

幸好小张年初已经制定了一套管理标准。每笔财产的出入都有记录且严格把控使用情况,过程可追溯可审查。

最后,小张得到了领导们的一致好评。

1.2 数据治理做的事情

故事中的小张监管着公司所有金融财产活动,确保财产使用的有序高效。这也是数据治理角色的类似功能。

“数据治理的核心工作: 在企业的数据建设进程中,保障企业的数据资产得到正确有效地管理。 ”

一般来说,数据从外部或者内部产生后,经过大数据手段处理,流转到不同的业务端,为企业的上层应用提供数据赋能。

整个过程,如图所示。

  • 我们先做一些类似数据同步的工作将数据放入到大数据系统中
  • 数据进来后需要管理和存储,即参考建模理论和实际场景建设数仓
  • 经过主题规划、维度确定、标签计算输出等步骤处理
  • 数据输出到报表、应用端使用

整体流程数据治理体系将全程监管。要确认进出系统的数据质量怎么样?是否可转化数据资产数据血缘是否可追溯、数据安全等问题。

“脏乱差的数据是无法使用的,甚至严重埋雷。 ”

2 为什么要做数据治理

有一些企业对这个问题的概念很模糊,认为目前的数据规模很小,人为可控,暂时不需要做数据治理。

但是在实际使用中还是会遇到很多问题:

  • 数据监管力度不够,出现脏数据
  • 数据体系逐渐规模变大,管理混乱
  • 数据的血缘丢失,无法回溯旧、老的数据

无论企业的数据规模如何,我认为还是提起做好数据治理的规划。考虑到成本的问题,可以分阶段进行。

“为什么要进行数据治理:

  1. 你的数据是否真的可用,缺失和异常值怎么办?
  2. 数据从哪里来到哪里去,血缘信息是否丢失
  3. 数据访问是否安全,明文标识还是加密?
  4. 新的数据加工参考什么规范,维度和标签管理是否存在标准?

有剑在手不用和无剑可用是两回事。提前做好数据治理规划,会节省后续的改造成本,避免过程冗余重构或者推倒重来等情况的发生。

数据治理可以有效保障数据建设过程在一个合理高效的监管体系下进行,最终提供高质量安全流程可追溯的业务数据。

3 数据治理体系

企业数据治理体系包括数据质量管理元数据管理主数据管理数据资产管理数据安全数据标准等内容。

1)数据质量

一般采用业内常用的标准来衡量数据质量的好坏:完整性准确性一致性及时性

  • 完整性:数据的记录和信息是否完整,是否存在缺失情况
  • 准确性:数据汇总记录的信息和数据是否准确,是否存在异常或者错误
  • 一致性:多个业务数仓间的公共数据,必须在各个数据仓库中保持一致
  • 及时性:数据能及时产出和预警

2)元数据管理

元数据是关于数据的组织、数据域及其关系的信息,通俗理解,元数据就是描述数据的数据。

元数据包含技术元数据业务元数据。可以帮助数据分析人员清楚了解企业拥有什么数据,它们存储在哪里,如何抽取、清理、维护z这类数据,也即数据血缘。

  • 帮助构建业务知识体系,确立数据业务含义可解释性
  • 提升数据整合和溯源能力,血缘关系可维护
  • 建立数据质量稽核体系,分类管理监控

3)主数据管理

企业主数据指企业内一致并共享的业务主体,大白话理解就是各专业公司和业务系统间共享的数据。

常见的主数据比如公司的员工客户数据机构信息供应商信息等。这些数据具有权威性和全局性,可归约至公司的企业资产。

一般主数据管理需要遵循如下几点:

  • 管理和监管各组织机构、子公司、部门对主数据的访问,制定访问规范和管理原则
  • 定期进行主数据评估,判断既定目标的完善程度
  • 组织相关人员和机构,统一完善主数据建设
  • 提供技术和业务流程支持,全集团集中统筹

4)数据资产管理

一般企业在数字化转型时都会考虑数据资产梳理。你的数据有没有被合理利用?如何产生最大价值?这是数据资产管理关心的核心工作。在构建企业资产时一般会考虑不同角度,即业务角度和技术角度,最后进行合并,输出统一的数据资产分析,并向外提供统一的数据资产查询服务。

如何盘活数据,形成数据资产,提供完整的数据资产全景视图,可方便运营者全局、宏观地掌控企业资产动态。

5)数据安全

数据安全是企业数据建设必不可少的一环,我们的数据都存储在大大小小的磁盘中,对外提供不同程度的查询和计算服务。

需要定时对数据进行核查敏感字段加密访问权限控制,确保数据能够被安全地使用。

6)数据标准

大白话理解,我们需要在组织内定义一套关于数据的规范,好让我们都能理解这些数据的含义。

今天张三说这个客户号是办理银行卡的客户,明天李四又说是借贷过的客户。对比一看,两者的字段类型和长度一致,到底要采纳哪个意见呢?

数据标准是保障数据的内外部使用和交换的一致性和准确性的规范性约束,通过统一规范,消除二义性

4 企业数据治理实施过程

4.1 数据治理实施框架

数据治理体系是为了规范业务数据规范、数据标准、数据质量和数据安全中的各类管理任务活动而建立的组织、流程与工具。

通过一个常态化的数据治理组织,建立数据集中管理长效机制,规范数据管控流程,提升数据质量,促进数据标准一致,保障数据共享与使用安全,从而提高企业运营效率和管理水平。

4.2 数据治理组织架构

企业数据治理体系除了在技术方面的实施架构,还需要管理方面的组织架构支撑。

一般在数据治理建设初期,集团会先成立数据治理管理委员会。从上至下由决策层管理层执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。

4.2.1 组织架构

1)决策层

提供数据标准管理的决策职能,通俗理解即拍板定方案。

2)管理层

  • 审议数据标准管理相关制度
  • 对跨部门难的数据标准管理争议事项进行讨论并决策
  • 管理重大数据标准事项,提交信息科技管理委员会审议

3)执行层

  • 业务部门:负责业务线数据标准的制定、修改、复审,推广落实数据标准等
  • 科技开发:承担治理平台、数据标准、数据质量等实施工作;系统设计和开发工作中遵循数据标准
  • 科技运营:负责技术标准的制定和技术推广

4.2.2 管理层职责

1)项目经理

  • 确定项目目标、范围和计划
  • 制定项目里程碑
  • 管理跨项目协同

2)专家评审组

评审项目方案,确定方案的合理性

3)PMO

  • 确保项目按计划执行
  • 管理项目重大风险
  • 执行跨项目协同、沟通
  • 组织项目关键评审

3)数据治理专项组

执行各项目的落地实施和运营推广,推动执行层的实施数据治理技术落地和项目进展。

4.2.3 执行层职责

数据架构师、数据治理专家和业务专员形成数据治理"铁三角",紧密协作,推进数据治理与数据架构落地。

1)业务专员

业务专员作为业务部门数据治理的接口人,在标准质量应用等领域组织业务人员开展工作

  • 定义数据规则
  • 保障数据质量
  • 提出数据需求

2)数据治理专家

数据治理专家作为数据治理组成员,负责设计数据架构,运营数据资产;牵头组织业务、IT达成数据治理目标。

  • 构建数据逻辑模型
  • 监控数据质量
  • 运营数据资产

3)数据架构师

数据架构师作为IT开发部门的专家,承担数据标准落地、模型落地的重任,协助解决数据质量问题。

  • 数据标准落地
  • 逻辑模型落地
  • 物理模型落地

4.3 数据治理平台

在确定了技术实施方案和组织管理架构,下面需要进行数据治理体系的落地实施。

在大型企业中一般会开发一个完整的数据治理平台,囊括所有数据治理功能,对外提供平台服务。

1)核心功能

数据治理平台作为数据治理的产品体系,旨在保障数据平台的数据是安全、可靠的、标准的、有价值的。

  • 数据资产管理:提供面向用户的场景化搜素,提供全景数据资产地图,方便快速查找资产和资产分析
  • 数据标准管理:统一定制数据标准,提高包括字段、码值、数据字典管理,保障业务数据和中台数据的统一标准
  • 数据质量监控:提供事前、事中、事后的数据质量体系,支持数据质量监控规则配置、告警管理等功能
  • 数据安全:提供数据安全脱敏、安全分级和监控
  • 数据建模中心:统一建模,提供业务系统建模和模型管理

2)元数据管理

元数据管理系统作为数据治理平台的前端展示门户,帮助实现对数据资产的快速检索能力,提高数据使用有效性和效率。

通过建立完整且一致的元数据管理策略,提供集中、统一、规范的元数据信息访问、查询和调用功能。

3)数据质量

  • 数据质量监控:支持所有用户进行数据质量监控规则配置
  • 规则阻断:配置数据质量监控阻断规则,数据质量出现差异可实时阻断下游作业运行,屏蔽错误结果链路扩散。
  • 告警:数据质量出现预设偏差,及时发出预警通知及时修复

4)数据标准

支持定制统一的数据标准平台,包括字段标准管理,码值标准管理以及字典管理,业务源数据和中台数据统一标准。

5)数据安全

基于集团数据资产实现数据安全分级管理,自动识别安全信息;提供数据访问安全行为监测,及时识别访问风险。

4.4 数据治理评估

数据治理平台开发完成并运行,需要对整体数据治理体系的效果进行验证和评估。

“1)数据是否可以消除"脏、乱、差"的现象 2)数据资产是否最大价值化 3)所有数据的血缘是否完整可追溯。。。 ”

1)数据资产

通过构建数据资产管理体系,实现资产全覆盖,并支持全局搜索和精准定位目标资产。

  • 实现全局搜索,面向用户提供场景化检索服务
  • 支持标签、数据地图、表名和字段名等多种检索维度
  • 支持进行数据地图,源业务数据字典的结果筛选
  • 比如支持PV/UV用户搜索和资产展示,明确服务目标

2)数据标准

新旧数据标准沉淀,打通了数据建模工具、数据标准库和词根标准库,落地数据标准和词根。

  • 实现数据标准库100%拉通
  • 智能识别数据标准和引用
  • 客户端同步更新数据标准、词根

3)数据安全

保持事前制度建设事中技术管控事后监控审计的原则建立全流程数据安全管控体系。

基于以上数据安全管控体系,支持数据安全定级,构建灵活的数据安全共享流程。

4)数据质量

通过数据质量雷达图,定期进行数据和任务质量打分,综合考察数据质量效果。

  • 数据完整性:查看数据项信息是否全面、完整无缺失
  • 告警响应程度:日常管理、应急响应、降低影响;避免数据损毁和丢失
  • 监控覆盖程度:确保数据遵循统一的数据标准和规范要求
  • 作业稳定性:监控作业稳定性,是否存在作业异常等问题
  • 作业时效性:检查任务对应的数据项信息获取是否满足预期要求

5 数据治理的几点误区

1)数据治理是否要做得大而全

“这是一个经典问题,一般对于不同阶段和规模的企业,数据治理的实施程度会有所不同。一般建议先根据自身的数据状况分阶段进行,避免盲目铺开规模,过程中可调整。 ”

2)数据治理只是技术考虑的事情

“正如文中所说,数据治理不仅仅是技术团队的事情,而是整个集团一起协作完成。其中就包括各业务线以及其他管理组织,没有一个好的实施方案和协作机制,往往事倍功半。 ”

3)数据治理可以短期见效

“数据治理是个长期过程,会跟随着企业数据的规模和数仓规划的变更同步调整,部分功能可能会在短期内卓有成效,完整体系搭建短期很难实现。 ”

4)必须得有工具平台,才能开展数据治理

“俗话说工欲善其事必先利其器,有好的工具当然是更好,前提是已经有了成熟的数据治理体系规划和策略。工具和技术手段目前市面上很成熟,先把理论给铺垫好。 ”

5)数据治理感觉很模糊?不知道最后的落地结果

“数据治理是一个长期工作,需要相关从业者根据企业的数据现状和管理模式去构建和调整,建议边做实践边总结归纳,小步慢跑是一个很好的方式。

数据治理体系(代码片段)

数据治理体系全面指南-腾讯云开发者社区-腾讯云(tencent.com)数据治理是企业数据建设必不可少的一个环节。好的数据治理体系可以盘活整条数据链路,最大化保障企业数据的采集、存储、计算和使用过程的可控和可追溯。如... 查看详情

腾讯——大数据安全体系介绍(代码片段)

关注下面公众号,回复:数据治理 关键字即可获取PPTEND热门内容两年经验斩获蚂蚁/头条/PingCAPOffer,牛逼了快手大数据平台服务化实践深入理解Java内存模型关注我关注我,Java学习不迷路!点个赞+在看࿰... 查看详情

数据治理知识体系学习笔记

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容,主要包含:元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。元数据管理元数据管理主要涉及元数据分... 查看详情

架构漫谈-数据治理核心思路及解决方案探讨

文章目录Pre背景和挑战数据治理的框架和核心内容数据战略组织管理制度体系流程管理绩效管理标准体系质量体系安全体系平台工具人工智能是大数据治理核心方向小结Pre数据治理是企业大数据基础,企业级数据平台助力企业数... 查看详情

数据质量治理与数据质量评价体系(术)

目录01数据治理问题场景02数据质量的重要性03数据质量常见问题04数据质量问题原因05数据质量治理06数据质量评价体系最后附上数据质量治理思维导图数据质量人人有责,这不仅仅只是一句口号,更是数据工作者的生命... 查看详情

节测试题目(代码片段)

...:对错正确的答案是“错”。题目3从“管理民主”到“治理有效”,要求健全自治、法治、德治相结合的乡村治理新体系。选择一项:对错正确的答案是“对”。题目4十九大报告指出,要在2050年实现国家治理体系和治理能力现... 查看详情

数据治理三大模式详解,治理新范式释放数据潜能

随着世界经济由工业经济向数字经济转型,数据逐步成为关键的生产要素,企业开始将数据作为一种战略资产进行管理。数据从业务中产生,在IT系统中承载,要对数据进行有效治理,需要业务充分参与,IT系统确保遵从,这是... 查看详情

万字长文,揭秘华为数据治理体系!

导读:数据治理,正在成为企业数字化生存的关键。如何通过数据治理,提升数字化竞争力,抢夺数字时代的红利?本文为华为公司数据管理部初创成员,SUB-IA(华为集团整体分析侧数据资产评审委员... 查看详情

山石网科发布数据安全综合治理体系,覆盖数据全生命周期

...出品|CSDN云计算11月24日,在“从一维到多维,让数据安全有章可循——山石网科数据安全综合治理体系发布会”上,山石网科面向全行业推出《数据安全治理白皮书》,并向企业侧正式发布全新的数据安全治理体... 查看详情

美团:踩雷好几年,才总结出的数据治理避坑攻略

...资料一、序言二、背景介绍三、治理体系化思考3.1什么是数据治理体系化?3.2数据治理体系化如何解决目前治理存在的问题?3.3业务数据管治体系框架如何建设?3.4体系框架如何落地实施?四、治理体 查看详情

美团:踩雷好几年,才总结出的数据治理避坑攻略

...资料一、序言二、背景介绍三、治理体系化思考3.1什么是数据治理体系化?3.2数据治理体系化如何解决目前治理存在的问题?3.3业务数据管治体系框架如何建设?3.4体系框架如何落地实施?四、治理体 查看详情

美团:踩雷好几年,才总结出的数据治理避坑攻略

...资料一、序言二、背景介绍三、治理体系化思考3.1什么是数据治理体系化?3.2数据治理体系化如何解决目前治理存在的问题?3.3业务数据管治体系框架如何建设?3.4体系框架如何落地实施?四、治理体 查看详情

美团:踩雷好几年,才总结出的数据治理避坑攻略

...资料一、序言二、背景介绍三、治理体系化思考3.1什么是数据治理体系化?3.2数据治理体系化如何解决目前治理存在的问题?3.3业务数据管治体系框架如何建设?3.4体系框架如何落地实施?四、治理体系化实践4.1... 查看详情

数据治理架构探索

对现有数据体系整理优化的探索。目前现有体系为生产数据库为ORACLE,分析平台数据库为基于HADOOP平台开发,两个平台并行运行。基于业务要求,生产ORACLE按一定期限会删除数据,而分析平台则保存历史所有但是会做了脱敏处理... 查看详情

数据治理--元数据(代码片段)

数据治理–元数据元数据是对某个潜在信息性对象做出的陈述。在浏览其他网页的时候会看到元数据被称之为“数据的数据”。为了更好的描述元数据到底是什么东西,我以一本《Metadata》书作为例子进行说明。《Metadata》第... 查看详情

数据治理知识体系学习笔记

数据治理涉及组织体系、标准体系、流程体系、评价体系、技术体系几方面的内容,主要包含:元数据管理、主数据管理、数据标准管理、数据质量管理、数据安全管理等内容。元数据管理元数据管理主要涉及元数据分... 查看详情

dubbo3终极特性「流量治理体系」一文教你如何搭建dubbo3的控制台服务dubbo-admin(代码片段)

DubboAdminDubboAdmin是一个控制台,为Dubbo集群提供更好可视化服务。Admin支持Dubbo3并很好的兼容2.7.x、2.6.x和2.5.x。DubboAdmin的部署方式接下来我们主要会介绍有四种DubboAdmin部署到生产环境的方式基于Helm运行Admin基于Kubernetes运行Admi... 查看详情

dubbo3终极特性「流量治理体系」一文教你如何通过dubbo-admin实现动态进行流量隔离机制(代码片段)

背景信息如果一个应用有多个版本在线上同时运行,部署在不同环境中,如日常环境和特殊环境,则可以使用标签路由对不同环境中的不同版本进行流量隔离,将秒杀订单流量或不同渠道订单流量路由到特殊环境&... 查看详情