终于有人把数据治理讲明白了

虎子 虎子     2022-12-13     168

关键词:

导读:数据治理:说起来容易,做起来难。

作者:石秀峰

来源:谈数据(ID:learning-bigdata)

“数据治理”这个10多年前就已经出现的名称,在最近这几年时间一下子火了起来。不知何时,江湖中流传出了:“数字转型、治理先行”的说法。

于是乎,我们看到:不仅是传统提供数据仓库、BI、主数据管理、元数据管理、数据集成等数据服务的软件供应商在说数据治理,“BATJ”等互联网公司,大型国企、央企也都在谈数据治理,很多企业都将数据治理作为数智化战略的一项必要举措,列入了企业的战略行动计划。

在众多谈论数据治理的企业或个人中,笔者发现大家对数据治理有着一个普遍的共识,那就是:“数据治理说起来容易,做起来难”!

01 为什么要做数据治理,真的想透了吗?

在做数据治理咨询的过程中,经常会遇到以下对话场景:

  • 请问你们为什么要做数据治理?

  • 常见回答:我们要建立数据标准,提升数据质量,实现数据资产统一管理。

  • 接着问:为什么要建立数据标准、提升数据质量,不做会怎样?

  • 常见回答:数据质量问题比较多,无法提供准确的数据报表,影响业务效率,无法支撑企业的数字化转型。

  • 再次问:都影响到了哪些数据报表、哪些业务?

  • 常见回答:XX报表不准确、统计口径不一致、系统之间数据孤岛,数据集成困难……吧啦吧啦……

  • 接着追问:为什么会造成数据报表不准确,口径不一致,系统集成难?

  • 常见回答:因为数据标准一致,数据源的数据质量差。

到此为止,采用咨询常用的5Why分析法,似乎已经get出了数据治理的现状和目标。我们将其总结下:通过数据治理实现企业数据的标准化、提高数据质量、提升业务处理的效率,为数据分析提供准确的数据支撑,赋能业务,助力企业实现数字化转型。

但是,我们仔细分析这样的调研结果是浮于表面的,围绕数据的问题在原地打转,没有将为什么要做数据治理真正想透。

数据要产生价值,需要一个合理的“业务目标”,数据治理的所有活动应该围绕真实的业务目标而开展,建立数据标准、提升数据质量只是手段,而不是目标。因此数据治理的第一步不是分析数据问题,而是分析业务问题,找到企业的核心业务诉求,定义数据治理的目标和范围。


02 数据治理不是什么高大上的东西,基本是脏活、累活!

数据治理很火,在DAMA 数据管理知识体系指南中,数据治理位于数据管理“车轮图”的正中央,是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲,为各项数据管理活动提供总体指导策略。

▲DAMA-DMBOK2.0 数据管理车轮图

谈到数据治理,我们经常讲它是一个涉及到企业战略、组织架构、数据标准、管理规范、数据文化、技术工具的一个综合体。没有数据治理实践经验的,一定会认为:哇,数据治理好“高大上”呀!又是战略、又是标准、又是文化的,听起来很高深吗!

然而,只有你真正做过数据治理人才知道:数据治理不仅都是苦活、累活,还是个受累不讨好,经常背锅,领导看不见价值的活。

都说数据是资产,数据治理很重要。尽快大家都说数据治理很重要,领导也很重视,但在很多企业真正实施的过程中,却总会遇到高层领导支持力度不足,业务部门人员配合不到位,数据治理的总是要给业务让路等等问题。

究其原因:领导说重视数据,是真重视,还是嘴上说说?有没有将其纳入企业的战略行动计划?

数据治理要定战略、定制度、建组织,这是顶层策略,这每一项都牵一发而动全身,都需要高层领导的大力支持和推动,业务部门和技术部门的紧密协同。

数据治理要立标准、理流程、清数据,需要对每个数据域、数据实体、数据条目、数据项进行梳理和标准化,甚至有时候需要人工逐条、逐字段的定义数据标准、核实数据质量。

数据治理人员不仅要有良好的数据思维,还要有足够的细心、耐心和体力才能实现企业数据质量的不断提升,打磨出适合企业的数据标准。

数据治理过程中,有时候是不被理解的。数据治理是个地基性工程,人们看到的永远是数据应用的“高楼大厦”,数据治理团队天天忙忙碌碌的,领导也不知道“这伙人”到底都在干啥?但是,只要数据出现问题,第一个被问责的就是数据治理团队。

03 数据治理不是一个“项目”,想要立竿见影的效果?难!

项目是一系列独特的、复杂的并相互关联的活动,这些活动有着一个明确的目标或目的,必须在特定的时间、预算、资源限定内,依据规范完成。

那么,数据治理是项目吗?

是,当然是。

不论是全面的资产管理,还是针对特定领域的数据治理,都需要组建项目团队、定义项目目标和范围、制定项目计划、推进项目实施、最后是项目总结和结案。数据治理有明确的目标,有特定范围、质量、成本、时间、资源要求,从定义上讲数据治理当然是项目。

但是,通过一个数据治理项目的实施,即使这个项目预算很大,周期很长,是否就能解决企业数据管理和使用中的各种问题?是否就能培养出企业的数据文化,转变人们的数字化思维?是否就能实现企业管理和业务模式的创新?

一定不可能!

数据治理的最终目标是赋能业务,提升数据价值。这是一个持续漫长的运营过程,需要逐步完善、分步迭代,指望一步到位完成数据治理是不现实的。

项目型的数据治理,是不全面的,无延续性,能够解决一时的数据问题,但很难获得持续的数据价值。

因此说,数据治理不是一个“项目”,而是一个持续运营的过程。我们也可以将这个过程,看作是由一个个数据治理“微项目”组成,连续的、螺旋上升的模型。一个项目的结案,不是企业数据治理的终点,而是企业数据治理真正的起点!

04 做了数据治理,为什么数据质量依然很差,咋办?

一个网友留言:石老师,我们公司两年前就做了数据治理,建立了数据治理平台,元数据管理、数据质量管理等功能都有了,但是我们的数据质量问题还是很多,导致花了很多钱建设的BI系统基本都没人用,请问有什么好的方式解决?

这个问题,我没有答复。原因是数据质量差、BI用不起来,这个问题虽然常见,但是10家有相同问题的企业中,有9家的原因是不一样的。在没有经过详细调查,不了解具体背景的情况下,不敢贸然给出建议。

我曾盘点了引发数据质量问题的各种原因:

  • 有业务方面的数据定义不明确,也有技术方面的数据抽取不完整;

  • 有管理方面的岗位职责不清晰,也有执行层面的数据操作不规范;

  • 有数据处理加工过程中出现了错误,也有数据源本身就有问题;

  • 有数据治理系统功能有缺陷,也有系统强大但是没人用……

做过了数据治理,企业的数据质量就一定能提升吗?其原意是要问:上过了数据治理系统或实施了数据治理项目,为什么还会有数据质量问题。

这个问题很复杂。正如上文中的项目型数据治理,点到为止,治标不治本。有的企业认为数据治理就是上一套强大的数据治理平台,只要平台功能强大,就能管好数据,这恰恰是陷入了另一个误区——唯工具论,岂不知数据治理的本质是管理数据,而不是管理程序、脚本和任务。

另外,还有很多企业是出现了数据问题,并且对业务造成很大影响之后才去进行治理的——被动式治理,失去了治理数据的主动权,常常是解决了一个问题又引出了更多的问题。

……

世界上没有“包治百病”的数据平台,只有将数据治理常态化,持续地去做才是王道。

05 数据治理之道是什么,要怎么做?

前段时间,在网上看到一篇关于数据治理关键要素的总结文章,觉得写的很好,引用过来,供大家参考:

1. 数据治理需要体系建设

为发挥数据价值需要满足三个要素:合理的平台架构、完善的治理服务、体系化的运营手段。

根据企业的规模、所属行业、数据量等情况选择合适的平台架构;治理服务需要贯穿数据全生命周期,保证数据在采集、加工、共享、存储、应用整个过程中的完整性、准确性、一致性和实效性;运营手段则应当包括规范的优化、组织的优化、平台的优化以及流程的优化等等方面。

2. 数据治理需要夯实基础

数据治理需要循序渐进,但在建设初期至少需要关注三个方面:数据规范、数据质量、数据安全。规范化的模型管理是保障数据可以被治理的前提条件,高质量的数据是数据可用的前提条件,数据的安全管控是数据可以共享交换的前提条件。

3. 数据治理需要IT赋能

数据治理不是一堆规范文档的堆砌,而是需要将治理过程中所产生的的规范、流程、标准落地到IT平台上,在数据生产过程中通过“以终为始”前向的方式进行数据治理,避免事后稽核带来各种被动和运维成本的增加。

4. 数据治理需要聚焦数据

数据治理的本质是管理数据,因此需要加强元数据管理和主数据管理,从源头治理数据,补齐数据的相关属性和信息,比如:元数据、质量、安全、业务逻辑、血缘等,通过元数据驱动的方式管理数据生产、加工和使用。

5. 数据治理需要建管一体化

数据模型血缘与任务调度的一致性是建管一体化的关键,有助于解决数据管理与数据生产口径不一致的问题,避免出现两张皮的低效管理模式。

06 最后的话

数据治理不是一蹴而就的,它是一个漫长而持续的过程,没有一针顶破天的诀窍,也没有立竿见影的途径。只有将数据治理变成一种常态化机制,就如同我们每天吃饭、睡觉一样,形成一种习惯、一种文化、持之以恒、不忘初心、不懈努力,才能达到预期目标

终于有人把数据仓库讲明白了

作者:彭锋宋文欣孙浩峰来源:大数据DT(ID:hzdashuju)数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。数据仓库的主要功能如下:建立公司... 查看详情

终于有人把数据湖讲明白了

作者:彭锋宋文欣孙浩峰来源:数仓宝贝库作为全局数据汇总及处理的核心功能,数据湖在数据中台建设中必不可少。那么它与数据仓库、数据中台是什么关系?图10-1显示了一个典型的从数据采集到数据湖、数据... 查看详情

终于有人把排序算法讲明白了

导读:在大数据时代,对复杂数据结构中的各数据项进行有效的排序和查找的能力非常重要,因为很多现代算法都需要用到它。在为数据恰当选择排序和查找策略时,需要根据数据的规模和类型进行判断。尽管不... 查看详情

终于有人把大数据讲明白了。。。

大数据是对海量数据进行存储、计算、统计、分析处理的一系列处理手段,处理的数据量通常是TB级,甚至是PB或EB级的数据,这是传统数据处理手段所无法完成的,其涉及的技术有分布式计算、高并发处理、高可... 查看详情

终于有人把大数据架构讲明白了

导读:如何存储、如何利用大规模的服务器集群处理计算才是大数据技术的核心。作者:李智慧来源:大数据DT(ID:hzdashuju)大数据技术其实是分布式技术在数据处理领域的创新性应用,其本质和此前... 查看详情

什么是一网统管?终于有人讲明白了

导读:本文给出了一网统管的定义,介绍了其定位、目标和支撑的业务范畴。作者:郑宇来源:大数据DT(ID:hzdashuju)01 一网统管的定义定义:一网统管是打通城市各治理系统的业务平台、管理全... 查看详情

终于有人把红蓝对抗讲明白了

导读:什么是红蓝对抗?作者:木羊同学来源:大数据DT(ID:hzdashuju)我们现在所处的时代,有人称为网络时代,有人称为信息时代,也有人称为数据时代,不管名字怎么叫吧,我... 查看详情

终于有人把红蓝对抗讲明白了

导读:什么是红蓝对抗?作者:木羊同学来源:大数据DT(ID:hzdashuju)我们现在所处的时代,有人称为网络时代,有人称为信息时代,也有人称为数据时代,不管名字怎么叫吧,我... 查看详情

终于有人把分布式系统架构讲明白了

「数仓宝贝库」,带你学数据!导读:随着互联网的不断发展,企业积累的数据越来越多。当单台数据库难以存储海量数据时,人们便开始探索如何将这些数据分散地存储到多台服务器的多台数据库中,逐... 查看详情

终于有人把iaaspaassaas讲明白了

导读:各有哪些有点?作者:王健宗何安珣李泽远内容摘编自《金融智能:AI如何为银行、保险、证券业赋能》视频制作:大数据DT(ID:hzdashuju)关注数据叔视频号,看更多干货视频👇延伸... 查看详情

终于有人把云计算讲明白了

导读:对于云计算的阐述,我们将从云计算概念、原理、分类、特点和应用这5个方面展开。作者:王健宗何安珣李泽远来源:大数据DT(ID:hzdashuju)01云计算概念云计算是分布式计算技术的一种,... 查看详情

终于有人把线性回归讲明白了

导读:本文将介绍什么是回归问题、解决回归问题的基本思路步骤和用机器学习模型解决回归问题的基本原理,以及如何用线性模型解决回归问题。作者:莫凡来源:大数据DT(ID:hzdashuju)00线性回归&... 查看详情

终于有人把devops讲明白了

导读:DevOps中的Dev指的是Development(开发),Ops指的是Operations(运维),用一句话来说,DevOps就是打通开发运维的壁垒,实现开发运维一体化。作者:魏新宇郭跃军来源:大数据DT(I... 查看详情

终于有人把云计算与数据库的关系讲明白了

导读:本文讨论云计算与数据库的关系,包括云数据库自身的技术和特征,也包括云数据库的使用方式和形态变迁。作者:李海翔来源:大数据DT(ID:hzdashuju)2006年Google的CEO埃里克·施密特首次提... 查看详情

终于有人把企业架构讲明白了

作者:付晓岩来源:大数据DT(ID:hzdashuju)01企业架构的概念与范围企业架构设计的服务对象是企业,所以,“企业”是企业架构理论需要首先明确的概念,对于这一概念,笔者比较赞同TOGAF理... 查看详情

前方高能,终于有人把接口测试讲明白了!

一、前言接口测试是测试系统之间接口的一种测试,只要用于检测外部系统和内部系统之间的或者内部的各个子系统之间的交互点。测试的重点是检测系统之间数据的交换,传递,权限控制,处理次数以及系统之... 查看详情

终于有人把云计算大数据和ai讲明白了

(点击上方公众号,可快速关注)作者: 刘超www.cnblogs.com/popsuper1982/p/8505203.html原标题:不是技术也能看懂云计算,大数据,人工智能我今天要讲这三个话题,一个是云计算,一个大数据,... 查看详情

终于有人把微服务讲明白了

作者:魏新宇郭跃军来源:大数据DT(ID:hzdashuju)01微服务架构简介微服务这个概念并不是近年才有的,但这两年随着以容器为核心的新一代应用承载平台的崛起,微服务焕发了新的生命力。传统的巨... 查看详情