大数据平台下的数据治理

Pushkin. Pushkin.     2022-10-22     443

关键词:

文章目录

什么是数据治理

数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。

难题

随着以Hadoop生态与MPP生态技术的提升,数据如何进来,如何整合,开展什么样的应用都已经有了成熟的案例,可是,同传统数仓时代一样,垃圾进垃圾出,如何破?相比传统数仓时代,进入
数仓集群的数据更加的多样、更加的复杂、量更足,这个数仓时代都没有处理好的事情,如何能够在大数据时代处理好,这是所有大数据应用者最最期盼的改变,也是大数据平台建设者最有挑战的难题:数据治理难的不是技术,而是流程,是协同,是管理。

数据治理涉及的IT技术主题众多,包括元数据管理、主数据管理、数据质量、数据集成、监控与报告等。

大数据平台下的数据生命周期

数据治理关键场景

  • 生产数据
  • 分析数据
  • 历史数据

数据治理面临的挑战

  • 异构数据
  • 复杂业务数据
  • 安全合规问题

首先数据层面,业务中有很多异构数据比如文档,报告报表,GIS信息,NOSQL等。

其次业务层面,面对的是全公司所有的业务数据,各类业务或者系统数据都需要定制化或者协调标准进行统一采集,处理,标准化。

最后安全层面,数据的所有权、安全性。

数据治理关键问题

1. 海量系统规模

  • 几百个业务系统+
  • 几万张库表+
  • 几十万字段+

2. 复杂存储

  • 关系型数据库
  • 对象性数据库
  • 内存对象
  • K-V NO-SQL
  • 列模式数据仓库
  • HDFS分布式存储
  • MPP型存储

3. 复杂采集

  • 基于SQL
  • 存储过程
  • python、shell、scala、java、sparkSQL、FlinkSQL等等各类脚本

数据治理目标

数据治理的目标是保障数据及其应用过程中的运营合规、风险可控和价值实现,通过数据治理管理体系规范数据治理流程,保证数据治理的合规运营;通过数据治理价值体系推进数据资源的价值实现,提升数据价值。运营合规、风险可控是价值实现的基础,为价值实现提供一个良好的治理环境;价值实现则是运营合规、风险可控的升华,是数据治理的核心目标。

数据治理平台与周边系统关系

数据治理-元数据系统

数据治理-数据标准系统

数据治理-数据质量系统

数据治理平台-元数据建立

元数据-数据地图

血缘分析、影响分析


某银行数据治理案例

数据治理-平台现状

数据治理-治理改进方案

数据治理体系建设规划

通信大数据架构下的数据治理.pdf

本文完整高清PPT会发到资料群供大家学习,扫文末微信群进入本文完整高清PPT会发到资料群供大家学习,扫下方微信群进入因为微信群后面进来的看不到前面的聊天记录。所以恳请小伙伴们进入后不要刷屏要资料,我... 查看详情

通信大数据架构下的数据治理.pdf

本文完整高清PPT会发到资料群供大家学习,扫文末微信群进入本文完整高清PPT会发到资料群供大家学习,扫下方微信群进入因为微信群后面进来的看不到前面的聊天记录。所以恳请小伙伴们进入后不要刷屏要资料,我... 查看详情

大数据平台数据治理与建设方案

本文完整高清PPT会发到资料群供大家学习,扫文末微信群进入本文完整高清PPT会发到资料群供大家学习,扫下方微信群进入因为微信群后面进来的看不到前面的聊天记录。所以恳请小伙伴们进入后不要刷屏要资料,我... 查看详情

阿里巴巴数据治理平台建设经验

目录前言01、数据繁荣的红利与挑战02、阿里巴巴数据治理平台建设实践一、数据生产规范性治理二、数据生产稳定性治理三、数据生产质量治理四、数据应用提效治理五、数据安全管控治理六、数据成本治理七、数据治理组织... 查看详情

大数据开发治理平台dataworks

...nt_detail/73015.htmlhttps://help.aliyun.com/document_detail/324149.html----数据治理LaunchDataWorks基于阿里云ODPS/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建... 查看详情

idc:阿里云获2021中国数据治理平台市场份额第一

近日,领先的IT市场研究和咨询公司IDC发布《中国数据治理市场份额,2021:广泛落地,持续增长》报告,报告统计显示2021年中国数据治理平台市场规模达23.9亿元。阿里云以23.4%份额获得2021中国数据治理平台市场份额第一。分析... 查看详情

架构漫谈-数据治理核心思路及解决方案探讨

文章目录Pre背景和挑战数据治理的框架和核心内容数据战略组织管理制度体系流程管理绩效管理标准体系质量体系安全体系平台工具人工智能是大数据治理核心方向小结Pre数据治理是企业大数据基础,企业级数据平台助力企业数... 查看详情

全链路数据治理实操演练营,互联网金融制造等行业都适用!

简介:全链路数据治理-全域数据集成训练营已上线!大数据开发治理平台DataWorks推出多个大数据训练营(持续更新中),全域数据集成训练营可完成多种数据源、多种网络环境下的离线同步与实时同步。参营... 查看详情

全链路数据治理实操演练营,互联网金融制造等行业都适用!

简介:全链路数据治理-全域数据集成训练营已上线!大数据开发治理平台DataWorks推出多个大数据训练营(持续更新中),全域数据集成训练营可完成多种数据源、多种网络环境下的离线同步与实时同步。参营... 查看详情

阿里云云原生一体化数仓—数据治理新能力解读

一、数据治理中心产品简介阿里云DataWorks:一站式大数据开发与治理平台架构大图阿里云DataWorks定位于一站式的大数据开发和治理平台,从下图可以看出,DataWorks与MaxCompute、Hologres等大数据引擎紧密配合,在数据... 查看详情

数据质量专项治理在政务大数据中的应用实践

根据我们的研究和实践,我们认为数据资产管理活动可以分为三个方面:第一是让数据用起来第二是让数据用得放心第三是让数据创造价值我们的政府部门,尤其是政府的大数据管理部门,在过去十几年中,... 查看详情

重磅发布,阿里云全链路数据湖开发治理解决方案

阿里云重磅更新全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR)+一站式大数据数据开发治理平台DataWorks+数据湖构建DLF+对象存储OSS等核心产品。近日,阿里云EMR重磅推出新版数据湖Datalake,100%兼容社区大数据开源... 查看详情

浅谈网易大数据平台下的数据质量

大数据平台的核心理念是构建于业务之上,用数据为业务创造价值。大数据平台的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环。但随着业务的逐渐稳定,数据质量越来越被人们所重视。千... 查看详情

浅谈网易大数据平台下的数据质量

大数据平台的核心理念是构建于业务之上,用数据为业务创造价值。大数据平台的搭建之初,优先满足业务的使用需求,数据质量往往是被忽视的一环。但随着业务的逐渐稳定,数据质量越来越被人们所重视。千... 查看详情

大数据技术系列:图解大数据平台开发

导言在前面的文章《「大数据技术体系」学习实践导览》中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据知识体系的抛砖... 查看详情

数据仓库(11)什么是大数据治理,数据治理的范围是哪些

什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着... 查看详情

火山引擎dataleap:3个关键步骤,复制字节跳动一站式数据治理经验

DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支... 查看详情

揭秘阿里巴巴数据治理平台建设经验

目录前言 数据繁荣的红利与挑战企业的数据治理的阶段一、起步阶段 查看详情