爱奇艺数据中台建设方案

zhisheng_blog zhisheng_blog     2022-12-17     649

关键词:

  • 数据中台的产生:数据工作的痛点、数据中台的产生、中台的实质

  • 爱奇艺数据中台的定义:理解数据中台、数据中台的发展历程、输出和定位

  • 爱奇艺数据中台的建设:中台建设、Pingback体系、数仓体系、数仓平台、离线数仓架构、大数据平台、数据平台架构

  • 数据中台的应用场景:统一化、个性化、定制化

一、数据中台的产生

1、数据工作的痛点

  1. 使用门槛高:数据工作是一个专业性特别强的一个工作,对于人员的要求比较高。

  2. 口径不一致:在使用数据过程当中,口径不一致是特别常见的一种问题,这种问题可能会导致一种数据使用和分析的差异,而且会降低业务的数据分析效率。

  3. 数据可靠性低:在生产过程中,降低业务的数据分析效率,最终会对业务决策造成严重的影响,不仅数据链路过程很长,其中还会引入很多数据质量问题。

  4. 跨业务难度大:因为缺少一个统一的数据建设的规划、标准和规范,所以难以指导各个业务或者整个生产链路的各个环节,以拥有一个标准化的生产和处理过程,就导致了多个业务的数据难以融合,难以发挥更大的数据价值。

  5. 接入成本高:如果有新的业务接入或者新的场景需要使用数据,很多工作都需要人工处理。去申请各种资源、权限、找数据并且串联整个数据的采集、生产、计算、同步和展示等各个环节,这是一个耗时长、效率低,最终还是很容易出错的过程。

  6. 投递质量低:说到数据的话肯定离不开投递,投递是用来记录用户行为的一连串的数据信息。如果投递过程缺少标准化或者流程管控的话,都会导致投递质量比较差。

  7. 获取数据难:数据的生产到最终使用,中间可能要经历一个比较长的时间周期或者一个比较宽的团队跨度,用户可能无法很快地找到想要的数据,或者数据团队生产出来的数据并没有真正触达到业务,来达到它的数据价值。

  8. 数据资产模糊:这个点可能和获取数据难有一点点关联,数据资产模糊的话更多的是在说需要对公司的数据资产做一个整体的管理,如果没有这个整体的管理,就会导致对数据资产的级别和拥有什么数据资产都很模糊。最终就是导致数据的优势难以发挥出来,而且虽然耗费了很多计算资源、人力资源、存储资源,但没有带来相应的价值,最终导致资源效率极低。

2、数据中台的实质

数据中台更像一种企业架构,是一套结合互联网技术和行业特性,在企业发展的不确定性中,寻找确定性,并且持续沉淀和抽象企业核心能力,最终支持企业快速、高效、低成本进行业务创新和增强的企业架构。

二、爱奇艺数据中台的定义

1、理解数据中台

数据后台:

大家平时更多用到了大数据集群,也就是说Hadoop、Spark、Flink以及其他OLAP工具。但是这些只是数据后台的一个概念,并没有做成一个标准化、通用化、门槛相对来说比较低的中台化的概念。 

数据中台:

数据中台其实是一个数据即服务的产品概念,它包括了数据服务、数据平台、数据中台产生的数据以及在所有的数据工作中产生的标准和规范,这一些组成了我们所谓的数据中台。

数据前台:

数据前台就是我们实际的产品落地的具体例子,主要包括了几个大的方向:

  • 分析体系,比如说用户分析、内容分析、业务报表等;

  • 数据应用,比如说即席查询、可视化查询工具;

  • 数据产品,类似于画像和推荐业务,可能都是一些数据最终形成的产品,直接面向用户服务。

所以数据中台抽象出来,就是指“平台+服务+数据+标准化”的概念,它是将数据的生产、收集、处理、存储和服务进行封装,并且面向不同层级的用户提供不同的服务形式。在数据标准化过程中,数据中台可以防止数据重复建设,避免口径问题,提高数据的使用效率。

2、数据中台的发展历程

3、数据中台的输出

数据中台输出形式分为以下几个:

4、数据中台的定位

说到数据中台定位,因为数据中台和前台、后台都需要有一个明确的划分,数据中台定位提供了这种抽象通用的能力来支持前台团队在此基础之上进行定制化,最终在复用通用能力的同时,能够满足业务快速发展的个性化的需求,达到一个全局最优化的状态。

三、爱奇艺数据中台建设

1、建设

主要从五个角度去输出中台能力,分别是服务、数据、平台、投递、标准/规范。在爱奇艺数据中台的实施过程中,划分出了三个大方向:

  • 生产,也就是我们所说的投递体系;

  • 数据,也就是统一数仓的体系,是数据的核心;

  • 大数据平台能力:包括开发、治理、服务。

日志投递:

这部分输出了投递规范,进一步针对投递规范,需要对公司的相关员工进行培训,让大家深刻地理解投递是为了做什么,并且怎样才能达到我们对于用户的行为足够深入的分析要求。

大数据平台:

有一线开发、对应的运维管理、实时开发对应的运维管理,以及数据治理、数据图谱、数据服务和即席查询。即席查询是我们数据服务里的一个子项,但是因为应用面比较广,就单独拎出来了。

统一数仓:

统一数仓的能力也就是为下游提供离线和实时的两种数仓能力。为了方便大家实现跨离线和实时混合使用的场景,需要进行标准化的工作,也就是离线输出的字段、定义、口径、格式和实时数据要尽可能一致,即实时数据向离线数据看齐。

数仓在提供数据本身的能力之外,还要维护整个公司级别的指标体系和统一维度,让所有的数据系统平台和都会对接到统一的维度指标体系。而且,为了帮助数仓建设过程中的数据建模和统计指标的管理,建设了一个对应的数据平台,也是按照数据规范的标准建设,以此来支持使用方使用平台依照规范去建设数仓的流程化工作。

2、Pingback体系

Pingback的体系就是投递体系,那么具体为什么要做这个事情呢?

投递工作面临的问题主要有以下几个点:

3、数仓体系

数仓体系几个要解决的痛点:

4、数仓平台

数仓平台主要是为了做业务建模、数据建模、物理建模、维度管理、指标管理和数仓管理。

数仓平台的特性:

  • 数据表创建的约束性:比如我们需要对表有的命名规范要求,如果没有一个工具去管理,可能会因为大家对规范的理解不一致,最终导致落地过程中依然存在各种各样的差异性;

  • 数据信息的可描述性:指在创建表的过程中,为了快速地满足业务,很少去添加一些相关的描述信息,导致数据缺少描述性。所以需要通过平台,要求用户在数据创建的过程中把信息描述的足够精细,方便后续的数据使用过程;

  • 数据建模体系的完整性:指我们需要一个三步的建模过程,即业务建模后,有对应的数据建模;数据建模之后,针对这个数据建模,有不同的物理建模的形式。整体是一个流程化的工作,避免用户为了快速地满足业务需求跳过某些过程,最终导致建模的扩展性较差;

  • 数据关系的维度与指标管理的系统性:通过提供一套统一的维度和指标管理体系来作为一个中心,对外输出统一的指标和维度,让大家在使用的过程中,可以使用这些标准化后的并且集中管理的元数据;

  • 数据关系的可追溯性:是指通过数仓建设、建模的过程,促使我们后续数据表和字段的相互关系是有记录可查询的,也就是我们所说的数据血缘关系。

5、离线数仓架构

下面是数仓的简化架构,主要是体现了离线数仓部分。其中带颜色的一部分是统一数仓,其他的浅颜色的就是一些数据应用,包括数据集市和主题数仓。

 

6、大数据平台

爱奇艺大数据平台经历了五个阶段:

开发:在第一阶段完成了整个数据开发的平台化、可视化能力,降低了开发门槛,并提升开发标准化。

运维:在开发之后,需要提升任务的管理和运维能力。通过建设运维管理模块的建设,保证用户更方便地对任务进行管理,并且对任务产出的稳定性和数据产出的时效性实现了有效的监控。

质量:在提供了数据开发和管理相关能力之后,需要进一步对数据产出进行质量校验,避免生产出的数据在未关注数据质量的情况下直接被使用,造成数据问题的快速扩散。

使用:数据使用也是一个数据发现的过程。比如生产了很多数据,如何让用户看到这些数据,并将其更好地应用在业务需求当中。针对这个痛点,完成数据图谱模块的发布,把各种的数据元信息进行收集、加工、管理,最终把完整的数据信息以一种更友好的形式提供出来,帮助大家快速地发现数据,进一步去了解数据元信息、快速准确地使用数据。

治理:是数据生态的最后一个环节,也是打造健康生态闭环的重要部分。有的公司可能是把治理放到比较靠前的环节,但是在一些场景下,比如说业务快速发展的过程中,治理往往是跟不上业务需求的。所以爱奇艺采取的方式是,等业务发展到一定程度,再去补充数据治理的能力,对存量去治理,对增量去管控。治理工作的内容主要包括对数据和任务进行日常审计,然后通过数据血缘和使用情况,对数据的冗余度进行有效评估,并进行相应的优化,以减少资源和人力的浪费。

7、数据平台架构

 

  • 最底层是数据层,比如投递服务器的日志,包括业务的数据或者其他数据来源,通过采集层和传输层达到我们的计算层。

  • 计算层,更多的是大数据集群服务,也包括一些任务调度能力。

  • 平台层包括离线和流式任务的开发管理、机器学习平台、数仓平台,然后下面是对于整个的数据的ETL的一个平台化的处理,还有外部数据的一个同步能力的模块,称为数据集成。在拥有这些开发能力或管理能力的同时,还需要对投递管理、数据安全、数据质量、数据图谱做一些有效的建设,并且在整个数据体系中去做数据治理工作。

  • 服务层是以即席查询、实时分析,数据服务、元数据服务多种形式对下游提供服务能力。

四、应用场景

数据中台的应用场景,面向不同阶段来提供不同的接入方式:

  • 第一个阶段是统一化的形式。有一套通用的模板,它的优点和缺点都很明显,优点是接入起来很简单,缺点就是不够个性化和定制化,只能支持这种通用的数据能力。所以它比较适合于业务初期,能够进行快速接入,并且自动化地完成这种数据的处理和服务;

  • 第二个阶段是个性化的能力。把整个流程确定下来,业务在使用过程中可以针对某些环节做定制化的开发,拓展现存数据模块的能力来满足一些个性化需求,所以它更适用于业务的成长期的阶段;

  • 第三个阶段是定制化的能力。定制化更多面向一些特别成熟的业务,也就是对于数据这一块的需求有多方面的、深层次的使用场景,并且通用的和个性化的架构已经不足以满足数据需求的情况下,可以采用定制化的能力。定制化能力也就是我们提供数据模块化的能力,然后业务再根据自己的需求去对应选取这些模块化能力,并进行组装和扩展,来满足自己定制化的需求。

作者:马金韬

原文:dbaplus

end






Flink 从入门到精通 系列文章
基于 Apache Flink 的实时监控告警系统关于数据中台的深度思考与总结(干干货)日志收集Agent,阴暗潮湿的地底世界

公众号(zhisheng)里回复 面经、ClickHouse、ES、Flink、 Spring、Java、Kafka、监控 等关键字可以查看更多关键字对应的文章。

点个赞+在看,少个 bug ????

爱奇艺数据中台的数据治理实践

1.爱奇艺数据中台简介爱奇艺从最初的单一视频网站发展至今,业务早已不仅只有视频业务。现已涵盖了内容生态的多种业务,以及内容相关的周边业务。随着业务变得越来越复杂多样,数据对于平时的运营和决策也... 查看详情

爱奇艺内容中台数据中心的设计与实现

互联网技术发展至今,当业务复杂度比较高的时候,采用微服务化是一个有效的手段,但是随着服务的拆分,数据管理工作变得极具挑战。数据中心(OLTP)通过对数据的统一收集和管理,一方面可以建立数据之... 查看详情

爱奇艺业务安全风控体系的建设实践

作者|Frank:Frank,爱奇艺云平台科学家,目前是爱奇艺安全云负责人,日常主导安全云在业务安全,云安全,数据安全,安全攻防,移动安全等各领域的技术创新和项目实施,特别是将大数据风控引入到了爱奇艺业务安全保障中,实现数据... 查看详情

爱奇艺数据仓库平台和服务建设实践

首先介绍一下爱奇艺公司整体的业务情况以及数据仓库1.0的设计和出现的问题,针对数仓1.0的缺陷,是如何演进到数仓2.0架构以及数仓2.0需要解决的问题和需要达成的目标。这张图非常清晰的展示了爱奇艺的产品矩阵ÿ... 查看详情

数据中台应用实战50篇-中台解决方案本质在解决什么问题?

...门到精通MATLAB深入理解高级教程(附源码)tableau可视化数据分析高级教程那么要想进行正确的中台建设,在建设中台开始前,我们必需 查看详情

数据中台与数据治理方案

当前很多传统企业的数据中台还处于初步建设阶段,但伴随着移动互联网的逐步发展、线上和线下的融合,数据服务的形式、场景越来越多,业务维度会变得更加复杂,数据中台的建设也会面临更多的挑战,... 查看详情

clickhouse在爱奇艺实时数仓的应用

众所周知,爱奇艺拥有海量视频,在视频生产过程中产生的上千QPS的实时数据、T级别的数据存储。要支持这样的数据进行即席查询和多个大表的JOIN,是爱奇艺视频生产团队大数据应用的难点。具体来说有以下几点... 查看详情

clickhouse在爱奇艺实时数仓的应用

众所周知,爱奇艺拥有海量视频,在视频生产过程中产生的上千QPS的实时数据、T级别的数据存储。要支持这样的数据进行即席查询和多个大表的JOIN,是爱奇艺视频生产团队大数据应用的难点。具体来说有以下几点... 查看详情

clickhouse在爱奇艺视频生产实时数仓的应用

众所周知,爱奇艺拥有海量视频,在视频生产过程中产生的上千QPS的实时数据、T级别的数据存储。要支持这样的数据进行即席查询和多个大表的JOIN,是爱奇艺视频生产团队大数据应用的难点。具体来说有以下几点... 查看详情

数据中台建设:数据体系建设

  文章目录数据体系建设一、数据标签层二、如何构建数据标签层1、确定构建标签对象2、设计标签类目3、标签表实现数据体系建设数据中台是企业数据汇集地,但并不是简单的数据堆积,而是进行分层建模,数据... 查看详情

数据中台建设常见的几大误区,如何规避,你需要知道这几点

...、不同企业的发展程度存在差异,因此会导致不同企业的数据中台的建设起点不同。虽然起点存在差异,但是数据中台的建设应该是一个不断迭代和优化的过程,没有终点。另外,不是每个企业都需要建设一个大而全的数据中台... 查看详情

数据中台建设常见的几大误区,如何规避,你需要知道这几点

...、不同企业的发展程度存在差异,因此会导致不同企业的数据中台的建设起点不同。虽然起点存在差异,但是数据中台的建设应该是一个不断迭代和优化的过程,没有终点。另外,不是每个企业都需要建设一个大而全的数据中台... 查看详情

3.数据中台---数据中台建设与架构(代码片段)

第3章 数据中台建设与架构3.1 持续让数据用起来的价值框架 业务数据化=>数据资产化=>资产服务化=>服务业务化3.2 数据中台建设方法论 1种战略行动 把用数据中台驱动业务发展定位为企业级战略,全局谋划。 在中台... 查看详情

数据中台体系规划建设

数据中台是企业数据汇聚地,企业的一切数据都汇聚到数据中台,企业业务所需的数据总能在数据中台找到。但数据中台中的数据并不是简单地堆积,各种系统产生的原始数据堆积在一起导致使用成本非常高,这类数据只能在某... 查看详情

搭建中台架构的几个误区

虽然数据中台越来越被市场认同,但参与主体仍对其缺少系统的了解,对一些核心问题的处理仍不得要领。01、仅搭建平台数据中台建设仅仅是企业IT变革的起点,建设一个项目或者搭建一个平台并不能解决企业数字... 查看详情

数据中台建设的9大误区,你中了几条?

...同企业的发展程度存在差异,因此会导致不同企业的数据中台的建设起点不同。虽然起点存在差异,但是数据中台的建设应该是一个不断迭代和优化的过程,没有终点。另外,不是每个企业都需要建设一个大而全... 查看详情

数据中台:宜信敏捷数据中台建设实践|分享实录

...容来源:宜信技术学院第2期技术沙龙-线上直播|宜信敏捷数据中台建设实践分享嘉宾:宜信数据中台平台团队负责人卢山巍导读:宜信于2017年推出了一系列大数据开源工具,包括大家熟悉的DBus、Wormhole、Moonbox、Davinci等,在技术... 查看详情

阿里数据中台底座的12年建设实践

...中台建设仍存诸多迷思,中台建设将走向何方?数据资产到底该如何管理?阿里巴巴的中台建设之路应该能为金融机构带来借鉴。日前,在阿里云举办的2021阿里云金融数据智能峰会上,阿里云智能计算平台事... 查看详情