数据血缘设计想法(初稿)

author author     2023-05-01     458

关键词:

参考技术A 一、背景:

数据血缘贯穿数据产生到应用的整个流程,在数据采集中,需要从清楚埋点后续使用情况,以统计使用率,避免冗余的数据上报;在数据计算中,调度需要清楚数据的执行状态,确保上层数据执行完成;在数据管理中,需要线索去追溯数据的流向,以清楚标签和指标的计算方式和应用位置;在数据应用中,我们也需要清楚问题数据的来源;

二、目标:

为了解决以上流程中数据的关联关系,尝试设计数据血缘去将数据执行的流程串起来,方便追溯数据问题,也可满足数据治理,避免数据冗余。此需求文档是基于产品对数据体系的理解进行设计,暂时不会投入开发,会根据理解逐渐深入随时更新,发掘更多数据血缘的使用场景;

三、设计方案概述:

基于以上背景,在进行数据血缘设计时,需要将数据血缘设计按照数据流转方式分为四个场景;

vm架构设计文档初稿v0.01

VM架构设计文档初稿v0.01文档介绍本文档是经过讨论,作为VM新架构设计开发中的重要依据。对该架构的整个系统的结构进行详实细致的描述。阐述框架结构,说明该架构所采取的设计策略和所有技术,并对相关内容作出统一的约... 查看详情

数据血缘构建及应用

...果五、字段级别血缘关系5.1传输工具DataX5.2计算引擎5.3图数据库JanusGraph5.4覆盖范围5.5局限5.6效果六、实际应用场景6.1数据治理6.2元数据管理6.3调度系统6.4敏感等级标签七、总结一、前言数据血缘是元数据管理、数据治理、数据质... 查看详情

mdm数据血缘设计方案

...的应用系统也就越来越多。业务发展的过程中沉淀了大量数据,但这些数据没有为企业带来直观价值,没有形成企业的数据资产,所以越来越多的企业进入到数据治理阶段,对于主数据治理的需求越来越明确。MDM... 查看详情

基于maxcomputeinformationschema进行血缘关系分析

一、需求场景分析在实际的数据平台运营管理过程中,数据表的规模往往随着更多业务数据的接入以及数据应用的建设而逐渐增长到非常大的规模,数据管理人员往往希望能够利用元数据的分析来更好地掌握不同数据表的血缘关... 查看详情

数据血缘分析工具sqlflow视频介绍

SQLFlow是一个功能强大的数据血缘分析工具,通过分析各种数据库的SQL脚本、对象定义语句(DDL)、DML语句、ETL/ELT中使用的存储过程(Procedure,Function)、触发器(Trigger),给出完整的数据血缘关系。在大型数据仓库/数据湖中,... 查看详情

顺丰基于hook机制实现数据血缘系统(代码片段)

1.背景一个完整的数据生命周期,包含从数据源头的数据采集、计算、加工、转换和展示等多个核心步骤以及到最终的数据销毁、归档的全部流程。我们用一种类似人类社会的血缘关系来描述这种数据之间的流转关系——即... 查看详情

顺丰基于hook机制实现数据血缘系统(代码片段)

1.背景一个完整的数据生命周期,包含从数据源头的数据采集、计算、加工、转换和展示等多个核心步骤以及到最终的数据销毁、归档的全部流程。我们用一种类似人类社会的血缘关系来描述这种数据之间的流转关系——即... 查看详情

火山引擎dataleap:揭秘字节跳动数据血缘架构演进之路

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套... 查看详情

数据治理中的数据血缘关系是什么?用来解决什么问题

前言:数据血缘属于数据治理中的一个概念,是在数据溯源的过程中找到相关数据之间的联系,它是一个逻辑概念。数据治理里经常提到的一个词就是血缘分析,血缘分析是保证数据融合的一个手段,通过血缘分析实现数据融合... 查看详情

运维规章文档初稿

1.信息与数据安全整体策略SkiptoendofmetadataGotostartofmetadata信息总体安全策略关于敏感数据失效后处理原则与操作方法关于数据安全管理员与数据安全策略执行规章制度关于限制访问客户敏感数据与信息数据的制度。关于可访问敏... 查看详情

数据血缘构建及应用

...果五、字段级别血缘关系5.1传输工具DataX5.2计算引擎5.3图数据库JanusGraph5.4覆盖范围5.5局限5.6效果六、实际应用场景6.1数据治理6.2元数据管理6.3调度系统6.4敏感等级标签七、总结一、前言数据血缘是元数据管理、数据治理、数据质... 查看详情

火山引擎dataleap数据血缘技术实现与具体用例

目录01数据血缘模型02数据血缘优化03数据血缘用例04未来展望01数据血缘模型数据血缘模型–挑战首先介绍一下字节内部数据血缘遇到的挑战。随着公司业务扩张、用户数量持续增长以及数仓建设不断完善,元数据种类和数量... 查看详情

搜狐hivesql血缘关系解析与应用(代码片段)

1.研究背景随着企业信息化和业务的发展,数据资产日益庞大,数据仓库构建越来越复杂,在数仓构建的过程中,常遇到数据溯源困难,数据模型修改导致业务分析困难等难题,此类问题主要是由于数据血... 查看详情

搜狐hivesql血缘关系解析与应用(代码片段)

1.研究背景随着企业信息化和业务的发展,数据资产日益庞大,数据仓库构建越来越复杂,在数仓构建的过程中,常遇到数据溯源困难,数据模型修改导致业务分析困难等难题,此类问题主要是由于数据血... 查看详情

spark列级血缘(字段级别血缘)开发与实现

...行了修改,并且在github上独立了一个项目(Ushas)。传统数据治理中针对spark的表级别血缘判断虽然能一定程度上解决数据的依赖关系,但是对于精确到字段之间的关系识别则显得捉襟见肘。开发此项目的用意是为了能够加... 查看详情

5月4日工作日志

...定各个功能模块之间的接口、模块之间传递的信息,以及数据 查看详情

第二天项目alpha冲刺

...2.1今日完成任务情况以及遇到的问题。崔红梅:完善软件数据库表结构搭建并配置软件开发环境。已完成包凤梅:分析《“开饭了”软件设计说明书1.2》初稿的不足,调整类的层次关系。已完成冯永萍:修改完善团队项目系统设... 查看详情

关于捕获审计跟踪的数据库设计的想法[关闭]

】关于捕获审计跟踪的数据库设计的想法[关闭]【英文标题】:Ideasondatabasedesignforcapturingaudittrails[closed]【发布时间】:2010-11-0606:59:58【问题描述】:如何维护数据库中的数据日志?我必须维护对每一行所做的每次更改的日志。这... 查看详情