使用atlas进行元数据管理之atlas简介(代码片段)

mantoudev mantoudev     2023-01-21     128

关键词:

背景:笔者和团队的小伙伴近期在进行数据治理/元数据管理方向的探索, 在接下来的系列文章中, 会陆续与读者们进行分享在此过程中踩过的坑和收获。

元数据管理系列文章:

[0] - 使用Atlas进行元数据管理之Atlas简介
[1] - 使用Atlas进行元数据管理之Glossary(术语)
[2] - 使用Atlas进行元数据管理之Type(类型)

0. 当我们谈论数据治理/元数据管理的时候,我们究竟在讨论什么?

谈到数据治理,自然离不开元数据。元数据(Metadata),用一句话定义就是:描述数据的数据。元数据打通了数据源、数据仓库、数据应用,记录了数据从产生到消费的全过程。因此,数据治理的核心就是元数据管理

数据的真正价值在于数据驱动决策,通过数据指导运营。通过数据驱动的方法判断趋势,帮住我们发现问题,继而推动创新或产生新的解决方案。随着企业数据爆发式增长,数据体量越来越难以估量,我们很难说清楚我们到底拥有哪些数据,这些数据从哪里来,到哪里去,发生了什么变化,应该如何使用它们。因此元数据管理(数据治理)成为企业级数据湖不可或缺的重要组成部分。

可惜很长一段时间内,市面都没有成熟的数据治理解决方案。直到2015年,Hortonworks终于坐不住了,约了一众小伙伴公司倡议:咱们开始整个数据治理方案吧。然后,包含数据分类、集中策略引擎、数据血缘、安全和生命周期管理功能的Atlas应运而生。(PS:另一个应用的较多的元数据开源项目是Linkedin 在2016年新开源的项目:WhereHows)Atlas目前最新的版本为2018年9月18日发布的1.0.0版本。

1. Atlas介绍

Atlas 是一个可伸缩和可扩展的核心基础治理服务集合 ,使企业能够有效地和高效地满足 Hadoop 中的合规性要求,并允许与整个企业数据生态系统的集成。

Apache Atlas为组织提供开放式元数据管理和治理功能,用以构建其数据资产目录,对这些资产进行分类和管理,并为数据科学家,数据分析师和数据治理团队提供围绕这些数据资产的协作功能。
技术分享图片

2. 特性

2.1 元数据类型 & 实例

  • 各种Hadoop和非Hadoop元数据的预定义类型
  • 能够为要管理的元数据定义新类型
  • 类型可以具有原始属性,复杂属性,对象引用;可以继承其他类型
  • 类型(type)实例(称为实体entities)捕获元数据对象详细信息及其关系
  • 可以更轻松地进行集成用于处理类型和实例的REST API

2.2 分类

  • 能够动态创建分类 - 如PII,EXPIRES_ON,DATA_QUALITY,SENSITIVE。
  • 分类可以包含属性 - 例如EXPIRES_ON分类中的expiry_date属性。
  • 实体(entities)可以与多个分类(classifications)相关联,从而实现更轻松的发现和安全实施。
  • 通过血缘传播分类 - 自动确保分类在进行各种处理时遵循数据。

2.3 血缘

  • 直观的UI,用于在数据流转时,通过各种流程时查看数据。
  • 用于访问和更新血缘的REST API。

2.4 搜索/发现

  • 直观的UI,按类型(type),分类(classification),属性值(attribute)或自由文本搜索实体。
  • 丰富的REST API,可按复杂条件进行搜索。
  • SQL搜索实体的查询语言 - 域特定语言(DSL)。

2.5 安全和数据屏蔽

  • 用于元数据访问的细粒度安全性,实现对实体实例的访问控制以及添加/更新/删除分类等操作。
  • 与Apache Ranger集成可根据与Apache Atlas中的实体相关的分类对数据访问进行授权/数据屏蔽。例如:
    • 谁可以访问分类为PII,SENSITIVE的数据。
    • 客户服务用户只能看到分类为NATIONAL_ID的列的最后4位数字。



原创大叔经验分享(99)atlas简介安装(代码片段)

   官方:http://atlas.apache.org/ 一简介元数据管理Atlasisascalableandextensiblesetofcorefoundationalgovernanceservices–enablingenterprisestoeffectivelyandefficientlymeettheircompliancerequirementswithinHadoopandallowsintegrationwiththewholeenterprisedataecosystem... 查看详情

数据治理之元数据管理atlas(代码片段)

数据治理之元数据管理的利器——Atlas一、数据治理与元数据管理1.1背景为什么要做数据治理?业务繁多,数据繁多,业务数据不断迭代。人员流动,文档不全,逻辑不清楚,对于数据很难直观理解,... 查看详情

atlas集成外部组件—集成hivehbasekafka(代码片段)

目录1、集成Hive1.1历史元数据处理2、集成HBase2.1历史元数据导入3、集成Kafka3.1Bug规避3.1.1发现bug3.1.2规避bug3.1.2集成原理与局限性3.1.3历史元数据导入3.1.4准时导入kafka元数据安装好Atlas只是第一步,接下来我们得采集相关大数据... 查看详情

mysql工具atlas的安装使用(代码片段)

目录1、介绍2、安装配置2.1环境准备2.2下载安装Altas2.3处理配置文件2.4启动服务3、读写分离功能测试3.1连接服务3.2只读测试3.3写入测试4、管理功能简介4.1持久化配置文件4.2连接管理服务4.3节点管理4.3.1查看所有节点4.3.2节点的上... 查看详情

atlas——数据治理工具的使用(代码片段)

一、启动Atlas1、启动前置环境启动Hadoop集群启动Zookeeper集群启动Kafka集群启动Hbase集群启动Solr集群2、启动Atlas服务进入atlas的bin目录,命令:cd/home/atlas/atlas/bin执行启动脚本,命令:./atlas_start.py,等待2min访问had... 查看详情

apache-atlas-hbase-bridge-源码分析(代码片段)

元数据类型Hbase元数据类型,包括命令空间、表、列族、列publicenumHBaseDataTypes//ClassesHBASE_NAMESPACE,HBASE_TABLE,HBASE_COLUMN_FAMILY,HBASE_COLUMN;publicStringgetName()returnname().toLowerCase();Hbase元数据采集实现1)批量采集HBas 查看详情

原创大叔经验分享(100)atlas导入hive元数据(代码片段)

首先要有HIVE_HOME环境变量,如果是apache,直接配置为解压目录;如果是CDH,设置如下:#exportHIVE_HOME=/opt/cloudera/parcels/CDH-5.16.1-1.cdh5.16.1.p0.3/lib/hive执行导入#bin/import-hive.sh...FailedtoimportHiveMetaData!!!报错,查看日志#morelogs/import-hive.log20... 查看详情

atlas初体验(代码片段)

介绍最近由于内部需要做sparksql的字段血缘关系,碰巧看到github有人提供了spark的atlas插件,准备调研一下看能否满足需求。介绍:Atlas是Hadoop的数据治理和元数据框架。Atlas是一组可扩展和可扩展的核心基础治理服务&#... 查看详情

mysql的mha之atlas配置,读写分离实现(代码片段)

1.安装Atlas#在主库安装,进入安装包目录[[email protected]-db01~]#cd/home/oldboy/tools/#下载Atlas[[email protected]-db01tools]#wgethttpss://github.com/Qihoo360/Atlas/releases/download/2.2.1/Atlas-2.2.1.el6.x86 查看详情

数据库应用——atlas代理mysql集群实现读写分离(代码片段)

Atlas代理MySQL集群实现读写分离一、Atlas简介和架构1.1环境准备1.2配置时间服务器二、主服务器配置2.1master节点1的配置2.2master节点2的配置2.3主服务器配置完成后的测试三、从服务器配置3.1slave节点1的配置3.1slave节点2的配置3.3从服... 查看详情

数据库读写分离(atlas数据库中间件)(代码片段)

一、atlas简介Mysql的proxy中间件有比较多的工具,例如,mysql-proxy(官方提供),atlas,cobar,mycat,tddl,tinnydbrouter等等。而Atlas是由Qihoo360公司Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目。它在MySQL官方推出... 查看详情

mha+altas读写分离的结合(代码片段)

...上,对其进行了优化,增加了一些新的功能特性。360内部使用Atlas运行的mysql业务,每天承载的读写请求数达几十亿条。下载地址https://github.com/Qihoo360/Atlas/releases注 查看详情

数据治理:atlas搭建启动(代码片段)

目录Atlas搭建启动一、Atlas配置1、移动Atlas编译好的安装包2、修改atlas-env.sh配置文件3、修改atlas-application.properties配置文件二、Atlas启动1、启动HDFS集群2、启动HBASE集群3、启动Kafka集群4、启动Solr集群并创建索引5、启动Atlas6、访问A... 查看详情

atlas读写分离(代码片段)

1.Atals介绍1.简介Atlas是由Qihoo360公司Web平台部基础架构团队开发维护的一个基于MySQL协议的数据中间层项目。它在MySQL官方推出的MySQL-Proxy0.8.2版本的基础上,修改了大量bug,添加了很多功能特性。它在MySQL官方推出的MySQL-Proxy0.8.2版... 查看详情

数据血缘atlasrest-api使用(代码片段)

...来我们的数据血缘,接下来和大家分享一下atlasrest-api使用方法。依赖引入<!--Atlas2.0--><dependency><groupId>org.apache.atlas</groupId><artifactId>atlas-client-v2</artifactId><version>2.0.0</version><exclusions><ex... 查看详情

linux12-mysql数据库-->16数据库的读写分离

文章目录MySQL读写分离一、读写分离简介1.1常见高并发场景1.2读写分离原理1.3读写分离类型二、Atlas读写分离2.1Atlas简介2.2Atlas主要功能2.3Atlas主要架构2.4准备主从环境2.5Atlas安装2.6授权Atlas管理账号2.7修改test配置文件2.8服务管理命... 查看详情

数据库中间件atlas读写分离

...给你生成4个文件夹,以及需要配置的文件进入bin目录,使用encrypt来对数据库的密码进行加密,我的MySQL数据的用户名是gerry,密码是gerrychan,我需要对密码进行加密#./encryptgerrychan//记住加密后的内容##不能加密特殊符号!!配置A... 查看详情

大数据治理系统框架apacheatlas实践

大数据元数据和数据管理框架Apache Atlas实践今天技术小伙伴占卫同学分享了ApacheAtlas元数据管理实践,被atlas的强大的血缘关系管理能力震撼,以下为本次分享内容:•ApacheAtlas简介•ApacheAtlas架构•Titan图数据库介绍... 查看详情