一文看懂大数据生态圈完整知识体系大数据技术及架构图解实战派

470438000 470438000     2022-11-30     714

关键词:

一文看懂大数据生态圈完整知识体系



徐葳



随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈完整知识体系。

目前大数据生态圈中的核心技术总结下来如图1所示,分为以下9类,下面分别介绍。

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_大数据

图1


一、数据采集技术框架

数据采集也被称为数据同步。随着互联网、移动互联网、物联网等技术的兴起,产生了海量数据。这些数据散落在各个地方,我们需要将这些数据融合到一起,然后从这些海量数据中计算出一些有价值的内容。此时第一步需要做的是把数据采集过来。数据采集是大数据的基础,没有数据采集,何谈大数据!

数据采集技术框架包括以几种。

  • Flume、Logstash和FileBeat常用于日志数据实时监控采集,它们之间的细节区别见表1;
  • Sqoop和Datax常用于关系型数据库离线数据采集,它们之间的细节区别见表2;
  • Cannal和Maxwell常用于关系型数据库实时数据采集,它们之间的细节区别见表3。

表1

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_02


表2

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_技术框架_03




表3

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_大数据_04


Flume、Logstash和FileBeat的技术选型依据如图2所示

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_05

图2

Sqoop和Datax之间的技术选型依据如图3所示。

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_06

图3


Cannal和Maxwell之间的技术选型依据如图4所示

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_07

图4

二、数据存储技术框架

数据的快速增长推动了技术的发展,涌现出了一批优秀的、支持分布式的存储系统。

数据存储技术框架包括HDFS、HBase、Kudu、Kafka等。

  • HDFS它可以解决海量数据存储的问题,但是其最大的缺点是不支持单条数据的修改操作,因为它毕竟不是数据库。
  • HBase是一个基于HDFS的分布式NoSQL数据库。这意味着,HBase可以利用HDFS的海量数据存储能力,并支持修改操作。但HBase并不是关系型数据库,所以它无法支持传统的SQL语法。
  • Kudu是介于HDFS和HBase之间的技术组件,既支持数据修改,也支持基于SQL的数据分析功能;目前Kudu的定位比较尴尬,属于一个折中的方案,在实际工作中应用有限。
  • Kafka常用于海量数据的临时缓冲存储,对外提供高吞吐量的读写能力。

三、分布式资源管理框架

在传统的IT领域中,企业的服务器资源(内存、CPU等)是有限的,也是固定的。但是,服务器的应用场景却是灵活多变的。例如,今天临时上线了一个系统,需要占用几台服务器;过了几天,需要把这个系统下线,把这几台服务器清理出来。

在大数据时代到来之前,服务器资源的变更对应的是系统的上线和下线,这些变动是有限的。随着大数据时代的到来,临时任务的需求量大增,这些任务往往需要大量的服务器资源。如果此时还依赖运维人员人工对接服务器资源的变更,显然是不现实的。因此,分布式资源管理系统应运而生,常见的包括YARN、Kubernetes和Mesos,它们的典型应用领域如图5所示。


图5

四、数据计算技术框架

数据计算分为离线数据计算和实时数据计算。

(1)离线数据计算。

大数据中的离线数据计算引擎经过十几年的发展,到目前为止主要发生了3次大的变更。

  • MapReduce可以称得上是大数据行业的第一代离线数据计算引擎,主要用于解决大规模数据集的分布式并行计算。MapReduce计算引擎的核心思想是,将计算逻辑抽象成Map和Reduce两个阶段进行处理。
  • Tez计算引擎在大数据技术生态圈中的存在感较弱,实际工作中很少会单独使用Tez去开发计算程序。
  • Spark最大的特点就是内存计算:任务执行阶段的中间结果全部被放在内存中,不需要读写磁盘,极大地提高了数据的计算性能。Spark提供了大量高阶函数(也可以称之为算子),可以实现各种复杂逻辑的迭代计算,非常适合应用在海量数据的快速且复杂计算需求中。

(2)实时数据计算。

业内最典型的实时数据计算场景是天猫“双十一”的数据大屏。数据大屏中展现的成交总金额、订单总量等数据指标,都是实时计算出来的。用户购买商品后,商品的金额就会被实时增加到数据大屏中的成交总金额中。

  • Storm主要用于实现实时数据分布式计算;
  • Flink属于新一代实时数据分布式计算引擎,其计算性能和生态圈都优于Storm。
  • Spark中的SparkStreaming组件也可以提供基于秒级别的实时数据分布式计算功能。

他和Storm、Flink之间的区别见表4。

表4

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_大数据_08


Storm、Spark、Flink 之间的技术选型依据如图6所示。

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_09

图6

因此,目前企业中离线计算主要使用Spark,实时计算主要使用Flink。


五、数据分析技术框架

包括Hive、Impala、Kylin、Clickhouse、Druid、Drois等,它们的典型应用场景如图7所示。

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_技术框架_10

图7

Hive、Impala和Kylin属于典型的离线OLAP数据分析引擎,主要应用在离线数据分析领域,它们之间的区别见表5。

  • Hive的执行效率一般,但是稳定性极高;
  • Impala基于内存可以提供优秀的执行效率,但是稳定性一般;
  • Kylin通过预计算可以提供PB级别数据毫秒级响应。

表5

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_11


Clickhouse、Druid和Drois属于典型的实时OLAP数据分析引擎,主要应用在实时数据分析领域,它们之间的区别见表6。

  • Druid和Doris是可以支持高并发的,ClickHouse的并发能力有限;Druid中的SQL支持是有限的,ClickHouse支持非标准SQL,Doris支持标准SQL,对SQL支持比较好。
  • 目前Druid和ClickHouse的成熟程度相对比较高,Doris处于快速发展阶段。

表6


六、任务调度技术框架

包括Azkaban、Ooize、DolphinScheduler等。它们适用于普通定时执行的例行化任务,以及包含复杂依赖关系的多级任务进行调度,支持分布式,保证调度系统的性能和稳定性,它们之间的区别见表7,它们之前的技术选型依据如图8所示。

表7

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_12

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_技术框架_13

图8

七、大数据底层基础技术框架

大数据底层基础技术框架主要是指Zookeeper。Zookeepe主要提供常用的基础功能(例如:命名空间、配置服务等),大数据生态圈中的Hadoop(HA)、HBase、Kafka等技术组件的运行都会用到Zookeeper。

八、数据检索技术框架

随着企业中数据的逐步积累,针对海量数据的统计分析需求会变得越来越多样化:不仅要进行分析,还要实现多条件快速复杂查询。例如,电商网站中的商品搜索功能,以及各种搜索引擎中的信息检索功能,这些功能都属于多条件快速复杂查询的范畴。

在选择全文检索引擎工具时,可以从易用性、扩展性、稳定性、集群运维难度、项目集成程度、社区活跃度这几个方面进行对比。Lucene、Solr和Elasticsearch的对比见表8。

表8


九、大数据集群安装管理框架

企业如果想从传统的数据处理转型到大数据处理,首先要做就是搭建一个稳定可靠的大数据平台。

一个完整的大数据平台需要包含数据采集、数据存储、数据计算、数据分析、集群监控等功能,这就意味着其中需要包含Flume、Kafka、Haodop、Hive、HBase、Spark、Flink等组件,这些组件需要部署到上百台甚至上千台机器中。

如果依靠运维人员单独安装每一个组件,则工作量比较大,而且需要考虑版本之间的匹配问题及各种冲突问题,并且后期集群维护工作也会给运维人员造成很大的压力。

于是,国外一些厂商就对大数据中的组件进行了封装,提供了一体化的大数据平台,利用它可以快速安装大数据组件。目前业内最常见的是包括CDH、HDP、CDP等。

  • HDP:全称是 Hortonworks Data Platform。它由 Hortonworks 公司基于 Apache Hadoop 进行了封装,借助于 Ambari 工具提供界面化安装和管理,并且集成了大数据中的常见组件, 可以提供一站式集群管理。HDP 属于开源版免费大数据平台,没有提供商业化服务;
  • CDH:全称是 Cloudera Distribution Including Apache Hadoop。它由 Cloudera 公司基于 Apache Hadoop 进行了商业化,借助于 Cloudera Manager 工具提供界面化安装和管理,并且集成了大数据中的常见组件,可以提供一站式集群管理。CDH 属于商业化收费大 数据平台,默认可以试用 30 天。之后,如果想继续使用高级功能及商业化服务,则需要付费购买授权,如果只使用基础功能,则可以继续免费使用;
  • CDP:Cloudera 公司在 2018 年 10 月份收购了 Hortonworks,之后推出了新一代的大数据平台产品 CDP(Cloudera Data Center)。CDP 的版本号延续了之前 CDH 的版本号。从 7.0 版本开始, CDP 支持 Private Cloud(私有云)和 Hybrid Cloud(混合云)。 CDP 将 HDP 和 CDH 中比较优秀的组件进行了整合,并且增加了一些新的组件。

三者的关系如图9所示。

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_技术框架_14

图9




以上内容出自于《大数据技术及架构图解实战派》一书。

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_技术框架_15

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_16

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_大数据_17

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_大数据_18

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_数据_19

目前本书已在京东平台上架,欢迎选购。

直达链接:https://item.jd.com/13264403.html

 

一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】_大数据_20







一文看懂大数据量表如何优化(代码片段)

1、造数准备1、线程池造数数据库脚本:CREATETABLE`t_user`(`id`int(11)NOTNULLAUTO_INCREMENTCOMMENT'主键ID',`username`varchar(100)DEFAULTNULLCOMMENT'姓名',`sex`varchar(2) 查看详情

大数据开发基础入门与项目实战hadoop核心及生态圈技术栈之1.hadoop简介及apachehadoop完全分布式集群搭建(代码片段)

文章目录前言1.大数据简介(1)知识体系(2)大数据定义及应用场景(3)大数据发展趋势及从业人员发展路线2.Hadoop简介3.Hadoop的重要组成4.ApacheHadoop完全分布式集群搭建(1)虚拟机环境准备(... 查看详情

写给初学者,一文搞懂大数据学习岗位面试及简历(代码片段)

最近有公众号读者私聊我时发现有不少应届生和初学者,他们在大数据怎么学,以及大数据怎么面试,简历怎么写等方面有很大的困扰,今天我们就来谈谈关于大数据的一些事。写在前面:每个人的学习方法... 查看详情

写给初学者,一文搞懂大数据学习岗位面试及简历(代码片段)

最近有公众号读者私聊我时发现有不少应届生和初学者,他们在大数据怎么学,以及大数据怎么面试,简历怎么写等方面有很大的困扰,今天我们就来谈谈关于大数据的一些事。写在前面:每个人的学习方法... 查看详情

鸿蒙系统全面解析,诞生背景、技术细节生态圈一文看懂智东西内参

参考技术A华为6月2日正式发布的鸿蒙系统无疑占据了最近热点话题的C位,虽然不全是赞美的声音,但这种努力打破美国垄断,挑战谷歌、苹果在移动操作系统上垄断地位的尝试必将成为中国科技史上的里程碑事件。本期的智能... 查看详情

一文带你了解大数据技术之hadoop(代码片段)

Hadoop概述1.Hadoop是什么2.Hadoop发展历史3.Hadoop三大发行版本3.1ApacheHadoop3.2ClouderaHadoop3.3HortonworksHadoop4.Hadoop优势5.Hadoop组成5.1HDFS架构概述5.2YARN架构概述5.3MapReduce架构概述5.4HDFS、YARN、MapReduce三者关系6.大数据技术生态体系7.推荐系统... 查看详情

架构漫谈-数据治理核心思路及解决方案探讨

文章目录Pre背景和挑战数据治理的框架和核心内容数据战略组织管理制度体系流程管理绩效管理标准体系质量体系安全体系平台工具人工智能是大数据治理核心方向小结Pre数据治理是企业大数据基础,企业级数据平台助力企业数... 查看详情

大数据技术系列:图解大数据平台开发

导言在前面的文章《「大数据技术体系」学习实践导览》中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据知识体系的抛砖... 查看详情

一文看懂阿里京东滴滴大数据架构变迁

相关阅读:2T架构师学习资料干货分享01大数据技术变迁概述大数据的概念从上世纪90年代被提出,03-06年Google的3篇经典论文(GFS、MapReduce、Bigtable)作为奠基,Hadoop等优秀系统的出现使之繁荣,经历了十余... 查看详情

hadoop——hadoop优势组成大数据技术生态体系系统框架图

...述1.5.3MapReduce架构概述1.5.4HDFS、YARN、MapReduce三者关系1.6大数据技术生态体系1.7推荐系统框架图1.4Hadoop优势(4高)1)高可靠性 查看详情

大数据生态圈如何入门?

大数据平台架构大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质... 查看详情

大数据生态圈如何入门?

大数据平台架构大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质... 查看详情

3分钟:一文看懂dama国内认证(cdga/cdgp)

最近数据圈内火起来了一阵风,那就是DAMA认证,好多小伙伴都咨询我。想了想,就索性将国内体系的CDGA和CDGP的考试信息全部整理出来了,供大家了解参考哈~~如果有考过的小伙伴也欢迎分享一下备考经验哈~~关于... 查看详情

大数据学习之hadoop生态圈(代码片段)

...6、Hadoop的优点及缺点7、Hadoop组成前言上篇文章讲述了大数据的发展及历程,这篇文章就带大家进入大数据的技术应用,以下文章观点或描述如有错误,请指正!!1、什么是hadoop广义&#x 查看详情

date16

数据预处理技术在地学大数据中应用(知网)数据预处理技术在地学大数据中应用:成矿规律、智能矿床模型、壳幔对流模型、岩石构造环境判别、矿物生态系统、地学本体及语义网等地质数据不仅数量巨大,数据类型多样,同时还... 查看详情

一文看懂ai芯片竞争五大维度

下一波大趋势和大红利从互联网+让位于人工智能+,已成业界共识。在AI的数据、算法和芯片之三剑客中,考虑到AI算法开源的发展趋势,数据与芯片将占据越来越重要的地位,而作为AI发展支柱的芯片更是AI业的竞争“核心&rdq... 查看详情

从概念到底层技术,一文看懂区块链架构设计(附知识图谱)

[转自]http://www.8btc.com/ebook-blockchain前言 区块链作为一种架构设计的实现,与基础语言或平台等差别较大。区块链是加密货币背后的技术,是当下与VR虚拟现实等比肩的热门技术之一,本身不是新技术,类似Ajax࿰... 查看详情

hadoop简介和体系架构

...度系统YARN2. 2. 4 三大发行版本2.1Hadoop简介自从大数据的概念被提出后,出现了很多相关技术,其中对大数据发展最有影响力的就是开源分布式计算平台Hadoop,它就像软件发展史上的Window、Linux、Java一样,它... 查看详情