多图技术贴:深入浅出解析大数据平台架构

羊大葱      2022-02-08     216

关键词:

目录:

  • 什么是大数据
  • Hadoop介绍-HDFS、MR、Hbase
  • 大数据平台应用举例-腾讯
  • 公司的大数据平台架构

“就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式……”。

大数据的4V特征-来源

公司的“大数据”

随着公司业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。比如:

1、业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G;

2、平均每天产生签约视频文件6000个,每个平均250M,磁盘空间每天消耗1T;

……

三国里的“大数据”

“草船借箭”和大数据有什么关系呢?对天象的观察是基于一种对风、云、温度、湿度、光照和所处节气的综合分析这些数据来源于多元化的“非结构”类型,并且数据量较大,只不过这些数据输入到的不是电脑,而是人脑并最终通过计算分析得出结论。

Google分布式计算的三驾马车

  • Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。
  • Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。
  • BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

Hadoop体系架构

Hadoop核心设计

HDFS介绍-文件读流程

Client向NameNode发起文件读取的请求。
NameNode返回文件存储的DataNode的信息。
Client读取文件信息。
HDFS介绍-文件写流程
Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中。
MapReduce——映射、化简编程模型
输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果

Hbase——分布式数据存储系统

Client:使用HBase RPC机制与HMaster和HRegionServer进行通信

Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

HMaster: 管理用户对表的增删改查操作

HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

HRegion:Hbase中分布式存储的最小单元,可以理解成一个Table

HStore:HBase存储的核心。由MemStore和StoreFile组成。

HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

还有哪些NoSQL产品?

为什么要使用NoSQL?

一个高并发网站的DB进化史

关系模型>聚合数据模型的转换-基本变换

关系模型>聚合数据模型的转换-内嵌变换

关系模型>聚合数据模型的转换-分割变换

关系模型>聚合数据模型的转换-内联变换

Hadoop2.0

MapReduce:
JobTracker:协调作业的运行。
TaskTracker:运行作业划分后的任务。

 

大数据的技术领域

 

 

腾讯大数据现状(资料来自2014.4.11 腾讯分享日大会)

腾讯大数据平台产品架构

腾讯大数据平台与业务平台的关系

公司数据处理平台的基础架构

公司大数据平台架构图

应用一数据分析

应用二视频存储

应用三离线日志分析

 

 

 

 

 

 

 

 

 

 

 

 

 

 

深入解析dc/os1.8–高可靠的微服务及大数据管理平台

...服务及大数据管理平台?大家好,欢迎大家参加这次DC/OS的技术分享。先做个自我介绍,刘超,LinkerNetworks首席架构师,OpenDC/OS社区贡献者,长期专注于OpenStack,Docker,Mesos等开源软件的企业级应用与产品化。从事容器方面工作的朋友... 查看详情

深入解析dc/os1.8–高可靠的微服务及大数据管理平台

...服务及大数据管理平台?大家好,欢迎大家参加这次DC/OS的技术分享。先做个自我介绍,刘超,LinkerNetworks首席架构师,OpenDC/OS社区贡献者,长期专注于OpenStack,Docker,Mesos等开源软件的企业级应用与产品化。从事容器方面工作的朋友... 查看详情

大数据平台架构浅析——以讯飞大数据平台odeon为例(代码片段)

文章目录大数据平台架构解析——以讯飞大数据平台Odeon为例定义功能数据采集数据开发数据分析数据编程补充大数据平台架构解析——以讯飞大数据平台Odeon为例定义Odeon大数据平台以全图形化Web操作的形式为用户提供一站式的... 查看详情

全平台技术架构:后台+人工智能+大数据

1设计全平台技术架构共有三个模块,即:后台、人工智能和大数据。后台:业务层(业务中台),如OA、ERP等;人工智能:智能服务层,如推荐系统、人脸识别等;大数据:基础数据层(数仓、数据中台)。中台:是啥?待详细... 查看详情

数据湖:数据湖技术架构演进

...阶段。        可以把数据湖认为是最新一代大数据技术平台,为了更好地理解数据湖的基本架构ÿ 查看详情

大数据开发-深入理解大数据lambda架构

1.大数据处理的挑战缕一缕it的发展,第一阶段是各大系统各大平台的出现,解决的是线下搬到线上的效率问题,而下一个阶段是数据时代,处理这些各大平台积累的数据,积累的数据,一般比较大,大... 查看详情

数据湖04:数据湖技术架构演进

...阶段。        可以把数据湖认为是最新一代大数据技术平台, 查看详情

大数据技术系列:图解大数据平台开发

导言在前面的文章《「大数据技术体系」学习实践导览》中,概要式的梳理了大数据平台的业务目标,大数据平台的架构框架,大数据平台中常用的技术及工具,数据治理四方面的内容,算是对自身所了解大数据知识体系的抛砖... 查看详情

大数据平台网站日志分析系统

1:项目技术架构图:2:流程图解析,整体流程如下:  ETL即hive查询的sql;  但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同:    1) 数据采集:定制开发采集程序,或... 查看详情

《大数据日知录:架构与算法》读书笔记(多图)

第二次读这本书,这次是精读,画了思维导图。书很好,完整的知识结构和由浅入深的介绍,非常全面以至于知识点都梳理了三天。作为导论式的总览,对大数据领域有了个总体的认识,接下来可以更针对性地加强和实践。总体... 查看详情

大数据技术之kafkakafka概述kafka快速入门kafka架构深入(代码片段)

文章目录1Kafka概述1.1定义1.2消息队列1.2.1传统消息队列的应用场景1.2.2消息队列的两种模式1.3Kafka基础架构2Kafka快速入门2.1安装部署2.2Kafka命令行操作3Kafka架构深入3.1Kafka工作流程及文件存储机制3.2Kafka生产者3.2.1分区策略3.2.2数据... 查看详情

大数据技术之kafkakafka概述kafka快速入门kafka架构深入(代码片段)

文章目录1Kafka概述1.1定义1.2消息队列1.2.1传统消息队列的应用场景1.2.2消息队列的两种模式1.3Kafka基础架构2Kafka快速入门2.1安装部署2.2Kafka命令行操作3Kafka架构深入3.1Kafka工作流程及文件存储机制3.2Kafka生产者3.2.1分区策略3.2.2数据... 查看详情

hadoop学习资料汇总

...文)》《深入理解大数据(大数据处理与编程实践)》《Hadoop技术内幕深入解析HADOOPCOMMON和HDFS架构设计与实现原理》《Hadoop技术内幕深入理解MapReduce架构设计与实现原理》《Hadoop技术内幕:深入解析YARN架构设计与实现原理》以... 查看详情

深入maxcompute理解数据运算和用户的大脑:基于代价的优化器

回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕着Hadoop生态圈的大数... 查看详情

技术干货:sqlonhadoop在快手大数据平台的实践与优化

参考技术A快手大数据架构工程师钟靓近日在A2M人工智能与机器学习创新峰会分享了题为《SQLonHadoop在快手大数据平台的实践与优化》的演讲,主要从SQLonHadoop介绍、快手SQLonHadoop平台概述、SQLonHadoop在快手的使用经验和改进分析、... 查看详情

剖析大数据平台的数据采集

...社区活动中做过一次分享,演讲题目为《大数据平台架构技术选型与场景运用》。在演讲中,我主要分析了大数据平台架构的生态环境,并主要以数据源、数据采集、数据存储与数据处理四个方面展开分析与讲解,并结合具体的... 查看详情

jquery技术内幕:深入解析jquery架构设计与实现原理

jQuery源码(jquery-1.7.1.js)的总体结构:(function(window,undefined){//构造jQuery对象  varjQuery=(function(){      varjQuery=function(selector,context){   &nbs 查看详情

魅族推荐平台架构解析

近线模块该层主要是利用流式处理的技术对用户实时产生的行为日志进行加工,利用一些高效、高性能的算法生产有价值的数据,如处理算法数据召回、实时数据统计等等。 如图,近线模块-流式日志数据传输分为以下几... 查看详情