大数据架构设计与数据计算流程

李景琰 李景琰     2023-04-06     262

关键词:

大数据架构设计

Hadoop有3个核心组件:分布式文件系统HDFS;分布式运算编程框架MapReduce;分布式资源调度平台YARN。

HBase,Hadoop dataBase,基于HDFS的NoSQL数据库,面向列式的内存存储,定期将内存数据刷新到磁盘(刷盘)。使用LSM树结构存储结构。不支持SQL、没有表关系、无法join操作,不支持事务(仅支持行级事务)、不支持回滚。MySQL4张表在HBase对应1个表、4个列。

离线计算数据流程

实时计算数据流程

专业术语

OLTP,联机事务处理,Online Transaction Processing。

OLAP,联机实时分析,Online Analytical Processing。

HTAP,混合事务和分析处理,Hybrid Transaction & Analytical Processing。

MPP,大规模并行处理,Massively Parallel Processing。

数据仓库与分层

ODS 数据接入层:所有的数据首先接入ODS层,数据复杂多样,粒度最粗。

DIM 维表层:根据维度及其属性将数据平台上构建的物理化的表,采用宽表设计的原则。

DWD 数据仓库层:经过ODS清洗、处理后的一致性、准确的、干净的数据。

DWS 数据集市层:该层数据是面向主题来组织的轻度汇总级的数据。

DWT 数据应用层: 为了满足具体的分析需求而构建的高度汇总的数据。

ADS 层:为各种报表提供数据。

大数据组件

存储框架

HBase、TiDB、ClickHouse、InfluxDB(时序数据库)、GraphQL、Elasticsearch、Apache Doris等。

数据同步转换组件

Sqoop、canal、DataX、maxwell、Debezium、Flink-CDC、Kettle、StreamSets。

离线批量计算分析引擎

MapReduce、Yarn、Hive、Spark。(Hive无物理存储功能、逻辑表,定义元数据)

实时流式计算引擎

Flink、Storm、Spark Streaming。

存储层

HDFS、Apache Ozone、S3、OSS、Ceph、GlusterFS。

数据湖

Apache Hudi、Apache Iceberg、Delta Lake。

任务调度工具

Azkaban、Airflow、Oozie、Dolphin、Scheduler。

ETL数据抽取工具

Kettle、StreamSets、Apache NiFi、Airbyte。

Hodoop集群管理工具、大数据运维

Ambari、CDH(Cloudera版本)、HDP(Hortonwork版)、CDP(Cloudera和Hortonwork合并版本,收费)、USDP(国产UCloud版)、CRH(基于Apache Ambari+Apache BigTop)、TDH(星环收费闭源)。

微服务架构图

...据目前产品存在的问题,针对快速开发、海量用户、大量数据、低延迟等互联网应用的实际需要,通过对业务架构、系统架构、基础架构、技术架构进行设计,彻底解决系统解耦、性能低下等问题,而且支持云计算部署,可以满足高... 查看详情

计算机软件架构发展历史

...原因:集群软件架构演进过程单体架构初步设计Web服务与数据库分开本地缓存和分布式缓存反向代理与负载均衡设计数据库读写分离设计数据库按业务进行分库大表拆分为小表LVS或F5让多个Nginx负载均衡DNS轮询实现机房的负载均衡... 查看详情

大数据专业主要学啥?

大数据技术专业属于交叉学科:以统计学、数学、计算机为三大支撑性学科;生物、医学、环境科学、经济学、社会学、管理学为应用拓展性学科。此外还需学习数据采集、分析、处理软件,学习数学建模软件及计算机编程语言... 查看详情

准备与大数据相关的设计和架构问题的最佳方法[关闭]

】准备与大数据相关的设计和架构问题的最佳方法[关闭]【英文标题】:BestwaytoprepareforDesignandArchitecturequestionsrelatedtobigdata[closed]【发布时间】:2012-08-1119:00:58【问题描述】:最近,我参加了一家公司的现场面试,并被问到与大数... 查看详情

大数据架构选型与设计

大数据架构选型与设计1.1 如何构建大数据平台?1.1.1 数据库与ER建模1.1.1.1 数据库(DataBase)数据库是按照数据结构来组织、存储和管理数据的仓库,是一个长期存储在计算机内的、有组织的、可共享的、统一管... 查看详情

大数据生态圈如何入门?

大数据平台架构大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质... 查看详情

大数据生态圈如何入门?

大数据平台架构大数据技术已经被应用到各行各业,涉及人们生活的方方面面。大数据技术大大提高了数据存储和计算能力,从而为企业快速决策提供了数据支撑,能够助力企业改进业务流程、控制成本、提高产品质... 查看详情

大数据中台架构以及建设全流程一(paas层设计)(代码片段)

...ouderaManagerCloud自研+开源组件 日志采集 调度平台实时数据Sql查询平台设计背景        当企业发展到一定规模时候有了不同的业务线以及数据规模,因为业务的快速发展。这个时候一些数据问题就会出现。    问题... 查看详情

企业架构设计实战大数据架构最佳实践

数据架构概述什么是数据?一个企业的数字化核心是数据,数据化的价值依赖于数据的标准和质量,数据对一个企业来说至关重要,它也是整个信息化建设及企业架构的核心。数据具有多样性,有结构化的、非结构化的,与业务... 查看详情

mybatis的架构原理与6大核心流程

...batis架构设计我们把Mybatis的功能架构分为三层:API接口层数据处理层基础支撑层  接口层接口层:主要就是和数据库交互,提供给外部使用的接口API,开发人员通过这些本地API来操纵数据库,接口层一接收到调用请求就会... 查看详情

大数据开发这么学习?

分享大数据学习路线:第一阶段为JAVASE+MYSQL+JDBC主要学习一些Java语言的概念,如字符、bai流程控制、面向对象、进程线程、枚举反射等,学习MySQL数据库的安装卸载及相关操作,学习JDBC的实现原理以及Linux基础知识,是大数据刚... 查看详情

分享《深度学习与计算机视觉算法原理框架应用》《大数据架构详解从数据获取到深度学习》pdf数据集

...算机视觉算法原理、框架应用》PDF,带书签,347页。《大数据架构详解:从数据获取到深度学习》PDF,带书签,373页。配套源代码。《深度学习与计算机视觉算法原理、框架应用》全书共13章,分为2篇,第1篇基础知识, 查看详情

分享《深度学习与计算机视觉算法原理框架应用》pdf《大数据架构详解从数据获取到深度学习》pdf+数据集

...算机视觉算法原理、框架应用》PDF,带书签,347页。《大数据架构详解:从数据获取到深度学习》PDF,带书签,373页。配套源代码。《深度学习与计算机视觉算法原理、框架应用》全书共13章,分为 查看详情

企业架构设计实战大数据架构设计(代码片段)

数据架构概述什么是数据?一个企业的数字化核心是数据,数据化的价值依赖于数据的标准和质量,数据对一个企业来说至关重要,它也是整个信息化建设及企业架构的核心。数据具有多样性,有结构化的、... 查看详情

企业架构设计实战5大数据架构设计(代码片段)

数据架构概述什么是数据?一个企业的数字化核心是数据,数据化的价值依赖于数据的标准和质量,数据对一个企业来说至关重要,它也是整个信息化建设及企业架构的核心。数据具有多样性,有结构化的、... 查看详情

大数据,轻松应对海量数据存储与分析所带来的挑战

...、Hbase4.1Hbase4.1.1Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案4.1.2Hbase的列式存储4.1.3Hbase的核心概念4.2Hbase核心架构4.3Hbase写入流程4.4Hbase写入时触发MemStore刷盘的场景4.5Hbase与Cassandra的区... 查看详情

大数据,轻松应对海量数据存储与分析所带来的挑战

...、Hbase4.1Hbase4.1.1Hbase是一个通过大量廉价的机器解决海量数据的高速存储和读取的分布式数据库解决方案4.1.2Hbase的列式存储4.1.3Hbase的核心概念4.2Hbase核心架构4.3Hbase写入流程4.4Hbase写入时触发MemStore刷盘的场景4.5Hbase与Cassandra的区... 查看详情

如何进入大数据领域,学习路线是啥?

分享大数据学习路线:第一阶段为JAVASE+MYSQL+JDBC主要学习一些Java语言的概念,如字符、bai流程控制、面向对象、进程线程、枚举反射等,学习MySQL数据库的安装卸载及相关操作,学习JDBC的实现原理以及Linux基础知识,是大数据刚... 查看详情