大数据存储技术了解

FANCYPANDA FANCYPANDA     2023-02-15     676

关键词:

在大数据环境下使用海量的非结构化数据,所以我们常使用HDFS分布式文件系统和NoSQL数据库进行存储

HDFS分布式文件系统

HDFS特点:

  1. 存储数据较大
  2. 支持流式数据访问
  3. 支持多硬件平台
  4. 数据一致性高
  5. 有效预防硬件失效
  6. 支持移动计算

HDFS局限性:

  1. 不适合低延迟的数据访问
  2. 无法高效地存储大量小文件
  3. 不支持多用户写入以及任意修改文件

HDFS的体系结构

NameNode和DataNode
  1. HDFS采用主从结构存储数据,NameNode节点负责集群任务调度,DataNode负责执行任务和存储数据块
  2. NameNode管理文件系统的命名空间,维护整个系统的文件目录树以及这些文件的索引,目录
  3. 从NameNode中可以获取每个文件的每个块存储在DataNode节点的位置,NameNode会在每次启动系统时动态的重建这些信息。客户端通过NameNode获取元数据信息,与DataNode进行交互以访问整个文件系统。
  4. DataNode是文件系统的工作节点,提供客户端和NameNode调用并执行具体任务,存储文件块。
数据块

数据块是磁盘进行数据经读/写操作的最小单位
HDFS使用抽象的数据块的优势:

  1. 通过集群扩展能力可以存储大于网络中的任意一个磁盘容量的任意大小文件
  2. 使用抽象块而非整个文件作为存储单元,可以简化存储子系统,固定的块大小方便元数据和文件数据块内容分开存储
  3. 便于数据备份和数据容错,提高系统的安全性(HDFS默认将文件块副本数设置为3份)
机架感知策略

大规模Hadoop集群节点分布在不同的机架上,HDFS采用机架感知技术来提高数据的可靠性,可用性和网络宽带的利用率
NameNode可以确定每个DataNode所属的机架ID,HDFS会把副本放在不同的机架上
(1)Distance(Rack1/D1 Rack1/D1)=0
(2)Distance(Rack1/D1 Rack1/D3)=2
(3)Distance(Rack1/D1 Rack1/D2)=4
Rack1、Rack2表示机柜标识号,D1、D2、D3表示机柜中的DataNode节点主机的编号
同一主机的两个数据块的距离为0
同一机架不同主机的两个数据块距离为2
不同机架的两个数据块的距离为4

安全模式

安全模式是HDFS所处的一种特殊状态,Data只能读取数据,不能修改、删除数据

文件安全性

HDFS文件数据库的描述信息由NameNode节点上集中管理,一旦NameNode出现故障,集群就无法获取文件块的位置,也就无法通过DataNode上的数据块来重建文件。所以为了保证文件的安全性,HDFS提供备份,NameNode元数据和增加Secondary NameNode节点两种基本方案

NoSQL数据库

键值(Key-Value)存储数据库

这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据。Key/value模型对于IT系统来说的优势在于简单、易部署。但是如果数据库管理员(DBA)只对部分值进行查询或更新的时候,Key/value就显得效率低下了。举例如:Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB。

列存储数据库

这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列。这些列是由列家族来安排的。如:Cassandra, HBase, Riak.

文档性数据库

文档型数据库的灵感是来自于Lotus Notes办公软件的,而且它同第一种键值存储相类似。该类型的数据模型是版本化的文档,半结构化的文档以特定的格式存储,比如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值,在处理网页等复杂数据时,文档型数据库比传统键值数据库的查询效率更高。如:CouchDB, MongoDb. 国内也有文档型数据库SequoiaDB,已经开源。

图(Graph)数据库

图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST式的数据接口或者查询API。如:Neo4J, InfoGrid, Infinite Graph。

分类Examples举例典型应用场景数据模型优点缺点
键值(Key-Value)存储数据库Tokyo Cabinet/Tyrant, Redis, Voldemort, Oracle BDB内容缓存,主要用于处理大量数据的高访问负载,也用于一些日志系统等等。Key 指向 Value 的键值对,通常用hash table来实现查找速度快数据无结构化,通常只被当作字符串或者二进制数据
列存储数据库Cassandra, HBase, Riak分布式的文件系统以列簇式存储,将同一列数据存在一起查找速度快,可扩展性强,更容易进行分布式扩展功能相对局限
文档性数据库CouchDB, MongoDbWeb应用(与Key-Value类似,Value是结构化的,不同的是数据库能够了解Value的内容)Key-Value对应的键值对,Value为结构化数据数据结构要求不严格,表结构可变,不需要像关系型数据库一样需要预先定义表结构查询性能不高,而且缺乏统一的查询语法。
图(Graph)数据库Neo4J, InfoGrid, Infinite Graph社交网络,推荐系统等。专注于构建关系图谱图结构利用图结构相关算法。比如最短路径寻址,N度关系查找等很多时候需要对整个图做计算才能得出需要的信息,而且这种结构不太好做分布式的集群方案。

NoSQL特点:

  • 易扩展性
  • 大数据量,好性能
  • 灵活的数据模型
  • 高可用性

北京国际大数据交易所数据基于分布式存储技术交易系统上线

近日,北京国际大数据交易所(以下简称“北数所”)基于自主知识产权开发的数据交易平台IDeX系统上线。据了解,北数所IDeX系统是国内首家利用综合数据技术、探索数据交易创新模式的新平台,依托在隐私... 查看详情

了解大数据技术原理与应用(复习知识点)

目录①大数据(BigData)与云计算、物联网的相互关系②介绍Hadoop、MapReduce、HDFS和HBase以及其他功能组   件,复习重点以及其他可用点! 一大数据介绍1信息科技为大数据时代提供技术支撑2数据产生方式的变革... 查看详情

3分钟了解时下热门存储技术

  1  对象存储  对象存储拥有丰富的元数据功能,并且随着越来越多的应用往云上迁移,因此对象存储将会成为主流的存储系统。  对象存储优势  对象存储的本质是无状态(stateless)的,因此是移动和云访问的理想选... 查看详情

大数据技术都有哪些

  大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。  大数据处理关键技术一般包括:大数据采集、大数据预... 查看详情

大数据的安全存储采用啥技术?

参考技术A基于云计算架构的大数据,数据的存储和操作都是以服务的形式提供。目前,大数据的安全存储采用虚拟化海量存储技术来存储数据资源,涉及数据传输、隔离、恢复等问题。解决大数据的安全存储,一是数据加密。... 查看详情

spark性能优化案例

主流大数据技术都是开源的:Hadoop大数据存储与计算产品Hive、SparkSQL大数据仓库Storm、Flink这样的大数据流计算产品Mahout、MLlib大数据机器学习算法库如何参与Apache软件开发,如何进行软件性能优化及Spark源码优化:更深入、系统... 查看详情

对于当今最流行的大数据技术al人工智能技术。物联网技术。你了解多少?

参考技术A带你了解大数据及人工智能时代的3项关键技术01云计算 根据美国国家标准与技术研究院(NationalInstitute ofStandardsandTechnology,NIST)的定义,云计算是指能够针对共享的可配置计算资源,按需提供方便的、泛在的... 查看详情

大数据flink进阶:数据架构的演变

数据架构的演变近年来随着越来越多的大数据技术被开源,例如:HDFS、Spark等,伴随这些技术的发展与普及,促使企业数据架构的演进——从传统的关系型数据存储架构逐步演化为分布式处理和存储的架构。我们通过数据架构的... 查看详情

hadoop课程设计

参考技术A1.大数据专业课程有哪些首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。Java:只要了解一些基础即可,做大数据不需要很深的Java技术,学javaSE就相当于有学习大数据。基础L... 查看详情

火热的区块链技术了解一下

...的区块链技术了解一下一、分布式存储分布式存储是一种数据存储技术,通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。分布式账本是一种... 查看详情

一文带你了解大数据技术之hadoop(代码片段)

...概述5.3MapReduce架构概述5.4HDFS、YARN、MapReduce三者关系6.大数据技术生态体系7.推荐系统框架 查看详情

大数据技术学习带来的思考

技术场景大数据技术可分类如下:存储计算资源管理HDFS最基本的存储技术。日常应用把通过各种渠道得到的数据,如关系数据库、日志、埋点、爬虫数据都存储到HDFS,供后续使用。HBaseNoSQL英杰,可划分到存储类... 查看详情

一文带你了解大数据技术之hdfs

大数据技术之Hadoop-HDFS概述1.HDFS产出背景及定义2.HDFS优缺点3.HDFS组成架构4.HDFS文件块大小1.HDFS产出背景及定义1)HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管... 查看详情

大数据如何入门

大数据如何入门首先我们要了解Java语言和Linux操作系统,这两个是学习大数据的基础,学习的顺序不分前后。大数据Java:只要了解一些基础即可,做大数据不需要很深的Java技术,学javaSE就相当于有学习大数据基础。Linux:因为... 查看详情

详解android数据存储技术(代码片段)

前言学习Android相关知识,数据存储是其中的重点之一,如果不了解数据,那么让你跟一款没有数据的应用玩,你能玩多久呢?答案是这和没有手机几乎是差不多的。我们聊QQ,聊微信,看新闻,刷朋友圈等都是看里面的数据,所... 查看详情

大数据存储与应用特点及技术路线分析

大数据存储与应用特点及技术路线分析大数据时代,数据呈爆炸式增长。从存储服务的发展趋势来看,一方面,对数据的存储量的需求越来越大;另参考技术A大数据存储与应用特点及技术路线分析大数据时代,数据呈爆炸式增... 查看详情

一文带你了解大数据技术之mapreduce

...点3.MapReduce核心思想4.MapReduce进程5.官方WordCount源码6.常用数据序列化类型7.MapReduce编程规范8.WordCount案例实操1.MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的 查看详情

大数据分析处理必备工具

大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和展现的有力武器。一、大数据接入 1、大数据接入   已有数据接入... 查看详情