小记--------hbase数据库介绍及存储方式

yzqyxq yzqyxq     2023-05-01     383

关键词:

一、Hbase基本原理

1hbase基本介绍

HBASE是一个分布式的,面向列的开源数据库。Hbase的存储是基于hadoop的。因为Hadoop实现了一个分布式文件系统(HDFS),基于hadoop意味着hbase与生俱来的超强的扩展性和吞吐量,hbase采用的是keyvalue的存储方式。意味着即使随着数据量增大,也几乎不会导致查询的性能下降。

 技术图片

 

 

2、hbase存储方式

hbase将数据按列簇分别存储,而并非简单的列式存储;首先了解几个概念:行式存储、列式存储、列簇式存储。

 

A.行式存储:会将一行数据存储在一起,一行数据写完之后再接着写下一行数据。eg:mysql等关系型数据库;

行式存储在获取一行数据时很高效,但是如果某个查询只需要读取表中指定列对应的数,那么行式存储会先取出一行行的数据,再在每一行数据中截取待查找目标列。因此会导致大量的内存占用

 

B.列式存储:列式存储理论上会将一列数据存储在一起,不同列的数据分别接种存储。eg:kudu 、 parquet on HDFS;

列式存储查找与行式存储,恰恰相反,对于只查找某些列数据的请求非常高效,但是对于获取一行的请求就比较差; 

因为同一列的数据通常都具有相同的数据类型,因此列式存储具有天然的高压缩特性

 

C.列簇式存储:列簇式存储介于行式存储和列式存储之间;如果一张表只设置一个列簇,这个列簇包含所有的列,hbase中一个列簇的数据是存储在一起的,因此这种设计模式就等同于行式存储;如果一张表的每一列都属于一个唯一的列簇,那么就相当于列式存储。

小记--------hbase数据库各组件应用及作用

  zookeeper:主要用于协调管理分布式应用程序; 1.实现master高可用;如果activemaster由于异常宕机,zookeeper会检测到该宕机时间,并通过一定机制选举出新的master2.管理系统核心元数据:当前系统中正常工作的regionserver... 查看详情

hbase基础架构及原理

...sp;1.HBase框架简单介绍HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和BigTable非常相同的数据模型... 查看详情

hbase

1.HBase基本介绍a.介绍Hbase是一个nosql的列式存储的数据库。实际来源于Google发表的论文bigtable。构建在hdfs基础之上。提供高可用,高性能,列储存,可伸缩,实时读写nosql的数据库系统。按照key-value的形式进行数据的存储:rowkey(... 查看详情

impala小记

...个不太适合做SQL查询的缓慢范式通过使用与商用并行关系数据库中类似的分布式查询引擎,可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了 查看详情

hbase超详细介绍

1-HBase的安装HBase是什么?HBase是ApacheHadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右... 查看详情

hbase+springboot实战分布式文件存储

...什么,有哪些优缺点,适用于哪些应用场景,与常用关系数据库有什么不同。并配置安装Hadoop伪分布式集群,HBase伪分布式集群。为后面章节实战测试提供环境支持。第3章HBase原理与实战介绍HBase基础原理,以读写流程为引,结... 查看详情

hbase介绍

Hbase是什么HBase是一个分布式的、面向列的开源数据库,是一个NoSQL数据库,它是基于列的而不是基于行的模式,是一个高可用、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存... 查看详情

从零自学hadoop(20):hbase数据模型相关操作上

阅读目录序介绍命名空间表系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作。文章是哥(mephisto)写的,SourceLink 序   上一篇,我们讲述了HBase的介绍及安装,从列... 查看详情

sparkdataframe写入hbase的常用方式(代码片段)

...何向HBase中写数据就成为很重要的一个环节了。本文将会介绍三种写入的方式,其中一种还在期待中,暂且官网即可...代码在spark2 查看详情

hbase原理介绍

1、HBase简介    HBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建大规模结构化的存储集群。HBase的目标是存储并处理大型数据,具体来说是仅需使用普通的硬件... 查看详情

hbase介绍和工作原理

HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop之上提供... 查看详情

hbase基础介绍

  产生背景自1970年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后,好多公司实现处理大数据并从中受益,并开始选择像Hadoop的解决方案。Hadoop使用分布式文件系统,用于存储大数据,并使... 查看详情

pandas小记:pandas数据结构及基本功能

http://blog.csdn.net/pipisorry/article/details/18010307pandas的数据结构:Series、DataFrame、索引对象pandas基本功能:重新索引,丢弃指定轴上的项,索引、选取和过滤,算术运算和数据对齐,函数应用和映射,排序和排名,带有重复值的轴索... 查看详情

hbase数据原理及基本架构

...处理,不支持数据更新。行存储与列存储:  传统行式数据库:    1.数据是按行存储的    2.没有索引的查询使用大量I/O    3.建立索引和物化视图需要花费大量时间和资源    4.面向查询的需求,数据库必... 查看详情

hbase的应用场景原理及架构分析

...据处理且不支持数据更新。     Hbase是列存储的非关系数据库。传统数据库Mysql等,数据是按行存储的。其没有索引的查询将消耗大量I/O并且建立索引和物化视图需要花费大量时间和资源。因此,为了满足面向查询的需... 查看详情

opentsdb介绍——基于hbase的分布式的,可伸缩的时间序列数据库,而hbase本质是列存储

...翻译过来就是,基于Hbase的分布式的,可伸缩的时间序列数据库。主要 查看详情

hbasejavaapi介绍及使用示例

几个相关类与HBase数据模型之间的对应关系java类HBase数据模型HBaseAdmin数据库(DataBase)HBaseConfigurationHTable表(Table)HTableDescriptor列族(ColumnFamily)Put列修饰符(ColumnQualifier)GetScanner一、HBaseConfiguration关系:org.apache.hadoop.hb 查看详情

hbase的基本介绍

...bigTable,(源代码是Java编写)的开源版本,是ApacheHadoop的数据库,是建立在hdfs之上,被设计用来提供高可靠性,高性能、列存储、可伸缩、多版本,的Nosql的分布式数据存储系统,实现对大型数据的实时,随机的读写请求。更是... 查看详情