glusterfs分布式文件系统(代码片段)

水木,年華 水木,年華     2022-12-20     663

关键词:

GlusterFS
分布式文件系统,用于存储、管理磁盘文件

文件系统(FS)
文件系统组成
1、文件系统接口
2、对对像管理的软件集合
3、对象及属性
文件系统作用
从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配,负责文件存储并对存入的文件进行保护和检索的系统。
具体地说,它负责为用户建立文件,存入、读出、修改、转储文件,控制文件的存取

文件系统的挂载使用
除根文件系统以外的文件系统创建后要使用需要先挂载至挂载点后才可以被访问,挂载点即分区设备文件关联的某个目录文件
类比:NES

GlusterFS分布式文件系统
用于存储、管理磁盘文件

GFS是由三部分组成(组件)
1、存储服务器
2、客户端
3、NFS/Samba存储网关组成

客户端的定位比较重要
因为他是无元数据服务器的
PS:元数据服务器的作用:存储元数据,帮用户定位文件的位置、索引等信息

有元数据服务器文件系统中,如果元数据损坏,会直接导致文件系统不可用(单点故障-服务器定位)

GFS的架构
C/S架构,客户端主要用于把数据传输过去,服务端主要用于存储
模块化、维栈式的架构
通过对模块的组合,实现复杂的功能

分布式如何定位文件定位索引?
对此,客户端是一个很关键的组件

GFS 提供了一个全局统一命名空间
此命名空间提供了一个API,此API是用户访问GFs服务器中数据的唯一入
弹性卷管理:RAID(基于容错、读写性能等技术)可以在分布式文件系统之上可以使用RAID卷的集中管理
基于标准协议:客户端和存储服务器交互需要借助网络,而相关的网络协议包括TCP/IP协议

GFS 专业术语
brick 存储服务器:实际存储用户数据的服务器

volume 本地文件系统的"分区"

FUSE :用户空间的文件系统(类比EXT4),“这是一个伪文件系统”

以本地文件系统为例,用户想要读写一个文件,会借助于EXT4文件系统,然后把数据写在磁盘上

而如果是远端的GES,客户端的请求则应该交给FUSE(伪文件系统〉,就可以实现跨界点存储在GFS上

FUSE(用户空间的文件系统)伪文件系统用户端的交互模块

VES(虚拟端口):内核态的虚拟文件系统,用户是先提交请求交给VFS 然后VFS交给FUSE再交给GFS客户端,最后由客户端交给远端的存储

小结:使用GFS 会使用到以上的虚拟文件系统

glusterd(服务)是运行在存储节点的进程

客户端运行的是gluster client

整个GFS之间的交互是由Gluster client和glusterd完成的(GFS使用过程)

GLusterFS 模块化 维栈式架构
模块化:
类似linux编译安装
很多功能都可以做定制的,通常都是通过软件开发的方式封装为模块,按需使用/不适用

GlusterFS也是这个思想
把功能封装为一个个模块
通过加载/调用/启用的方式就可以对应的功能

堆栈式架构设计:
通过对模块不同功能的组合来实现复杂功能

VFS:
虚拟的内核文件系统,通过VFS的API接受请求、处理请求(场景:根据请求,加载以下模块)
I/O cache: I/O缓存
read ahead : 内核文件预读
distribute/ stripe: 分布式、条带卷

通过加载以上三个模块,然后联和多个client端,组成所需要的例如:分布式卷、条带卷等

gige:千兆网/千兆接口

TCP/IP :网络协议

InfiniBand
:网络协议,与TCP/IP相比,TCP/IP具有转发丢失数据包的特性,基于此通讯协议可能导致通讯变慢,而IB使用基于信任的、流控制的机制来确保连接完整性,数据包丢失几率小。

RDMA:负责数据传输,有一种数据传输协议,功能:为了解决传输中客户端与服务器端数据处理的延迟

POSIX :可移植操作系统接口,主要解决不同操作系统间的移植性

然后再转换为逻辑存储(EXT4 +BRICK)

以上架构模式可以提高GFS的工作效率

Application:客户端或应用程序通过GlusterFSync的挂载点访问数据

VFS: linux系统内核通过VFS API收到请求并处理

FUSE : VFS将数据递交给FUSE内核文件系统,fuse文件系统则是将数据通过/dev/fuse设备文件递交给了GlusterFS

client端
GlusterFS Client ;通过网络将数据传递全远端的GlusterFs Server,并且写入到服务器存储设备上

read ahead :内核文件预读

Gluster工作流程

工作流程(写):
客户端在本地发出读写请求,然后交由VFS 的API接受请求,接受请求后会交给FUSE(内核伪文件系统),
FUSE可以模拟操作系统,所以可以对文件系统进行转存,转存的设备位置为:/dev/fuse(用于传输的设备-虚拟设备文件)一》交给GFS客户端,client会根据配置文件对数据进行处理,然后再通过TCP/ib/rdma
网络发送到GFS服务端,并且将数据写到服务器存储设备上

在多个后端存储中如何定位文件:
1、使用弹性HASH算法来解决数据定位、索引、寻址的功能
先通过HASH算法对数据可以得到一个值(该值有2的32次方个组合)每个数据对应了0-2的32次方的一个值

(分布式)平均分配的好处:
当数据量越来越大的时候,相对每个存储节点的数据量(几率)是相等的
而如果考虑到单点故障问题,当数据存储在C存储节点,对此GFS是会有备份机制的,默认3备份,所以GES本身的机制会对数据产生冗余,以此解决单点故障


基本卷:

(1)  distribute volume:分布式卷
(2)  stripe volume:条带卷
(3)  replica volume:复制卷

复合卷:

(4)  distribute stripe volume:分布式条带卷
(5 ) distribute replica volume:分布式复制卷
(6)  stripe replica volume:条带复制卷
(7) distribute stripe replicavolume:分布式条带复制卷

弹性HASH算法

通过HASH算法得到一个固定长度的数据(这里是32位整数)
通常情况下,不同数据得到的结果是不同的

为了解决分布式文件数据索引、定位的复杂程度,而使用了HASH算法来辅助

GlusterFS支持七种卷,即分布式卷、条带卷、复制卷、分布式条带卷、分布式复制卷、条带复制卷和分布式条带复制卷

分布式卷(默认):文件通过 HASH 算法分布到所有Brick Server 上
这种卷是Glusterf的基础;以文件为单位根据HASH算法散列到不同的 Brick,其实只是扩大了磁盘空间,如果有一块磁盘损坏,数据也将丢失,属于文件级的 RAID 0,不具有容错能力。

PS:4个文件 2个brick存储服务器3个文件放在第一个brick块中,第四个文件放在第二个brick块中

条带卷(默认)︰类似RAID0,文件被分成数据块并以轮询的方式分布到多个Brick Server上,文件存储以数据块为单位,支持大文件存储,文件越大,读取效率越高。

100个文件  50+50

复制卷(Replica volume):将文件同步到多个 Brick 上,使其具备多个文件副本,属于文件级RAID1,具有容错能力。因为数据分散在多个 Brick 中,所以读性能得到很大提升,但写性能下降。

100m 4个文件2个brick服务器
100 * 4文件存在第一个和第二个brick

分布式条带卷(Distribute Stripe volume ) : Brick Server 数量是条带数(数据块分布的 Brick数量)的倍数,兼具分布式卷和条带卷的特点。

50 * 3      放在一个 brick
50* 1       放在第二个brick
50* 3       放在第三
brick50* 1  放在第四个brick

分布式复制卷(Distribute Replica volume) : Brick Server 数量是镜像数(数据副本数量)的倍数,兼具分布式卷和复制卷的特点

100 * 3     放在一个brick
100 * 1     放在第二个brick
100 * 3     放在第三brick
100 * 1     放在第四个brick

条带复制卷(stripe Replica volume):类似 RAID 10,同时具有条带卷和复制卷的特点

分布式条带复制卷(Distribute stripe Replicavolume):三种基本卷的复合卷,通常用于类Map Reduce应用

部署GlusterFS 群集

Node1节点: node1/192.168.80.1   磁盘:/dev/sdb1   挂载点:/data/sdb1
                                      /dev/sdc1         /data/sdc1
                                      /dev/sdd1        /dev/sdd1
                                      /dev/sde1        /data/sde1
Node2节点:node2/192.168.80.2    磁盘:/dev/sdb1   挂载点:/data/sdb1
                                      /dev/sdc1        /data/sdc1
                                      /dev/sdd1        /dev/sdd1
                                      /dev/sde1        /data/sde1

Node3节点: node3/192.168.80.3   磁盘:/dev/sdb1   挂载点:/data/sdb1
                                      /dev/sdc1        /data/sdc1
                                      /dev/sdd1        /dev/sdd1
                                      /dev/sde1        /data/sde1
Node4节点: node3/192.168.80.4    磁盘:/dev/sdb1   挂载点:/data/sdb1
                                      /dev/sdc1        /data/sdc1
                                      /dev/sdd1        /dev/sdd1
                                      /dev/sde1        /data/sde1

客户端节点:192.168.80.5

----- 准备环境(所有node节点上操作) -----
1.关闭防火墙

systemctl stop firewalld
setenforce 0
ntpdate ntp1.aliyun.com
4台node节点添加磁盘sd[b-e]

2.磁盘分区,并挂载

vim /opt/fdisk.sh
#!/bin/bash
NEWDEV=`ls /dev/sd* | grep -o 'sd[b-z]' | uniq`
for VAR in $NEWDEV
do
   echo -e "n\\np\\n\\n\\n\\nw\\n" | fdisk /dev/$VAR &> /dev/null
   mkfs.xfs /dev/$VAR"1" &> /dev/null
   mkdir -p /data/$VAR"1" &> /dev/null
   echo "/dev/$VAR"1" /data/$VAR"1" glusterfs defaults 0 0" >> /etc/fstab
done
mount -a &> /dev/null
chmod +x /opt/fdisk.sh
cd /opt/
./fdisk.sh

或者

#!/bin/bash
echo "the disks exist list:"
##grep出系统所带磁盘
fdisk -l |grep '磁盘 /dev/sd[a-z]'    
echo "=================================================="
PS3="chose which disk you want to create:"
 ##选择需要创建的磁盘编号
select VAR in `ls /dev/sd*|grep -o 'sd[b-z]'|uniq` quit   
do
    case $VAR in
    sda)
 ##本地磁盘就退出case语句
        fdisk -l /dev/sda   
        break ;;
    sd[b-z])
        #create partitions
        echo "n    ##创建磁盘
                p
                
                
           
                w"  | fdisk /dev/$VAR
 
        #make filesystem
##格式化
        mkfs.xfs -i size=512 /dev/$VAR"1" &> /dev/null    
	#mount the system
        mkdir -p /data/$VAR"1" &> /dev/null
###永久挂载
        echo -e "/dev/$VAR"1" /data/$VAR"1" xfs defaults 0 0\\n" >> /etc/fstab
###使得挂载生效
        mount -a &> /dev/null
        break ;;
    quit)
        break;;
    *)
        echo "wrong disk,please check again";;
    esac
done

3.修改主机名,配置/etc/hosts文件
#以Node1节点为例:

hostnamectl set-hostname node1
su

echo "192.168.80.1 node1" >> /etc/hosts
echo "192.168.80.2 node2" >> /etc/hosts
echo "192.168.80.3 node3" >> /etc/hosts
echo "192.168.80.4 node4" >> /etc/hosts
echo "192.168.80.5 client" >> /etc/hosts

----- 安装、启动GlusterFS(所有node节点上操作) -----
#将gfsrepo 软件上传到/opt目录下

#上传gfsrepo.zip 至/opt

unzip gfsrepo.zip
cd /etc/yum.repos.d/
mkdir repo.bak
mv *.repo repo.bak

分布式文件系统--glusterfs(代码片段)

文章目录一、分布式文件系统1.文件系统1.1组成1.2作用1.3挂载使用2.分布式文件系统--GFS2.1组成2.2专业术语2.3模块化堆栈式架构2.4工作流程2.5基本卷与复合卷二、部署GlusterFS群集1准备环境2配置/etc/hosts文件3安装GlusterFS并启动4时间... 查看详情

glusterfs分布式文件系统(代码片段)

GlusterFS分布式文件系统,用于存储、管理磁盘文件文件系统(FS)文件系统组成1、文件系统接口2、对对像管理的软件集合3、对象及属性文件系统作用从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配... 查看详情

glusterfs-----文件分布系统+集群部署(代码片段)

一、Gluster概述1.1、gluster简介Glusterfs是一个开源的分布式文件系统,是Scale存储的核心,能够处理千数量级的客户端.在传统的解决方案中Glusterfs能够灵活的结合物理的,虚拟的和云资源去体现高可用和企业级的性能存储.Glusterfs通过TCP... 查看详情

glusterfs-----文件分布系统+集群部署(代码片段)

一、Gluster概述1.1、gluster简介Glusterfs是一个开源的分布式文件系统,是Scale存储的核心,能够处理千数量级的客户端.在传统的解决方案中Glusterfs能够灵活的结合物理的,虚拟的和云资源去体现高可用和企业级的性能存储.Glusterfs通过TCP... 查看详情

gfs分布式文件系统(代码片段)

目录一.GlusterFS概述1.GlusterFS简介2.GlusterFS特点3.GlusterFS术语4.模块化堆栈式架构5.GlusterFS的工作流程6.弹性HASH算法7.GlusterFs的卷类型二.部署GlusterFS群集1.准备环境(所有node节点上操作)①添加硬盘,关闭防火墙,修改所有node节... 查看详情

gfs分布式文件系统(代码片段)

...GlusterFS介绍1.1GlusterFS概念1.2GlusterFS特点1.3GlusterFS术语前言分布式文件系统种类有:CEPH分布式文件系统(用的多)GFS(GlusterFS)分布式文件系统M 查看详情

glusterfs分布式文件系统概述(代码片段)

...GlusterFS的工作流程2、弹性HASH算法三、GlusterFS的卷类型1、分布式卷2、条带卷3、复制卷4、分布式条带卷5、分布式复制卷一、GlusterFS概述GlusterFS是一个开源的分布式文件系统,同时也是Scale-Out存储解决方案Gluster的核心,在存储数... 查看详情

详解gfs分布式文件系统(条带卷/复制卷/分布式条带卷/分布式复制卷)(代码片段)

GFS分布式文件系统一.GlusterFS概述1.GlusterFS简介2.GlusterFS特点3.GlusterFS术语4.模块化堆栈式架构5.GlusterFS工作流程6.弹性HASH算法7.GlusterFs的卷类型二.部署GlusterFs群集三.客户端部署与测试测试总结补充:一.GlusterFS概述1.GlusterFS简介... 查看详情

glusterfs分布式文件系统(代码片段)

简介Glusterfs是一个开源的分布式文件系统,是Scale存储的核心,能够处理千数量级的客户端。是整合了许多存储块(server)通过InfinibandRDMA或者 Tcp/Ip方式互联的一个并行的网络文件系统。  特征:容量可以按比例的扩展,... 查看详情

gfs分布式文件系统从入门到实践(代码片段)

GFS分布式文件系统一、GlusterFS概述1.1GlusterFS简介1.2GlusterFS的特点二、GlusterFS术语介绍2.1Brick(存储块)2.2Volume(逻辑卷)2.3FUSE2.4VFS2.5Glusterd(后台管理进程)三、理解GlusterFS工作流程四、理解弹性HASH算法4.1 查看详情

glusterfs:优秀开源分布式存储系统(代码片段)

一、GlusterFS简介1、什么是glusterfsGlusterfs是一个开源分布式文件系统,具有强大的横向扩展能力,可支持数PB存储容量和数千客户端,通过InfinibandRDMA或Tcp/Ip方式将许多廉价的x86主机,通过网络互联成一个并行的网... 查看详情

gfs分布式文件系统(代码片段)

...节点即可②在每个Node节点上查看群集状态3.创建卷①创建分布式卷②创建条带卷③创建复制卷④创建分布式条带卷⑤创建分布式复制卷4.部署Gluster客户端①安装客户端软件②创建挂载目录③配置/etc/hosts文件④挂载Gluster文件系统5... 查看详情

gfs分布式文件系统(相关理论及实验操作详解)(代码片段)

目录一、GlusterFS简介二、GlusterFS特点三、GlusterFS术语四、模块化堆栈式架构五、GlusterFS的工作流程六、弹性HASH算法七、GlusterFs的卷类型八、部署GlusterFS群集1.关闭防火墙2.磁盘分区,并挂载(四个节点都做3.修改主机名... 查看详情

(❤❤❤)gfs分布式文件系统理论+部署(❤❤❤)(代码片段)

...一命名空间④弹性卷管理⑤基于标准协议1.3、MFS(传统的分布式文件系统)1.4、GFS二、GlusterFS术语介绍①Brick(存储块)②Volume(逻辑卷)③FUSE④VFS⑤Glusterd( 查看详情

(❤❤❤)gfs分布式文件系统理论+部署(❤❤❤)(代码片段)

...一命名空间④弹性卷管理⑤基于标准协议1.3、MFS(传统的分布式文件系统)1.4、GFS二、GlusterFS术语介绍①Brick(存储块)②Volume(逻辑卷)③FUSE④VFS⑤Glusterd( 查看详情

glusterfs存储结构原理介绍(代码片段)

分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源并不直接与本地节点相连,而是分布于计算网络中的一个或者多个节点的计算机上。目前意义上的分布式文件系统大多都是由多个节点计算机... 查看详情

glusterfs(代码片段)

分布式存储已经研究很多年,但直到近年来,伴随着谷歌、亚马逊和阿里等互联网公司云计算和大数据应用的兴起,它才大规模应用到工程实践中。如谷歌的分布式文件系统GFS、分布式表格系统googleBigtable,亚马逊的对象存储AWS... 查看详情

gfs分布式文件系统(代码片段)

GFS分布式文件系统一、概述二、特点1.扩展性和高性能2.高可用性3.全局统一命名空间4.弹性卷管理5.基于标准协议三、GlusterFS术语四、GlusterFS的模块化堆栈式架构五、GlusterFS的工作流程六、后端存储定位文件的方法(HASH算法&#... 查看详情