分布式文件系统

大数据和人工智能躺过的坑 大数据和人工智能躺过的坑     2022-08-02     791

关键词:

 

  不多说,直接上干货!

 

 ===============>

  数据量越来越多,在一个操作系统管辖的范围存下不了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。形象化比喻,如百度网盘、360云盘。

 

 

 

       常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。

 

Google学术论文,这是众多分布式文件系统的起源

==================================

Google File System(大规模分散文件系统)

MapReduce (大规模分散FrameWork)

BigTable(大规模分散数据库)

Chubby(分散锁服务)

一般你搜索Google_三大论文中文版(Bigtable、 GFS、 Google MapReduce)就有了。

做个中文版下载源:http://dl.iteye.com/topics/download/38db9a29-3e17-3dce-bc93-df9286081126

做个原版地址链接:

http://labs.google.com/papers/gfs.html

http://labs.google.com/papers/bigtable.html

http://labs.google.com/papers/mapreduce.html

 

 

GFS(Google File System)

--------------------------------------

  Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。。尽管Google公布了该系统的一些技术细节,但Google并没有将该系统的软件部分作为开源软件发布。

 

 

下面分布式文件系统都是类 GFS的产品

HDFS

--------------------------------------

  Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch,后者是一个开源的网络搜索引擎,本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用,是Google开创其帝国的重要基石。

 

 

Ceph

---------------------------------------

  是加州大学圣克鲁兹分校的Sage weil攻读博士时开发的分布式文件系统。并使用Ceph完成了他的论文。

说 ceph 性能最高,C++编写的代码,支持Fuse,并且没有单点故障依赖, 于是下载安装, 由于 ceph 使用 btrfs 文件系统, 而btrfs 文件系统需要 Linux 2.6.34 以上的内核才支持。

可是ceph太不成熟了,它基于的btrfs本身就不成熟,它的官方网站上也明确指出不要把ceph用在生产环境中。

 

 

Lustre

---------------------------------------

  Lustre是一个大规模的、安全可靠的,具备高可用性的集群文件系统,它是由SUN公司开发和维护的。

该项目主要的目的就是开发下一代的集群文件系统,可以支持超过10000个节点,数以PB的数据量存储系统。

目前Lustre已经运用在一些领域,例如HP SFS产品等。

适合存储小文件、图片的分布文件系统研究

====================================

用于图片等小文件大规模存储的分布式文件系统调研

架构高性能海量图片服务器的技术要素

nginx性能改进一例(图片全部存入google的leveldb)

FastDFS分布文件系统

 

TFS(Taobao File System)安装方法

动态生成图片 Nginx + GraphicsMagick

 

 

MogileFS

---------------------------------------

  由memcahed的开发公司danga一款perl开发的产品,目前国内使用mogielFS的有图片托管网站yupoo等。

MogileFS是一套高效的文件自动备份组件,由Six Apart开发,广泛应用在包括LiveJournal等web2.0站点上。

  MogileFS由3个部分组成:

  第1个部分是server端,包括mogilefsd和mogstored两个程序。前者即是 mogilefsd的tracker,它将一些全局信息保存在数据库里,例如站点domain,class,host等。后者即是存储节点(store node),它其实是个HTTP Daemon,默认侦听在7500端口,接受客户端的文件备份请求。在安装完后,要运行mogadm工具将所有的store node注册到mogilefsd的数据库里,mogilefsd会对这些节点进行管理和监控。

  第2个部分是utils(工具集),主要是MogileFS的一些管理工具,例如mogadm等。

  第3个部分是客户端API,目前只有Perl API(MogileFS.pm)、PHP,用这个模块可以编写客户端程序,实现文件的备份管理功能。

 

 

mooseFS

---------------------------------------

  持FUSE,相对比较轻量级,对master服务器有单点依赖,用perl编写,性能相对较差,国内用的人比较多

MooseFS与MogileFS的性能测试对比

 

 

FastDFS

---------------------------------------

  是一款类似Google FS的开源分布式文件系统,是纯C语言开发的。

FastDFS是一个开源的轻量级分布式文件系统,它对文件进行管理,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容

量存储和负载均衡的问题。特别适合以文件为载体的在线服务,如相册网站、视频网站等等。

官方论坛  http://bbs.chinaunix.net/forum-240-1.html

FastDfs google Code     http://code.google.com/p/fastdfs/

分布式文件系统FastDFS架构剖析   http://www.programmer.com.cn/4380/

 

TFS

-------------------------------------

  TFS(Taobao !FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器 集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需求,被广泛地应用 在淘宝各项应用中。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构,可将文件名映射到文件的物理地址,简化 了文件的访问流程,一定程度上为TFS提供了良好的读写性能。

官网 : http://code.taobao.org/p/tfs/wiki/index/

 

 

GridFS文件系统

-------------------------------------

  MongoDB是一种知名的NoSql数据库,GridFS是MongoDB的一个内置功能,它提供一组文件操作的API以利用MongoDB存储文件,GridFS的基本原理是将文件保存在两个Collection中,一个保存文件索引,一个保存文件内容,文件内容按一定大小分成若干块,每一块存在一个Document中,这种方法不仅提供了文件存储,还提供了对文件相关的一些附加属性(比如MD5值,文件名等等)的存储。文件在GridFS中会按4MB为单位进行分块存储。

MongoDB GridFS 数据读取效率 benchmark

http://blog.nosqlfan.com/html/730.html

nginx + gridfs 实现图片的分布式存储  安装(一年后出问题了)

http://www.cnblogs.com/zhangmiao-chp/archive/2011/05/05/2038285.html

基于MongoDB GridFS的图片存储

http://liut.cc/blog/2010/12/about-imsto_my-first-open-source-project.html

nginx+mongodb-gridfs+squid

http://1008305.blog.51cto.com/998305/885340

 

 

 

 

 

 

 

 

 

欢迎大家,加入我的微信公众号:大数据躺过的坑        人工智能躺过的坑
 
 
 

同时,大家可以关注我的个人博客

   http://www.cnblogs.com/zlslch/   和     http://www.cnblogs.com/lchzls/      http://www.cnblogs.com/sunnyDream/   

   详情请见:http://www.cnblogs.com/zlslch/p/7473861.html

 

  人生苦短,我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神,汇聚于互联网和个人学习工作的精华干货知识,一切来于互联网,反馈回互联网。
  目前研究领域:大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。 语言涉及:Java、Scala、Python、Shell、Linux等 。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。 只要你一直关注和呆在群里,每天必须有收获

 

      对应本平台的讨论和答疑QQ群:大数据和人工智能躺过的坑(总群)(161156071) 

 

 

 

 

 

 

 

 

 

 

 

 

 

分布式文件系统-glusterfs

1.1分布式文件系统1.1.1什么是分布式文件系统  相对于本机端的文件系统而言,分布式文件系统(英语:Distributedfilesystem, DFS),或是网络文件系统(英语:NetworkFileSystem),是一种允许文件通过网络在多台主机上分享的文... 查看详情

分布式文件系统

  常见的分布式文件系统有,GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。 Google学术论文,这是众多分布式文件系... 查看详情

分布式文件系统

1.分布式文件系统概述分布式文件系统是一种通过网络实现文件在多台主机上进行分布式存储的文件系统。普通的文件系统只需要单个计算机节点就可以完成文件的存储和处理,而分布式文件系统把文件分成一定量的数据块,分... 查看详情

常见分布式文件系统

常见的分布式文件系统有,GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。Google学术论文,这是众多分布式文件系统的起源=... 查看详情

分布式文件系统介绍

常见的分布式文件系统有,GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。Google学术论文,这是众多分布式文件系统的起源=... 查看详情

搭建mfs分布式文件系统(代码片段)

MFS分布式文件系统 MFS是一种半分布式文件系统,它是由波兰人开发的。MFS文件系统能够实现RAID的功能,不但能够更节约存储成本,而且不比专业的存储系统差,它还可以实现在线扩展。 分布式文件系统是指文件系统管理的... 查看详情

fastdfs分布式文件系统搭建部署

搭建部署FastDFS分布式文件系统什么是分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连分布是文件系统的设计基于客户机/服务器... 查看详情

glusterfs分布式文件系统(代码片段)

GlusterFS分布式文件系统,用于存储、管理磁盘文件文件系统(FS)文件系统组成1、文件系统接口2、对对像管理的软件集合3、对象及属性文件系统作用从系统角度来看,文件系统是对文件存储设备的空间进行组织和分配... 查看详情

各种分布式文件系统简介

from:http://elf8848.iteye.com/blog/1724382   常见的分布式文件系统有,GFS、HDFS、Lustre、Ceph、GridFS、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。&nbs... 查看详情

分布式文件系统介绍

 基础介绍        分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,也就是集群文件系统,可以支持大数量的... 查看详情

glusterfs分布式文件系统

glusterfs第1章什么是分布式文件系统?相对于本极端的文件系统而言,分布式文件系统DFS,伙食网络文件系统NFS,是一种允许文件通过网络在多台主机上分享的文件系统你那个,可以让多机器上的多用户分享指定问加你和存储空间在这样... 查看详情

mfs分布式文件系统

MFS分布式文件系统实验环境: 在公司内部通过nfs方式共享一个服务器的存储空间,使得nfs服务器不堪重负,经常出现超时问题,为了提高整个系统的性能,所以采用mfs分布式文件系统,mfs分布式文件系统是一个具有容错功能... 查看详情

mfs分布式文件系统

mfs分布式文件系统本文出自“卢春宁”博客,谢绝转载! 查看详情

mfs分布式文件系统部署

分布式文件系统是指文件系统管理的物理存储资源通过计算机网络与各节点相连。简单将,就是把一些分散的共享文件夹,集合到一个文件夹内。对于用户来说,只需要打开该虚拟文件夹,就可以使用这些分散的文件夹进行数据... 查看详情

mfs分布式文件系统

1、mfs(mooseFS):分布式文件系统,文件系统管理的物理资源存储在不同的节点上,通过计算机网络与节点相连。具有容错、高可用性,可扩展的海量存储等特性。mfs好处:集中访问,简化操作,数据容灾,提高文件存取性能。2... 查看详情

mfs分布式文件系统

MFS是:具有容错功能的、高可用、可扩展的海量级分布式文件系统,把数据分布存储在多台服务器,对外提供统一访问入口;包含层级结构、文件属性,也可以创建特殊文件。分布式文件系统(DFS):文件系统管理的物理存储资... 查看详情

javaweb项目架构之fastdfs分布式文件系统

概述分布式文件系统:Distributedfilesystem,DFS,又叫做网络文件系统:NetworkFileSystem。一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。FastDFS是用c语言编写的一款开源的分布式文件... 查看详情

了解mfs分布式文件系统

MFS分布式文件系统 mooseFS(moose驼鹿)是一款网络分布式文件系统。它把数据分散在多台服务器上,但对于用户来讲,看到的只是一个源。MFS也像其他类unix文件系统一样,包含了层级结构(目录树),存储着文件属性(权限... 查看详情