分布式文件存储系统GFS的基础知识

GFS是google的分布式文件存储系统,是专为存储海量搜索数据而设计的,2003年提出,是闭源的分布式文件系统。适用于大量的顺序读取和顺序追加,如大文件的读写。注重大文件的持续稳定带宽,而不是单次读写的延迟。

1.GFS的主要架构GFS架构比较简单,一个GFS集群一般由一个mas     te   r、多个chunkserver和多个clients组成。在GFS中,所有文件被切分成若干个chunk,每个chunk拥有唯一不变的标识(在chunk创建时,由master负责分配),所有chunk都实际存储在chunkserver的磁盘上。为了容灾,每个chunk都会被复制到多个chunkserve

2.GFS的功能模块

 分布式文件存储系统GFS的基础知识_设计制作_电源/新能源

GFSclient客户端:为应用提供A     PI   ,与POSIXAPI类似。同时缓存从GFSmaster读取的元数据chunk信息;GFSmaster元数据服务器:管理所有文件系统的元数据,包括命令空间(目录层级)、访问控制信息、文件到chunk的映射关系,chunk的位置等。同时master还管理系统范围内的各种活动,包括chunk创建、复制、数据迁移、垃圾回收等;GFSchunksever存储节点:用于所有chunk的存储。一个文件被分割为多个大小固定的chunk(默认64M),每个chunk有全局唯一的chunkID。

3.GFS的写入流程

Client向master询问要修改的chunk在哪个chunkserver上,以及该chunk其他副本的位置信息。

Master将Primary、secondary的相关信息返回给client。

Client将数据推送给primary和secondary;。

当所有副本都确认收到数据后,client发送写请求给primary,primary各不同client的操作分配序号,保证操作顺序执行。

Primary把写请求发送到secondary,secondary按照primary分配的序号顺序执行所有操作

当Secondary执行完后回复primary执行结果。

Primary回复client执行结果。

 分布式文件存储系统GFS的基础知识_设计制作_电源/新能源

由上述可见,GFS在进行写数据时,有如下特点:

GFS在数据读写时,数据流与控制流是分开的,并通过租约机制,在跨多个副本的数据写入中,保障顺序一致性;

Master将chunk租约发放给其中一个副本,这个副本称为主副本,由主副本确定chunk的写入顺序,此副本则遵守这个顺序,这样就保障了全局顺序一致性

Master返回客户端主副本和次副本的位置信息,客户端缓存这些信息以备将来使用,只有当主副本所在chunkserver不可用或返回租约过期了,客户端才需要再次联系Master;

GFS采用链式推送,以最大化利用每个机器的网络带宽,避免网络瓶颈和高延迟连接,最小化推送延迟;

GFS使用TCP流式传输数据,以最小化延迟。

4.GFS特点适合大文件场景的应用,特别是针对GB级别的大文件,适用于数据访问延时不敏感的搜索类业务中心化架构,只有1个master处于ac     ti   ve状态缓存和预取,通过在client端缓存元数据,尽量减少与master的交互,通过文件的预读取来提升并发性能高可靠性,master需要持久化的数据会通过操作日志与checkpoint的方式存放多份,故障后master会自动切换重启。

84
165
0
95

相关资讯

  1. 1、陈建斌携新片亮相,周迅窦靖童演母女惊艳观众|红星看金鸡③3249
  2. 2、曾多次饰演张嘉译老婆,多次合作仍没捧红,如今被张国立带火681
  3. 3、陈瑶再次尝试小红帽造型,五官没有任何变化,却再也不是岳绮罗2191
  4. 4、三浦春马和三浦翔平发好基友性感合照健美肉体引“狼嚎”797
  5. 5、原来成龙也是有替身的,被称为“车神”,成龙还送他一辆法拉利!2745
  6. 6、34岁王宝强近照,摆脱前妻长发飘飘如绅士,8岁儿子长得很像他2052
  7. 7、《女编辑》完美收官张子萱被封“榜样北京妞”172
  8. 8、为了拍这部电影,找到了洪金宝,引见这个人的亲生儿子!855
  9. 9、《无名之辈》天津路演告捷潘斌龙笑谈抱娃细节湿润眼眶3591
  10. 10、批评《邪不压正》的尺度:姜文是用来被爱的,不是被理解的2198
全部评论(0)
我也有话说
0
收藏
点赞
顶部