第一章 大数据Hadoop生态圈之分布式存储系统HDFS

网友投稿 218 2022-11-25

第一章 大数据Hadoop生态圈之分布式存储系统HDFS

1.1 什么是HDFS?

HDFS是一个分布式文件系统,它将文件切成多个小块(block),每块随机存放到任意存储节点。块的大小可通过指定参数设置,最新版默认为128M,旧版为64M。为了避免单点故障引起数据丢失,每块数据会存储多一个相同的副本到不同的存储节点(此专为高并发计算分析设计)。

1.2 优缺点

优点:高并发,高吞吐量数据访问,高容错缺点:由于特性是存储较大的数据,因此延时高

1.3 namenode和datanode

namenode:响应客户端请求,存储元数据(记录数据块分布在哪个机器上),管理目录树datanode:只要是datanode就可以作为存储节点

1.4 元数据管理

元数据存放在内存空间,同时会镜像到磁盘产生一个叫fsimages的文件,但由于元数据过大,fsimages不会实时同步内存里的元数据,他们之间的差异记录在日志文件edit,每隔一段时间,edit就会和fsimages合并一次,这样和内存里的元数据差异就缩小了

1.5 HDFS shell命令格式

hdfs dfs -操作命令 参数详细参考官网https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:校园气象站的作用说明及其技术参数的介绍
下一篇:Java关键字之instanceof详解
相关文章

 发表评论

暂时没有评论,来抢沙发吧~