c语言sscanf函数的用法是什么
218
2022-11-25
第一章 大数据Hadoop生态圈之分布式存储系统HDFS
1.1 什么是HDFS?
HDFS是一个分布式文件系统,它将文件切成多个小块(block),每块随机存放到任意存储节点。块的大小可通过指定参数设置,最新版默认为128M,旧版为64M。为了避免单点故障引起数据丢失,每块数据会存储多一个相同的副本到不同的存储节点(此专为高并发计算分析设计)。
1.2 优缺点
优点:高并发,高吞吐量数据访问,高容错缺点:由于特性是存储较大的数据,因此延时高
1.3 namenode和datanode
namenode:响应客户端请求,存储元数据(记录数据块分布在哪个机器上),管理目录树datanode:只要是datanode就可以作为存储节点
1.4 元数据管理
元数据存放在内存空间,同时会镜像到磁盘产生一个叫fsimages的文件,但由于元数据过大,fsimages不会实时同步内存里的元数据,他们之间的差异记录在日志文件edit,每隔一段时间,edit就会和fsimages合并一次,这样和内存里的元数据差异就缩小了
1.5 HDFS shell命令格式
hdfs dfs -操作命令 参数详细参考官网https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~