第一章大数据Hadoop生态圈之分布式存储系统HDFS-APISpace

第一章大数据Hadoop生态圈之分布式存储系统HDFS

1.1 什么是HDFS？

HDFS是一个分布式文件系统，它将文件切成多个小块（block），每块随机存放到任意存储节点。块的大小可通过指定参数设置，最新版默认为128M，旧版为64M。为了避免单点故障引起数据丢失，每块数据会存储多一个相同的副本到不同的存储节点（此专为高并发计算分析设计）。

1.2 优缺点

优点：高并发，高吞吐量数据访问，高容错缺点：由于特性是存储较大的数据，因此延时高

1.3 namenode和datanode

namenode：响应客户端请求，存储元数据（记录数据块分布在哪个机器上），管理目录树datanode：只要是datanode就可以作为存储节点

1.4 元数据管理

元数据存放在内存空间，同时会镜像到磁盘产生一个叫fsimages的文件，但由于元数据过大，fsimages不会实时同步内存里的元数据，他们之间的差异记录在日志文件edit，每隔一段时间，edit就会和fsimages合并一次，这样和内存里的元数据差异就缩小了

1.5 HDFS shell命令格式

hdfs dfs -操作命令参数详细参考官网https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

233 2022-11-25

第一章大数据Hadoop生态圈之分布式存储系统HDFS