Hadoop集群手动小文件存档

网友投稿 254 2022-11-24

Hadoop集群手动小文件存档

1、HDFS存储小文件弊端 每个文件均按块存储,每个块的元数据存储在NameNode的内存中,因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意,存储小文件所需要的磁盘容量和数据块的大小无关。例如,一个1MB的文件设置为128MB的块存储,实际使用的是1MB的磁盘空间,而不是128MB。 2、解决存储小文件办法之一 HDFS存档文件或HAR文件,是一个更高效的文件存档工具,它将文件存入HDFS块,在成少NameNode内存使用的同时,允许对文件进行透明的访问。具体说来,HDFS存档文件对内还是一个一个独立文件,对NameNodeu言却是一个整体,减少了NameNode的内存。 3、实例 (1)需要启动YARN进程 [root@hadoop102 hadoop-2.7.2]$ start-yarn.sh (2)归档文件 把/user/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/output路径下。 $ bin/hadoop archive -archiveName input.har –p /user/input /user/output (3)查看归档 $ hadoop fs -lsr /user/atguigu/output/input.har $ hadoop fs -lsr har:///user/atguigu/output/input.har (4)解归档文件 $ hadoop fs -cp har:/// user/atguigu/output/input.har/* /user/

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:如何看待波卡和以太坊的区别
下一篇:JAVA中的 map,list,set
相关文章

 发表评论

暂时没有评论,来抢沙发吧~