Hadoop中HDFS小文件产生场景及其处理方案

网友投稿 281 2022-11-27

Hadoop中HDFS小文件产生场景及其处理方案

影响: 1、文件的元数据存储在namenode中,每个文件的元数据都差不多大,小文件过多会极大的占用namonode 的内存,制约集群的扩展。(主要影响) 2、在对小文件进行处理的时候,一个小文件对应一个maptask,一个maptask会起一个jvm进程,进程的 开启销毁会严重性能。(jvm复用) 产生场景: 1、实时处理:比如我们使用 Spark Streaming 从外部数据源接收数据,然后经过 ETL 处理之后存储 到 HDFS 中。这种情况下在每个 Job 中会产生大量的小文件。 2、hive中对表执行insert操作,每次插入都在表目录下形成一个小文件。 创建表结构相同的表,create table t_new as select * from t_old; 老表根据实际情况可以删除就删除。 3、hive中执行简单过滤操作,符合过滤条件的数据存在很多block块中,只走map,map输出有很多小文 件。 开启map端的聚合。 4、mapreduce正常执行产生小文件。 将mapreduce输出不直接写hdfs,而是写入到hbase中。 设置map端文件合并及reduce端文件合并。 5、输入数据文件为小文件。 小文件合并后再计算。 CombineFileInputFormat: 它是一种新的inputformat,用于将多个文件合并成一个单独的 split,另外,它会考虑数据的存储位置。 通用处理方案: 1、Hadoop Archive Hadoop Archive或者HAR,是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件 打包成一个HAR文件,这样在减少namenode内存使用的同时,仍然允许对文件进行透明的访问。 2、Sequence file sequence file由一系列的二进制key/value组成,如果为key小文件名,value为文件内容,则可以将 大批小文件合并成一个大文件。 底层处理方案: HDFS-8998: DataNode划分小文件区,专门存储小文件。一个block块满了开始使用下一个block。 HDFS-8286: 将元数据从namenode从内存移到第三方k-v存储系统中。 HDFS-7240: Apache Hadoop Ozone,hadoop子项目,为扩展hdfs而生。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:使用@PathVariable注解如何实现动态传值
下一篇:大数据的本质是什么,它的价值可以体现在哪些方面
相关文章

 发表评论

暂时没有评论,来抢沙发吧~