Hadoop集群手动小文件存档-APISpace

Hadoop集群手动小文件存档

1、HDFS存储小文件弊端每个文件均按块存储，每个块的元数据存储在NameNode的内存中，因此HDFS存储小文件会非常低效。因为大量的小文件会耗尽NameNode中的大部分内存。但注意，存储小文件所需要的磁盘容量和数据块的大小无关。例如，一个1MB的文件设置为128MB的块存储，实际使用的是1MB的磁盘空间，而不是128MB。 2、解决存储小文件办法之一 HDFS存档文件或HAR文件，是一个更高效的文件存档工具，它将文件存入HDFS块，在成少NameNode内存使用的同时，允许对文件进行透明的访问。具体说来，HDFS存档文件对内还是一个一个独立文件，对NameNodeu言却是一个整体，减少了NameNode的内存。 3、实例（1）需要启动YARN进程 [root@hadoop102 hadoop-2.7.2]$ start-yarn.sh （2）归档文件把/user/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/output路径下。 $ bin/hadoop archive -archiveName input.har –p /user/input /user/output （3）查看归档 $ hadoop fs -lsr /user/atguigu/output/input.har $ hadoop fs -lsr har:///user/atguigu/output/input.har （4）解归档文件 $ hadoop fs -cp har:/// user/atguigu/output/input.har/* /user/

c语言sscanf函数的用法是什么

269 2022-11-24

Hadoop集群手动小文件存档

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）