0004 - DataNode工作机制解析-APISpace

0004 - DataNode工作机制解析

1 - 基本描述

DataNode 通常是群集中每个节点部署一个，用于存储数据，负责提供客户端的读写请求，并且根据 NameNode 的指令执行数据块的创建、删除、追加和复制等操作。

DataNode 三大功能：

负责管理所在节点上存储数据的读写，及存储每个文件的数据块。定期向 NameNode 报告该节点的数据块元数据信息。执行数据的流水线复制。

2 - 工作机制

DataNode 上的数据块以文件形式存储在本地磁盘上，包括两个文件：

文件的数据块；数据块元数据（长度、校验和、时间戳）。

DataNode 启动后向 NameNode 服务注册，通过心跳机制：

每 3 秒向 NameNode 上报所有的数据块元数据信息；心跳返回结果带有 NameNode 给该 DataNode 的执行命令，如：数据复制和删除等操作命令。

3 - 超时时长

由于 DataNode 故障无法与 NameNode 通信，NameNode 不会立即把该节点标记为不可用，要经过一段时间，这段时间可称为超时时长。HDFS 默认的超时时长为 10分钟 + 30秒。如果定义超时时间为 timeout，则超时时长的计算公式为：

timeout = 2 * dfs.namenode.heartbeat.recheck-interval + 10 * dfs.heartbeat.interval

dfs.namenode.heartbeat.recheck-interval 默认为 5分钟，dfs.heartbeat.interval 默认为 3秒。因此，总的超时时间为：10分钟 + 30秒

通过 hdfs-site.xml 配置文件，修改超时时长和心跳间隔。

dfs.namenode.heartbeat.recheck-interval 300000 心跳重新检查间隔(毫秒) dfs.heartbeat.interval 3 心跳间隔(秒)

4 - 文件格式

进入某一个 DataNode 节点，找到数据块存储的路径，如下所示：

[root@hadoop-01 ~]# ls -l /data1/dfs/dn/current/BP-1494942513-172.20.4.81-1610618575835/current/finalized/subdir99/subdir99/ total 16 -rw-r--r-- 1 hdfs hdfs 49 Jul 8 16:51 blk_1080255312 -rw-r--r-- 1 hdfs hdfs 11 Jul 8 16:51 blk_1080255312_6514554.meta -rw-r--r-- 1 hdfs hdfs 49 Jul 8 16:51 blk_1080255316 -rw-r--r-- 1 hdfs hdfs 11 Jul 8 16:51 blk_1080255316_6514558.meta

可以看出，HDFS 数据块的文件名组成格式为：

blk_*：数据块，保存具体的二进制数据； blk_*.meta：数据块的属性信息（版本、类型信息）。

5 - 多目录配置

通过修改 hadoop-hdfs-2.7.jar 里面的 hdfs-default.xml 文件的相关配置，设置相关 DataNode 数据目录。如下所示：

dfs.datanode.data.dir file://${hadoop.tmp.dir}01/dfs/data,file://${hadoop.tmp.dir}02/dfs/data

6 - Hadoop Archives

6.1 - 简介

6.2 - 应用场景

HDFS 适合存储海量数据的大文件。但并不擅长存储小文件，因为每个文件最少一个 Block，每个 Block 的元数据都会占用 NameNode 中的内存。

如果存在大量的小文件，它们会占用 NameNode 的大量内存，导致 NameNode 和 DataNode 交互变得缓慢，甚至会耗尽 NameNode 中的内存。

因此，Hadoop Archives 可以有效的处理以上问题，降低集群的 Blocks 数量减轻 NameNode 压力。它可以把多个文件归档成为一个大文件，归档成一个文件后还可以透明的访问每一个文件。

6.3 - 实践操作

1、创建目录

# 创建3个目录 [root@hadoop-01 ~]# hdfs dfs -mkdir /tmp/test/dir1 [root@hadoop-01 ~]# hdfs dfs -mkdir /tmp/test/dir2 [root@hadoop-01 ~]# hdfs dfs -mkdir /tmp/test/dir3

2、上传小文件

[root@hadoop-01 ~]# ls -l total 12 -rw-r--r-- 1 root root 12 Aug 24 14:05 1.txt -rw-r--r-- 1 root root 12 Aug 24 14:05 2.txt -rw-r--r-- 1 root root 12 Aug 24 14:05 3.txt [root@hadoop-01 ~]# hdfs dfs -put 1.txt /tmp/test/dir1 [root@hadoop-01 ~]# hdfs dfs -put 2.txt /tmp/test/dir2 [root@hadoop-01 ~]# hdfs dfs -put 3.txt /tmp/test/dir3 [root@hadoop-01 ~]# hdfs dfs -cat /tmp/test/dir1/1.txt hello 1.txt

3、创建存放归档文件目录

[root@hadoop-01 ~]# hdfs dfs -mkdir /tmp/zoo

4、创建归档

[root@hadoop-01 ~]# hadoop archive -archiveName test.har -p /tmp/test dir1 dir2 dir3 /tmp/zoo/

5、查看归档文件

[root@hadoop-01 ~]# hdfs dfs -ls /tmp/zoo/test.har Found 4 items -rw-r--r-- 3 hdfs supergroup 0 2021-08-24 14:20 /tmp/zoo/test.har/_SUCCESS -rw-r--r-- 3 hdfs supergroup 439 2021-08-24 14:20 /tmp/zoo/test.har/_index -rw-r--r-- 3 hdfs supergroup 23 2021-08-24 14:20 /tmp/zoo/test.har/_masterindex -rw-r--r-- 3 hdfs supergroup 36 2021-08-24 14:20 /tmp/zoo/test.har/part-0

6、使用 har URL 访问索引、标识等文件会被隐藏，只显示创建归档前的原文件

[root@hadoop-01 ~]# hdfs dfs -ls har:///tmp/zoo/test.har Found 3 items drwxr-xr-x - hdfs supergroup 0 2021-08-24 13:56 har:///tmp/zoo/test.har/dir1 drwxr-xr-x - hdfs supergroup 0 2021-08-24 13:56 har:///tmp/zoo/test.har/dir2 drwxr-xr-x - hdfs supergroup 0 2021-08-24 13:56 har:///tmp/zoo/test.har/dir3 [root@hadoop-01 ~]# hdfs dfs -cat har:///tmp/zoo/test.har/dir1/1.txt hello 1.txt

7、解除归档文件

# 使用 cp 解除归档 [root@hadoop-01 ~]# hdfs dfs -cp har:///tmp/zoo/test.har/dir1 /tmp # 使用 distcp 解除归档，使用 Map/Reduce job [root@hadoop-01 ~]# hadoop distcp har:///tmp/zoo/test.har/dir1 /tmp [root@hadoop-01 ~]# [root@hadoop-01 ~]# hdfs dfs -ls /tmp Found 3 items drwxr-xr-x - hdfs supergroup 0 2021-08-24 14:40 /tmp/dir1 drwxr-xr-x - hdfs supergroup 0 2021-08-24 13:54 /tmp/test drwxr-xr-x - hdfs supergroup 0 2021-08-24 14:20 /tmp/zoo [root@hadoop-01 ~]# hdfs dfs -ls /tmp/dir1 Found 1 items -rw-r--r-- 3 hdfs supergroup 12 2021-08-24 14:40 /tmp/dir1/1.txt [root@hadoop-01 ~]# hdfs dfs -cat /tmp/dir1/1.txt hello 1.txt

6.4 - 总结

由 Hadoop Archives 操作，可以得出以下结论：

archives 能将多个小文件合并归档为一个大的 har 文件；创建 archives 是一个 Map/Reduce 任务，需在 MapReduce 集群上运行；创建 archive 归档文件要消耗和原文件一样多的磁盘空间；创建 archive 后是不可更改的，重命名、删除和创建都会返回错误；当创建 archive 时，源文件不会被更改或删除； MapReduce 可以使用 archives 中的所有 har 文件作为输入。

7 - 回收站机制

如果开启回收站功能，被删除的文件在指定的时间内，可以执行恢复操作，防止数据被误删除情况。

HDFS 内部具体实现则是在 NameNode 中启动一个后台线程（Emptier），该线程专门管理和监控文件系统回收站下面的文件，对于放进回收站的文件且超过生命周期，就会自动删除。

通过修改 core-site.xml 文件的相关配置，如下所示：

fs.trash.interval 1

fs.trash.interval=0，表示禁用回收站机制，1 表示开启。

::: hljs-center扫一扫，我们的故事就开始了。:::

c语言sscanf函数的用法是什么

296 2022-11-22

0004 - DataNode工作机制解析

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）