#yyds干货盘点# 大数据技术栈之Hadoop-HDFS-APISpace

#yyds干货盘点# 大数据技术栈之Hadoop-HDFS

概述

Hadoop是一个分布式系统基础架构主要解决海量数据的存储和分析计算

hadoop作为大数据技术栈必须要掌握的框架，且Hadpood生态圈非常强大

Hadoop组成

HDFS（Hadoop Distributed File System）

分布式文件存储系统，适合一次写入，多次读出，切不修改

优点

高容错，数据可以保存成多副本，防止数据丢失适合处理大数据量存储，分布式存储可构建在廉价机器上，节省资源

缺点

不适合低延时数据访问无法高效对大量小文件进行存储，小问题太多会占有NameNode大量内存来存储文件目录和块信息不支持并发写入一个文件，只能追加写

架构

NameNode：就是master节点

管理HDFS的名称空间配置副本策略管理数据块映射信息处理客户端读写请求

DataNode：就是slave节点

存储实际的数据块执行数据块的读/写操作

Client：客户端

文件切分，文件上传HDFS时，将文件切分成一个个Block，然后再上传与NameNode节点交互，获取文件位置信息

Secondary NameNode：

辅助NameNode，定期河北Fsimage和Edits，并推送给NameNode紧急情况下，可辅助恢复NameNode

文件块大小

HDFS文件在物理上是分块存储（Block），可自定义设置dfs.blocksize

block大小主要取决于磁盘传输速度，寻址时间为传输时间的1%时，则为最佳时间

块太大，磁盘数据传输时间就很大块太小，查询数据可以会多次寻址，增加寻址时间

HDFS数据读写流程

写文件

1）客户端向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

2）NameNode返回是否可以上传。

3）客户端请求NameNode询问第一个Block上传哪几个DataNode

4）NameNode返回DataNode节点信息

5）客户端请求DataNode1上传数据，DataNode1收到请求会继续调用DataNode2，然后DataNode2调用DataNode3，建立通信管道

6）DataNode1，DataNode2，DataNode3逐级应答

7）客户端开始发送第一个Block数据，DataNode1收到数据之后再传给DataNode2，DataNode1美传一个packet会放入一个应答队列等待相应，链式传递下去

8）完成第一个Block传递之后，客户端再请求NameNode获取DataNode信息。。。

NameNode如何选择DataNode

本来就近原则，会选择最近的DataNode，如何计算最近？

这里不多介绍，有兴趣可以深入研究

NameNode工作机制

第一阶段：NameNode启动

第一次启动NameNode格式化后，创建Fsimage和Edits文件，如果非第一次启动，直接加载Fsimage和Edits客户端对元数据进行增删改请求NameNode记录操作日期，更新滚动日子NameNode在内存中对数据进行增删改

第二阶段：Secondary NameNode工作

Secondary NameNode询问NameNode是否需要CheckPointSecondary NameNode请求执行CheckPointNameNode滚动正在写的Edits日志将滚动前的Edits、Fsimage拷贝到Secondary NameNodeSecondary NameNode加载Edits、Fsimage到内存，再合并生成新的镜像文件fsimage.chkpoint拷贝fsimage.chkpoint到NameNodeNameNode将fsimage.chkpoint重命名成fsimage

读文件

1）客户端请求NameNode请求下载文件，NameNode通过查询元数据，找到文件块所在的DataNode地址

2）挑选一台DataNode（就近原则），请求读取数据

3）DataNode开始传输数据给客户端，以Packet为单位发送

4）客户端以Packet为单位接收，现在本地内存缓存，然后写入文件

c语言sscanf函数的用法是什么

268 2022-11-21

#yyds干货盘点# 大数据技术栈之Hadoop-HDFS

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

php怎么获取input输入的值

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）