Hadoop 2.x简介

网友投稿 242 2022-11-18

Hadoop 2.x简介

Hadoop 2.0产生背景

Hadoop1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题HDFS存在的问题

NameNode单点故障,难以应用于在线场景NameNode压力过大,且内存受限,影响系统扩展性

MapReduce存在的问题

JobTracker访问压力大,影响系统扩展性难以支持除MapReduce之外的计算框架,比如Spark 、Storm等

MapReduce是离线计算框架,计算时间会比较长 Spark是内存计算框架,更快 Storm是流计算框架,可实时获取计算结果

Hadoop 1.x 与Hadoop 2.x

Hadoop 2.x由HDFS、MapReduce和YARN三个分支构成

HDFS : NN Federation、HA;MapReduce : 运行在YARN上的MRYARN : 资源管理系统(内存、CPU资源)

Federation把元数据分成两个独立的NameNode去工作。YARN知道任何一台机器的使用情况,在执行任务的时候,首先去YARN上申请,YARN 分配到某台机器上去执行,可做到资源不浪费

HDFS存储的数据可由MapReduce进行计算,也可以由其它的计算框架计算

HDFS 2.x优点

解决HDFS 1.0中单点故障和内存受限问题解决单点故障

HDFS HA : 通过主备NameNode解决(只有一个NameNode正常工作,其它都是备用)如果主NameNode发生故障,则切换到备NameNode上

解决内存受限问题

HDFS Federation(联邦)水平扩展,支持多个NameNode每个NameNode分管一部分目录(相互独立)所有NameNode共享所有DataNode存储资源

2.x仅是架构上发生了变化,使用方式不变对HDFS使用者透明HDFS 1.X中的命令和API仍可以使用

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Java登录功能实现token生成与验证
下一篇:评测米家插线板:27W快充延长线,有3个USB-A口,支持QC3.0协议
相关文章

 发表评论

暂时没有评论,来抢沙发吧~