hadoop 2.9.2 完全分布式安装

网友投稿 317 2022-11-26

hadoop 2.9.2 完全分布式安装

完全分布式安装完全分布式环境部署Hadoop完全分布式是真正利用多台Linux主机进行部署Hadoop,对Linux机器集群进行规划,使Hadoop各个模块分别部署在不同的多台机器上;

1.环境准备虚拟机安装,在此使用KVM虚拟机;

2.网络配置配置完成后可以访问外网即可;

3.hostname配置将三台主机分别命名加以区分;

4.hosts配置修改主机名hostname hadoop-node1hostname hadoop-node2hostname hadoop-node3

将三台主机名和IP地址对应关系写入hosts文件;vim /etc/hosts10.10.2.177 hadoop-node110.10.2.178 hadoop-node210.10.2.179 hadoop-node3

5.服务器功能角色规划hadoop-node1 hadoop-node2 hadoop-node3NameNode ResourceManage DataNode DataNode DataNodeNodeManager NodeManager NodeManagerHistoryServer SecondaryNameNode

6.在一台机器上安装Hadoop#在此,先在第一台机器上解压、配置hadoop,然后将配置文件分发到另外两台机器上的方式来安装集群;1)解压hadoop目录tar -zxvf /opt/hadoop-2.9.2.tar.gz -C /opt/modules/app/2)配置Hadoop JDK路径,修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中的JDK路径;export JAVA_HOME="/opt/modules/jdk1.7.0_80"3)配置core-site.xmlcd /opt/modules/app/hadoop-2.9.2/etc/hadoopvim core-site.xmlfs.defaultFShdfs://master:9000  io.file.buffer.size  131072  hadoop.tmp.dir  /data/tmp   hadoop.proxyuser.hadoop.hosts   hadoop.proxyuser.hadoop.groups  #fs.defaultFS为NameNode的地址#hadoop.tmp.dir为hadoop临时目录的地址,默认情况下,NameNode和DataNode的数据文件都会存在这个目录下对应的子目录中。若此目录不存在,则须手动创建;4)配置slaves#指定HDFS上有哪些datanode节点cd /opt/modules/hadoopstandalone/hadoop-2.9.2/etc/hadoopvim slaveshadoop-node1hadoop-node2hadoop-node35)配置hdfs-site.xmlcd /opt/modules/app/hadoop-2.9.2/etc/hadoopvim hdfs-site.xmldfs.namenode.secondary.是指定secondaryNameNode 的/opt/modules/app/hadoop-2.9.2/etc/hadoopvim yarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamehadoop-node2yarn.log-aggregation-enabletrueyarn.log-aggregation.retain-seconds106800#根据规划 yarn.resourcemanager.hostname 这个指定resourcemanager 服务器指向 hadoop-node2#yarn.log-aggregation-enable 是配置是否启用日志聚集功能#yarn.log-aggregation-retain-seconds 是配置聚集的日志在HDFS上最多保存多长时间7)配置mapred-site.xml#从mapred-site.xml.template 复制一个mapred-site.xml 文件;cd /opt/modules/app/hadoop-2.9.2/etc/hadoopcp mapred-site.xml.template mapred-site.xmlvim mapred-site.xml

mapreduce.framework.nameyarnmapreduce.jobhistory.addresshadoop-node1:10020mapreduce.jobhistory.webapp.addresshadoop-node1:19888#mapreduce.framework.name 设置mapreduce任务运行在yarn上#mapreduce.jobhistory.address 是设置mapreduce的历史服务器安装在hadoop-node1机器上#mapreduce.jobhistory.webapp.address 是设置历史服务器的web页面地址和端口号

7.设置SSH无密码登录Hadoop集群中的各个机器间会相互通过SSH访问,每次访问输入密码不现实,所以需配置各个机器间SSH无密码登录;1)在hadoop-node1上生成公钥ssh-keygen -t rsa#全部回车即可,都是默认值。完成后当前用户home目录下的.ssh中会生成公钥文件id_rsa.pub和私钥文件id_rsa2)分发公钥ssh-copy-id hadoop-node1ssh-copy-id hadoop-node2ssh-copy-id hadoop-node33)设置hadoop-node2/hadoop-node3到其他机器的免密码登录同理hadoop-node1操作,生成公钥、私钥,然后分发到其他三台机器即可;

8.分发hadoop文件1)三台机器分别创建Hadoop目录mkdir -p /opt/modules/app2)通过scp分发hadoop文件#Hadoop根目录下share/doc目录是存放hadoop文档,文件较大,分发前可以直接删除,以提高分发速度;scp -r /opt/modules/app/hadoop-2.9.2/ hadoop-node2:/opt/modules/app/scp -r /opt/modules/app/hadoop-2.9.2/ hadoop-node3:/opt/modules/app/

9.格式化NameNode#在NameNode机器上执行格式化-master节点/opt/modules/app/hadoop-2.9.2/bin/hdfs namenode -format#注意:如需重新格式化NameNode,需将原来NameNode和DataNode下的文件全部删除,否则会报错。NameNode和DataNode所在目录是core-site.xml中hadoop.tmp.dir、dfs.namenode.dir、dfs.datanode.data.dir属性配置的;hadoop.tmp.dir/opt/data/tmpdfs.namenode.name.dirfile://${hadoop.tmp.dir}/dfs/namedfs.datanode.data.dirfile://${hadoop.tmp.dir}/dfs/data#因为每次格式化,默认是创建一个集群ID,并写入NameNode和DataNode的VERSION文件中(VERSION文件所在目录为dfs/name/current和dfs/data/current),重新格式化时,默认会生成一个新的集群ID,如果不删除原来的目录,会导致namenode中的VERSION文件中是新的集群ID,而DataNode中是旧的集群ID,造成不一致报错;#另一种方法是格式化时指定集群ID参数,指定为集群旧ID值;

10.启动集群1)启动HDFS#hadoop-node1节点启动HDFS/opt/modules/app/hadoop-2.9.2/sbin/start-dfs.sh2)启动YARN#hadoop-node2节点启动yarn/opt/modules/app/hadoop-2.9.2/sbin/start-yarn.sh#在hadoop-node2上启动ResourceManagercd /opt/modules/app/hadoop-2.9.2sbin/yarn-daemon.sh start resourcemanager3)启动日志服务器#根据规划,在hadoop-node3上启动MapReduce日志服务cd /opt/modules/app/hadoop-2.9.2/sbin/mr-jobhistory-daemon.sh start historyserver#查看启动状态jps4)查看HDFS 的Web页面输入文件wc.inputcd /opt/data/touch wc.inputvim wc.inputhadoop mapreduce hivehbase spark stormsqoop hadoop hivespark hadoop2)在HDFS上创建输入目录inputcd /opt/modules/app/hadoop-2.9.2/bin/hdfs dfs -mkdir /input3)将wc.input上传到HDFScd /opt/modules/app/hadoop-2.9.2/bin/hdfs dfs -put /opt/data/wc.input /input/wc.input4)运行hadoop自带的mapreduce Democd /opt/modules/app/hadoop-2.9.2/bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /input/wc.input /output5)查看输出文件cd /opt/modules/app/hadoop-2.9.2/bin/hdfs dfs -ls /output

版本 3.0.0

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:hadoop搭建集群
下一篇:什么是IOT网关,网关的功能都有哪些
相关文章

 发表评论

暂时没有评论,来抢沙发吧~