hadoop 2.9.2 完全分布式安装-APISpace

hadoop 2.9.2 完全分布式安装

完全分布式安装完全分布式环境部署Hadoop完全分布式是真正利用多台Linux主机进行部署Hadoop，对Linux机器集群进行规划，使Hadoop各个模块分别部署在不同的多台机器上；

1.环境准备虚拟机安装，在此使用KVM虚拟机；

2.网络配置配置完成后可以访问外网即可；

3.hostname配置将三台主机分别命名加以区分；

4.hosts配置修改主机名hostname hadoop-node1hostname hadoop-node2hostname hadoop-node3

将三台主机名和IP地址对应关系写入hosts文件；vim /etc/hosts10.10.2.177 hadoop-node110.10.2.178 hadoop-node210.10.2.179 hadoop-node3

5.服务器功能角色规划hadoop-node1 hadoop-node2 hadoop-node3NameNode ResourceManage DataNode DataNode DataNodeNodeManager NodeManager NodeManagerHistoryServer SecondaryNameNode

6.在一台机器上安装Hadoop#在此，先在第一台机器上解压、配置hadoop，然后将配置文件分发到另外两台机器上的方式来安装集群；1）解压hadoop目录tar -zxvf /opt/hadoop-2.9.2.tar.gz -C /opt/modules/app/2）配置Hadoop JDK路径，修改hadoop-env.sh、mapred-env.sh、yarn-env.sh文件中的JDK路径；export JAVA_HOME="/opt/modules/jdk1.7.0_80"3）配置core-site.xmlcd /opt/modules/app/hadoop-2.9.2/etc/hadoopvim core-site.xmlfs.defaultFShdfs://master:9000　 io.file.buffer.size　 131072　 hadoop.tmp.dir　 /data/tmp　　 hadoop.proxyuser.hadoop.hosts　　 hadoop.proxyuser.hadoop.groups　 #fs.defaultFS为NameNode的地址#hadoop.tmp.dir为hadoop临时目录的地址，默认情况下，NameNode和DataNode的数据文件都会存在这个目录下对应的子目录中。若此目录不存在，则须手动创建；4）配置slaves#指定HDFS上有哪些datanode节点cd /opt/modules/hadoopstandalone/hadoop-2.9.2/etc/hadoopvim slaveshadoop-node1hadoop-node2hadoop-node35）配置hdfs-site.xmlcd /opt/modules/app/hadoop-2.9.2/etc/hadoopvim hdfs-site.xmldfs.namenode.secondary.是指定secondaryNameNode 的/opt/modules/app/hadoop-2.9.2/etc/hadoopvim yarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffleyarn.resourcemanager.hostnamehadoop-node2yarn.log-aggregation-enabletrueyarn.log-aggregation.retain-seconds106800#根据规划 yarn.resourcemanager.hostname 这个指定resourcemanager 服务器指向 hadoop-node2#yarn.log-aggregation-enable 是配置是否启用日志聚集功能#yarn.log-aggregation-retain-seconds 是配置聚集的日志在HDFS上最多保存多长时间7）配置mapred-site.xml#从mapred-site.xml.template 复制一个mapred-site.xml 文件；cd /opt/modules/app/hadoop-2.9.2/etc/hadoopcp mapred-site.xml.template mapred-site.xmlvim mapred-site.xml

mapreduce.framework.nameyarnmapreduce.jobhistory.addresshadoop-node1:10020mapreduce.jobhistory.webapp.addresshadoop-node1:19888#mapreduce.framework.name 设置mapreduce任务运行在yarn上#mapreduce.jobhistory.address 是设置mapreduce的历史服务器安装在hadoop-node1机器上#mapreduce.jobhistory.webapp.address 是设置历史服务器的web页面地址和端口号

7.设置SSH无密码登录Hadoop集群中的各个机器间会相互通过SSH访问，每次访问输入密码不现实，所以需配置各个机器间SSH无密码登录；1）在hadoop-node1上生成公钥ssh-keygen -t rsa#全部回车即可，都是默认值。完成后当前用户home目录下的.ssh中会生成公钥文件id_rsa.pub和私钥文件id_rsa2）分发公钥ssh-copy-id hadoop-node1ssh-copy-id hadoop-node2ssh-copy-id hadoop-node33）设置hadoop-node2/hadoop-node3到其他机器的免密码登录同理hadoop-node1操作，生成公钥、私钥，然后分发到其他三台机器即可；

8.分发hadoop文件1）三台机器分别创建Hadoop目录mkdir -p /opt/modules/app2）通过scp分发hadoop文件#Hadoop根目录下share/doc目录是存放hadoop文档，文件较大，分发前可以直接删除，以提高分发速度；scp -r /opt/modules/app/hadoop-2.9.2/ hadoop-node2:/opt/modules/app/scp -r /opt/modules/app/hadoop-2.9.2/ hadoop-node3:/opt/modules/app/

9.格式化NameNode#在NameNode机器上执行格式化-master节点/opt/modules/app/hadoop-2.9.2/bin/hdfs namenode -format#注意：如需重新格式化NameNode，需将原来NameNode和DataNode下的文件全部删除，否则会报错。NameNode和DataNode所在目录是core-site.xml中hadoop.tmp.dir、dfs.namenode.dir、dfs.datanode.data.dir属性配置的；hadoop.tmp.dir/opt/data/tmpdfs.namenode.name.dirfile://${hadoop.tmp.dir}/dfs/namedfs.datanode.data.dirfile://${hadoop.tmp.dir}/dfs/data#因为每次格式化，默认是创建一个集群ID，并写入NameNode和DataNode的VERSION文件中（VERSION文件所在目录为dfs/name/current和dfs/data/current），重新格式化时，默认会生成一个新的集群ID，如果不删除原来的目录，会导致namenode中的VERSION文件中是新的集群ID，而DataNode中是旧的集群ID，造成不一致报错；#另一种方法是格式化时指定集群ID参数，指定为集群旧ID值；

10.启动集群1）启动HDFS#hadoop-node1节点启动HDFS/opt/modules/app/hadoop-2.9.2/sbin/start-dfs.sh2）启动YARN#hadoop-node2节点启动yarn/opt/modules/app/hadoop-2.9.2/sbin/start-yarn.sh#在hadoop-node2上启动ResourceManagercd /opt/modules/app/hadoop-2.9.2sbin/yarn-daemon.sh start resourcemanager3）启动日志服务器#根据规划，在hadoop-node3上启动MapReduce日志服务cd /opt/modules/app/hadoop-2.9.2/sbin/mr-jobhistory-daemon.sh start historyserver#查看启动状态jps4）查看HDFS 的Web页面输入文件wc.inputcd /opt/data/touch wc.inputvim wc.inputhadoop mapreduce hivehbase spark stormsqoop hadoop hivespark hadoop2）在HDFS上创建输入目录inputcd /opt/modules/app/hadoop-2.9.2/bin/hdfs dfs -mkdir /input3）将wc.input上传到HDFScd /opt/modules/app/hadoop-2.9.2/bin/hdfs dfs -put /opt/data/wc.input /input/wc.input4）运行hadoop自带的mapreduce Democd /opt/modules/app/hadoop-2.9.2/bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /input/wc.input /output5）查看输出文件cd /opt/modules/app/hadoop-2.9.2/bin/hdfs dfs -ls /output

版本 3.0.0

c语言sscanf函数的用法是什么

333 2022-11-26

hadoop 2.9.2 完全分布式安装

c语言sscanf函数的用法是什么

c语言一维数组怎么快速排列

linux怎么查看本机内存大小

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）