Hadoop伪分布式集群安装部署-APISpace

Hadoop伪分布式集群安装部署

一、准备环境

1，安装简介

Java-- jdk-8u121-linux-x64.tar.gz

Hadoop--hadoop-2.7.4.tar.gz (jdk1.7会报错)

二，修改主机名

2.1查看主机名

hostname

2.2 修改/etc/sysconfig/network文件

修改前

修改后

2.3 立即生效

假如只是完成了步骤2.2，实际上只是修改了静态配置，重启的时候才会生效，要想立即生效，可以输入

2.4 修改/etc/hosts

3，安装java

主要就是配置一下JAVA_HOME。在这之前，由于采用的系统往往都带有openjdk，所以要先卸载。

rpm -qa |grep java

rpm -e --nodeps [java]

然后，配置JAVA_HOME及命令系统环境变量

Java的解压路径

配置环境变量，vi /etc/profile

三、安装hadoop

配置伪分布式集群，学习来用实际上很简单。跟着下面的步骤，保证能成功。

1，配置hadoop-env.sh，yarn-env.sh，mepre-env.sh

主要是在这三个文件的开头加上JAVA_HOME，不配置的话他们会自动从环境变量里面获取。配置为了显示指定JAVA版本环境。

export JAVA_HOME=/opt/modules/jdk1.8.0_121

默认情况下是这样的：

2，配置core-site.xml

hadoop.tmp.dir

/opt/modules/hadoop-2.7.4/data/tmp

fs.defaultFS

hdfs://Luffy.OnePiece.com:8020

这里之所以要配置，hostname而不是ip，主要是我们的ip，尤其是虚拟机的ip，会变动，所以为了避免频繁梗概配置文件，就采用hostname。

hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中。先创建该目录：mkdir -p /opt/modules/hadoop-2.7.4/data/tmp/

3，配置hdfs-site.xml

dfs.replication

简单的学习，伪分布式只需要将副本数配置为1(只有一个datanode实例).

4，配置mapred-site.xml

mapreduce.framework.name

yarn

Mapreduce的运行模式，常用的就是yarn(生产),local(测试)两种模式。

5，配置yarn-site.xml

yarn.resourcemanager.hostname

Luffy.OnePiece.com

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.nodemanager.aux-services 这个属性，常用的还有spark_shuffle，后面讲到Spark的安装配置的时候我们会讲到。

6，配置slaves

此文件，可以配置也可以不配，不配的话需要逐台去启动从节点。

我们配置未前面说的修改后的主机名

Luffy.OnePiece.com

7，配置hadoop环境变量

其实，配置到6小步骤的时候，就可以启动伪分布式模式了，但是很多小白曾经在我博客上留言说，少配置了系统环境变量。就是由于命令sbin/yarn-daemon.sh start resourcemanager类似这些，都是需要使用绝对路径或者相对路径，而不是直接使用

yarn-daemon.sh。其实这样做的目的是方便多版本测试，否则你没测试一个版本都要重建环境变量(当然也可以使用同名链接的方式)。

vi /etc/profile

export HADOOP_HOME=/opt/modules/hadoop-2.7.4/

export HADOOP_PREFIX=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

生效：

重启，或者再root模式下执行source /etc/profile

四、测试wc

1，启动hdfs

格式化，hdfs，然后启动hdfs相关的服务

$hdfs namenode -format

$hadoop-daemon.sh start namenode

$hadoop-daemon.sh start datanode

jps查看进程

这个时候可以访问我们的hdfs的50070端口，前提是windows和linux网络是通畅的，使用主机名的话也要讲主机和ip映射C:WindowsSystem32driversetcHOSTS文件

在浏览器输入Luffy.OnePiece.com:50070

2，启动yarn

$yarn-daemon.sh start resourcemanager

$yarn-daemon.sh start nodemanager

3，跑wordcount案例

准备好数据

运行

yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.4.jar wordcount input/ output

console输出

Yarn的Web界面

结果

五，总结

hadoop伪分布式适合我们平时验证性学习，实际上也可以帮助我们快速学习入门其它的框架比如hive，hbase，spark等。搭建集群，我们学习用的机器一般是不允许的，所以此时采用hadoop伪分布式模式

kafka，hbase，spark，Flink等入门到深入源码，spark机器学习，大数据安全，大数据运维

c语言sscanf函数的用法是什么

262 2022-11-23

Hadoop伪分布式集群安装部署

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）