hadoop系列之深入优化-APISpace

hadoop系列之深入优化

五、MapReduce的优化

1、操作系统调优

增大打开文件数据和网络连接上限，调整内核参数net.core.somaxconn，提高读写速度和网络带宽使用率适当调整epoll的文件描述符上限，提高Hadoop RPC并发关闭swap。如果进程内存不足，系统会将内存中的部分数据暂时写入磁盘，当需要时再将磁盘上的数据动态换置到内存中，这样会降低进程执行效率增加预读缓存区大小。预读可以减少磁盘寻道次数和I/O等待时间设置openfile

2、Hdfs参数调优

core-site.xml

hadoop.tmp.dir：默认值： /tmp 说明：尽量手动配置这个选项，否则的话都默认存在了里系统的默认临时文件/tmp里。并且手动配置的时候，如果服务器是多磁盘的，每个磁盘都设置一个临时文件目录，这样便于mapreduce或者hdfs等使用的时候提高磁盘IO效率。 fs.trash.interval：默认值： 0 说明：这个是开启hdfs文件删除自动转移到垃圾箱的选项，值为垃圾箱文件清除时间（分钟）。一般开启这个会比较好，以防错误删除重要文件。 io.file.buffer.size：默认值：4096 说明：SequenceFiles在读写中可以使用的缓存大小，可减少 I/O 次数。在大型的 Hadoop cluster，建议可设定为 65536 到 131072。

hdfs-site.xml

dfs.blocksize：默认值：134217728 说明：这个就是hdfs里一个文件块的大小了，CDH5中默认128M。太大的话会有较少map同时计算，太小的话也浪费可用map个数资源，而且文件太小namenode就浪费内存多。根据需要进行设置。 dfs.namenode.handler.count：默认值：10 说明：设定 namenode server threads 的数量，这些 threads 會用 RPC 跟其他的 datanodes 沟通。当 datanodes 数量太多时会发現很容易出現 RPC timeout，解決方法是提升网络速度或提高这个值，但要注意的是 thread 数量多也表示 namenode 消耗的内存也随着增加

3、MapReduce参数调优

mapred.reduce.tasks（mapreduce.job.reduces）：默认值：1 说明：默认启动的reduce数。通过该参数可以手动修改reduce的个数。 mapreduce.task.io.sort.factor：默认值：10 说明：Reduce Task中合并小文件时，一次合并的文件数据，每次合并的时候选择最小的前10进行合并。 mapreduce.task.io.sort.mb：默认值：100 说明： Map Task缓冲区所占内存大小。 mapred.child.Java.opts：默认值：-Xmx200m 说明：jvm启动的子线程可以使用的最大内存。建议值-XX:-UseGCOverheadLimit -Xms512m -Xmx2048m -verbose:gc -Xloggc:/tmp/@taskid@.gc mapreduce.jobtracker.handler.count：默认值：10 说明：JobTracker可以启动的线程数，一般为tasktracker节点的4%。 mapreduce.reduce.shuffle.parallelcopies：默认值：5 说明：reuduce shuffle阶段并行传输数据的数量。这里改为10。集群大可以增大。 mapreduce.tasktracker.http.threads：默认值：40 说明：map和reduce是通过http进行数据传输的，这个是设置传输的并行线程数。 mapreduce.map.output.compress：默认值：false 说明： map输出是否进行压缩，如果压缩就会多耗cpu，但是减少传输时间，如果不压缩，就需要较多的传输带宽。配合 mapreduce.map.output.compress.codec使用，默认是 org.apache.hadoop.io.compress.DefaultCodec，可以根据需要设定数据压缩方式(org.apache.hadoop.io.compress.SnappyCodec)。 mapreduce.reduce.shuffle.merge.percent：默认值： 0.66 说明：reduce归并接收map的输出数据可占用的内存配置百分比。类似mapreduce.reduce.shuffle.input.buffer.percent属性。 mapreduce.reduce.shuffle.memory.limit.percent：默认值： 0.25 说明：一个单一的shuffle的最大内存使用限制。 mapreduce.jobtracker.handler.count：默认值： 10 说明：可并发处理来自tasktracker的RPC请求数，默认值10。 mapred.job.reuse.jvm.num.tasks（mapreduce.job.jvm.numtasks）：默认值： 1 说明：一个jvm可连续启动多个同类型任务，默认值1，若为-1表示不受限制。 mapreduce.tasktracker.tasks.reduce.maximum：默认值： 2 说明：一个tasktracker并发执行的reduce数，建议为cpu核数

4、系统优化

1）避免排序

对于一些不需要排序的应用，比如hash join或者limit n，可以将排序变为可选环节，这样可以带来一些好处：

在Map Collect阶段，不再需要同时比较partition和key，只需要比较partition，并可以使用更快的计数排序（O(n)）代替快速排序（O(NlgN)）在Map Combine阶段，不再需要进行归并排序，只需要按照字节合并数据块即可。去掉排序之后，Shuffle和Reduce可同时进行，这样就消除了Reduce Task的屏障（所有数据拷贝完成之后才能执行reduce()函数）。

2）Shuffle阶段内部优化

Map端--用Netty代替Jetty Reduce端--批拷贝将Shuffle阶段从Reduce Task中独立出来

5、总结

在运行mapreduce任务中，经常调整的参数有：

mapred.reduce.tasks：手动设置reduce个数 mapreduce.map.output.compress：map输出结果是否压缩 mapreduce.map.output.compress.codec：压缩格式

mapreduce.output.fileoutputformat.compress：job输出结果是否压缩 mapreduce.output.fileoutputformat.compress.type：默认RECORD mapreduce.output.fileoutputformat.compress.codec：压缩格式

六、基于Zookeeper的HA

1、Zookeeper

1）简介

一个开源的分布式的，为分布式应用提供协调服务的Apache项目，目的就是将分布式服务不再需要由于协作冲突而另外实现协作服务。提供一个简单的原语集合，以便于分布式应用可以在它之上构建更高层次的同步服务。设计非常易于编程，它使用的是类似于文件系统那样的树形数据结构。

Zookeeper 从设计模式角度来看，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper 就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应，从而实现集群中类似 Master/Slave 管理模式。

应用场景

统一命名服务（Name Service）配置管理（Configuration Management）集群管理（Group Membership）共享锁（Locks）/同步锁

2）角色

3）配置

安装JDK、配置环境变量、验证java –version 下载、赋执行权限、解压下载地址：http://zookeeper.apache.org/ 权限：chmod u+x zookeeper-3.4.5.tar.gz 解压：tar -zxvf zookeeper-3.4.5.tar.gz -C /opt/modules/ 配置复制配置文件：cp conf/zoo_sample.cfg conf/zoo.cfg 配置数据存储目录：dataDir=/opt/modules/zookeeper-3.4.5/data 创建数据存储目录：mkdir /opt/modules/zookeeper-3.4.5/data 启动启动：bin/zkServer.sh start 检测查看状态：bin/zkServer.sh status Client Shell：bin/zkCli.sh

tickTime：这个时间是作为 Zookeeper 服务器之间或客户端与服务之间维持心跳的时间间隔，也就是每个 tickTime 时间就会发送一个心跳。 dataDir：顾名思义就是 Zookeeper 保存数据的目录，默认情况下，Zookeeper 将写数据的日志文件也保存在这个目录里。 clientPort：这个端口就是客户端连接 Zookeeper 服务器的端口，Zookeeper 会监听这个端口，接受客户端的访问请求

initLimit：这个配置项是用来配置 Zookeeper 接受客户端（这里所说的客户端不是用户连接 Zookeeper 服务器的客户端，而是 Zookeeper 服务器集群中连接到 Leader 的 Follower 服务器）初始化连接时最长能忍受多少个心跳时间间隔数。当已经超过 10 个心跳的时间（也就是 tickTime）长度后 Zookeeper 服务器还没有收到客户端的返回信息，那么表明这个客户端连接失败。总的时间长度就是 5*2000=10 秒。 syncLimit：这个配置项标识 Leader 与 Follower 之间发送消息，请求和应答时间长度，最长不能超过多少个 tickTime 的时间长度，总的时间长度就是 2*2000=4 秒。

server.A=B:C:D ：其中 A 是一个数字，表示这个是第几号服务器；B 是这个服务器的 ip 地址；C 表示的是这个服务器与集群中的 Leader 服务器交换信息的端口；D 表示的是万一集群中的 Leader 服务器挂了，需要一个端口来重新进行选举，选出一个新的 Leader，而这个端口就是用来执行选举时服务器相互通信的端口。如果是伪集群的配置方式，由于 B 都是一样，所以不同的 Zookeeper 实例通信端口号不能一样，所以要给它们分配不同的端口号。集群模式下配置一个文件 myid，这个文件在 dataDir 目录下，这个文件里面就有一个数据就是 A 的值，Zookeeper 启动时读取此文件，拿到里面的数据与 zoo.cfg 里面的配置信息比较从而判断到底是那个 server。

2、HA配置

1）core-site.xml

fs.defaultFS hdfs://ns1 hadoop.tmp.dir /opt/cdh5.3.6/hadoop-2.5.0-cdh5.3.6/data/tmp hadoop.http.staticuser.user xuchenglong ha.zookeeper.quorum hadoop-01.xuchenglong.site:2181,hadoop-02.xuchenglong.site:2181

2）hdfs-site.xml

dfs.namenode.shared.edits.dir为namenode共享目录，设置为奇数个；CM中为一个路径地址

dfs.nameservices ns1 dfs.ha.namenodes.ns1 nn1,nn2 dfs.namenode.rpc-address.ns1.nn1 hadoop-01.xuchenglong.site:8020 dfs.namenode.rpc-address.ns1.nn2 hadoop-02.xuchenglong.site:8020 dfs.namenode.http-address.ns1.nn1 hadoop-01.xuchenglong.site:50070 dfs.namenode.http-address.ns1.nn2 hadoop-02.xuchenglong.site:50070 dfs.namenode.shared.edits.dir qjournal://hadoop-01.xuchenglong.site:8485;hadoop-02.xuchenglong.site:8485;hadoop-03.xuchenglong.site:8485;hadoop-04.xuchenglong.site:8485;hadoop-05.xuchenglong.site:8485/ns1 dfs.journalnode.edits.dir /opt/cdh5.3.6/hadoop-2.5.0-cdh5.3.6/data/dfs/jn dfs.client.failover.proxy.provider.ns1 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider dfs.ha.fencing.methods sshfence dfs.ha.fencing.ssh.private-key-files /home/xuchenglong/.ssh/id_rsa dfs.ha.automatic-failover.enabled.ns1 true dfs.permissions.enabled false

3）yarn-site.xml【YARN的HA】

yarn.resourcemanager.ha.enabled true yarn.resourcemanager.cluster-id yarn-probd yarn.resourcemanager.ha.rm-ids rm1,rm2 yarn.resourcemanager.hostname.rm1 hadoop-01.xuchenglong.site yarn.resourcemanager.hostname.rm2 hadoop-05.xuchenglong.site yarn.resourcemanager.scheduler.address.rm1 hadoop-01.xuchenglong.site:8030 yarn.resourcemanager.scheduler.address.rm2 hadoop-05.xuchenglong.site:8030 yarn.resourcemanager.resource-tracker.address.rm1 hadoop-01.xuchenglong.site:8031 yarn.resourcemanager.resource-tracker.address.rm2 hadoop-05.xuchenglong.site:8031 yarn.resourcemanager.address.rm1 hadoop-01.xuchenglong.site:8032 yarn.resourcemanager.address.rm2 hadoop-05.xuchenglong.site:8032 yarn.resourcemanager.admin.address.rm1 hadoop-01.xuchenglong.site:8033 yarn.resourcemanager.admin.address.rm2 hadoop-05.xuchenglong.site:8033 yarn.resourcemanager.webapp.address.rm1 hadoop-01.xuchenglong.site:8088 yarn.resourcemanager.webapp.address.rm2 hadoop-05.xuchenglong.site:8088 yarn.resourcemanager.ha.admin.address.rm1 hadoop-01.xuchenglong.site:23142 yarn.resourcemanager.ha.admin.address.rm2 hadoop-05.xuchenglong.site:23142 yarn.resourcemanager.store.class org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore Be available when yarn.resourcemanager.recovery.enabled is true. yarn.resourcemanager.ha.automatic-failover.enabled true yarn.resourcemanager.zk-address hadoop-01.xuchenglong.site:2181,hadoop-02.xuchenglong.site:2181,hadoop-03.xuchenglong.site:2181,hadoop-04.xuchenglong.site:2181,hadoop-05.xuchenglong.site:2181 yarn.resourcemanager.zk-state-store.address hadoop-01.xuchenglong.site:2181,hadoop-02.xuchenglong.site:2181,hadoop-03.xuchenglong.site:2181,hadoop-04.xuchenglong.site:2181,hadoop-05.xuchenglong.site:2181

3、初始化（略）

见相关配置笔记

4、HDFS Federation

一个NameNode负责一个功能，配置HA另算（3个NN配置HA总共6个NN）

Federation是为了HDFS单点故障提出的namenode水平扩展方案，允许HDFS上创建多个namespace命名空间以提高集群扩展性和隔离性（不同namespace负责不同的功能）

承接子推荐阅读：

hadoop系列之基础系列

后续会讲MR的经典案例。

kafka，hbase，spark，Flink等入门到深入源码，spark机器学习，大数据安全，大数据运维

Linux中怎么用cat命令创建文件并写入数据

272 2022-11-23

hadoop系列之深入优化

c语言一维数组怎么快速排列

Linux中怎么用cat命令创建文件并写入数据

navicat怎么添加check约束

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）