Hadoop和Yarn的配置文件
集群参数配置原则重写配置、默认覆盖,否则默认生效。下面总结Haoop常用配置文件参数。常用配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml,配置于Hadoop和Yarn这两个实例中,Hadoop和Yarn两个组件一个是负责存储一个是资源管理框架,相当于计算和存储,有的公司计算节点和存储节点分离,有的没有,按照需求使用。
core-site.xml
core-site.xml 是 NameNode 的核心配置文件,主要对 NameNode 的属性进行设置,也仅仅在 NameNode 节点生效。
fs.defaultFS
hdfs://HadoopHhy
ha.zookeeper.quorum
zk1:2015,zk2:2015,zk3:2015
hadoop.tmp.dir
/home/bigdata/hadoop/tmp
true
io.file.buffer.size
131072
true
fs.trash.interval
1440
hadoop.security.authorization
true
参数配置和解释:
hdfs-site.xml 文件
该文件是 HDFS 的核心配置文件,主要配置 NameNode、DataNode 的一些基于 HDFS 的属性信息、在 NameNode 和 DataNode 节点生效。
dfs.nameservices
test
dfs.ha.namenodes.test
nn1,nn2
dfs.namenode.rpc-address.test.nn1
host1:9000
dfs.namenode.rpc-address.test.nn2
host2:9000
dfs.namenode.http-address.test.nn1
host1:50070
dfs.namenode.http-address.test.nn2
host2:50070
dfs.namenode.shared.edits.dir
qjournal://host1:8485;host2:8485;host3:8485/test
dfs.client.failover.proxy.provider.test
org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider
dfs.ha.fencing.methods
shell(/bin/true)
dfs.journalnode.edits.dir
/data/journal
dfs.ha.automatic-failover.enabled
true
dfs.block.size
134217728
true
dfs.replication
3
dfs.name.dir
/data/namenode
dfs.data.dir
/data/datanode
true
dfs.permissions.enabled
true
dfs.namenode.acls.enabled
true
dfs.image.transfer.bandwidthPerSec
314572800
dfs.image.transfer.timeout
120000
dfs.namenode.checkpoint.txns
5000000
dfs.namenode.edits.dir
/data/editlog
dfs.hosts.exclude
/etc/hadoop/hosts-exclude
dfs.datanode.balance.bandwidthPerSec
20971520
dfs.namenode.accesstime.precision
0
dfs.namenode.decommission.interval
30
参数配置和解释:
yarn-site.xml 文件
该文件是 Yarn 资源管理框架的核心配置文件,所有对 Yarn 的配置都在此文件中设置。
参数配置和解释:
yarn.resourcemanager.ha.enabled
true
yarn.resourcemanager.cluster-id
xxx
yarn.resourcemanager.ha.rm-ids
rm1,rm2
yarn.resourcemanager.hostname.rm1
host1
yarn.resourcemanager.hostname.rm2
host2
yarn.resourcemanager.zk-address
host1:2015,host2:2015,host3:2015
yarn.nodemanager.aux-services
mapreduce_shuffle,spark_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler
yarn.nodemanager.aux-services.spark_shuffle.class
org.apache.spark.network.yarn.YarnShuffleService
yarn.nodemanager.local-dirs
/data/yarn
yarn.nodemanager.log-dirs
/data/logs
yarn.resourcemanager.address.rm1
host1:port
yarn.resourcemanager.scheduler.address.rm1
host1:port
true
yarn.resourcemanager.webapp.address.rm1
host1:8088
yarn.resourcemanager.resource-tracker.address.rm1
host1:port
yarn.resourcemanager.admin.address.rm1
host1:port
yarn.resourcemanager.ha.admin.address.rm1
host1:port
yarn.resourcemanager.address.rm2
host2:port
yarn.resourcemanager.scheduler.address.rm2
host2:port
true
yarn.resourcemanager.webapp.address.rm2
host2:8088
yarn.resourcemanager.resource-tracker.address.rm2
host2:port
yarn.resourcemanager.admin.address.rm2
host2:port
yarn.resourcemanager.ha.admin.address.rm2
host2:port
yarn.client.failover-proxy-provider
org.apache.hadoop.yarn.client.ConfiguredRMFailoverProxyProvider
yarn.resourcemanager.recovery.enabled
true
yarn.resourcemanager.store.class
org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore
yarn.log-aggregation-enable
false
yarn.log-aggregation.retain-seconds
172800
yarn.log-aggregation.retain-check-interval-seconds
21600
yarn.scheduler.minimum-allocation-mb
2048
yarn.scheduler.maximum-allocation-mb
24576
yarn.log.server.url
http://host2:port/jobhistory/logs
yarn.nodemanager.resource.memory-mb
25600
yarn.nodemanager.resource.cpu-vcores
6
yarn.resourcemanager.nodemanager-connect-retries
10
mapred-site.xml 文件
MR 的配置文件。JobHistory用来记录MapReduce任务的完整信息到HDFS目录中。
参数配置和解释:
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
暂时没有评论,来抢沙发吧~