大数据平台性能优化(二)

网友投稿 302 2022-11-22

大数据平台性能优化(二)

1.hdfs 性能调优

1.1 hdfs-site.xml

dfs.replication此参数用来设置文件副本数,通常设为3,不推荐修改。这个参数可用来保障HDFS数据安全,副本数越多,越浪费磁盘存储空间,但数据安全性越高。dfs.block.size此参数用来设置HDFS中数据块的大小,默认为128M,所以,存储到HDFS的数据最好都大于128M或者是128的整数倍,这是最理想的情况,对于数据量较大的集群,可设为256MB或者512MB。数据块设置太小,会增加NameNode的压力。数据块设置过大会增加定位数据的时间。dfs.datanode.data.dir这个参数是设置HDFS数据块的存储路径,配置的值应当是分布在各个独立磁盘上的目录,这样可以充分利用节点的IO读写能力,提高HDFS读写性能。dfs.datanode.max.transfer.threads这个值是配置datanode可同时处理的最大文件数量,推荐将这个值调大,最大值可以配置为65535。

1.2 hadoop-env.sh内存资源设置

企业应用中,一般将Namenode运行在一台独立的服务器上,要设置Namenode堆内存大小,可通过在hadoop配置文件hadoop-env.sh中添加如下内容实现:export HADOOP_HEAPSIZE_MAX=30720export HADOOP_HEAPSIZE_MIN=30720这里建议Namenode堆内存大小设置为物理内存的一半以上。 接着,是对Datanode堆内存参数的设置,同样修改hadoop配置文件hadoop-env.sh,添加如下内容:export HDFS_DATANODE_HEAPSIZE=4096export HDFS_DATANODE_OPTS="-Xms${HDFS_DATANODE_HEAPSIZE}m -Xmx\${HDFS_DATANODE_HEAPSIZE}m"建议Datanode堆内存大小设置为4GB以上。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:krb5kdc: Cannot allocate memory
下一篇:Java Collections.EMPTY_LIST与Collections.emptyList()的区别
相关文章

 发表评论

暂时没有评论,来抢沙发吧~