对大数据平台中表分析

网友投稿 237 2022-11-18

对大数据平台中表分析

假如数据表为Demo,这里中的最大值、最小值、平均值的计算要单位一致,如果单位不一致计算有误。这里给出的只是命令,命令使用,需要依据实际环境调整。因为hadoop删除处理大块文件,碎片化文件过多会严重消耗集群资源,影响查询效率。获取表当前分区数

hadoop fs -ls hdfs://nameservice1/inceptor1/user/hive/warehouse/Demo | wc -l

获取表当前分区最小值

hadoop fs -du -h hdfs://nameservice1/inceptor1/user/hive/warehouse/risk.db/hive/Demo | sort -n |sed -n '1p'

获取表当前分区最大值

hadoop fs -du -h hdfs://nameservice1/inceptor1/user/hive/warehouse/Demo | sort -n |sed -n '$p'

获取表分区平均值

hadoop fs -du -h hdfs://nameservice1/inceptor1/user/hive/warehouse/Demo | sort -n |awk '{sum+= $1}END{printf sum/NR "\n"}'

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Hadoop中的压缩与解压缩案例详解
下一篇:如何实现ABB机器人和视觉系统间的TCP/IP通讯呢?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~