Hadoop大数据——MR程序map任务数的规划机制-APISpace

Hadoop大数据——MR程序map任务数的规划机制

一个inputsplit对应一个map 而inputsplit切片规划是由InputFormat的具体实现子类来实现，就是调用 InputSplits[ ] getSplits() 方法，这个方法的逻辑可以自定义在默认情况下，由FileInputFormat来实现，它的核心逻辑：规划切片的大小 long minSize = Math.max(getFormatMinSplitSize(), getMinSplitSize(job)); long maxSize = getMaxSplitSize(job); public static long getMaxSplitSize(JobContext context) { returncontext.getConfiguration().getLong(SPLIT_MAXSIZE, Long.MAX_VALUE); } // mapreduce.input.fileinputformat.split.minsize 配置这个值可以让切片大小>块大小 // mapreduce.input.fileinputformat.split.maxsize 配置这个值可以让切片大小<块大小 long splitSize = computeSplitSize(blockSize, minSize, maxSize); //计算切片大小 protected long computeSplitSize(long blockSize, long minSize,long maxSize) { return Math.max(minSize, Math.min(maxSize, blockSize)); } (2)构造切片信息对象，并放入InputSplits[ ]中 splits.add(makeSplit(path,length-bytesRemaining,splitSize,blkLocations[blkIndex].getHosts())); 注：FileInputFormat的切片机制是针对一个一个的文件进行，因此，如果文件太小，则整个文件划分为一个切片如果一个大文件被切成若干个切片后，剩下的长度如果在blocksize的1.1倍大小以内，则将剩下的长度全部规划为一个切片

c语言sscanf函数的用法是什么

238 2022-11-24

Hadoop大数据——MR程序map任务数的规划机制

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

php怎么获取input输入的值

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）