Hadoop中任务推测执行-APISpace

Hadoop中任务推测执行

作业完成时间取决于最慢的任务完成时间一个作业由若干Map任务和Reduce任务构成,但因硬件老化,软件BUG,某些任务可能运行非常慢典型案例：系统中有 99%的 Map 任务都完成了，只有少数几个 Map 老是进度很慢，完不成，怎么办？推测执行机制发现拖后腿的任务,比如某个任务运行速度远慢于任务平均速度,为拖后腿任务启动一个备份任务,同时运行,谁先运行完,就用谁的结果执行推测任务的前提条件 (1) 每个task只能一个备份任务 (2)当前job已完成的task必须不小于5% (3)开始推测执行参数设置修改mapred-site.xml 默认是打开的 mapreduce.map.speculative true If true, then multiple instances of some map tasks may be executed in parallel. mapreduce.reduce.speculative true If true, then multiple instances of some reduce tasks may be executed in parallel. 不能启用推测执行机制情况 (1) 任务间存在严重的负载倾斜比如两个节点第一个节点跑90%的任务,第二个节点跑的少 (2)特殊任务,比如任务向数据库中写数据算法原理假设某一个时刻,任务T的执行进度为process,可以通过一定的算法推测出该任务的最终完成时刻, estimateEndTime,另一方面,如果此刻为该任务启动一个备份任务,则可以推断出它可能完成时刻,estimateEndTime,则可以退出公式 estimateEndTime = estimatedRunTime + taskStartTime 推测执行完时刻 60 = 推测运行时间（60s） + 任务启动时刻（0） estimatedRunTime = (currentTimestamp - taskStartTime) / progress 推测运行时间（60s） =（当前时刻（6） - 任务启动时刻（0）） / 任务运行比例（10%） estimateEndTime` = currentTimestamp + averageRunTime 备份任务推测完成时刻（16） = 当前时刻（6） + 运行完成任务的平均时间（10s） MR总是选择（estimateEndTime- estimateEndTime ` ）差值最大的任务，并为之启动备份任务。为了防止大量任务同时启动备份任务造成的资源浪费，MR为每个作业设置了同时启动的备份任务数目上限。推测执行机制实际上采用了经典的优化算法：以空间换时间，它同时启动多个相同任务处理相同的数据，并让这些任务竞争以缩短数据处理时间。显然，这种方法需要占用更多的计算资源。在集群资源紧缺的情况下，应合理使用该机制，争取在多用少量资源的情况下，减少作业的计算时间。

c语言sscanf函数的用法是什么

305 2022-11-24

Hadoop中任务推测执行

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）