三、MapReduce学习

网友投稿 262 2022-11-18

三、MapReduce学习

MapReducer是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)"

一、Mapper

1、Mapper负责“分”,把复杂的任务分解为若干个简单的任务执行     2、简单的任务分成:a,数据或计算规模对于原任务要大大缩小。b,就近计算,即分配到所需数据节点进行计算。c,这些已分配好的任务彼此间没有依赖关系。

二、Reducer

1、对于map阶段的结果进行汇总     2、reducer的数目由mapred-site.xml配置文件里的项目mapred.reduce.tasks决定。缺省值为1,用户可以覆盖

三、Shuffler

四、编程模型

这是一个气象的例子mapreduce的过程

具体的流程:     a,首先我们把相关的文件拷贝到hadoop集群里面去,此时hadoop就会把这个大文件分成很多块,分别放在不同的节点里面。     b,做一个map函数,map函数可以被jobtracker进程分配到各个节点里面去运行,然后对我们的原始数据进行抽取,此例子抽取出年份和气温,此例子中只要的本地的数据即可完成任务,并能不需要在其他的节点里面去取数据。     c,通过shuffle进行重新切分和组合,简化reducer过程,这个步骤可以没有     d,之后经过reduce函数,将上一步合并的表通过reduce函数,找出每一行的最大值,输出到hdfs中

五、复杂的编程模型

复杂的编程模型,可能一个reduce承受一个范围里面的reduce任务,比如说一个reduce承受的是1930-1960年的,另外一个reduce承受的是1961-2005年的,然后分别做reduce,最后输出到hdfs中

六、mapreduce工作机制剖析

作者:少帅

您的支持是对博主最大的鼓励,感谢您的认真阅读。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:最全的PLC通讯电缆编程电缆自制详解(图)
下一篇:java中List分页的几种方法介绍
相关文章

 发表评论

暂时没有评论,来抢沙发吧~