Hadoop大数据——mapreduce的Distributed cache

网友投稿 253 2022-11-24

Hadoop大数据——mapreduce的Distributed cache

应用场景:map side join 工作原理: 通过mapreduce框架将一个文件(本地/HDFS)分发到每一个运行时的task(map task /reduce task)节点上(放到task进程所在的工作目录) 获取的方式: 在我们自己的mapper或者reducer的代码内,直接使用本地文件JAVA ----API 来访问这个文件 示例程序: 首先在 job对象中进行指定: job.addCacheFile(new URI("hdfs://hadoop-server01:9000/cachefile/b.txt")); //分发一个文件到task进程的工作目录 job.addCacheFile(new URI("hdfs://hadoop-server01:9000/cachefile/b.txt")); //分发一个归档文件到task进程的工作目录 //job.addArchiveToClassPath(archive); //分发jar包到task节点的classpath下 //job.addFileToClassPath(jarfile); 然后在mapper或者reducer中直接使用: in = new FileReader("b.txt"); reader =new BufferedReader(in); String line = reader.readLine()

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Hadoop大数据——mapreduce的join算法
下一篇:Spring之spring
相关文章

 发表评论

暂时没有评论,来抢沙发吧~