Hadoop简易知识理论

网友投稿 200 2022-11-25

Hadoop简易知识理论

前言

:Hadoop是基于Google的集群系统理论来进行的开源实现      :Google的集群系统:GFS. MapReduce. BigTable     :Hadoop的集群系统:HDFS. MapReduce. Hbase

概述

Hadoop设计的初衷是为了解决Nutch的海量数据存储和处理的需求,可以解决大数据      场景下的数据存储和处理的问题。一开始HDFS和MapReduce是作为Nutch的两个主件来 使用      后来发现这两个组件不只是可以用在Nutch搜索,所以就单独取出来组成了Hadopp。      注意的是:Hadoop处理是离线数据,即在数据已知以及不要求实时性的场景下使用。

最根本的原理

利用大量的计算机同时运算来加快大量数据的处理速度

优点

一个Hadoop集群可以高效地存储数据,分配处理任务      可以降低计算机的建造和维护成本      一旦任何一个计算机出现硬件故障,不会对整个计算机系统造成致命的影响      (因为面向应用层开发的集群框架本身就必须假定计算机会出现故障)

组成

主要是由 HDFS 和 MapReduce 组成 HDFS:用于分布式文件的存储(负责存储数据) MapReduce:用于数据的计算(负责对数据进行映射,规约处理,并汇总处理结果) Yarn:进行任务调度。

传统数据库的特点

1.GB,TB级别的数据   2.数据增长不快 3.主要为结构化的数据 4.统计和报表

大数据的特点

1.TB,PB级别的数据 2.持续的高速增长 3.半结构化,非结构化的数据 4.数据挖掘的预测性分析 5.海量和数据的获取,存储,聚合,管理这些数据以及 对数据进行深度分析的新技术和新能力

Hadoop的安装

单击方式 伪分布式方式 完全分布式方法

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:10月份苹果将会有什么动态呢?
下一篇:批量实现多台服务器之间 SSH 无密码登录的相互信任关系
相关文章

 发表评论

暂时没有评论,来抢沙发吧~