《写给大忙人的hadoop2》读书笔记1-大数据定义#yyds干货盘点#

网友投稿 269 2022-11-21

《写给大忙人的hadoop2》读书笔记1-大数据定义#yyds干货盘点#

​本文主要内容摘记自电子工业出版社出版的《写给大忙人的Hadoop2》,Douglas Eadline著,卢涛 李颖译。如想深入了解相关内容,请购买正版书籍阅读。​

​一、大数据的定义​

​大数据不只是数据量大的意思,根据维基百科(​​on read),在访问数据的时候按自己的需求来构造结构。传统的数据仓库方法,称为写时模式(schema on write),在存储时需要根据最终使用数据的方式进行设计。​

​数据湖的三个优势:​

​1、全部数据都保持可用。无需对以后数据的使用作出任何假设。​

​2、全部数据都是共享的。不同单位或个人都可以使用所有可用数据,以前由于数据分布在完全不同的系统上,是不可用的。​

​3、全部访问方法都是可用的。任何处理引擎都可以用来检查数据(例如MapReduce、Spark、)。​

​必须明确,Hadoop并不一定能代替数据仓库。数据仓库是有价值的业务工具。在实际应用中,一般数据仓库和Hadoop同时使用。​

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Java 实战范例之校园二手市场系统的实现
下一篇:关于物流行业数字化转型的一点总结(一)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~