c语言sscanf函数的用法是什么
269
2022-11-21
《写给大忙人的hadoop2》读书笔记1-大数据定义#yyds干货盘点#
本文主要内容摘记自电子工业出版社出版的《写给大忙人的Hadoop2》,Douglas Eadline著,卢涛 李颖译。如想深入了解相关内容,请购买正版书籍阅读。
一、大数据的定义
大数据不只是数据量大的意思,根据维基百科(on read),在访问数据的时候按自己的需求来构造结构。传统的数据仓库方法,称为写时模式(schema on write),在存储时需要根据最终使用数据的方式进行设计。
数据湖的三个优势:
1、全部数据都保持可用。无需对以后数据的使用作出任何假设。
2、全部数据都是共享的。不同单位或个人都可以使用所有可用数据,以前由于数据分布在完全不同的系统上,是不可用的。
3、全部访问方法都是可用的。任何处理引擎都可以用来检查数据(例如MapReduce、Spark、)。
必须明确,Hadoop并不一定能代替数据仓库。数据仓库是有价值的业务工具。在实际应用中,一般数据仓库和Hadoop同时使用。
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~