【大数据前置基础】大数据聚焦层面,数据仓库,OLAP和OLTP

网友投稿 242 2022-11-16

【大数据前置基础】大数据聚焦层面,数据仓库,OLAP和OLTP

大数据中的几个概念

​​1 大数据聚集层面​​​​2 数据仓库​​​​3 OLAP和OLTP​​

作者:Be_melting

1 大数据聚集层面

先举个例子:假如我是一个电商,我想要把过去一个月中卖得好的商品提出来打包放在电商网页的首页,这样用户打开首页之后就能直接看到热销的商品了(这里就是一个商品推荐的案例),具体面临的问题有两个

(1) 大量数据如何存储(比如订单数量,信息)(2)大量数据如何进行计算(繁杂的数据中如何进行数值计算,统计)

还有一个就是天气预报的案例:比如将某一城市的天气预测,就需要将市中所有的站点数据全部都获取到,然后再进行计算,而且天气数据是实时动态刷新数据,数据量及其庞大,存储是一个问题,计算同样也是一个问题

所以大数据就聚焦在两个方面:

(1)海量数据的存储。解决方式:分布式文件系统 HDFS(2)庞大的数据计算。解决方式:分布式计算模型MapReduce、Spark RDD、Flink分区

* 具体数据计算细分: *(A)离线计算、批处理 MapReduce、Spark Core、Flink DataSet *(B)实时计算、流处理 Storm、Spark Streaming、Flink DataStream

2 数据仓库

在没有大数据技术之前,人们依然是有数据存储的需要的,那时候常用的数据库都是关系型数据库(比如Mysql,Orcle等),现在随着数据存储的需要变得庞大,那么就有了数据仓库的概念,本质上也就是一个数据库。一般只做查询select

Hadoop、Spark、Flink、NoSQL都可以看成是数据仓库的一种实现方式。数据仓库的搭建过程解析如下,可以分为四部分:

在上图中红框内部,上面黑色的部分是传统的数据仓库搭建的过程,而红字代表着现在大数据技术下的数据仓库搭建

Sqoop和Flume都是进行数据采集,不同点在于Sqoop作用于RDBMS,而Flume应用于文本日志数据采集HDFS(分布式份文件系统),解决海量数据的存储,还可以存在Hbase和Hive进行存储,需要注意的是Hbase是基于HDFS之上的NoSQL数据库,Hive是支持SQL语句,基于HDFS之上的数据数据仓库,所以Hbase和Hive存放数据时依然是放在HDFS里面分析和计算,可以使用MapReduce、Spark、Flink,之前介绍了这三种都是用Java或者Scala语言进行编写, 然而很多人都是无法同时接受多种语言,最终需要一个简单的SQL语言进行操作,而Hive就是基于SQL语言进行操作的,所以最后的数据集市依然可以使用Hbase和Hive

3 OLAP和OLTP

数据分析师的考核题:(ETL属于哪个环节中?答案是OLAP)

OLAP: online analytic processing 联机分析处理:select 数据仓库又是一种OLAP的应用(也就是说重点放在查询操作上)

OLTP: online transaction processing 联机事务处理:insert update delete commit rollback (重在传统数据库的事务操作上)

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:使用FPGA器件和USB通讯实现高速数据传输显示系统的设计
下一篇:如何实现PC机与51系列单片机的通信
相关文章

 发表评论

暂时没有评论,来抢沙发吧~