linux cpu占用率如何看
254
2022-11-16
【Hadoop】Hadoop体系知识点梳理(目录)
Hadoop体系知识点梳理(目录)
核心点第一章:Hadoop背景知识与起源第二章:搭建Hadoop环境第三章:HDFS体系架构第四章:HDFS第五章:MapReduce第六章:Hbase第七章:Hive第八章:Pig第九章:Sqoop第十章:Zookeeper与HA第十一章:HUE
作者:Be_melting
核心点
(1)明确大数据开发的原理、思想和架构 (2)需要自己动手搭建环境:
学习阶段:使用Apache版本生产开发:CDH、HDP、阿里、华为等
(3)开发程序时使用的语言:
Hadoop:Java语言Spark:Scala语言、Java语言Flink:Scala语言、Java语言
第一章:Hadoop背景知识与起源
1、课程概述:目的:了解名词2、实验环境:RedHat Linux 7.4 64位 Apache版本 Java JDK 一共需要5台虚拟机:注意:我的机器和你的机器的IP地址可能不一样 bigdata111 192.168.124.111 bigdata112 192.168.124.112 bigdata113 192.168.124.113 bigdata114 192.168.124.114 bigdata115 192.168.124.115 (1)关闭防火墙 systemctl stop firewalld.service systemctl disable firewalld.service (2)设置主机名 vi /etc/hosts 192.168.124.111 bigdata111 (3)安装JDK mkdir tools/ mkdir training/ tar -zxvf jdk-8u181-linux-x64.tar.gz -C ~/training/ vi ~/.bash_profile JAVA_HOME=/root/training/jdk1.8.0_181 export JAVA_HOME PATH=$JAVA_HOME/bin:$PATH export PATH source ~/.bash_profile 3、大数据中几个基本概念: (*)什么是大数据?核心问题 举例:(1)商品推荐 (问题1)大量的订单如何存储? (问题2)大量的订单如何计算? (2)天气预报 (问题1)大量的天气数据如何存储? (问题2)大量的天气数据如何计算? 核心问题:(1)数据存储:分布式文件系统 HDFS (2)数据计算:分布式计算模型MapReduce、Spark RDD、Flink分区 (A)离线计算、批处理 MapReduce、Spark Core、Flink DataSet (B)实时计算、流处理 Storm、Spark Streaming、Flink DataStream (*)数据仓库:本质上,就是一个数据库(Oracle、MySQL);一般,只做查询select Hadoop、Spark、Flink、NoSQL都可以看成是数据仓库的一种实现方式。 数据仓库的搭建过程(画图) 数据仓库又是一种OLAP的应用 (*)OLTP、OLAP OLTP:online transaction processing 联机事务处理:insert update delete commit rollback OLAP:online analytic processing 联机分析处理:select 4、(重点)Google的三篇论文:三驾马车-----> 原理 (1)GFS:Google File System ----> HDFS:Hadoop Distributed File System 画图:分布式文件系统的基本原理 HDFS:主节点:NameNode 从节点:DataNode (2)MapReduce分布式计算模型 ----> 问题来源:PageRank(网页排序)问题 Page 网页 Rank 分数 举一个更简单一点的例子,来解释MapReduce计算模型(MapReduce编程模型) Demo:wordcount 位置:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar 命令:hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0223 Yarn:主节点:ResourceManager 从节点:NodeManager (3)BigTable大表 -----> NoSQL数据库:HBase 回顾:关系型数据库,需要遵循范式的要求。范式的优点是:减少数据冗余 范式的缺点:影响性能 关系型数据库是行式数据库,适合insert update select 大表思想:把所有的数据存入一张表中。不遵循范式要求。 通过牺牲空间,提高性能。 HBase是列式数据库,适合做select 对比:Oracle的表结构和HBase的表结构
第二章:搭建Hadoop环境
1、Hadoop的目录结构2、Hadoop的本地模式3、Hadoop的伪分布模式4、免密码登录的原理和配置5、Hadoop的全分布模式
第三章:HDFS体系架构
1、HDFS分布式文件系统 (1)NameNode:名称节点 (2)DataNode:数据节点 (3)SecondaryNameNode:第二名称节点2、Yarn:资源任务调度的容器(平台),执行MapReduce程序 (1)ResourceManager (2)NodeManager Yarn如何进行资源的分配:三种分配的方式3、HBase的体系架构和表结构
第四章:HDFS
1、操作HDFS:Web Console、命令行、Java API2、HDFS的原理解析(画图) (1)数据上传的过程和原理 (2)数据下载的过程和原理 3、HDFS的高级功能 (1)回收站 (2)快照:Snapshot,是一种备份 (3)配额:Quota,名称配额、空间配额 (4)安全模式:safemode (5)权限管理:类似Linux 4、HDFS的集群简介:联盟、HA5、底层原理的实现 (1)代理对象Proxy (2)RPC:remote procedure call 协议
第五章:MapReduce
1、经典案例:单词计数WordCount,实现这个过程2、功能特性 (1)序列化:Writable接口 (2)排序 (3)分区:非常重要,画图来解释 (4)Combiner合并:优化的方式 (5)MapReduce的核心:Shuffle洗牌 3、MapReduce的编程案例 (1)数据去重 (2)多表查询:类似SQL语句,补充讲一下数据库中的多表查询 (3)实现倒排索引:原理会在HDFS中讲 (4)使用MRUnit进行MapReduce的单元测试
第六章:Hbase
1、表结构和体系架构2、搭建HBase的环境 (1)本地模式 (2)伪分布模式 (3)全分布模式 (4)HA 3、操作HBase:Web Console、命令行、Java API4、HBase的过滤器:类似where条件5、HBase中的MapReduce
第七章:Hive
都是Hadoop中的数据分析引擎,支持SQL语句
第八章:Pig
都是Hadoop中的数据分析引擎,支持PigLatin
第九章:Sqoop
实现数据采集,采集的是关系型数据库,基于JDBC
第十章:Zookeeper与HA
1、什么是ZooKeeper?功能特性、环境搭建2、基于ZooKeeper实现Hadoop的HA:解决大数据主从架构的单点故障问题3、HDFS的联盟:Federation
第十一章:HUE
基于Web的管理工具
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。
发表评论
暂时没有评论,来抢沙发吧~