【Hadoop】Hadoop体系知识点梳理（目录）

网友投稿 254 2022-11-16

Hadoop体系知识点梳理（目录）

核心点第一章：Hadoop背景知识与起源第二章：搭建Hadoop环境第三章：HDFS体系架构第四章：HDFS第五章：MapReduce第六章：Hbase第七章：Hive第八章：Pig第九章：Sqoop第十章：Zookeeper与HA第十一章：HUE

作者：Be_melting

核心点

（1）明确大数据开发的原理、思想和架构（2）需要自己动手搭建环境：

学习阶段：使用Apache版本生产开发：CDH、HDP、阿里、华为等

（3）开发程序时使用的语言：

Hadoop：Java语言Spark：Scala语言、Java语言Flink：Scala语言、Java语言

第一章：Hadoop背景知识与起源

1、课程概述：目的：了解名词2、实验环境：RedHat Linux 7.4 64位 Apache版本 Java JDK 一共需要5台虚拟机：注意：我的机器和你的机器的IP地址可能不一样 bigdata111 192.168.124.111 bigdata112 192.168.124.112 bigdata113 192.168.124.113 bigdata114 192.168.124.114 bigdata115 192.168.124.115 （1）关闭防火墙 systemctl stop firewalld.service systemctl disable firewalld.service （2）设置主机名 vi /etc/hosts 192.168.124.111 bigdata111 （3）安装JDK mkdir tools/ mkdir training/ tar -zxvf jdk-8u181-linux-x64.tar.gz -C ~/training/ vi ~/.bash_profile JAVA_HOME=/root/training/jdk1.8.0_181 export JAVA_HOME PATH=$JAVA_HOME/bin:$PATH export PATH source ~/.bash_profile 3、大数据中几个基本概念：（*）什么是大数据？核心问题举例：（1）商品推荐（问题1）大量的订单如何存储？（问题2）大量的订单如何计算？（2）天气预报（问题1）大量的天气数据如何存储？（问题2）大量的天气数据如何计算？核心问题：（1）数据存储：分布式文件系统 HDFS （2）数据计算：分布式计算模型MapReduce、Spark RDD、Flink分区（A）离线计算、批处理 MapReduce、Spark Core、Flink DataSet （B）实时计算、流处理 Storm、Spark Streaming、Flink DataStream （*）数据仓库：本质上，就是一个数据库（Oracle、MySQL）；一般，只做查询select Hadoop、Spark、Flink、NoSQL都可以看成是数据仓库的一种实现方式。数据仓库的搭建过程（画图）数据仓库又是一种OLAP的应用（*）OLTP、OLAP OLTP：online transaction processing 联机事务处理：insert update delete commit rollback OLAP：online analytic processing 联机分析处理：select 4、（重点）Google的三篇论文：三驾马车-----> 原理（1）GFS：Google File System ----> HDFS：Hadoop Distributed File System 画图：分布式文件系统的基本原理 HDFS：主节点：NameNode 从节点：DataNode （2）MapReduce分布式计算模型 ----> 问题来源：PageRank（网页排序）问题 Page 网页 Rank 分数举一个更简单一点的例子，来解释MapReduce计算模型（MapReduce编程模型） Demo：wordcount 位置：$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar 命令：hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0223 Yarn：主节点：ResourceManager 从节点：NodeManager （3）BigTable大表 -----> NoSQL数据库：HBase 回顾：关系型数据库，需要遵循范式的要求。范式的优点是：减少数据冗余范式的缺点：影响性能关系型数据库是行式数据库，适合insert update select 大表思想：把所有的数据存入一张表中。不遵循范式要求。通过牺牲空间，提高性能。 HBase是列式数据库，适合做select 对比：Oracle的表结构和HBase的表结构

第二章：搭建Hadoop环境

1、Hadoop的目录结构2、Hadoop的本地模式3、Hadoop的伪分布模式4、免密码登录的原理和配置5、Hadoop的全分布模式

第三章：HDFS体系架构

1、HDFS分布式文件系统（1）NameNode：名称节点（2）DataNode：数据节点（3）SecondaryNameNode：第二名称节点2、Yarn：资源任务调度的容器（平台），执行MapReduce程序（1）ResourceManager （2）NodeManager Yarn如何进行资源的分配：三种分配的方式3、HBase的体系架构和表结构

第四章：HDFS

1、操作HDFS：Web Console、命令行、Java API2、HDFS的原理解析（画图）（1）数据上传的过程和原理（2）数据下载的过程和原理 3、HDFS的高级功能（1）回收站（2）快照：Snapshot，是一种备份（3）配额：Quota，名称配额、空间配额（4）安全模式：safemode （5）权限管理：类似Linux 4、HDFS的集群简介：联盟、HA5、底层原理的实现（1）代理对象Proxy （2）RPC：remote procedure call 协议

第五章：MapReduce

1、经典案例：单词计数WordCount，实现这个过程2、功能特性（1）序列化：Writable接口（2）排序（3）分区：非常重要，画图来解释（4）Combiner合并：优化的方式（5）MapReduce的核心：Shuffle洗牌 3、MapReduce的编程案例（1）数据去重（2）多表查询：类似SQL语句，补充讲一下数据库中的多表查询（3）实现倒排索引：原理会在HDFS中讲（4）使用MRUnit进行MapReduce的单元测试

第六章：Hbase

1、表结构和体系架构2、搭建HBase的环境（1）本地模式（2）伪分布模式（3）全分布模式（4）HA 3、操作HBase：Web Console、命令行、Java API4、HBase的过滤器：类似where条件5、HBase中的MapReduce

第七章：Hive

都是Hadoop中的数据分析引擎，支持SQL语句

第八章：Pig

都是Hadoop中的数据分析引擎，支持PigLatin

第九章：Sqoop

实现数据采集，采集的是关系型数据库，基于JDBC

第十章：Zookeeper与HA

1、什么是ZooKeeper？功能特性、环境搭建2、基于ZooKeeper实现Hadoop的HA：解决大数据主从架构的单点故障问题3、HDFS的联盟：Federation

第十一章：HUE

基于Web的管理工具

标签：工具

暂时没有评论，来抢沙发吧~

【Hadoop】Hadoop体系知识点梳理（目录）

linux cpu占用率如何看

宝塔数据库如何清理缓存

oracle怎么创建存储过程

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）