Hadoop-コンセプト-APISpace

Hadoop-コンセプト

HDFS(Hadoop distributed file system):

Name node:

Data node管理

メタ情報管理

Data node:

分散してファイルを保存

同じファイルが三つのノード以上に保持し、

Data nodeの障害に対応できるように設定するのが一般的

クライアントは

①Name nodeにメタ情報を問い合わせ

②Data node上のファイルにアクセスする

MapReduce:

MapReduceとは、データの並列処理を行うためのアルゴリズム

「○○単位に」「××する」という処理を並列に行うことができる

YARN(Yet another resource negotiator):

YARNはHadoopクラスタのリソース管理と、ジョブスケジューリングを行う。

ResourceManagerとNodeManagerで構成される。

クライアント:MapReduceのジョブを投入。

ResourceManager:リソース管理スケジューリング。

NodeManager:ジョブを並列実行。

(map, reduce, shuffleを実施)

Hadoop Clusterは、各ノードに分散保存されているデータに対して、

そのノード上で処理を実施できるので効率が良い。

(処理対象データを取得する為の通信が不要)

Hiveコマンドは以下の処理を行う:

HiveQLの受付

HiveQL⇒MapReduceジョの変換

変換してMapReduceジョブをHadoopに渡す(処理はHadoopで実行)

metastoreは、HiveQLでクエリで見るテーブル定義情報を格納

実体はHadoopクラスタ上、メタ情報はRDBに格納

Hiveのテーブルは、ファイルシステムの指定ディレクトリ配下に格納

パテーションを用いると、サブディレクトリで管理することができる

Hiveのテーブルの実体は、ファイルシステム上のファイル、

通常の(externalではない)テーブルの場合、create tableでテーブルを作成してinsertするとファイルが作成される。

external tableを使うと、HDFSなどに配置したファイル(tsvなど)をhiveのテーブルとして扱うことができる

Linux下setsockopt函数有什么用

245 2022-11-26

Hadoop-コンセプト

jmeter怎么编写socket脚本

Go中selectcase的用法是什么

Linux下setsockopt函数有什么用

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）