Hadoop-コンセプト

网友投稿 228 2022-11-26

Hadoop-コンセプト

HDFS(Hadoop distributed file system):

Name node:

Data node管理

メタ情報管理

Data node:

分散してファイルを保存

同じファイルが三つのノード以上に保持し、

Data nodeの障害に対応できるように設定するのが一般的

クライアントは

①Name nodeにメタ情報を問い合わせ

②Data node上のファイルにアクセスする

MapReduce:

MapReduceとは、データの並列処理を行うためのアルゴリズム

「○○単位に」「××する」という処理を並列に行うことができる

YARN(Yet another resource negotiator):

YARNはHadoopクラスタのリソース管理と、ジョブスケジューリングを行う。

ResourceManagerとNodeManagerで構成される。

クライアント:MapReduceのジョブを投入。

ResourceManager:リソース管理スケジューリング。

NodeManager:ジョブを並列実行。

(map, reduce, shuffleを実施)

Hadoop Clusterは、各ノードに分散保存されているデータに対して、

そのノード上で処理を実施できるので効率が良い。

(処理対象データを取得する為の通信が不要)

Hiveコマンドは以下の処理を行う:

HiveQLの受付

HiveQL⇒MapReduceジョの変換

変換してMapReduceジョブをHadoopに渡す(処理はHadoopで実行)

metastoreは、HiveQLでクエリで見るテーブル定義情報を格納

実体はHadoopクラスタ上、メタ情報はRDBに格納

Hiveのテーブルは、ファイルシステムの指定ディレクトリ配下に格納

パテーションを用いると、サブディレクトリで管理することができる

Hiveのテーブルの実体は、ファイルシステム上のファイル、

通常の(externalではない)テーブルの場合、create tableでテーブルを作成してinsertするとファイルが作成される。

external tableを使うと、HDFSなどに配置したファイル(tsvなど)をhiveのテーブルとして扱うことができる

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:拉你和国内大厂实力派数据人一起切磋学艺,内推就业也不愁
下一篇:TI PGA450-Q1超声波汽车倒车解决方案涵电路图介绍
相关文章

 发表评论

暂时没有评论,来抢沙发吧~