Hive 的 ORC、Parquet 等列式存储的优点-APISpace

Hive 的 ORC、Parquet 等列式存储的优点

ORC:

ORC 文件是自描述的，它的元数据使用 Protocol Buffers 序列化，文件中的数据尽可能的压缩以降低存储空间的消耗；以二进制方式存储，不可以直接读取；自解析，包含许多元数据，这些元数据都是同构 ProtoBuffer 进行序列化的；会尽可能合并多个离散的区间尽可能的减少 I/O次数；在新版本的 ORC 中也加入了对 Bloom Filter 的支持，它可以进一步提升谓词下推的效率，在 Hive 1.2.0 版本以后也加入了对此的支持。

Parquet:

Parquet 支持嵌套的数据模型，类似于 Protocol Buffers，每一个数据模型的 schema 包含多个字段，每一个字段有三个属性：重复次数、数据类型和字段名；Parquet 中没有 Map、Array 这样的复杂数据结构，但是可以通过 repeated 和 group 组合来实现；通过 Striping/Assembly 算法，parquet 可以使用较少的存储空间表示复杂的嵌套格式，并且通常 Repetition level 和 Definition level 都是较小的整数值，可以通过 RLE 算法对其进行压缩，进一步降低存储空间；Parquet 文件以二进制方式存储，不可以直接读取和修改，Parquet 文件是自解析的，文件中包括该文件的数据和元数据

Linux中怎么用cat命令创建文件并写入数据

302 2022-08-23

Hive 的 ORC、Parquet 等列式存储的优点

linux怎么查看本机内存大小

Linux中怎么用cat命令创建文件并写入数据

mysql连接测试不成功的原因有哪些

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）