为什么avro或Parquet格式比csv快？

6ie5vjzr 于 2023-05-26 发布在其他

关注(0)|答案(2)|浏览(181)

我可以读到一些文章，其中我可以读到csv对于大型数据集来说速度较慢且不好。
但我不能理解它是什么与avro/parquet内部，这使得它更快的更大的数据集比csv。

csv

来源：https://stackoverflow.com/questions/71035663/why-avro-or-parquet-format-is-faster-than-csv

2条答案

按热度按时间

8xiog9wr1#

首选数据格式的顺序（在Hadoop上下文中）通常是ORC、Parquet、Avro、SequenceFile，然后是PlainText。
反对CSV的主要原因是它只是一个字符串，这意味着通过根据文件编码（例如UTF8）存储所有字符，数据集会更大;不存在与数据相关联的类型信息或模式，并且在反序列化时将始终解析数据。换句话说，当存储一个布尔字段时，例如，你真的只需要一个二进制位，但在CSV中，你必须存储"true"，"false"的完整字节或"0"或"1"的字符串，作为ASCII仍然是整整8位。
另一方面，ORC和Parquet维护类型信息并支持列式下推 predicate ，以实现更快的分析（类似于RDBMS）
Avro是基于行的格式。主要用于网络传输，而不是长期存储。Avro可以很容易地转换成Parquet。由于它仍然是类型化的和二进制的，它将比CSV消耗更少的空间，并且仍然比明文处理得更快。
SequenceFiles是Hadoop的中间地带，但没有得到其他工具的广泛支持。