Parquet和数据复制

nfzehxib  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(282)

很显然,parquet文件使olap查询更快,因为它是列格式的,但在另一边,数据湖是重复的(原始数据+parquet数据)。即使Parquet地板可以压缩,你不认为复制所有的数据会花费很多钱吗?

laximzn5

laximzn51#

这取决于您的用例。如果您出于各种原因需要数据,例如暂存数据和查询,则可能需要复制。
parquet最适合于查询,尤其是olap查询,它通常只涉及特定的列。同时,编写parquet文件要比其他文件花费更多的时间。
简而言之,如果两个数据都是olap查询的目标,那么您可能需要考虑只使用文件的Parquet版本。
请参阅此文档以供参考。http://www.slideshare.net/stampedecon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2

相关问题