很显然,parquet文件使olap查询更快,因为它是列格式的,但在另一边,数据湖是重复的(原始数据+parquet数据)。即使Parquet地板可以压缩,你不认为复制所有的数据会花费很多钱吗?
laximzn51#
这取决于您的用例。如果您出于各种原因需要数据,例如暂存数据和查询,则可能需要复制。parquet最适合于查询,尤其是olap查询,它通常只涉及特定的列。同时,编写parquet文件要比其他文件花费更多的时间。简而言之,如果两个数据都是olap查询的目标,那么您可能需要考虑只使用文件的Parquet版本。请参阅此文档以供参考。http://www.slideshare.net/stampedecon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2
1条答案
按热度按时间laximzn51#
这取决于您的用例。如果您出于各种原因需要数据,例如暂存数据和查询,则可能需要复制。
parquet最适合于查询,尤其是olap查询,它通常只涉及特定的列。同时,编写parquet文件要比其他文件花费更多的时间。
简而言之,如果两个数据都是olap查询的目标,那么您可能需要考虑只使用文件的Parquet版本。
请参阅此文档以供参考。http://www.slideshare.net/stampedecon/choosing-an-hdfs-data-storage-format-avro-vs-parquet-and-more-stampedecon-2015?qid=697d8f63-e6d8-4db1-951d-0f6f3b170ad1&v=default&b=&from_search=2