有没有什么理由让Druid在接受Parquet数据时会慢下来?我们观察到,当接收json数据时,接收速度至少提高了2倍。一般来说,哪一个更好?在DruidHadoop批量摄取的上下文中使用json或parquet。
b4qexyjb1#
parquet针对一次写入多读取(worm)范式进行了优化。它写起来很慢,但读起来却非常快,特别是当您只访问整个列的一个子集时。由于parquet数据格式是压缩和编码的,所以与json数据格式相比,它的写入速度较慢。在这里,您可以使用parquet格式来降低数据接收性能,但是对于数据分析来说,由于其柱状格式,它的速度非常快。
1条答案
按热度按时间b4qexyjb1#
parquet针对一次写入多读取(worm)范式进行了优化。它写起来很慢,但读起来却非常快,特别是当您只访问整个列的一个子集时。由于parquet数据格式是压缩和编码的,所以与json数据格式相比,它的写入速度较慢。
在这里,您可以使用parquet格式来降低数据接收性能,但是对于数据分析来说,由于其柱状格式,它的速度非常快。