为什么hbase完全扫描和聚合比parquet慢，尽管它也是一个列数据库？

c7rzv4ha 于 2021-06-09 发布在 Hbase

关注(0)|答案(1)|浏览(500)

我一直在尝试将“正确”的技术用于360度客户应用程序，它要求：
一个宽列表，每个客户是一行，有很多列（表示>1000）
我们每天有大约20个批量更新分析作业在运行。每个分析作业都会查询并更新所有行的一小组列。它包括聚合用于报告的数据，以及加载/保存用于机器学习算法的数据。
我们在几列中更新客户信息，每天更新的行数不超过100万行。更新工作负载分布在不同的工作时间。我们有两亿多排。
我试过使用hbase，第1点和第3点都满足了。但我发现在hbase上进行分析（load/save/aggregate）非常慢，比使用parquet慢10倍。我不明白为什么，parquet和hbase都是柱状dbs，而且我们在hbase集群中很好地分配了工作负载（“每个区域的请求”是这样说的）。
有什么建议吗？我用错工具了吗？

hbase Aggregate parquet nosql-aggregation column-aggregation

来源：https://stackoverflow.com/questions/51354106/why-is-hbase-full-scan-and-aggregation-slower-than-parquet-despite-of-also-bein

1条答案

按热度按时间

sauutmhj1#

Parquet地板和hbase都是柱状dbs
这个假设是错误的：
parquet不是数据库。
hbase不是列式数据库。它经常被认为是一个，但这是错误的。 HFile 不是柱状的（Parquet地板是）。
hbase的速度非常慢，比使用 parquet 慢10倍
hbase完全扫描通常比等效的hdfs原始文件扫描慢得多，因为hbase针对随机访问模式进行了优化。你没有具体说明你是如何扫描表格的- TableSnapshotInputFileFormat 比天真的人快得多 TableInputFormat ，但仍比原始hdfs文件扫描慢。

赞(0）回复(0）举报 2021-06-09

我来回答

为什么hbase完全扫描和聚合比parquet慢，尽管它也是一个列数据库？

1条答案

相关问题

热门标签

最新问答