选择查询性能影响 clickhouse 表中不断填充insert into

wi3ka0sx 于 2021-07-15 发布在 ClickHouse

关注(0)|答案(1)|浏览(1013)

clickhouse 表， mergetree引擎，不断填充 “插入 … “设置csv格式” 查询，开始为空。这个平均投入率每秒7000行。插入是成批进行的几千个排。这会严重影响性能同时执行select查询时。如clickhouse文档中所述，系统最多需要10分钟来合并特定表的数据（重新索引）。但是，由于表是不断填充的，所以这种情况不会发生。
这也是显而易见的在里面文件系统。table 文件夹中有数千个子文件夹索引被过度分割了。如果数据接收停止，几分钟后表就被完全合并，子文件夹的数量就变成12个。
为了遇到上述弱点缓冲发动机已使用缓冲表数据摄入10分钟。因此，缓冲区的最大行数平均为4200000。
初始表剩余的缓冲区保留最近摄取的行时，最多延迟10分钟。table终于好了合并，其行为与这张table已经停下来了密集的对于几分钟。但是缓冲表，对应于缓冲区和初始表的组合，正在变得严重地更慢的。
从上面看来，如果表是连续的填充，不合并，索引会受到影响。有没有办法避免这种弱点？

clickhouse Buffer

来源：https://stackoverflow.com/questions/48171764/select-queries-performance-impact-when-the-clickhouse-table-is-continuously-popu

1条答案

按热度按时间

3zwtqj6y1#

表数据目录中的子文件夹数不是那么具有代表性。
实际上，每个子文件夹都包含一个由排序（索引）行组成的数据部分。如果几个数据部分合并成一个新的更大的部分，则会出现新的子文件夹。
但是，合并后不会立即删除源数据部分。有一个 <merge_tree> 设置 old_parts_lifetime 定义一个延迟，在该延迟之后零件将被移除，默认设置为8分钟。此外，还有 cleanup_delay_period 设置定义后台清理器检查和删除过期部件的频率，默认为30秒。
因此，在摄取开始后的8分30秒内拥有如此多的子文件夹是正常的。如果您不能接受，可以更改这些设置。
只检查表中活动部件的数量是有意义的（即未合并为较大部件的部件）。为此，可以运行以下查询： SELECT count() FROM system.parts WHERE database='db' AND table='table' AND active .
此外，如果分区中的活动部件数量大于 parts_to_delay_insert=150 ，将减慢插入速度，但如果大于 parts_to_throw_insert=300 它将中止插入。

赞(0）回复(0）举报 2021-07-15

我来回答

选择查询性能影响 clickhouse 表中不断填充insert into

1条答案

相关问题

热门标签

最新问答