Cassandra-hdd与ssd的使用对吞吐量没有影响

ctehm74n 于 2021-06-10 发布在 Cassandra

关注(0)|答案(1)|浏览(432)

上下文
我目前正在单节点集群上运行apachecassandra测试。我已经使用nodetool状态确保了集群的启动和运行，我已经完成了大量的读写操作，我相信我的集群设置是正确的。我现在正试图通过将ssd挂载到cassandra将其数据写入的目录来提高吞吐量。
我的解决方案
cassandra数据的写入位置通常是/var/lib/cassandra/data，但是我已经使用cassandra.yaml将我的数据切换到另一个位置，在那里我安装了ssd。我已经通过检查数据目录内容的大小来确保cassandra正在写入这个位置 watch du -h 以及其他方法。我安装ssd的目录包括表数据、commitlog、提示、嵌套数据目录和保存的缓存。
问题
我一直在使用ycsb基准测试（参见https://github.com/brianfrankcooper/ycsb)测试cassandra的平均吞吐量和ops/sec。我注意到在cassandra将数据写入的位置安装hdd和ssd时，平均吞吐量没有差别。我已经通过 dstat -cd --disk-util --disk-tps 并发现在多个示例中，hdd的cpu使用率最高，而ssd仅在某些情况下达到80%左右。
问题
如何在硬盘上使用ssd提高cassandra的吞吐量？我假设这是正确的地方安装我的ssd，但Cassandra没有利用其额外的处理能力？任何帮助都将不胜感激！

cassandra throughput hard-drive solid-state-drive

来源：https://stackoverflow.com/questions/60796808/cassandra-hdd-vs-ssd-usage-makes-no-difference-in-throughput

1条答案

按热度按时间

svdrlsy41#

ssd应该总是在延迟等方面胜过hdd。这只是一个物理定律。我认为你的测试没有给系统提供足够的负载。另一个问题可能是，您只将数据装载到ssd，而不装载提交日志—在HDD上，它们应始终放在单独的磁盘上，以避免与数据加载发生冲突。在ssd上，它们可以与数据放在同一个磁盘上-请将所有目录指向ssd以查看差异。
我建议使用以下工具进行比较：
性能脚本-它使用 fio 工具来模拟类似cassandra的工作负载，如果您在hdd和ssd上运行它，那么您将看到延迟的差异。你甚至可以不执行它-只是看看 historic 文件夹，其中有不同磁盘类型的结果；
dsbench-最近由datastax团队发布，该团队专门研究cassandra和dse的基准测试。wiki中描述了一些内置工作负载，您可以使用这些负载进行测试。只有确保你运行负载足够长的时间，以看到压实的效果等。

赞(0）回复(0）举报 2021-06-10

我来回答

Cassandra-hdd与ssd的使用对吞吐量没有影响

1条答案

相关问题

热门标签

最新问答