hadoop和cassandra基准测试

js81xvg6  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(311)

我最近建立了一个 Hadoop - Cloudera cluster 以及 Cassandra 具有2个节点的群集。我现在想做一些基准测试,收集一些关于资源使用的数据。我找了很多,发现 HiBench 以及 Cassandra 应力工具。我不想和其他系统比较,我想测量我自己的,但很难想象,我怎样才能得到真实和正确的价值观。群集由2个虚拟机组成,创建时使用 KVM . CassandraDocker 容器。很难解释,如何分析这个系统,而不会得到错误的结果。

5n0oy7gb

5n0oy7gb1#

一些评论
集群由2个虚拟机组成,使用kvm创建
如果您想对性能进行基准测试,请不要使用虚拟机。实际上,cassandra在磁盘上执行顺序写入以优化扫描操作。通过使用虚拟机和共享磁盘,顺序写入的好处就失去了,因为hypervisor可以在不同的磁盘扇区上重新排序和分派连续的数据,从而破坏了以前对顺序扫描的优化
另一种方法是确保每个vm都有一个专用磁盘。
如果你没有做性能基准测试,忽略上面的评论
第二个建议是,使用真实的数据集,例如不适合内存的大数据集,这样您就可以看到每种技术的行为。请阅读以下内容以了解更多详细信息:http://www.nextplatform.com/2016/02/19/the-myth-of-in-memory-computing/

fykwrbwg

fykwrbwg2#

您可以使用yahoo云服务基准来对您的cassandra集群进行基准测试。下面是指向它和相应git存储库的链接。
https://research.yahoo.com/news/yahoo-cloud-serving-benchmark/https网址:github.com/brianfrankcooper/ycsb
基准测试非常灵活,有许多参数可以更改,以充分了解集群的行为和属性。然而,这个框架的一个主要缺点是它默认使用随机数据。但是,您可以调整代码以将其用于您自己的数据,然后,它可能会满足您的需要。

相关问题