分布式spark和hdfs群集,具有6到7个节点的硬件配置

tpxzln5u  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(375)

我计划为基础设施监控应用程序的趋势分析开发集群,我计划使用spark分析故障趋势,使用cassandra存储传入数据和分析数据。考虑从大约25000台机器/服务器(可能是不同服务器上相同应用程序的集合)收集性能矩阵。我期望每台机器的性能矩阵大小为2mb/秒,我计划将其放入cassandra表中,该表具有时间戳、服务器作为主键和应用程序以及一些重要的矩阵作为集群键。我将在存储的信息上运行spark作业,用于性能矩阵故障趋势分析。
关于这个问题,考虑到上面的场景,我需要多少个节点(机器)以及cpu和内存的配置来启动集群。

ndh0cuux

ndh0cuux1#

cassandra需要一个计划周密的数据模型来运行。在您拥有一个大型数据集之前,花时间计划一下是非常值得的,因为您可能会发现重新安排数据模型会做得更好!
“一般”的经验法则是根据查询来构建模型,同时要注意避免出现诸如非常大的行、大的删除、批处理之类的可能会对性能造成严重影响的情况。
这些文档为计划和测试提供了一个良好的开端,您可能会发现它们很有用。我还建议使用Cassandra压力工具。您可以使用它将性能测试推入cassandra集群,以检查延迟和任何性能问题。你也可以使用你自己的模式,我个人认为这是非常有用的!
如果您使用的是基于云的硬件,比如aws,那么它相对容易进行放大/缩小,看看什么最适合您。你不需要在Cassandra扔大的硬件,它更容易横向扩展比纵向。
我假设你也将数据拉回到一个单独的spark集群中,这样这些节点就可以运行普通的cassandra(更少的硬件规格)。但是,如果您使用的是datastax企业版(您可以在spark“模式”下运行节点),那么您将需要更强大的硬件以及spark驱动程序、执行器等所需的额外负载。另一个好的docs链接是dse硬件建议

相关问题