我的3节点cassandra集群我可以写的cpu大多在10-15%的范围。
我需要运行一些Spark的工作,它需要扫描整个每周分区(约20-30K可能会增加更多的未来),并做一些aggreggates类型。因为我有关于分区键的信息,所以我在cassandra中使用directjoin
但是,当我运行spark应用程序时,它会在3-4分钟内完成。
当我在cassandradb上运行spark cluster时,cpu达到100%,持续3-4分钟
当我从单个2核spark示例(不是在db机器上)运行时,cpu达到75%
我只读取2列(int,string),每个分区大约1440个条目。
我的理解是,既然我们是按分区键读取的,这就不应该导致如此高的cpu解释计划确认直接连接的发生
我的选择是什么来避免高cpu和快速读取数据?
暂无答案!
目前还没有任何答案,快来回答吧!