直接连接时spark cassandra连接器cpu峰值

yb3bgrhw 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(275)

我的3节点cassandra集群我可以写的cpu大多在10-15%的范围。
我需要运行一些Spark的工作，它需要扫描整个每周分区（约20-30K可能会增加更多的未来），并做一些aggreggates类型。因为我有关于分区键的信息，所以我在cassandra中使用directjoin
但是，当我运行spark应用程序时，它会在3-4分钟内完成。
当我在cassandradb上运行spark cluster时，cpu达到100%，持续3-4分钟
当我从单个2核spark示例（不是在db机器上）运行时，cpu达到75%
我只读取2列（int，string），每个分区大约1440个条目。
我的理解是，既然我们是按分区键读取的，这就不应该导致如此高的cpu解释计划确认直接连接的发生
我的选择是什么来避免高cpu和快速读取数据？

apache-spark spark-cassandra-connector datastax

来源：https://stackoverflow.com/questions/63232648/spark-cassandra-connector-cpu-spike-on-direct-join

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

直接连接时spark cassandra连接器cpu峰值

暂无答案！

相关问题

热门标签

最新问答