如何基准KafkaSpark流?

gcxthw6b  于 2021-06-07  发布在  Kafka
关注(0)|答案(3)|浏览(262)

我必须执行spark流处理的基准测试。我的进程从Kafka获取消息,进程并加载到elasticsearch。上游每秒生成10万条记录。所以我想计算一下在1秒内处理了多少条消息以及延迟时间。是否有可用的工具来监控这一点,或者是否有任何流程来计算这一点。

vaj7vani

vaj7vani1#

除了spark ui(它有助于确定数据的处理速率)之外,还可以使用第三方工具(如spark perf)对集群执行负载测试,并以这种方式获取基准数据。

uplii1fm

uplii1fm2#

spark ui可以帮助您,提供所需的必要细节。默认情况下,spark ui在web浏览器的http://:4040上可用(对于单spark上下文)。有关帮助,请使用以下链接:http://spark.apache.org/docs/latest/monitoring.html

k97glaaz

k97glaaz3#

也许有人应该试试雅虎的流媒体基准测试,我发现databricks使用这个工具在spark流媒体和flink之间做基准测试。
https://github.com/yahoo/streaming-benchmarkshttpshttp://databricks.com/blog/2017/10/11/benchmarking-structured-streaming-on-databricks-runtime-against-state-of-the-art-streaming-systems.html

相关问题