我有一个spark项目运行在4核16gb(都是主/辅)示例上,现在有人能告诉我要监视哪些东西,这样我的集群/作业就永远不会停止了吗?我已经创建了一个小列表,其中包括以下项目,如果您了解更多,请扩展列表:监视spark master/worker是否发生故障监控hdfs是否充满/下降监视主/辅的网络连接监视spark jobs是否被杀
gv8xihay1#
这是一个很好的清单。但除此之外,我还将实际监视流应用程序的接收器的状态(假设您是一些非hdfs数据源),无论它们是否连接。老实说,这对于旧版本的spark流来说很棘手,因为获取接收器状态的工具并不存在。但是,对于spark 1.0(即将发布),您可以使用org.apache.spark.streaming.streaminglistener接口来获取有关接收器状态的事件。将要发布的spark 1.0文档的一个潜行峰值是http://people.apache.org/~tdas/spark-1.0.0-rc10-docs/streaming-programming-guide.html
1条答案
按热度按时间gv8xihay1#
这是一个很好的清单。但除此之外,我还将实际监视流应用程序的接收器的状态(假设您是一些非hdfs数据源),无论它们是否连接。老实说,这对于旧版本的spark流来说很棘手,因为获取接收器状态的工具并不存在。但是,对于spark 1.0(即将发布),您可以使用org.apache.spark.streaming.streaminglistener接口来获取有关接收器状态的事件。
将要发布的spark 1.0文档的一个潜行峰值是http://people.apache.org/~tdas/spark-1.0.0-rc10-docs/streaming-programming-guide.html