我读过一些关于spark流的内容,我想知道是否可以使用rabbitmq作为代理从自定义源流数据,并通过spark流提供这些数据,spark将在spark流上执行机器学习和图形处理算法,并将其发送到其他文件系统/数据库/ Jmeter 板或客户接收器。p、 如果我用python编写代码,我没有任何使用spark的经验,我能把我要实现的称为微服务吗?谢谢您。
fnx2tebb1#
我觉得spark结构化流媒体比spark流媒体更合适,更容易实现。spark结构化流媒体遵循以下概念源(从rabbitmq读取)--转换(应用ml算法)--接收器(写入数据库)您可以参考这个github项目,以获取有关spark结构化流的示例。我不认为有一个内置的Spark连接器,可以消耗从rabbitmq。我知道有一个Kafka,但你可以写自己的自定义源和接收器(写这个没有任何Spark知识可能是棘手的)。您可以将其作为spark作业启动,并且必须创建一个 Package 器服务层,将其作为spark作业触发(spark job launcher)或使用spark restapihttps://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
1条答案
按热度按时间fnx2tebb1#
我觉得spark结构化流媒体比spark流媒体更合适,更容易实现。spark结构化流媒体遵循以下概念
源(从rabbitmq读取)--转换(应用ml算法)--接收器(写入数据库)
您可以参考这个github项目,以获取有关spark结构化流的示例。
我不认为有一个内置的Spark连接器,可以消耗从rabbitmq。我知道有一个Kafka,但你可以写自己的自定义源和接收器(写这个没有任何Spark知识可能是棘手的)。
您可以将其作为spark作业启动,并且必须创建一个 Package 器服务层,将其作为spark作业触发(spark job launcher)或使用spark restapi
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html