嗨,我有在10台机器上运行的python脚本,还有挖掘数据。大数据。。。我想把短语数据发送到hadoop集群。我想在digitalocean上安装cloudera和hadoop。hadoop如何总是准备好接收文件,而python脚本将发送带有json数据的post请求的信息?你能给我建议一个更好的发送数据的方法吗?谢谢你的帮助。
pwuypxnk1#
您可以考虑多种选择:Kafka+Flume。下面是一个如何工作的示例:http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/Kafka+Spark流。试试这个http://www.slideshare.net/rahuldausa/real-time-analytics-with-apache-kafka-and-apache-spark 还有这个http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/一般来说,任何队列(kafka、rabbitmq、amq等)和任何能够写入hdfs的队列使用者,在最简单的情况下,每30-60秒只需要一个java应用程序轮询队列
1条答案
按热度按时间pwuypxnk1#
您可以考虑多种选择:
Kafka+Flume。下面是一个如何工作的示例:http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/
Kafka+Spark流。试试这个http://www.slideshare.net/rahuldausa/real-time-analytics-with-apache-kafka-and-apache-spark 还有这个http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/
一般来说,任何队列(kafka、rabbitmq、amq等)和任何能够写入hdfs的队列使用者,在最简单的情况下,每30-60秒只需要一个java应用程序轮询队列