如何动态地将数据从python发送到hadoop

v6ylcynt 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(427)

嗨，我有在10台机器上运行的python脚本，还有挖掘数据。大数据。。。我想把短语数据发送到hadoop集群。我想在digitalocean上安装cloudera和hadoop。hadoop如何总是准备好接收文件，而python脚本将发送带有json数据的post请求的信息？你能给我建议一个更好的发送数据的方法吗？谢谢你的帮助。

hadoop python data-mining web-crawler

来源：https://stackoverflow.com/questions/27964783/how-to-send-data-from-python-to-hadoop-on-the-fly

1条答案

按热度按时间

pwuypxnk1#

您可以考虑多种选择：
Kafka+Flume。下面是一个如何工作的示例：http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/
Kafka+Spark流。试试这个http://www.slideshare.net/rahuldausa/real-time-analytics-with-apache-kafka-and-apache-spark 还有这个http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/
一般来说，任何队列（kafka、rabbitmq、amq等）和任何能够写入hdfs的队列使用者，在最简单的情况下，每30-60秒只需要一个java应用程序轮询队列

赞(0）回复(0）举报 2021-06-04

我来回答

如何动态地将数据从python发送到hadoop

1条答案

相关问题

热门标签

最新问答