使用kafka从爬虫获取数据

cyvaqqii 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(512)

我正试图与Kafka的数据摄取工作，但作为一个新的这个，我有点困惑。我有多个爬虫，谁提取数据为我从网络平台。现在，问题是我想使用kafka将提取的数据摄取到hadoop中，而不需要任何中间脚本/服务文件。有可能吗？

python apache-kafka kafka-producer-api web-crawler

来源：https://stackoverflow.com/questions/51876515/data-ingestion-using-kafka-from-crawlers

1条答案

按热度按时间

ujv3wf0j1#

没有任何中间脚本/服务文件。有可能吗？
不幸的是，没有。
你需要一些写进Kafka（你的刮刀）的服务。不管您是生成kafka http链接（然后编写一个生成刮取结果的中间消费者/生产者），还是只生成最终的刮取结果，这取决于您自己。
您还需要第二个服务来使用那些写入hdfs的主题。这可以是kafka connect（通过confluent的hdfs连接器库）、pyspark（您必须自己编写的代码）或其他包括“中间脚本/服务”的选项。
如果您想结合这两个选项，我建议您看看apachenifi或streamset，它们可以执行http查找、（x）html解析和kafka+hdfs连接器，所有这些都是通过集中式gui配置的。注意：我相信任何python代码都必须用jvm语言重写，以支持此管道中的主要自定义解析逻辑

赞(0）回复(0）举报 2021-06-08

我来回答

使用kafka从爬虫获取数据

1条答案

相关问题

热门标签

最新问答