我正试图与Kafka的数据摄取工作,但作为一个新的这个,我有点困惑。我有多个爬虫,谁提取数据为我从网络平台。现在,问题是我想使用kafka将提取的数据摄取到hadoop中,而不需要任何中间脚本/服务文件。有可能吗?
ujv3wf0j1#
没有任何中间脚本/服务文件。有可能吗?不幸的是,没有。你需要一些写进Kafka(你的刮刀)的服务。不管您是生成kafka http链接(然后编写一个生成刮取结果的中间消费者/生产者),还是只生成最终的刮取结果,这取决于您自己。您还需要第二个服务来使用那些写入hdfs的主题。这可以是kafka connect(通过confluent的hdfs连接器库)、pyspark(您必须自己编写的代码)或其他包括“中间脚本/服务”的选项。如果您想结合这两个选项,我建议您看看apachenifi或streamset,它们可以执行http查找、(x)html解析和kafka+hdfs连接器,所有这些都是通过集中式gui配置的。注意:我相信任何python代码都必须用jvm语言重写,以支持此管道中的主要自定义解析逻辑
1条答案
按热度按时间ujv3wf0j1#
没有任何中间脚本/服务文件。有可能吗?
不幸的是,没有。
你需要一些写进Kafka(你的刮刀)的服务。不管您是生成kafka http链接(然后编写一个生成刮取结果的中间消费者/生产者),还是只生成最终的刮取结果,这取决于您自己。
您还需要第二个服务来使用那些写入hdfs的主题。这可以是kafka connect(通过confluent的hdfs连接器库)、pyspark(您必须自己编写的代码)或其他包括“中间脚本/服务”的选项。
如果您想结合这两个选项,我建议您看看apachenifi或streamset,它们可以执行http查找、(x)html解析和kafka+hdfs连接器,所有这些都是通过集中式gui配置的。注意:我相信任何python代码都必须用jvm语言重写,以支持此管道中的主要自定义解析逻辑