我在用融合的Kafka和python。我想将kafka连接到hdfs,并在hdfs中直接存储一些特定的数据。我找到了汇合的hdfs连接器,但我不知道如何将它与python脚本连接起来。你知道吗?或者有没有其他方法可以直接从kafka存储消息到hdfs?
ha5z0ras1#
要从kafka获取数据到hdfs等数据存储,请使用kafka connect(它是apachekafka的一部分)。您需要运行一个apachekafka worker(一个jvm进程,就像kafka代理等),然后使用restapi以json形式向它传递要使用的连接器的配置。了解更多关于Kafka连接在这里的文档或本讲座和hdfs连接器本身包括一个快速入门教程。
wswtfjt72#
我不知道如何将它与我的python脚本连接起来kafka connect是用java编写的,因此不能与python集成。如果文件能更清楚地说明这一点,你应该让别人知道。也就是说,它确实有一个restapi。你会用 requests 或者 urllib.request 从python与之交互,就像任何其他http服务一样您还可以使用pyspark/flink/beam将数据从kafka传输到python中的hdfs
requests
urllib.request
2条答案
按热度按时间ha5z0ras1#
要从kafka获取数据到hdfs等数据存储,请使用kafka connect(它是apachekafka的一部分)。
您需要运行一个apachekafka worker(一个jvm进程,就像kafka代理等),然后使用restapi以json形式向它传递要使用的连接器的配置。
了解更多关于Kafka连接在这里的文档或本讲座和hdfs连接器本身包括一个快速入门教程。
wswtfjt72#
我不知道如何将它与我的python脚本连接起来
kafka connect是用java编写的,因此不能与python集成。如果文件能更清楚地说明这一点,你应该让别人知道。
也就是说,它确实有一个restapi。你会用
requests
或者urllib.request
从python与之交互,就像任何其他http服务一样您还可以使用pyspark/flink/beam将数据从kafka传输到python中的hdfs