store消息从kafka到hdfs

smdncfj3  于 2021-06-05  发布在  Kafka
关注(0)|答案(2)|浏览(363)

我在用融合的Kafka和python。我想将kafka连接到hdfs,并在hdfs中直接存储一些特定的数据。我找到了汇合的hdfs连接器,但我不知道如何将它与python脚本连接起来。你知道吗?或者有没有其他方法可以直接从kafka存储消息到hdfs?

ha5z0ras

ha5z0ras1#

要从kafka获取数据到hdfs等数据存储,请使用kafka connect(它是apachekafka的一部分)。
您需要运行一个apachekafka worker(一个jvm进程,就像kafka代理等),然后使用restapi以json形式向它传递要使用的连接器的配置。
了解更多关于Kafka连接在这里的文档或本讲座和hdfs连接器本身包括一个快速入门教程。

wswtfjt7

wswtfjt72#

我不知道如何将它与我的python脚本连接起来
kafka connect是用java编写的,因此不能与python集成。如果文件能更清楚地说明这一点,你应该让别人知道。
也就是说,它确实有一个restapi。你会用 requests 或者 urllib.request 从python与之交互,就像任何其他http服务一样
您还可以使用pyspark/flink/beam将数据从kafka传输到python中的hdfs

相关问题