java—从microsoft azure中提取json文档并将其推入kafka的最佳方法是什么?

nfeuvbwi  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(353)

我有150 tb的json文档存储在我的个人windows驱动程序中。我正在将这些驱动程序移动到microsoft azure存储帐户。我想把json数据放到kafka上。从Kafka我想推到沙发基地使用Kafka沙发连接器。最好的方法和程序是什么(记住数据的复制)
天蓝--->Kafka--->沙发床
或者天蓝--->沙发床。
或windows驱动程序--->couchbase

gmxoilav

gmxoilav1#

根据你的需要,我给你两个选择。
第一个选项,您可以创建自己的程序从azure blob存储获取数据并将数据推送到kafka WebJob 在azure web app服务中运行它。
此选项耗时,但成本较低。您可以参考下面的代码片段,或者从这里获得通过java将数据推送到kafka的更多细节。
第二个选项,您可以使用azure hdinsight服务并按照官方文档通过以下语法访问存储在azure blob存储中的数据: wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path> .
那么,请下载 HDFS (Sink) 此站点上的连接器将json数据从hdinsight推送到kafka。
此选项节省时间,但成本更高。
您还可以参考azure blob存储的so thread kafka连接器,并根据需要从两个选项中选择一个。
希望对你有帮助。

相关问题