我有150 tb的json文档存储在我的个人windows驱动程序中。我正在将这些驱动程序移动到microsoft azure存储帐户。我想把json数据放到kafka上。从Kafka我想推到沙发基地使用Kafka沙发连接器。最好的方法和程序是什么(记住数据的复制)天蓝--->Kafka--->沙发床或者天蓝--->沙发床。或windows驱动程序--->couchbase
gmxoilav1#
根据你的需要,我给你两个选择。第一个选项,您可以创建自己的程序从azure blob存储获取数据并将数据推送到kafka WebJob 在azure web app服务中运行它。此选项耗时,但成本较低。您可以参考下面的代码片段,或者从这里获得通过java将数据推送到kafka的更多细节。第二个选项,您可以使用azure hdinsight服务并按照官方文档通过以下语法访问存储在azure blob存储中的数据: wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path> .那么,请下载 HDFS (Sink) 此站点上的连接器将json数据从hdinsight推送到kafka。此选项节省时间,但成本更高。您还可以参考azure blob存储的so thread kafka连接器,并根据需要从两个选项中选择一个。希望对你有帮助。
WebJob
wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path>
HDFS (Sink)
1条答案
按热度按时间gmxoilav1#
根据你的需要,我给你两个选择。
第一个选项,您可以创建自己的程序从azure blob存储获取数据并将数据推送到kafka
WebJob
在azure web app服务中运行它。此选项耗时,但成本较低。您可以参考下面的代码片段,或者从这里获得通过java将数据推送到kafka的更多细节。
第二个选项,您可以使用azure hdinsight服务并按照官方文档通过以下语法访问存储在azure blob存储中的数据:
wasb[s]://<containername>@<accountname>.blob.core.windows.net/<path>
.那么,请下载
HDFS (Sink)
此站点上的连接器将json数据从hdinsight推送到kafka。此选项节省时间,但成本更高。
您还可以参考azure blob存储的so thread kafka连接器,并根据需要从两个选项中选择一个。
希望对你有帮助。