如何从远程python服务连接到cdh集群

llmtgqce  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(679)

我有一个cdh集群在aws上运行。还有一组运行在连接到ecs集群的不同ec2机器上的服务。所有都在一个vpn中。我的用例是将运行在ec2上的外部服务中的数据写入cdh hadoop集群。我正在努力找出最好的办法。请建议我可能的方法在python中如何实现这一点。

vwkv1x7d

vwkv1x7d1#

apachehadoop提供了webhdfs,它是hdfs操作的http接口。这允许您使用任何pythonhttp客户机库(如 httplib , urllib 或者 urllib2 . 实际上,您可以使用任何提供http客户机库的编程语言访问webhdfs。
您还可以使用pydoop,它提供了python和hdfs之间更直接的集成。pydoop实现使用libhdfs,它是标准hdfs java客户机上的一个c Package 器。因此,它将直接使用hdfs-rpc协议而不是http。

相关问题