hdfs:使用python3从hdfs读取数据以解析hdfs中的xml文件

h6my8fg2  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(491)

我在hdfs中有大约1500个xml文件,每个文件大约2-3gb。我需要编写一个python脚本来解析xml文件以执行mapreduce。但是,我面临着使用python访问hdfs中的文件的问题。
我尝试了以下脚本,但收到一个错误。

from snakebite.client import Client
def connection():
hadoop_client = Client('HDFS_hostname', 'HDFS_port', use_trash=False)
for x in hadoop_client.ls(['/']):
    print(x)

错误如下:

Traceback (most recent call last):
  File "/home/ubuntu/PycharmProjects/textmining/read_data_from_HDFS.py", line 5, in <module>
    from snakebite.client import Client
  File "/usr/local/lib/python3.6/dist-packages/snakebite/client.py", line 1473
    baseTime = min(time * (1L << retries), cap);
                            ^
SyntaxError: invalid syntax

使用python从hdfs访问文件的最佳推荐方法是什么?

kqqjbcuj

kqqjbcuj1#

我也是从同一个问题来的。snakebite与Python3不兼容。您可以将其与Python2一起使用。

ewm0tg9j

ewm0tg9j2#

pip install snakebite-py3

这将帮助你解决这个问题。。。

相关问题