我正在运行一个解析器文件来解析本地目录中.txt文件中的文件。现在这些文件被移动到hdfs集群,我想配置pycharm来访问hdfs集群。有人能帮我做这件事吗?
cgyqldqp1#
我想配置我的pycharm来访问hdfs集群取决于您所指的访问类型。至于hdfs cli基础,您可以使用 os ```
os
import osimport sys
f = "{}/tmp.txt".format(os.getcwd())cmds = ["touch {}".format(f),"hadoop fs -copyFromLocal {} /user/$USER/".format(f),"rm -fv {}".format(f),"hadoop fs -copyToLocal /user/$USER/tmp.txt $PWD/",]for cmd in cmds:os.system(cmd)assert os.path.exists(f)
但是,如果您正在寻找更细粒度的控件,您将需要类似pyarrow(或类似)的东西
1条答案
按热度按时间cgyqldqp1#
我想配置我的pycharm来访问hdfs集群
取决于您所指的访问类型。至于hdfs cli基础,您可以使用
os
```Not tested
import os
import sys
f = "{}/tmp.txt".format(os.getcwd())
cmds = [
"touch {}".format(f),
"hadoop fs -copyFromLocal {} /user/$USER/".format(f),
"rm -fv {}".format(f),
"hadoop fs -copyToLocal /user/$USER/tmp.txt $PWD/",
]
for cmd in cmds:
os.system(cmd)
assert os.path.exists(f)