python—将hdfs(hadoop文件系统)目录中的文件读入Dataframe

kzipqqlq  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(399)

我正在从配置单元查询到多个hdfs目录中生成一些分隔文件。下一步,我想将这些文件读入一个Dataframe中,以便应用标准的非分布式算法。
在某种程度上,使用“hadoop-dfs-copytolocal”然后执行本地文件系统操作的可行解决方案是微不足道的,但是我正在寻找一种特别优雅的方法来加载数据,我将把它合并到我的标准实践中。
理想溶液的一些特征:
无需创建本地副本(谁喜欢清理?)
最小系统调用数
几行python代码

6ojccjat

6ojccjat1#

看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题:
http://pydoop.sourceforge.net/docs/tutorial/hdfs_api.html
我无法对此进行评估,因为pydoop对编译有非常严格的要求,而且我的hadoop版本有点过时。

相关问题