我正在从配置单元查询到多个hdfs目录中生成一些分隔文件。下一步,我想将这些文件读入一个Dataframe中,以便应用标准的非分布式算法。在某种程度上,使用“hadoop-dfs-copytolocal”然后执行本地文件系统操作的可行解决方案是微不足道的,但是我正在寻找一种特别优雅的方法来加载数据,我将把它合并到我的标准实践中。理想溶液的一些特征:无需创建本地副本(谁喜欢清理?)最小系统调用数几行python代码
6ojccjat1#
看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题:http://pydoop.sourceforge.net/docs/tutorial/hdfs_api.html我无法对此进行评估,因为pydoop对编译有非常严格的要求,而且我的hadoop版本有点过时。
1条答案
按热度按时间6ojccjat1#
看起来pydoop.hdfs模块在满足一系列目标的同时解决了这个问题:
http://pydoop.sourceforge.net/docs/tutorial/hdfs_api.html
我无法对此进行评估,因为pydoop对编译有非常严格的要求,而且我的hadoop版本有点过时。