基于internet的unix测试
spark无网络测试
我正在使用tika库解析hadoop集群中存储的文档。
我正在使用以下code:-
import tika
import urllib3
from tika import parser
data = parser.from_file("hdfs://localhost:50070/user/sample.txt")
在linux上,如果我给出一个本地路径, tika
能够解析,但是对于hdfs路径
Spark I/O error: No such file or directory.
任何线索/替代品都会非常有用。
1条答案
按热度按时间vm0i2vca1#
tikapython模块不支持从hdfs读取,因为我检查了源代码。您应该使用下面的命令将tika jar添加到pyspark/spark shell中,并查看tika用法文档以了解如何解析文件(parser.from\文件是不适用于hdfs的python实现):
或
请注意,从hdfs读取数据的端口号是9000或8020,而不是50070。