apache tika无法解析hdfs文件

b1payxdu  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(381)

基于internet的unix测试
spark无网络测试
我正在使用tika库解析hadoop集群中存储的文档。
我正在使用以下code:-

import tika
import urllib3
from tika import parser

data = parser.from_file("hdfs://localhost:50070/user/sample.txt")

在linux上,如果我给出一个本地路径, tika 能够解析,但是对于hdfs路径

Spark I/O error: No such file or directory.

任何线索/替代品都会非常有用。

vm0i2vca

vm0i2vca1#

tikapython模块不支持从hdfs读取,因为我检查了源代码。您应该使用下面的命令将tika jar添加到pyspark/spark shell中,并查看tika用法文档以了解如何解析文件(parser.from\文件是不适用于hdfs的python实现):

./pyspark --jars /path/to/your/local/tika/jar/file

./spark-shell --jars /path/to/your/local/tika/jar/file

请注意,从hdfs读取数据的端口号是9000或8020,而不是50070。

相关问题