apache tika无法解析hdfs文件

b1payxdu 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(381)

基于internet的unix测试
spark无网络测试
我正在使用tika库解析hadoop集群中存储的文档。
我正在使用以下code:-

import tika
import urllib3
from tika import parser

data = parser.from_file("hdfs://localhost:50070/user/sample.txt")

在linux上，如果我给出一个本地路径， tika 能够解析，但是对于hdfs路径

Spark I/O error: No such file or directory.

任何线索/替代品都会非常有用。

1条答案

tikapython模块不支持从hdfs读取，因为我检查了源代码。您应该使用下面的命令将tika jar添加到pyspark/spark shell中，并查看tika用法文档以了解如何解析文件（parser.from\文件是不适用于hdfs的python实现）：

./pyspark --jars /path/to/your/local/tika/jar/file

或

./spark-shell --jars /path/to/your/local/tika/jar/file

请注意，从hdfs读取数据的端口号是9000或8020，而不是50070。