用apache tika从hadoop rcgzip文件中提取文本

w8f9ii69  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(279)

我正在使用apache tika从我创建的apache hadoop rcfile示例文件(使用hadoop的gzip压缩)中提取文本,并且tika的mime类型检测似乎不能正确地用于此文件。我如何构建支持(通过xmlconfig或构建检测器)来正确解析这种格式?

java -jar tika-app-1.14.jar /dev/sample_data/sample_gen_hadoop_rcfile

退货

<?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.EmptyParser"/>
<meta name="resourceName" content="sample_gen_hadoop_rcfile"/>
<meta name="Content-Length" content="20224466"/>
<meta name="Content-Type" content="application/octet-stream"/>
<title/>
</head>

我创建的rcfile是gzip格式的-hex转储文件

:sample_data $ xxd sample_gen_hadoop_rcfile |head -n 50
    00000000: 5243 4601 0127 6f72 672e 6170 6163 6865  RCF..'org.apache
    00000010: 2e68 6164 6f6f 702e 696f 2e63 6f6d 7072  .hadoop.io.compr
    00000020: 6573 732e 477a 6970 436f 6465 6300 0000  ess.GzipCodec...
    00000030: 011c 6869 7665 2e69 6f2e 7263 6669 6c65  ..hive.io.rcfile
    00000040: 2e63 6f6c 756d 6e2e 6e75 6d62 6572 0231  .column.number.1

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题