我正在使用apache tika从我创建的apache hadoop rcfile示例文件(使用hadoop的gzip压缩)中提取文本,并且tika的mime类型检测似乎不能正确地用于此文件。我如何构建支持(通过xmlconfig或构建检测器)来正确解析这种格式?
java -jar tika-app-1.14.jar /dev/sample_data/sample_gen_hadoop_rcfile
退货
<?xml version="1.0" encoding="UTF-8"?><html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="X-Parsed-By" content="org.apache.tika.parser.EmptyParser"/>
<meta name="resourceName" content="sample_gen_hadoop_rcfile"/>
<meta name="Content-Length" content="20224466"/>
<meta name="Content-Type" content="application/octet-stream"/>
<title/>
</head>
我创建的rcfile是gzip格式的-hex转储文件
:sample_data $ xxd sample_gen_hadoop_rcfile |head -n 50
00000000: 5243 4601 0127 6f72 672e 6170 6163 6865 RCF..'org.apache
00000010: 2e68 6164 6f6f 702e 696f 2e63 6f6d 7072 .hadoop.io.compr
00000020: 6573 732e 477a 6970 436f 6465 6300 0000 ess.GzipCodec...
00000030: 011c 6869 7665 2e69 6f2e 7263 6669 6c65 ..hive.io.rcfile
00000040: 2e63 6f6c 756d 6e2e 6e75 6d62 6572 0231 .column.number.1
暂无答案!
目前还没有任何答案,快来回答吧!