我是一个大数据新手,配备了cloudera平台和20gb的gzip xml文件,每天都会转储到hdfs中。此xml是自定义的,如下所示:
<item>
<name>Peter</name>
<domainCodes>
<codeId>1</codeId>
<description>Random descr</description>
</domainCodes>
</item>
<item>
<name>Peter</name>
<logicCodes>
<codeId>2</codeId>
<description>Random descr2</description>
</logicCodes>
</item>
我将xml中的每一项都视为要索引的单元。您可以看到这个xml中的标记不同(域代码有时是逻辑代码)。
问题是如何索引这个文件并将其传递给solr。我看到的第一个问题是如何解压此文件并为其编制索引,因为solr只采用如下格式的xml:
<doc>
<field name="id">adata</field>
<field name="compName_s">A-Data Technology</field>
<field name="address_s">46221 Landing Parkway Fremont, CA 94538</field>
</doc>
<doc>
<field name="id">apple</field>
<field name="compName_s">Apple</field>
<field name="address_s">1 Infinite Way, Cupertino CA</field>
</doc>
我读到有类似cloudera search的东西,它位于solr之上,提供与大数据的集成。你能帮我在大数据世界如何做到这一点吗?我唯一想到的是用一些java操作来生成oozie工作流,这些java操作将解析这个xml,使它与solr兼容,然后对它进行索引,但是解析这么大的文件并不是最好的选择,而且肯定有更好的选择。需要考虑的事情可能有用:这个xml文件将Map到配置单元表,使用这些表创建索引可能更好?
暂无答案!
目前还没有任何答案,快来回答吧!