gzip在hdfs上定制的xml文件,需要使用solr(cloudera search)进行索引

xzlaal3s  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(208)

我是一个大数据新手,配备了cloudera平台和20gb的gzip xml文件,每天都会转储到hdfs中。此xml是自定义的,如下所示:

<item> 
    <name>Peter</name>
    <domainCodes>
      <codeId>1</codeId>
      <description>Random descr</description>
    </domainCodes>
</item>
<item> 
   <name>Peter</name>
   <logicCodes>
      <codeId>2</codeId>
      <description>Random descr2</description>
   </logicCodes>
</item>

我将xml中的每一项都视为要索引的单元。您可以看到这个xml中的标记不同(域代码有时是逻辑代码)。
问题是如何索引这个文件并将其传递给solr。我看到的第一个问题是如何解压此文件并为其编制索引,因为solr只采用如下格式的xml:

<doc>
    <field name="id">adata</field>
    <field name="compName_s">A-Data Technology</field>
    <field name="address_s">46221 Landing Parkway Fremont, CA 94538</field>
  </doc>
  <doc>
    <field name="id">apple</field>
    <field name="compName_s">Apple</field>
    <field name="address_s">1 Infinite Way, Cupertino CA</field>
  </doc>

我读到有类似cloudera search的东西,它位于solr之上,提供与大数据的集成。你能帮我在大数据世界如何做到这一点吗?我唯一想到的是用一些java操作来生成oozie工作流,这些java操作将解析这个xml,使它与solr兼容,然后对它进行索引,但是解析这么大的文件并不是最好的选择,而且肯定有更好的选择。需要考虑的事情可能有用:这个xml文件将Map到配置单元表,使用这些表创建索引可能更好?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题