gzip在hdfs上定制的xml文件，需要使用solr(cloudera search)进行索引

xzlaal3s 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(208)

我是一个大数据新手，配备了cloudera平台和20gb的gzip xml文件，每天都会转储到hdfs中。此xml是自定义的，如下所示：

<item> 
    <name>Peter</name>
    <domainCodes>
      <codeId>1</codeId>
      <description>Random descr</description>
    </domainCodes>
</item>
<item> 
   <name>Peter</name>
   <logicCodes>
      <codeId>2</codeId>
      <description>Random descr2</description>
   </logicCodes>
</item>

我将xml中的每一项都视为要索引的单元。您可以看到这个xml中的标记不同（域代码有时是逻辑代码）。
问题是如何索引这个文件并将其传递给solr。我看到的第一个问题是如何解压此文件并为其编制索引，因为solr只采用如下格式的xml：

<doc>
    <field name="id">adata</field>
    <field name="compName_s">A-Data Technology</field>
    <field name="address_s">46221 Landing Parkway Fremont, CA 94538</field>
  </doc>
  <doc>
    <field name="id">apple</field>
    <field name="compName_s">Apple</field>
    <field name="address_s">1 Infinite Way, Cupertino CA</field>
  </doc>

我读到有类似cloudera search的东西，它位于solr之上，提供与大数据的集成。你能帮我在大数据世界如何做到这一点吗？我唯一想到的是用一些java操作来生成oozie工作流，这些java操作将解析这个xml，使它与solr兼容，然后对它进行索引，但是解析这么大的文件并不是最好的选择，而且肯定有更好的选择。需要考虑的事情可能有用：这个xml文件将Map到配置单元表，使用这些表创建索引可能更好？

hadoop oozie solr cloudera solrcloud

来源：https://stackoverflow.com/questions/33075943/gzipped-custom-xml-file-on-hdfs-that-needs-to-be-indexed-using-solr-cloudera-se

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

gzip在hdfs上定制的xml文件，需要使用solr(cloudera search)进行索引

暂无答案！

相关问题

热门标签

最新问答