Apache Solr为文件夹(及其下文件夹)编制索引

wbrvyc0a  于 2022-11-05  发布在  Solr
关注(0)|答案(4)|浏览(118)

我在谷歌上搜索了很多,但还没有找到一个好的解决方案。
我想索引一个有很多文件和子文件夹的文件夹。但是我不知道如何索引它,我想在配置文件中的任何地方都应该有一个路径,但是我还没有找到。请不要责备我,我是solr的新手。)

mftmpeh8

mftmpeh81#

尝试使用-Drecursive参数的后置处理工具
让我们说文件夹(测试)内的两个csv文件和一个子文件夹(test2)内的几个更多的csv文件。后工具递归地检查所有文件内的文件夹测试和其子文件夹test2的索引。

java -Dtype=text/csv -Dc=collection1 -Drecursive -jar post.jar test

-Dauto参数将索引tika可以处理的所有文件类型。

java -DDauto -Dc=collection1 -Drecursive -jar post.jar test
von4xj4u

von4xj4u2#

FileListEntity处理器可用于索引文件路径。有关详细信息,请访问https://wiki.apache.org/solr/DataImportHandler#FileListEntityProcessor

rdlzhqv9

rdlzhqv93#

太好了,谢谢你们索引工作!
但我看到,Solr不是我所需要的。我需要一个文档/索引服务器,我可以在其中索引我的共享文件夹与约4GB的数据,我需要一个用户友好的搜索GUI... Solr不是真的那样。

c86crjj0

c86crjj04#

1) create a core in configset

cd $solr_home

cd server/solr/configsets

mkdir download_search

cp -r _default/. download_search

# create a solr core with default configs

curl -X GET 'http://localhost:8983/solr/admin/cores?action=CREATE&name=download_search&instanceDir=configsets/download_search'

# get current schema fields

curl -X GET "http://localhost:8983/solr/download_search/schema/fields"

2) create schema.xml file and add fields of csv/JSON to it

    <field name="Gender" type="string" indexed="true" stored="true" />
    <field name="User ID" type="string" stored="true" indexed="true" />
    <field name="Age" type="int" stored="true" indexed="true" />
    <field name = "EstimatedSalary" type = "float" stored = "true" indexed = "true" />
    <field name="Purchased" type="int" indexed="false" stored="true" multiValued="true"/>

 <copyField source="Gender" dest="Gender_str"/>
 <copyField source="Purchased" dest="Purchased_str"/>
 <copyField source="Age" dest="Age_str"/>
 <copyField source="EstimatedSalary" dest="EstimatedSalary_str"/>
 <copyField source="User ID" dest="User_str"/>

2) Indexing of Download Folder using post.jar

$ java -Dtype=text/csv -Dc=download_search -Drecursive -jar post.jar /home/amit/Downloads

相关问题