我的用例
我每天有20gb的文件(管道分隔文本文件)
我索引了90天的数据(20*90 gb)
创纪录——55亿
字段总数-30
索引字段-呼叫号码、呼叫号码、时间键
所有其他字段都按照schema.cml存储
索引大小-300gb
碎片数量=4
我使用下面的方法编制索引(org.apache.solr.hadoop.mapreduceindexertool)
hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.M apReduceIndexerTool \
--morphline-file $path/morphlines.conf –output -dir hdfs://MASTERNODE:8020/$path2 \
--go-live --zk-host MASTERNODE:2181/solr \
--collection COLLECTIONNAME \
--mappers 4 \
--reducers 12 hdfs://Masternode/path/asd.txt
在我的测试台上,我有4个数据节点和1个名称节点(cloudera5.4.7)上的测试台,每个节点都有256gbram,在solr中有什么提高性能的建议吗?
一次搜索(基于时间键的范围查询)大约花了120秒才得到3000条记录。但在第一次查询之后,它会被缓存,然后如果我再次执行,我会在不到1秒的时间内得到响应,同时输出较大的记录(10000个记录也会在1秒内得到)
请注意,在检索10-20条记录时,第一次本身的性能很好。
暂无答案!
目前还没有任何答案,快来回答吧!