我想索引包含特殊字符(货币符号)和表情符号的文本数据。目前,我正在使用以下代码来索引此数据: <fieldTypename="text"class="solr.TextField"> <analyzer> <tokenizerclass="solr.WhitespaceTokenizerFactory"/> <filterclass="solr.LowerCaseFilterFactory"/> <filterclass="solr.KeywordRepeatFilterFactory"/> <filterclass="solr.StopFilterFactory"words="stopwords.txt" ignoreCase="true"/> </analyzer>
但在检索数据时,我发现所有的特殊字符和表情符号都被破坏了。
债务人��1590.79结算��436
请建议这里可以做什么。
应用程序流:数据首先存储在hbase中,并通过实时索引器将其更新为solr。
cdh公司ver:5.4.5 solr ver:4.10.3 hbase veer:1.0.0
1条答案
按热度按时间8qgya5xd1#
我通过将smileys转换为htmlhex并将其存储到solr来解决这个问题。在solr中,我可以看到十六进制代码完好无损,并且可以转换回smileys。
使用的库:
lib将表情符号转换为十六进制表情java