如何对大量用户输入的公司名称进行分类？

roqulrg3 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(326)

**结束。**此问题不符合堆栈溢出准则。它目前不接受答案。
**想改进这个问题吗？**更新问题，使其成为堆栈溢出的主题。

7年前关门了。
改进这个问题
我们的网站允许用户以自由文本形式进入他们工作的公司。历史上，我们收集了数百万个独特的条目。由于我们没有设置任何限制，我们最终会出现很多变体、拼写错误（例如，仅麦当劳就有1000多个不同的条目）
我们意识到，只要我们能将这些变体结合起来，我们就能为用户提供一个很好的特性。我们利用各种在线资源汇编了一份完整的公司名单作为起点[词典]
现在，我们正试图找到处理用户数据源的最佳方法。我们考虑了分配一些相似性分数：-将每个条目与[dictionary]进行比较，计算词汇距离（可能在hadoop作业中）-利用一些搜索数据库（例如solr）
并以这种方式关联用户输入文本。
我们想知道的是，有没有人经历过类似的“分类”练习，可以分享一些提示？
谢谢，彼得

hadoop machine-learning solr Algorithm classification

来源：https://stackoverflow.com/questions/20141982/how-to-classify-a-large-collection-of-user-entered-company-names