如何实现levenshtein算法

68de4m5k 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(462)

我有两个数据集。a{（1，苹果），（2，橙色），（3，香蕉）}和b={（1，甲骨文），（2，猿），（3，娜娜），（4，奥兰多），（5，应用程序）（6，横幅）}
我有一个自定义项，它在两个字符串之间给出levenshtein分数。但是如何计算a中的每个字段和b中的所有字段，以获得b中最匹配的字符串。
例如，a中“苹果”的levenshtein分数比b中“猿”的levenshtein分数更适合应用程序，a中“橙色”的levenshtein分数比b中“奥兰多”的levenshtein分数更适合甲骨文，a中“香蕉”的levenshtein分数比b中的banner更适合naana。

hadoop apache-pig Nested foreach levenshtein-distance

来源：https://stackoverflow.com/questions/25720493/how-to-implement-levenshtein-algorithmin-pig-latin