我有两个数据集。a{(1,苹果),(2,橙色),(3,香蕉)}和b={(1,甲骨文),(2,猿),(3,娜娜),(4,奥兰多),(5,应用程序)(6,横幅)}
我有一个自定义项,它在两个字符串之间给出levenshtein分数。但是如何计算a中的每个字段和b中的所有字段,以获得b中最匹配的字符串。
例如,a中“苹果”的levenshtein分数比b中“猿”的levenshtein分数更适合应用程序,a中“橙色”的levenshtein分数比b中“奥兰多”的levenshtein分数更适合甲骨文,a中“香蕉”的levenshtein分数比b中的banner更适合naana。
1条答案
按热度按时间z9gpfhce1#
可能做一个
CROSS
. 然后计算每对的lvenshtein距离,找出每对的最大值。http://pig.apache.org/docs/r0.13.0/basic.html#cross