val resultDF = todoDF.join(sourceDF,
functions.levenshtein(sourceDF.col("string_right"),todoDF.col("string_left")) <= 3
&& sourceDF.col("string_right") =!= todoDF.col("string_left"),
"left_outer")
resultDF.show()
结果表明,存在多个相同的问题 string_left
,这意味着所有的Spark环 string_right
对于每个 string_left
.
可能 string_left
匹配一个 string_right
然后打破,然后下一个 string_left
开始。
暂无答案!
目前还没有任何答案,快来回答吧!