levenshtein距离算法

webghufk 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(331)

我从hadoop生态系统开始，我面临一些问题，需要你的帮助。
我有两个hdfs文件，需要执行levenshtein distance，第一个列的一组列与第二个列的另一组列之间的距离。
这个过程每天都要执行相当大的数据量（第一个文件中有1.5亿行，第二个文件中有1100万行）。
我会很感激有一些指导（代码示例，参考资料等），我可以从hdfs读取我的两个文件执行levenshtein距离（使用spark？）如所述，并保存在第三个hdfs文件的结果。
事先非常感谢。

hadoop apache-spark batch-processing levenshtein-distance

来源：https://stackoverflow.com/questions/66082146/levenshtein-distance-algorithm-on-spark

1条答案

按热度按时间

kzmpq1sx1#

我猜你有csv文件，所以你可以直接读取Dataframe：

val df1 =  spark.read.option("header","true").csv("hdfs:///pathtoyourfile_1")

这个 spark.sql.functions 模块conatins deflevenshtein(l: Column, r: Column): Column 函数，因此如果要传递一组可以接受的列，则需要作为参数传递字符串类型的dataframe列 concat('col1,'col2,..) 函数来连接多个列并将它们传递给上一个函数。如果有2个或更多的Dataframe，则必须将它们合并到一个Dataframe中，然后执行距离计算。最后，您可以使用 df.write.csv("path")

赞(0）回复(0）举报 2021-07-13

我来回答

levenshtein距离算法

1条答案

相关问题

热门标签

最新问答