如何在Pyspark中实现记录链接功能???我想在数据集1名称和数据集2名称之间进行相似性检查。请帮助建议我,如果任何图书馆可用于pyspark。我尝试使用pyhton的recordlinkage库,但它只能使用panda的dataframe。
vsmadaxz1#
Splink是我所知道的最佳选择。
1条答案
按热度按时间vsmadaxz1#
Splink是我所知道的最佳选择。