R中的重复数据消除等效

xcitsw88  于 2023-02-27  发布在  其他
关注(0)|答案(1)|浏览(89)

R中是否有类似于Python中的dedupe库的等效包?
原因是我过去使用过“记录链接”包,但当涉及到更大的数据集时,它似乎很难使用。重复数据删除在Python中似乎运行得非常快,并引入了机器学习的元素。
有人有成功的建议吗?

pb3s4cty

pb3s4cty1#

我一直在用这个套餐:https://journal.r-project.org/articles/RJ-2022-038/RJ-2022-038.pdf
对于几千条记录的数据集(〈5k),它似乎表现得很好。
它声称比RecordLinkage性能更好,但是我还没有在更大的数据上尝试过,也没有比较过Python:尚未针对此实施重复数据消除。

相关问题