R中是否有类似于Python中的dedupe库的等效包?原因是我过去使用过“记录链接”包,但当涉及到更大的数据集时,它似乎很难使用。重复数据删除在Python中似乎运行得非常快,并引入了机器学习的元素。有人有成功的建议吗?
pb3s4cty1#
我一直在用这个套餐:https://journal.r-project.org/articles/RJ-2022-038/RJ-2022-038.pdf对于几千条记录的数据集(〈5k),它似乎表现得很好。它声称比RecordLinkage性能更好,但是我还没有在更大的数据上尝试过,也没有比较过Python:尚未针对此实施重复数据消除。
1条答案
按热度按时间pb3s4cty1#
我一直在用这个套餐:https://journal.r-project.org/articles/RJ-2022-038/RJ-2022-038.pdf
对于几千条记录的数据集(〈5k),它似乎表现得很好。
它声称比RecordLinkage性能更好,但是我还没有在更大的数据上尝试过,也没有比较过Python:尚未针对此实施重复数据消除。