我目前在这里有一个数据集,我不确定如何比较各组是否具有相似的值。
type value
a 1
a 2
a 3
a 4
b 2
b 3
b 4
b 5
c 1
c 3
c 4
d 2
d 3
d 4
我想知道哪些行是相似的,也就是说,所有的(1个类型中的值)都出现在另一个类型中。例如,类型d的值为2,3,4,类型a的值为1,2,3,4,所以这是"相似的",或者可以认为是相同的,所以我希望它输出的东西告诉我d与A相似。
预期输出应如下所示
type value similarity
a 1 A is similar to B and D
a 2
a 3
a 4
b 2 b is similar to a and d
b 3
b 4
b 5
c 1 c is similar to a
c 3
c 4
d 2 d is similar to a and b
d 3
d 4
不知道这是否可以在python或panda中完成,但真的很感谢指导,因为我真的迷路了,不知道从哪里开始。
输出也不一定是我刚才在这里举的例子,它可以只是另一个csv,告诉我哪些类型是相似的,
2条答案
按热度按时间czq61nw11#
我会用集合运算。
假设相似性意味着至少有N个项目相同:
输出:
假设相似性意味着一个集合是另一个集合的子集:
输出:
5fjcxozz2#
您可以用途:
输出: