我有一个大Dataframe(5行x 92579列),格式如下:
1 2 3 4 5 6 7 8 9 10 11 ... 92569 92570 92571 92572 92573 92574 92575 92576 92577 92578 92579
0 10 9 8 5 5 10 1 1 6 2 3 ... 9 1 8 3 2 5 5 5 2 2 8
1 3 1 7 4 4 3 8 8 3 6 7 ... 1 8 7 5 6 4 4 4 2 6 7
2 6 4 2 9 7 6 5 5 6 7 2 ... 4 5 2 6 6 9 5 9 3 10 2
3 3 8 4 4 7 3 1 1 3 7 6 ... 8 1 5 7 2 4 1 4 6 10 2
4 4 6 5 5 5 4 1 1 4 8 10 ... 6 1 7 3 6 5 5 5 8 2 9
每个条目的范围从1到10(表示分配给10个集群中的一个)。
我想创建一个92579x92579矩阵,它表示i列和j列中的变量有多少次(即多少行)具有相同的值。例如,变量4和5在3行中具有相同的值,因此共现矩阵的条目i{4,5}和i{5,4}应该是3。我只需要所需矩阵的上三角部分(因为它是对称的)。
我在这里看到过类似的问题,但它们并不能同时解决这两个问题:
对于一个非常大的矩阵,如何有效地做到这一点
如何对非二进制条目执行此操作
暂无答案!
目前还没有任何答案,快来回答吧!