我比较了这两个图的值,正如你所看到的,虽然它们的值不同,但它们有相似的模式。换句话说,每组中每个基因的排序是重要的。如何量化这种相似性?
df
> dput(df)
structure(list(Gene = c("Gene 1", "Gene 2", "Gene 3", "Gene 4",
"Gene 5", "Gene 6", "Gene 7", "Gene 8", "Gene 9", "Gene 10",
"Gene 11", "Gene 12", "Gene 13", "Gene 14", "Gene 15", "Gene 16",
"Gene 1", "Gene 2", "Gene 3", "Gene 4", "Gene 5", "Gene 6", "Gene 7",
"Gene 8", "Gene 9", "Gene 10", "Gene 11", "Gene 12", "Gene 13",
"Gene 14", "Gene 15", "Gene 16"), Percent = c(2.6, 15.1, 2.3,
2.3, 3, 2.1, 3.6, 3.8, 9.2, 3.7, 7.2, 1.8, 3.2, 4.1, 7.2, 2.6,
1.4, 8.1, 1.4, 1.3, 1.7, 1.5, 3, 2.3, 4.6, 2.2, 3.6, 1.1, 1.5,
2, 2.5, 1), Study = c("PCAWG", "PCAWG", "PCAWG", "PCAWG", "PCAWG",
"PCAWG", "PCAWG", "PCAWG", "PCAWG", "PCAWG", "PCAWG", "PCAWG",
"PCAWG", "PCAWG", "PCAWG", "PCAWG", "TCGA", "TCGA", "TCGA", "TCGA",
"TCGA", "TCGA", "TCGA", "TCGA", "TCGA", "TCGA", "TCGA", "TCGA",
"TCGA", "TCGA", "TCGA", "TCGA")), class = "data.frame", row.names = c(NA,
-32L))
2条答案
按热度按时间5t7ly7z51#
你可以比较基因
rank
s。例如,通过平方行差,并采取
mean
,这将给予你一个像均方误差的东西。ddhy6vgd2#
一个显而易见的选择是使用
cor.test
来检查匹配基因百分比之间的相关性这显示了96.4%的相关性,这确实是非常强的相关性。