我在数据科学/生物信息学方面遇到了一些问题,我想从人们那里得到一些想法。这是我的第一篇文章,我希望我问的问题是正确的。
我有多个两列tsv文件,第一列是基因的名称,第二列是相似基因共享的家族编号:
+------+----------+
| Gene | Family # |
+------+----------+
| A | 1 |
| B | 1 |
| C | 1 |
| D | 2 |
| E | 2 |
+------+----------+
在这种情况下,a b和c相似,d和e相似。
现在,当我将相似性的参数更改为更严格时,会出现这些新的分组(另一个虚构的示例):
+------+----------+
| gene | family # |
+------+----------+
| A | 15 |
| B | 15 |
| C | 17 |
| D | 19 |
| E | 40 |
| ... | ... |
+------+----------+
在这种情况下,a和b是相似的,但是cd和e都是不同的。
我拥有的族#没有一致的族号,因此即使它们在同一个族中跨不同参数考虑,族#也是不同的。
我想看看这些不同参数对家庭群体的影响。我有10个不同的参数要测试,这意味着我想看看家庭分组如何在10个tsv文件中变化。
你知道什么是看待群体最有效的方法吗?也许直接用下面这样的基因名替换家族#会奏效,因为家族#并不一致,但基因名是:
+------+-----------------+----------------+----------------+-----+
| gene | similar gene #1 | similar gene 2 | similar gene x | ... |
+------+-----------------+----------------+----------------+-----+
| A | B | C | | ... |
| B | A | C | | ... |
| C | A | B | | ... |
| D | | | | ... |
| E | | | | ... |
+------+-----------------+----------------+----------------+-----+
所以在一个特定的参数下,ab和c仍然是相似的,但是d和e与其他任何东西都不相似。
我会将所有10个tsv文件转换为不再使用“family#”,而是替换为“similar genes”。这是个好主意吗?
也许将这些tsv解析为rDataframe或将它们导入sql数据集可以奏效?最终目标将是可视化这些网络以及这些网络如何跨参数变化。现在阻止我的最大问题是,不同参数的族数不一致。
任何帮助或讨论将不胜感激!
暂无答案!
目前还没有任何答案,快来回答吧!