我试图打开在此链接上找到的两个文件(在V7下):https://gtexportal.org/home/datasets,通过R命名为“基因TPM”和“转录TPM”,这样我就可以对它们进行分析。下面是我的代码:
geneTPM = read.table(gzfile("C:/Users/ual-laptop/Downloads/GTEx_Analysis_2016-01-15_v7_RNASeQCv1.1.8_gene_tpm.gct.gz"))
transcriptTPM = read.table(gzfile("C:/Users/ual-laptop/Downloads/GTEx_Analysis_2016-01-15_v7_RSEMv1.2.22_transcript_tpm.txt.gz"))
但是当我运行代码时,第一行给出了一个错误消息,说“第1行没有11690个元素”,第二行只是给出了一个空行(甚至没有一个“+”或错误消息),使它看起来像是在运行,但它只是保持这种状态几个小时。我知道这些文件很长,所以预计需要一段时间,但我认为我在这里做错了一些事情(第一行肯定是这样,因为有一个错误消息,但idk如何解决它)。
2条答案
按热度按时间pxq42qpu1#
可以使用
data.table::fread()
直接读取gz文件,但需要安装R.utils
包。输出:
(在完整的数据集中,实际上有56K行和11.7K列)
ivqmmu1c2#
这些是相对较大的文件(transcripts.tpm.gz是~2Gb,gene.tpm.gz是~ 800 Mb压缩),并且它们在文件的前两行中包含元数据,这可能会导致将数据导入R的问题(尽管我在langtang的答案中看到
data.table::fread()
处理元数据行没有问题,+1)。一个可能的解决方案是使用readr package中的
read_tsv()
来解压缩文件,指定分隔符(制表符)并跳过元数据行,例如创建于2023-05-23带有reprex v2.0.2