获取基因符号的 ENSEMBL ID

问题描述 投票:0回答:1

我正在从 NCBI 的基因表达综合网站下载 GSE 文件。恰巧我通过分析数据下载了表达式,文件是GSExxxxx。当我将数据加载到 RStudio 时,这些列表中有表达式表。我提取了该表,其中一个轴上有患者样本以及 GPL 文件中所示的基因 ID,这有助于映射到 GPL 文件中存在的基因信息。 因此我下载了 GPL 文件,根据其中的详细信息,有基因符号、基因名称和其他详细信息,但没有 ENSEMBL ID。这是令人担忧的,因为我希望使用 ENSEMBL ID 进行进一步操作,并且我不确定如何将 GSE 文件中存在的 ID 转换为 ENSEMBL ID 的方法。

我用来下载这些文件并映射它们的代码是:

#####################
#Load Libraries
#####################
library(GEOquery)
library(Biobase)

GSE68266 <- getGEO('GSE68266')
GSE68266_assayData <- data.frame(GSE68266[["GSE68266_series_matrix.txt.gz"]]@assayData[["exprs"]])

GPL6246 <- getGEO('GPL6246')
GPL6246_table <- data.frame(GPL6246@dataTable@table)

GSE68266_assayData$ID<-row.names(GSE68266_assayData)
GSE68266_assayData_mapped <- merge(GPL6246_table,GSE68266_assayData,id="ID",all.y=TRUE)
GSE68266_assayData_mapped <- GSE68266_assayData_mapped[,c(10,13:24)]

GSE68266_assayData_mapped <- aggregate(. ~ gene_assignment, GSE68266_assayData_mapped, mean)

此代码将下载GSE、GPL文件,提取表达表和包含GPL文件信息的表,即基因数据。稍后它会将 ID 从 GSE 文件映射到 GPL 文件,并在仅使用基因符号查看映射文件时,我观察到相同的基因有多行,我相信这个问题是因为我没有使用 ENSEMBL ID,因此对其进行平均出来了。

除此之外,我现在可以将基因符号映射到 ENSEMBL ID,但如果有一种方法可以在最后一步之前做到这一点,那将会有所帮助。

由于我必须使用 dput 上传示例文件,这里是预览:

> dput(GSE68266_assayData[1:10,])
structure(list(GSM1666885 = c(2.279918436, 2.988098845, 5.328025279, 
8.823735602, 4.026079799, 9.202864658, 11.94099064, 2.463023042, 
6.589012573, 7.454990691), GSM1666886 = c(2.417476409, 2.268637132, 
6.875015606, 9.230564408, 2.481822425, 8.370423349, 11.64948446, 
2.312504209, 6.684511479, 8.213245168), GSM1666887 = c(2.585641476, 
2.677200831, 5.757663918, 9.372965375, 2.825481565, 8.658368489, 
11.98599131, 3.272974828, 6.937436458, 8.353237578), GSM1666888 = c(2.162864114, 
3.13726422, 7.317097246, 9.326182314, 2.904886778, 7.725407155, 
11.9129236, 1.92055278, 6.99118628, 8.743269756), GSM1666889 = c(1.988852673, 
3.568596235, 7.481167388, 8.734948421, 2.952178107, 7.905551803, 
11.73671598, 2.164841887, 7.48221719, 8.100881444), GSM1666890 = c(1.875333405, 
2.956819009, 7.087370437, 8.825282857, 3.021162525, 8.361661077, 
11.66291834, 2.055539551, 6.72837364, 8.261053581), GSM1666891 = c(1.937082999, 
2.352105771, 7.478323665, 9.027936627, 2.518425346, 8.518543602, 
11.57667342, 2.208023413, 6.286188731, 8.334887789), GSM1666892 = c(1.888119534, 
3.075999923, 6.865026445, 9.003240261, 2.623163948, 8.360743911, 
11.65712158, 2.188155201, 6.816237296, 8.436395945), GSM1666893 = c(2.030701542, 
2.650094477, 6.860070811, 7.875834276, 3.139210335, 8.141316361, 
11.79825442, 2.708398602, 6.741807539, 7.921992279), GSM1666894 = c(2.270031274, 
2.614141652, 7.423814433, 8.586151005, 2.53645575, 7.486899179, 
11.8778601, 2.313362195, 6.860830315, 7.942532956), GSM1666895 = c(2.140678027, 
2.328710759, 7.141117451, 8.57790011, 2.855282591, 8.380166234, 
11.56798581, 2.61524144, 7.147135406, 7.965226555), GSM1666896 = c(2.163867142, 
2.593331698, 7.337511599, 9.004223666, 2.686137448, 8.145299847, 
11.77674285, 2.32668163, 7.583926092, 7.990832914), ID = c("10338071", 
"10338072", "10338075", "10338077", "10338084", "10338085", "10338095", 
"10338099", "10338104", "10338106")), row.names = c("10338071", 
"10338072", "10338075", "10338077", "10338084", "10338085", "10338095", 
"10338099", "10338104", "10338106"), class = "data.frame")

> dput(GPL6246_table[1:10,])
structure(list(ID = c(10344614L, 10344616L, 10344618L, 10344620L, 
10344622L, 10344624L, 10344633L, 10344637L, 10344653L, 10344658L
), GB_LIST = c("AK145513,AK145782", "", "", "AK140060", "", "NM_008866,XM_006495471,AK050549,AK167231,BC013536,BC052848,CT010201,U89352,AK016021,AK034851", 
"NM_001159750,NM_011541,BC061490,BC083127,M18210,BC006022", "NM_133826,XM_006495437,XM_006495438,BC009154,AK034165,AK081492", 
"NM_001204371,NM_011011,BC116795,BC119026,L11065,AK138198", "NM_009826,AB050017,AB070619,BC150774,XM_006495444"
), SPOT_ID = c("chr1:3054233-3054733", "chr1:3102016-3102125", 
"chr1:3276323-3277348", "chr1:3680571-3680912", "chr1:4771131-4772199", 
"chr1:4807862-4846736", "chr1:4857814-4897909", "chr1:5083172-5162549", 
"chr1:5588493-5602866", "chr1:6214662-6275575"), seqname = c("chr1", 
"chr1", "chr1", "chr1", "chr1", "chr1", "chr1", "chr1", "chr1", 
"chr1"), RANGE_GB = c("NC_000067.6", "NC_000067.6", "NC_000067.6", 
"NC_000067.6", "NC_000067.6", "NC_000067.6", "NC_000067.6", "NC_000067.6", 
"NC_000067.6", "NC_000067.6"), RANGE_STRAND = c("+", "+", "+", 
"+", "+", "+", "+", "+", "+", "+"), RANGE_START = c("3054233", 
"3102016", "3276323", "3680571", "4771131", "4807862", "4857814", 
"5083172", "5588493", "6214662"), RANGE_STOP = c("3054733", "3102125", 
"3277348", "3680912", "4772199", "4846736", "4897909", "5162549", 
"5602866", "6275575"), total_probes = c(33L, 25L, 25L, 25L, 8L, 
23L, 8L, 30L, 25L, 29L), gene_assignment = c("ENSMUST00000160944 // Gm16088 // predicted gene 16088 // --- // --- /// ENSMUST00000120800 // Gm14300 // predicted gene 14300 // --- // --- /// ENSMUST00000179907 // G430049J08Rik // RIKEN cDNA G430049J08 gene // --- // --- /// AK145513 // Gm2889 // predicted gene 2889 // 18 A1|18 // 100040658", 
"ENSMUST00000082908 // Gm26206 // predicted gene, 26206 // --- // ---", 
"---", "AK140060 // Gm10568 // predicted gene 10568 // --- // 100038431", 
"---", "NM_008866 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// XM_006495471 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000027036 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000115529 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000131119 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000137887 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000150971 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000155020 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// AK050549 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// AK167231 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// BC013536 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// BC052848 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// CT010201 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// U89352 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000134384 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000119612 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// ENSMUST00000141278 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// AK016021 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777 /// AK034851 // Lypla1 // lysophospholipase 1 // 1 A1|1 // 18777", 
"NM_001159750 // Tcea1 // transcription elongation factor A (SII) 1 // 1 A1|1 // 21399 /// NM_011541 // Tcea1 // transcription elongation factor A (SII) 1 // 1 A1|1 // 21399 /// ENSMUST00000081551 // Tcea1 // transcription elongation factor A (SII) 1 // 1 A1|1 // 21399 /// BC061490 // Tcea1 // transcription elongation factor A (SII) 1 // 1 A1|1 // 21399 /// BC083127 // Tcea1 // transcription elongation factor A (SII) 1 // 1 A1|1 // 21399 /// M18210 // Tcea1 // transcription elongation factor A (SII) 1 // 1 A1|1 // 21399 /// BC006022 // Tcea1 // transcription elongation factor A (SII) 1 // 1 A1|1 // 21399", 
"NM_133826 // Atp6v1h // ATPase, H+ transporting, lysosomal V1 subunit H // 1 A1|1 // 108664 /// XM_006495437 // Atp6v1h // ATPase, H+ transporting, lysosomal V1 subunit H // 1 A1|1 // 108664 /// XM_006495438 // Atp6v1h // ATPase, H+ transporting, lysosomal V1 subunit H // 1 A1|1 // 108664 /// ENSMUST00000044369 // Atp6v1h // ATPase, H+ transporting, lysosomal V1 subunit H // 1 A1|1 // 108664 /// BC009154 // Atp6v1h // ATPase, H+ transporting, lysosomal V1 subunit H // 1 A1|1 // 108664 /// AK034165 // Atp6v1h // ATPase, H+ transporting, lysosomal V1 subunit H // 1 A1|1 // 108664 /// AK081492 // Atp6v1h // ATPase, H+ transporting, lysosomal V1 subunit H // 1 A1|1 // 108664", 
"NM_001204371 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// NM_011011 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// ENSMUST00000027038 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// ENSMUST00000160339 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// ENSMUST00000160777 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// BC116795 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// BC119026 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// L11065 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// ENSMUST00000159083 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387 /// AK138198 // Oprk1 // opioid receptor, kappa 1 // 1 A2-A3|1 1.89 cM // 18387", 
"NM_009826 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// ENSMUST00000027040 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// ENSMUST00000159530 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// ENSMUST00000159656 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// ENSMUST00000161327 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// ENSMUST00000162257 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// AB050017 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// AB070619 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// BC150774 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// XM_006495444 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421 /// ENSMUST00000162795 // Rb1cc1 // RB1-inducible coiled-coil 1 // 1|1 A2 // 12421"
), mrna_assignment = c("ENSMUST00000160944 // ENSEMBL // havana:known chromosome:GRCm38:1:3054233:3054733:1 gene:ENSMUSG00000090025 gene_biotype:pseudogene transcript_biotype:unprocessed_pseudogene // chr1 // 100 // 100 // 33 // 33 // 0 /// ENSMUST00000120800 // ENSEMBL // havana:known chromosome:GRCm38:2:179612622:179613567:-1 gene:ENSMUSG00000083410 gene_biotype:pseudogene transcript_biotype:processed_pseudogene // chr1 // 30 // 100 // 10 // 33 // 0 /// ENSMUST00000179907 // ENSEMBL // ensembl:known chromosome:GRCm38:18:3471630:3474315:1 gene:ENSMUSG00000096528 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 42 // 100 // 14 // 33 // 0 /// AK145513 // GenBank HTC // Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0009C06 product:hypothetical DeoxyUTP pyrophosphatase/Aspartyl protease, retroviral-type family profile/Retrovirus capsid, C-terminal/Peptidase aspartic/Peptidase aspartic, active site containing protein, full insert sequence. // chr1 // 24 // 100 // 8 // 33 // 0 /// AK145782 // GenBank HTC // Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0042P10 product:hypothetical protein, full insert sequence. // chr1 // 52 // 100 // 17 // 33 // 0 /// KnowTID_00005135 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 52 // 100 // 17 // 33 // 0 /// NONMMUT044096 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 52 // 100 // 17 // 33 // 0 /// AK139746 // GenBank HTC // Mus musculus 2 cells egg cDNA, RIKEN full-length enriched library, clone:B020014N01 product:hypothetical protein, full insert sequence. // chr1 // 42 // 100 // 14 // 33 // 0 /// AK145590 // GenBank HTC // Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0019N16 product:unclassifiable, full insert sequence. // chr1 // 42 // 100 // 14 // 33 // 0 /// AK145750 // GenBank HTC // Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0037K09 product:unclassifiable, full insert sequence. // chr1 // 36 // 85 // 10 // 28 // 0 /// AK165162 // GenBank HTC // Mus musculus 8 cells embryo 8 cells cDNA, RIKEN full-length enriched library, clone:E860009L19 product:unclassifiable, full insert sequence. // chr1 // 48 // 100 // 16 // 33 // 0 /// KnowTID_00001379 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 42 // 100 // 14 // 33 // 0 /// KnowTID_00001380 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 42 // 100 // 14 // 33 // 0 /// KnowTID_00002541 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 36 // 85 // 10 // 28 // 0 /// KnowTID_00003768 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 42 // 100 // 14 // 33 // 0 /// KnowTID_00005134 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 45 // 100 // 15 // 33 // 0 /// NONMMUT013638 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 42 // 100 // 14 // 33 // 0 /// NONMMUT013641 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 42 // 100 // 14 // 33 // 0 /// NONMMUT021887 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 36 // 85 // 10 // 28 // 0 /// NONMMUT044095 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 45 // 100 // 15 // 33 // 0 /// NONMMUT046086 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 48 // 100 // 16 // 33 // 0 /// NONMMUT046087 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 48 // 100 // 16 // 33 // 0 /// AK145700 // GenBank HTC // Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0031F10 product:hypothetical protein, full insert sequence. // chr1 // 24 // 100 // 8 // 33 // 0 /// KnowTID_00003789 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 24 // 100 // 8 // 33 // 0 /// NONMMUT031618 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 24 // 100 // 8 // 33 // 0 /// KnowTID_00002704 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 24 // 24 // 8 // 33 // 1 /// NONMMUT023055 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 24 // 24 // 8 // 33 // 1", 
"ENSMUST00000082908 // ENSEMBL // ncrna:known chromosome:GRCm38:1:3102016:3102125:1 gene:ENSMUSG00000064842 gene_biotype:snRNA transcript_biotype:snRNA // chr1 // 100 // 100 // 25 // 25 // 0 /// NONMMUT000002 // NONCODE // Non-coding transcript identified by NONCODE // chr1 // 100 // 100 // 25 // 25 // 0", 
"---", "AK140060 // GenBank HTC // Mus musculus adult male corpora quadrigemina cDNA, RIKEN full-length enriched library, clone:B230115G11 product:hypothetical protein, full insert sequence. // chr1 // 100 // 100 // 25 // 25 // 0 /// KnowTID_00000002 // Luo lincRNA // Non-coding transcript identified by Luo, et al. // chr1 // 100 // 100 // 25 // 25 // 0 /// NONMMUT000015 // NONCODE // Non-coding transcript identified by NONCODE: Linc // chr1 // 100 // 100 // 25 // 25 // 0", 
"GENSCAN00000005057 // ENSEMBL // cdna:genscan chromosome:GRCm38:1:4771131:4772199:1 transcript_biotype:protein_coding // chr1 // 100 // 100 // 8 // 8 // 0", 
"NM_008866 // RefSeq // Mus musculus lysophospholipase 1 (Lypla1), mRNA. // chr1 // 100 // 100 // 23 // 23 // 0 /// XM_006495471 // RefSeq // PREDICTED: Mus musculus lysophospholipase 1 (Lypla1), transcript variant X1, mRNA. // chr1 // 95 // 87 // 19 // 20 // 0 /// ENSMUST00000027036 // ENSEMBL // ensembl_havana_transcript:known chromosome:GRCm38:1:4807823:4846739:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 100 // 23 // 23 // 0 /// ENSMUST00000115529 // ENSEMBL // havana:novel chromosome:GRCm38:1:4807911:4845352:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 94 // 74 // 16 // 17 // 0 /// ENSMUST00000131119 // ENSEMBL // havana:putative chromosome:GRCm38:1:4808237:4841093:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 74 // 17 // 17 // 0 /// ENSMUST00000137887 // ENSEMBL // havana:novel chromosome:GRCm38:1:4807898:4840969:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 95 // 83 // 18 // 19 // 0 /// ENSMUST00000150971 // ENSEMBL // havana:putative chromosome:GRCm38:1:4807918:4841286:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 87 // 20 // 20 // 0 /// ENSMUST00000155020 // ENSEMBL // havana:known chromosome:GRCm38:1:4807892:4886770:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:nonsense_mediated_decay // chr1 // 100 // 74 // 17 // 17 // 0 /// AK050549 // GenBank HTC // Mus musculus adult pancreas islet cells cDNA, RIKEN full-length enriched library, clone:C820014D19 product:lysophospholipase 1, full insert sequence. // chr1 // 100 // 87 // 20 // 20 // 0 /// AK167231 // GenBank HTC // Mus musculus blastocyst blastocyst cDNA, RIKEN full-length enriched library, clone:I1C0043L13 product:lysophospholipase 1, full insert sequence. // chr1 // 91 // 100 // 21 // 23 // 0 /// BC013536 // GenBank // Mus musculus lysophospholipase 1, mRNA (cDNA clone MGC:19218 IMAGE:4240573), complete cds. // chr1 // 100 // 100 // 23 // 23 // 0 /// BC052848 // GenBank // Mus musculus lysophospholipase 1, mRNA (cDNA clone MGC:60679 IMAGE:30055025), complete cds. // chr1 // 96 // 100 // 22 // 23 // 0 /// CT010201 // GenBank // Mus musculus full open reading frame cDNA clone RZPDo836F0950D for gene Lypla1, Lysophospholipase 1; complete cds, incl. stopcodon. // chr1 // 100 // 87 // 20 // 20 // 0 /// U89352 // GenBank // Mus musculus lysophospholipase I mRNA, complete cds. // chr1 // 100 // 87 // 20 // 20 // 0 /// ENSMUST00000134384 // ENSEMBL // havana:known chromosome:GRCm38:1:4807788:4848410:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:nonsense_mediated_decay // chr1 // 87 // 87 // 20 // 23 // 1 /// ENSMUST00000119612 // ENSEMBL // havana:putative chromosome:GRCm38:1:4807896:4845174:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 52 // 52 // 12 // 23 // 1 /// ENSMUST00000141278 // ENSEMBL // havana:known chromosome:GRCm38:1:4836905:4842827:1 gene:ENSMUSG00000025903 gene_biotype:protein_coding transcript_biotype:retained_intron // chr1 // 35 // 35 // 8 // 23 // 1 /// AK016021 // GenBank HTC // Mus musculus adult male testis cDNA, RIKEN full-length enriched library, clone:4930542E11 product:CALCIUM-INDEPENDENT PHOSPHOLIPASE A2 ISOFORM 2 homolog [Oryctolagus cuniculus], full insert sequence. // chr1 // 35 // 35 // 8 // 23 // 1 /// AK034851 // GenBank HTC // Mus musculus 12 days embryo embryonic body between diaphragm region and neck cDNA, RIKEN full-length enriched library, clone:9430047N20 product:lysophospholipase 1, full insert sequence. // chr1 // 35 // 35 // 8 // 23 // 1 /// GENSCAN00000004993 // ENSEMBL // cdna:genscan chromosome:GRCm38:1:4807409:4845016:1 transcript_biotype:protein_coding // chr1 // 48 // 48 // 11 // 23 // 1 /// NONMMUT000037 // NONCODE // Non-coding transcript identified by NONCODE: Exonic // chr1 // 35 // 35 // 8 // 23 // 1", 
"NM_001159750 // RefSeq // Mus musculus transcription elongation factor A (SII) 1 (Tcea1), transcript variant 3, mRNA. // chr1 // 100 // 100 // 8 // 8 // 0 /// NM_011541 // RefSeq // Mus musculus transcription elongation factor A (SII) 1 (Tcea1), transcript variant 2, mRNA. // chr1 // 100 // 100 // 8 // 8 // 0 /// ENSMUST00000081551 // ENSEMBL // ensembl_havana_transcript:known chromosome:GRCm38:1:4857814:4897905:1 gene:ENSMUSG00000033813 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 100 // 8 // 8 // 0 /// BC061490 // GenBank // Mus musculus transcription elongation factor A (SII) 1, mRNA (cDNA clone MGC:70239 IMAGE:2582185), complete cds. // chr1 // 100 // 100 // 8 // 8 // 0 /// BC083127 // GenBank // Mus musculus transcription elongation factor A (SII) 1, mRNA (cDNA clone MGC:103154 IMAGE:6390364), complete cds. // chr1 // 100 // 100 // 8 // 8 // 0 /// M18210 // GenBank // Mouse transcription factor S-II, clone PSII-3. // chr1 // 100 // 63 // 5 // 5 // 0 /// BC006022 // GenBank // Mus musculus transcription elongation factor A (SII) 1, mRNA (cDNA clone MGC:6153 IMAGE:3590733), complete cds. // chr1 // 63 // 100 // 5 // 8 // 0", 
"NM_133826 // RefSeq // Mus musculus ATPase, H+ transporting, lysosomal V1 subunit H (Atp6v1h), mRNA. // chr1 // 100 // 100 // 30 // 30 // 0 /// XM_006495437 // RefSeq // PREDICTED: Mus musculus ATPase, H+ transporting, lysosomal V1 subunit H (Atp6v1h), transcript variant X5, mRNA. // chr1 // 100 // 53 // 16 // 16 // 0 /// XM_006495438 // RefSeq // PREDICTED: Mus musculus ATPase, H+ transporting, lysosomal V1 subunit H (Atp6v1h), transcript variant X6, mRNA. // chr1 // 100 // 53 // 16 // 16 // 0 /// ENSMUST00000044369 // ENSEMBL // ensembl:known chromosome:GRCm38:1:5083173:5162549:1 gene:ENSMUSG00000033793 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 100 // 30 // 30 // 0 /// BC009154 // GenBank // Mus musculus ATPase, H+ transporting, lysosomal V1 subunit H, mRNA (cDNA clone MGC:11985 IMAGE:3601621), complete cds. // chr1 // 100 // 93 // 28 // 28 // 0 /// AK034165 // GenBank HTC // Mus musculus adult male diencephalon cDNA, RIKEN full-length enriched library, clone:9330160M17 product:similar to MSTP042 [Homo sapiens], full insert sequence. // chr1 // 73 // 73 // 22 // 30 // 1 /// AK081492 // GenBank HTC // Mus musculus 16 days embryo head cDNA, RIKEN full-length enriched library, clone:C130021C16 product:hypothetical V-ATPase subunit H containing protein, full insert sequence. // chr1 // 40 // 40 // 12 // 30 // 1 /// GENSCAN00000045875 // ENSEMBL // cdna:genscan chromosome:GRCm38:1:5084460:5217241:1 transcript_biotype:protein_coding // chr1 // 80 // 80 // 24 // 30 // 1", 
"NM_001204371 // RefSeq // Mus musculus opioid receptor, kappa 1 (Oprk1), transcript variant 1, mRNA. // chr1 // 100 // 100 // 25 // 25 // 0 /// NM_011011 // RefSeq // Mus musculus opioid receptor, kappa 1 (Oprk1), transcript variant 2, mRNA. // chr1 // 100 // 100 // 25 // 25 // 0 /// ENSMUST00000027038 // ENSEMBL // ensembl_havana_transcript:known chromosome:GRCm38:1:5588557:5602866:1 gene:ENSMUSG00000025905 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 100 // 25 // 25 // 0 /// ENSMUST00000160339 // ENSEMBL // havana:known chromosome:GRCm38:1:5588941:5604014:1 gene:ENSMUSG00000025905 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 88 // 22 // 22 // 0 /// ENSMUST00000160777 // ENSEMBL // havana:known chromosome:GRCm38:1:5588493:5606131:1 gene:ENSMUSG00000025905 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 100 // 25 // 25 // 0 /// BC116795 // GenBank // Mus musculus opioid receptor, kappa 1, mRNA (cDNA clone MGC:151172 IMAGE:40126114), complete cds. // chr1 // 100 // 100 // 25 // 25 // 0 /// BC119026 // GenBank // Mus musculus opioid receptor, kappa 1, mRNA (cDNA clone MGC:155342 IMAGE:8733775), complete cds. // chr1 // 100 // 100 // 25 // 25 // 0 /// L11065 // GenBank // Mouse kappa opioid receptor mRNA, complete cds. // chr1 // 100 // 100 // 25 // 25 // 0 /// ENSMUST00000159083 // ENSEMBL // havana:known chromosome:GRCm38:1:5596518:5603153:1 gene:ENSMUSG00000025905 gene_biotype:protein_coding transcript_biotype:retained_intron // chr1 // 72 // 72 // 18 // 25 // 1 /// AK138198 // GenBank HTC // Mus musculus adult male hypothalamus cDNA, RIKEN full-length enriched library, clone:A230031G11 product:opioid receptor, kappa 1, full insert sequence. // chr1 // 56 // 56 // 14 // 25 // 1 /// GENSCAN00000045874 // ENSEMBL // cdna:genscan chromosome:GRCm38:1:5578692:5633299:1 transcript_biotype:protein_coding // chr1 // 100 // 96 // 24 // 24 // 0", 
"NM_009826 // RefSeq // Mus musculus RB1-inducible coiled-coil 1 (Rb1cc1), mRNA. // chr1 // 100 // 100 // 29 // 29 // 0 /// ENSMUST00000027040 // ENSEMBL // ensembl_havana_transcript:known chromosome:GRCm38:1:6214645:6276648:1 gene:ENSMUSG00000025907 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 100 // 29 // 29 // 0 /// ENSMUST00000159530 // ENSEMBL // havana:putative chromosome:GRCm38:1:6262933:6274489:1 gene:ENSMUSG00000025907 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 31 // 9 // 9 // 0 /// ENSMUST00000159656 // ENSEMBL // havana:known chromosome:GRCm38:1:6270678:6275575:1 gene:ENSMUSG00000025907 gene_biotype:protein_coding transcript_biotype:retained_intron // chr1 // 100 // 28 // 8 // 8 // 0 /// ENSMUST00000161327 // ENSEMBL // havana:novel chromosome:GRCm38:1:6234279:6275577:1 gene:ENSMUSG00000025907 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 100 // 86 // 25 // 25 // 0 /// ENSMUST00000162257 // ENSEMBL // havana:known chromosome:GRCm38:1:6249088:6274490:1 gene:ENSMUSG00000025907 gene_biotype:protein_coding transcript_biotype:nonsense_mediated_decay // chr1 // 100 // 38 // 11 // 11 // 0 /// AB050017 // GenBank // Mus musculus CC1 mRNA for coiled-coil protein, complete cds. // chr1 // 100 // 93 // 27 // 27 // 0 /// AB070619 // GenBank // Mus musculus Rb1cc1 mRNA for transcription factor, complete cds. // chr1 // 100 // 100 // 29 // 29 // 0 /// BC150774 // GenBank // Mus musculus RB1-inducible coiled-coil 1, mRNA (cDNA clone MGC:183685 IMAGE:9087685), complete cds. // chr1 // 100 // 83 // 24 // 24 // 0 /// XM_006495444 // RefSeq // PREDICTED: Mus musculus RB1-inducible coiled-coil 1 (Rb1cc1), transcript variant X2, mRNA. // chr1 // 66 // 66 // 19 // 29 // 1 /// ENSMUST00000162795 // ENSEMBL // havana:putative chromosome:GRCm38:1:6228002:6249029:1 gene:ENSMUSG00000025907 gene_biotype:protein_coding transcript_biotype:protein_coding // chr1 // 34 // 34 // 10 // 29 // 1 /// NONMMUT000060 // NONCODE // Non-coding transcript identified by NONCODE: Exonic // chr1 // 100 // 28 // 8 // 8 // 0 /// GENSCAN00000007874 // ENSEMBL // cdna:genscan chromosome:GRCm38:1:6214132:6428628:1 transcript_biotype:protein_coding // chr1 // 59 // 59 // 17 // 29 // 1"
), category = c("main", "main", "main", "main", "main", "main", 
"main", "main", "main", "main")), row.names = c(NA, 10L), class = "data.frame")
r bioinformatics
1个回答
2
投票

我在 GPL 文件中没有看到任何基因名称,但它们是用 //es 分隔的。 首先,我建议您编辑它们,然后查看,因为这会让生活更轻松。

解决该问题的另一个类似问题的示例代码是:

catchwords <- c('foo', 'bar', 'tex18')

d <- data.frame(tags = c("af285583 // tex18 // testis expressed gene 18 // 10 c1|10 // 83559",
                         "tic // tac // toe"
                         )
                )

来源:检查第 1 列的值是否存在于第 2 列的值中

一旦你完成了,也许我们可以一起研究一下?

© www.soinside.com 2019 - 2024. All rights reserved.