R函数用另一个表的ID标记一个表吗?

问题描述 投票:0回答:1

这是一个简单的问题-但我想我可能没有在Google中加入关键词来找到正确的答案,所以对此我感到非常抱歉。

[基本上,我有一个excel文件,其中包含我已测序的某些芸苔属植物的基因名称(随机排列),大约10000个,另一个文件具有相同(及更多)基因名称(有序),但它们与拟南芥属基因相对应。旁边的列。

例如:

文件1:

  1. BnAxyz
  2. BnAklm
  3. BnAdef
  4. Etc ...

文件2:

  1. BnAabc AtAxyz
  2. BnAdef AtAypi
  3. BnAghi AtApqr

基本上,我想用正确的拟南芥标记(文件2的第二列)注释测序的芸苔属基因(文件1),而无需重新排序文件1(因此只需在文件1中添加一列,但每个基因都对应于其正确的名称)。

我试图合并R上的列表,但这不起作用。有谁知道我可以在R中尝试这个吗?

非常感谢您的帮助。

r merge bioinformatics
1个回答
0
投票

如果您可以发布到目前为止使用的R代码,这确实有帮助。在这种情况下,我们只能猜测您实际上正在处理哪种类型的数据结构。

无论如何,请使用tidyverse以简单的方式解决您的问题。

这是草稿:

library(tidyverse)
df_bras <- read_csv(
  "brassica_genes.csv", 
  col_names = c("gene_bras"), 
  col_types = "c")
df_arab <- read_csv(
  "arabidopsis_genes.csv", 
  col_name = c("gene_bras", "gene_arab"), 
  col_types = "cc")

df <- df_bras %>% left_join(df_arab, by = c("gene_bras"))

结果数据框df将包含所有Brassica基因,以及Arabidopsis基因名称(如果在df_arab中存在)或NA

© www.soinside.com 2019 - 2024. All rights reserved.