这是一个简单的问题-但我想我可能没有在Google中加入关键词来找到正确的答案,所以对此我感到非常抱歉。
[基本上,我有一个excel文件,其中包含我已测序的某些芸苔属植物的基因名称(随机排列),大约10000个,另一个文件具有相同(及更多)基因名称(有序),但它们与拟南芥属基因相对应。旁边的列。
例如:
文件1:
文件2:
基本上,我想用正确的拟南芥标记(文件2的第二列)注释测序的芸苔属基因(文件1),而无需重新排序文件1(因此只需在文件1中添加一列,但每个基因都对应于其正确的名称)。
我试图合并R上的列表,但这不起作用。有谁知道我可以在R中尝试这个吗?
非常感谢您的帮助。
如果您可以发布到目前为止使用的R代码,这确实有帮助。在这种情况下,我们只能猜测您实际上正在处理哪种类型的数据结构。
无论如何,请使用tidyverse
以简单的方式解决您的问题。
这是草稿:
library(tidyverse)
df_bras <- read_csv(
"brassica_genes.csv",
col_names = c("gene_bras"),
col_types = "c")
df_arab <- read_csv(
"arabidopsis_genes.csv",
col_name = c("gene_bras", "gene_arab"),
col_types = "cc")
df <- df_bras %>% left_join(df_arab, by = c("gene_bras"))
结果数据框df
将包含所有Brassica基因,以及Arabidopsis基因名称(如果在df_arab
中存在)或NA
。