正规表达以捕捉所有可能性?

问题描述 投票:0回答:1

我的输入是基因数据,如下所示:

SNP       VALUE
rs123456  A/G
rs345353  del/CTT
rs343524  T
rs243224  T/del
....

没有深入研究遗传学,我们所有人都有2个等位基因(妈妈和爸爸),所以如果你没有“/”(A / C / G / T / del / CTT),那么两个等位基因都是相同的,如果没有,有斜线“/”表示它们不同。

长话短说,我需要找到SNP的已知模式,但我知道有很多可能性(如果/(斜线)值的数量很大)。

我已经建立了这样的正则表达式:[A|C|G|T|del|CTT]

A / G = G / A所以我需要匹配所有可能性。

是否有任何功能或逻辑可以帮助我做到这一点?请指教。

P.S

添加更多信息:

预期输出是值的所有可能变体,例如:

rs123 = A/G, rs456 = T/C, rs789 = CTT: 
Option 1: A T CTT; 
Option 2: A C CTT; 
Option 3: G T CTT; 
Option 4: G C CTT; 

但如果我有超过2 /我想得到所有的选择。

r regex pattern-matching genetic-algorithm genetic-programming
1个回答
1
投票

如果我理解正确你是在这之后:

df = data.frame(SNP = c("rs123456",  "rs345353", "rs343524" ,"rs243224"),
                value = c("A/G", "del/CTT", "T", "T/del"), stringsAsFactors = F)

expand.grid(strsplit(df$value, "/"))
#output
  Var1 Var2 Var3 Var4
1    A  del    T    T
2    G  del    T    T
3    A  CTT    T    T
4    G  CTT    T    T
5    A  del    T  del
6    G  del    T  del
7    A  CTT    T  del
8    G  CTT    T  del

或者如果每个组合需要一个字符串

apply(expand.grid(strsplit(df$value, "/")), 1, paste, collapse = " ")
#output
[1] "A del T T"   "G del T T"   "A CTT T T"   "G CTT T T"   "A del T del" "G del T del"
[7] "A CTT T del" "G CTT T del"

要么:

do.call(paste, c(expand.grid(strsplit(df$value, "/")), sep=" "))
© www.soinside.com 2019 - 2024. All rights reserved.