两个名称不一致的变量作为Snakemake规则的输入

Question

如果命名不一致且它们都在同一个文件夹中，如何为snakemake中的规则配置输入数据？例如，如果我想将每对样本用作每个规则的输入：

PT1 T5
S6 T7
S1 T20

在这个例子中，我希望有3对PT1和T5，S6和T7，S1和T20这样开始，我想创建3个文件夹：

PT1vsT5
S6vsT7
S1vsT20

然后使用manta执行分析并相应地将结果输出到这3个文件夹中。

在以下管道中，我希望GERMLINE样本是每一行中的第一个元素（PT1，S6，S1），而第二个元素是TUMOR（T5，T7，T20）。

rule all:
 input:
      expand("/{samples_g}vs{samples_t}", samples_g = GERMLINE, samples_t = TUMOR),
      expand("/{samples_g}vs{samples_t}/runWorkflow.py", samples_g = GERMLINE, samples_t = TUMOR),

# Create folders
rule folders:
  output: "./{samples_g}vs{samples_t}"
  shell: "mkdir {output}"

# Manta configuration
rule manta_config:  
  input:
       g = BAMPATH + "/{samples_g}.bam",
       t = BAMPATH + "/{samples_t}.bam"
  output:
       wf = "{samples_g}vs{samples_t}/runWorkflow.py"
  params:
       ref = IND,
       out_dir = "{samples_g}vs{samples_t}/runWorkflow.py"
  shell:
       "python configManta.py --normalBam {input.g} --tumorBam {input.t} --referenceFasta {params.ref} --runDir {params.out_dir} "

我可以通过使用包含对的.txt作为输入然后使用循环吗？如果是这样我该怎么办？否则怎么办呢？

Answer 1

您可以使用任何适当的python代码“手动”生成输入或输出文件列表。例如，您可以按以下步骤生成第一个输入列表：

In [1]: GERMLINE = ("PT1", "S6", "S1")

In [2]: TUMOR = ("T5", "T7", "T20")

In [3]: ["/{}vs{}".format(sample_g, sample_t) for (sample_g, sample_t) in zip(GERMLINE, TUMOR)]
Out[3]: ['/PT1vsT5', '/S6vsT7', '/S1vsT20']

所以这将适用如下：

rule all:
    input:
        ["/{}vs{}".format(sample_g, sample_t) for (sample_g, sample_t) in zip(GERMLINE, TUMOR)],
        ["/{}vs{}/runWorkflow.py".format(sample_g, sample_t) for (sample_g, sample_t) in zip(GERMLINE, TUMOR)],

（请注意，我将sample_g和sample_t以单数形式放置，因为它在这种情况下听起来更合乎逻辑，其中这些变量代表单个样本名称，而不是几个样本的列表）

两个名称不一致的变量作为Snakemake规则的输入

问题描述投票：1回答：1

1个回答

最新问题

两个名称不一致的变量作为Snakemake规则的输入

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1