我如何制作更有效的代码来搜索大熊猫列中的多个字符串

Question

我是在生物实验室工作的自学成才的程序员（基本基础上只有一节课）。我有一个脚本处理来自两种不同细胞类型的RNAseq数据，并在另一个数据集中运行ttest。它适用于此应用程序，但是代码感觉很残酷，我知道我会写很多类似的脚本。

如何更好地编写以下代码以使其更有效率？

程序目标：

将基因列表与两种细胞类型的rnaseq文库进行比较，如果该文库包含该基因，则对细胞类型1与细胞类型2进行ttest测试
输出结果。

：

import pandas as pd
from scipy.stats import ttest_ind
rnatest = {'Gene symbol':["GeneA","GeneB"],"rnaseq1A":[1,1.5],"rnaseq1B":[1.3,1.2],"rnaseq2A":[2.3,2.7],"rnaseq2B":[2,2.6]} 
df = pd.DataFrame(rnatest)
GOIlist = ["GeneA","GeneB"]
GOI = []
mu = [] 
pval = []
for index, row in df.iterrows():
  if row['Gene symbol'] in GOIlist:
    t, p = ttest_ind([row["rnaseq1A"],row["rnaseq1B"]],[row["rnaseq2A"],row["rnaseq2B"]])
    GOI.append(row['Gene symbol'])
    mu.append(t)
    pval.append(p)
df2 = {'Gene symbol':GOI,"tVAL":mu, "pVAL":pval}
df2 = pd.DataFrame(df2)
print(df2)

Answer 1

使用pandas的优点是您可以进行列式操作。这些是generally more efficient then iterating over the DataFrame with a for loop。

我略微修改了您的df，以向您展示过滤掉所需行的效果。

>>> import pandas as pd
>>> from scipy.stats import ttest_ind
>>> GOIlist = ["GeneA","GeneB"]
>>> rnatest = {'Gene symbol':["GeneA","GeneB", "GeneC"],"rnaseq1A":[1,1.5,2],"rnaseq1B":[1.3,1.2,1.1],"rnaseq2A":[2.3,2.7,3.1],"rnaseq2B":[2,2.6,3.2]} 
>>> df = pd.DataFrame(rnatest)
>>> print(df)

    Gene symbol     rnaseq1A    rnaseq1B    rnaseq2A    rnaseq2B
0   GeneA           1.0         1.3         2.3         2.0
1   GeneB           1.5         1.2         2.7         2.6
2   GeneC           2.0         1.1         3.1         3.2

现在我将如何重写您的代码：

使用set_index使Gene symbol行成为索引，这可以加快查找时间（特别是如果您有较大的DataFrames）]
[我们使用loc过滤掉具有GOIlist中的基因符号的行
现在我们创建两个新列pVal和tVal，我们将ttest_ind的输出分配给它们。请注意，我们不再需要遍历所有行。
[可选，如果您不想在输出中看到rnaseq*行，请删除它们。

使用代码：

>>> df3 = df.set_index(['Gene symbol'])
>>> df3 = df3.loc[GOIlist]
>>> df3['tVal'], df3['pVal'] = ttest_ind([df3["rnaseq1A"], df3["rnaseq1B"]], [df3["rnaseq2A"], df3["rnaseq2B"]])
>>> df3 = df3.drop(['rnaseq1A', 'rnaseq1B', 'rnaseq2A', 'rnaseq2B'], axis=1)
>>> print(df3)
            tVal        pVal
Gene symbol         
GeneA       -4.714045   0.042174
GeneB       -8.221922   0.014473

所以，这段代码现在有多少效率？

[如果我人为地将DataFrame的大小增加了10.000倍（因此总共30.000行而不是3行）

n = 10_000
rnatest = {'Gene symbol':["GeneA","GeneB", "GeneC"]*n, "rnaseq1A":[1,1.5,2]*n, "rnaseq1B":[1.3,1.2,1.1]*n, "rnaseq2A":[2.3,2.7,3.1]*n, "rnaseq2B":[2,2.6,3.2]*n} 
df = pd.DataFrame(rnatest)

然后我可以使用timeit来衡量代码的执行时间。对于您的原始方法，我得到结果：

timeit

当我的方法结束时

13.7 s ± 555 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

所以速度提高了300倍！

我如何制作更有效的代码来搜索大熊猫列中的多个字符串

问题描述投票：1回答：1

1个回答

最新问题

我如何制作更有效的代码来搜索大熊猫列中的多个字符串

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1