查找序列和读取的唯一编号

问题描述 投票:0回答:1

我有一个包含多个数字序列的数据框,即:

13241231235324123422124313423221231;...

这些数字满足以下要求:每个数字的位数为1-4。我要做的是找到所有唯一的序列及其读物。关于唯一序列,允许两位数的差异。例如:1234412344123341234123444被认为是相同的序列,原始序列是1234,相关的读数是5。

我想在python中完成此操作,并且只允许使用基本的python软件包:numpy,pandas等。>>

编辑

实际情况是DNA序列。对于简单的DNA序列ATGCTAGC,由于读取错误,该实际序列的输出可能是:ATGCTAG(已删除),ATGCTAGG(已更改),ATGCTAGCG(插入),ATGCTAGC(未更改)。这四个序列被认为是相同的序列,读取是出现的时间。

我有一个包含多个数字序列的数据帧,即:1324123 1235324 12342212 4313423 221231; ...这些数字满足以下要求:每位数字为1-4。...

python
1个回答
0
投票

您可以使用levenshtein距离来测量替换和删除的数量:

© www.soinside.com 2019 - 2024. All rights reserved.