我有一个包含多个数字序列的数据框,即:
13241231235324123422124313423221231;...
这些数字满足以下要求:每个数字的位数为1-4。我要做的是找到所有唯一的序列及其读物。关于唯一序列,允许两位数的差异。例如:1234412344123341234123444被认为是相同的序列,原始序列是1234,相关的读数是5。
我想在python中完成此操作,并且只允许使用基本的python软件包:numpy,pandas等。>>
实际情况是DNA序列。对于简单的DNA序列ATGCTAGC,由于读取错误,该实际序列的输出可能是:ATGCTAG(已删除),ATGCTAGG(已更改),ATGCTAGCG(插入),ATGCTAGC(未更改)。这四个序列被认为是相同的序列,读取是出现的时间。
我有一个包含多个数字序列的数据帧,即:1324123 1235324 12342212 4313423 221231; ...这些数字满足以下要求:每位数字为1-4。...
您可以使用levenshtein
距离来测量替换和删除的数量: