pandas读取csv忽略换行符

问题描述 投票:0回答:2

我有一个数据集(对于那里的compbio人,它是一个FASTA)充满了换行符,不作为数据的分隔符。

有没有办法让pandas在导入时忽略换行符,使用任何pandas读取函数?

样本数据:

> ERR899297.10000174 TGTAATATTGCCTGTAGCGGGAGTTGTTGTCTCAGGATCAGCATTATATATCTCAATTGCATGAATCATCGTATATATGC TATCAAGATCAGCCGATTCT

每个条目由“>”分隔,由新行分割(限于,但实际上并未在全球范围内受到尊重,每行80个字符)

python pandas biopython
2个回答
0
投票

当你确实想要改变元组时,你需要有另一个标志来告诉大熊猫。

这里例如我创建一个文件,其中新行由管道(|)编码:

csv = """
col1,col2, col3, col4|
first_col_first_line,2nd_col_first_line,
3rd_col_first_line

de,4rd_col_first_line|
"""
with open("test.csv", "w") as f:
    f.writelines(csv)

然后用C引擎读取它并将管道精确地作为行终止符:

import pandas as pd
pd.read_csv("test.csv",lineterminator="|", engine="c")

这给了我:enter image description here


0
投票

没有好办法做到这一点。单独使用BioPython就足以解决迭代BioPython对象并插入数据帧的混合解决方案

© www.soinside.com 2019 - 2024. All rights reserved.