Pandas.read_csv()忽略包含FEWER字段的不良行/行。文本文件

问题描述 投票:0回答:1

我正在尝试阅读这个巨大的文本文件:https://www.dropbox.com/s/3ikikw8bxde6y1i/TCAD_SPECIAL%20EXPORT_2019_20200409.zip?dl=0(如果下载zip,则文件为Special_ARB.txt(对于我的问题imo而言不是必需的。)]

我正在运行此代码(添加error_bad_lines=False)来忽略字段超出预期的行,效果很好:

pd.read_csv(r'~/Special_ARB.txt', sep="|", 
            header=None,encoding='cp1252',error_bad_lines=False)

问题是,当一行只有1个字段时,read.csv()崩溃。出现以下错误:

指定的列过多:预期为77,找到1

有没有办法告诉python / pandas忽略此错误?这不是让我知道这是哪条线。有超过一百万行,所以我不能自己找到它。

  • 我尝试了一个for循环来逐行读取并从那里找出来,但是数据是如此之大,以至于python崩溃了。
  • 列数为77,可以在运行代码时由熊猫正确识别,我认为这不是问题。
  • 谢谢,

我正在尝试阅读这个巨大的文本文件:https://www.dropbox.com/s/3ikikw8bxde6y1i/TCAD_SPECIAL%20EXPORT_2019_20200409.zip?dl=0(如果下载zip,则文件为Special_ARB.txt(不是...

python pandas text read.csv
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.