在Python / Pandas中读取空格分隔文件,缺少值

问题描述 投票:1回答:1

我正在尝试使用来自panda的read_csv在Python中读取空格分隔文件。它的工作原理是指定delimiter =“”。当列中存在某些缺失值时会出现问题,因为它通过将其视为分隔符来忽略缺失值。

有没有办法解决这个问题?

1600    1141.0000  020006        600    1141.0000    69.0000   OAUC     0.0000   
   1    1070.5000  020032          1    1070.5000   400.0000            0.0000

您可以看到值为OAUC的列中缺少值。柱之间存在不均匀的间距,这使得它更加困难。这些列也是固定的,因此有可能发现某些值丢失但找不到哪个值是不可能的。

python pandas whitespace missing-data
1个回答
0
投票

我同意Justin的说法,首先清理它是确保正确完成的最好方法。如果您可以浏览结果以验证质量控制,那么在这种情况下,这种破解可能会完成工作。

pd.read_csv(header=None, sep='\s{1, 7}')

我再说一次,这不是一个好主意。如果你只是想加载一个小的数据集,它就能完成这项工作。但是如果你无法验证它是否有效,最好使用read_fwf并仔细指定colspecs,或者遵循Justin的建议并清理文件。

© www.soinside.com 2019 - 2024. All rights reserved.