我是一个Python初学者,但我有一个与编程相关的项目要做,所以,我真的很想寻求一些帮助,我没有找到很多简单的解决方案来组织数据,这样我就可以做一些分析。首先,我有多个csv文件,我把它们作为DataFrame对象读取。首先,我有多个csv文件,我把它们作为DataFrame对象读进来,最后,我需要它们一起分析(现在这些文件被分离到DataFrame列表中,但以后我可能会需要这些文件作为一个DataFrame对象).然而,我有一个组织和分离数据的问题。这些都是在一列中的数千行,其中的一部分被呈现出来。
CIP;Date;Hour;Cons;REAL/ESTIMATED
EN025140855608477018TC2L;11/03/2020;1;0 057;R
EN025140855608477018TC2L;11/03/2020;2;0 078;R
EN025140855608477018TC2L;11/03/2020;3;0 033;R
EN025140855608477018TC2L;11/03/2020;4;0 085;R
EN025140855608477018TC2L;11/03/2020;5;0 019;R
...
EN025140855608477018TC2L;11/04/2020;20;0 786;R
EN025140855608477018TC2L;11/04/2020;21;0 288;R
EN025140855608477018TC2L;11/04/2020;22;0 198;R
EN025140855608477018TC2L;11/04/2020;23;0 728;R
EN025140855608477018TC2L;11/04/2020;24;0 275;R
这个区域,其中巨大的空间之间,数字应该被合并在一起,例如。0.057
哪些信息代表了 "缺点"(其实这是最重要的信息)。我应该能够把数据分成5列,以便进行分析。然而,它应该是一个通用的工具,适用于不同的csv文件,而不知道包括符号。但是,内容和标题的结构总是相同的。
如果有人能推荐一种处理这种数据的方法,我会很高兴。
听起来,你想做的是将数据转换为 Cons
列,使空格变成点。
df = pd.read_csv("file.txt", sep=";")
df['Cons'] = df['Cons'].str.replace("\s+",".")
df['Cons'].head()
输出:
0 0.057
1 0.078
2 0.033
3 0.085
4 0.019