如何清理Dataframe列中的重复词?

问题描述 投票:0回答:1

我正试图清理我的数据以进行一些分析。我的数据 (.csv)是一些实验的输出,所以每一列都重复着相同的格式或文字。我为我的原始数据添加了一个图像。在我的四列中,每列都有:。

df = pd.DataFrame({'rev45s':['Area is    389.62 km^2','aspArea is  76.61 km^2','asp_Ave_slip is  1.59 m','Mw is 5.5'],
                   'rev45':['Area is    589.32 km^2','aspArea is  66.65 km^2','asp_Ave_slip is  3.69 m','Mw is 6.1'],
                   'SS45':['Area is    319.62 km^2','aspArea is  61.71 km^2','asp_Ave_slip is  3.09 m','Mw is 6.8'],
                   'SS45s':['Area is    489.52 km^2','aspArea is  54.61 km^2','asp_Ave_slip is  1.44 m','Mw is 9.5']})

我需要做一个新的 Dataframe

  • 第一列为 "参数"=(Area, aspArea, asp_Ave_slip, Mw )

  • 第二列到第四列分别为 "rev45s_value"、"rev45_value"、"SS45_value"、"SS45s_value "和 "rev45s_value"。

  • 第五栏为 "单位"=(km^2,km^2,m,-)

我尝试了一些代码,比如

df['rev45s']=df['rev45s'].apply(lambda x: pd.Series(x.split()))

df['rev45s']=df['rev45s'].str.split(' ')

但他们没有工作。如何清理这个DataFrame?

python lambda data-cleaning
1个回答
© www.soinside.com 2019 - 2024. All rights reserved.