[转换数据帧列时如何删除千位逗号分隔符？ [重复]

Question

给出以下数据框：

State,City,Population,Poverty_Rate,Median_Age, 
VA,XYZ,.,10.5%,42, 
MD,ABC,"12,345",8.9%,., 
NY,.,987,654,.,41, 
...

import pandas as pd
df = pd.read_csv("/path... /sample_data")

df.dtypes返回

State          Object
City           Object
Population     Object
Proverty_Rate  Object
Median_Age     Object

我尝试将适当的列的数据类型转换为int或float：

df = df.astype({"Population": int, "Proverty_rate": float, "Median_Age": int })

我收到

Value Error: invalid literal for int() with base 10: '12,345'

我怀疑逗号分隔符导致了此问题。如何从数据集中删除那些？

Answer 1

pd.read_csv(thousand=',')中有一个参数，默认情况下将其设置为None。

data = """
State   City    Population Poverty_Rate  Median_Age
VA      XYZ     500,00          10.5%         42
MD      ABC     12,345      8.9%          .
NY      .       987,654     .             41"""


from io import StringIO
import pandas as pd

df = pd.read_csv(StringIO(data),sep='\s+',thousands=',')

print(df)

  State City  Population Poverty_Rate Median_Age
0    VA  XYZ       50000        10.5%         42
1    MD  ABC       12345         8.9%          .
2    NY    .      987654            .         41

理想地，您需要做的是替换字符串标记，然后将字符串列强制转换为整数/浮点数。

#using your dict.
int_cols = ({"Population": int, "Poverty_Rate": float, "Median_Age": int })

for col in int_cols.keys():
    df[col] = pd.to_numeric(df[col].astype(str).str.replace('%',''),errors='coerce')

print(df.dtypes)

State            object
City             object
Population        int64
Poverty_Rate    float64
Median_Age      float64
dtype: object



print(df)

  State City  Population  Poverty_Rate  Median_Age
0    VA  XYZ       50000          10.5        42.0
1    MD  ABC       12345           8.9         NaN
2    NY    .      987654           NaN        41.0

Answer 2

您可以尝试以下吗？首先将str.replace列上，然后再将其转换为整数？

import pandas as pd

df = pd.DataFrame([
    {'value': '123,445'},
    {'value': '143,445,788'}
])
df['value'] = df['value'].str.replace(',', '').astype(int)

[转换数据帧列时如何删除千位逗号分隔符？ [重复]

问题描述投票：-1回答：2

2个回答

最新问题

[转换数据帧列时如何删除千位逗号分隔符？ [重复]

问题描述 投票：-1回答：2

2个回答

最新问题

问题描述投票：-1回答：2