熊猫替换列中的值,但是to_replace参数是包含元组的元组

问题描述 投票:0回答:2

我正在解码NLSY 79中的值。它们是职业。每个行业都有许多职业。例如:从17到29的所有职业都是农业,林业和渔业。我尝试了三种策略,但是有两种返回错误,第三种没有将值存储在数据框中。

执行代码看起来像这样(调查的受访者最多可以列出5个工作,所有这些工作都包含在数据中)

df[['Job1', 'Job2', 'Job3', 'Job4', 'Job5']].replace(to_replace=jobs['code'], value=jobs['true'], inplace=True)

策略1

ValueError:包含多个元素的数组的真值不明确。使用a.any()或a.all()

jobs = {'code': ( tuple(range(17,29)), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', ... )

策略2

TypeError:无法比较类型'ndarray(dtype = float64)'和'range']

jobs = {'code': ( range(17,29), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', ... )

策略3

SettingWithCopyWarning:试图在来自DataFrame的切片的副本上设置一个值

jobs = {'code': ( any(tuple(range(17, 29))), any(tuple(range(47, 58))), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', 'Mining', ... )

我认为最好对第三种策略/执行代码进行调整,但是我仍然对编码尚不陌生,不确定会是什么。有关如何解决此问题的任何建议?

Input:
        Job1      ...  
0       339       ...  
1       757       ...  
2       739       ...  
3       448       ...  

Desired Output:

        Job1            ...  
0       Utilities       ...  
1       Professional    ...  
2       Professional    ...  
3       Retail          ...

job = {'code': (list(range(17, 29)),
                   list(range(47, 58)),
                   list(range(67, 78)), ...)
       'true': ('Agriculture, Forestry & Fisheries',
                  'Mining',
                  'Construction', ...)}
python pandas replace data-cleaning iterable
2个回答
0
投票

尝试一下:

df1
        Job1
0       20
1       50
2       70

job = {'code': (list(range(17, 29)),
                   list(range(47, 58)),
                   list(range(67, 78))),
       'true': ('Agriculture, Forestry & Fisheries',
                  'Mining',
                  'Construction')}

pd_replace = pd.DataFrame(job).explode('code')
df1.replace(dict(zip(pd_replace['code'], pd_replace['true'])))

                                Job1
0  Agriculture, Forestry & Fisheries
1                             Mining
2                       Construction

0
投票

解决了。不是最快的方法,但是可以。

job = {'code': (list(range(17, 29)), ...),  
       'true': ('Agriculture, Forestry & Fisheries', ...)}  

    for i, x in enumerate(job['code']):  
        for key in df_jobs:  
            df[key].replace(to_replace=x, value=[job['true'][i]]*len(x), inplace=True)  
© www.soinside.com 2019 - 2024. All rights reserved.