熊猫替换列中的值，但是to_replace参数是包含元组的元组

Question

我正在解码NLSY 79中的值。它们是职业。每个行业都有许多职业。例如：从17到29的所有职业都是农业，林业和渔业。我尝试了三种策略，但是有两种返回错误，第三种没有将值存储在数据框中。

执行代码看起来像这样（调查的受访者最多可以列出5个工作，所有这些工作都包含在数据中）

df[['Job1', 'Job2', 'Job3', 'Job4', 'Job5']].replace(to_replace=jobs['code'], value=jobs['true'], inplace=True)

策略1

ValueError：包含多个元素的数组的真值不明确。使用a.any（）或a.all（）

jobs = {'code': ( tuple(range(17,29)), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', ... )

策略2

TypeError：无法比较类型'ndarray（dtype = float64）'和'range']

jobs = {'code': ( range(17,29), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', ... )

策略3

SettingWithCopyWarning：试图在来自DataFrame的切片的副本上设置一个值

jobs = {'code': ( any(tuple(range(17, 29))), any(tuple(range(47, 58))), ... )
        'true': ( 'Agriculture, Forestry & Fisheries', 'Mining', ... )

我认为最好对第三种策略/执行代码进行调整，但是我仍然对编码尚不陌生，不确定会是什么。有关如何解决此问题的任何建议？

Input:
        Job1      ...  
0       339       ...  
1       757       ...  
2       739       ...  
3       448       ...  

Desired Output:

        Job1            ...  
0       Utilities       ...  
1       Professional    ...  
2       Professional    ...  
3       Retail          ...

job = {'code': (list(range(17, 29)),
                   list(range(47, 58)),
                   list(range(67, 78)), ...)
       'true': ('Agriculture, Forestry & Fisheries',
                  'Mining',
                  'Construction', ...)}

Answer 1

尝试一下：

df1
        Job1
0       20
1       50
2       70

job = {'code': (list(range(17, 29)),
                   list(range(47, 58)),
                   list(range(67, 78))),
       'true': ('Agriculture, Forestry & Fisheries',
                  'Mining',
                  'Construction')}

pd_replace = pd.DataFrame(job).explode('code')
df1.replace(dict(zip(pd_replace['code'], pd_replace['true'])))

                                Job1
0  Agriculture, Forestry & Fisheries
1                             Mining
2                       Construction

Answer 2

解决了。不是最快的方法，但是可以。

job = {'code': (list(range(17, 29)), ...),  
       'true': ('Agriculture, Forestry & Fisheries', ...)}  

    for i, x in enumerate(job['code']):  
        for key in df_jobs:  
            df[key].replace(to_replace=x, value=[job['true'][i]]*len(x), inplace=True)

熊猫替换列中的值，但是to_replace参数是包含元组的元组

问题描述投票：0回答：2

2个回答

最新问题

熊猫替换列中的值，但是to_replace参数是包含元组的元组

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2