我正在解码NLSY 79中的值。它们是职业。每个行业都有许多职业。例如:从17到29的所有职业都是农业,林业和渔业。我尝试了三种策略,但是有两种返回错误,第三种没有将值存储在数据框中。
执行代码看起来像这样(调查的受访者最多可以列出5个工作,所有这些工作都包含在数据中)
df[['Job1', 'Job2', 'Job3', 'Job4', 'Job5']].replace(to_replace=jobs['code'], value=jobs['true'], inplace=True)
策略1
ValueError:包含多个元素的数组的真值不明确。使用a.any()或a.all()
jobs = {'code': ( tuple(range(17,29)), ... )
'true': ( 'Agriculture, Forestry & Fisheries', ... )
策略2
TypeError:无法比较类型'ndarray(dtype = float64)'和'range']
jobs = {'code': ( range(17,29), ... )
'true': ( 'Agriculture, Forestry & Fisheries', ... )
策略3
SettingWithCopyWarning:试图在来自DataFrame的切片的副本上设置一个值
jobs = {'code': ( any(tuple(range(17, 29))), any(tuple(range(47, 58))), ... )
'true': ( 'Agriculture, Forestry & Fisheries', 'Mining', ... )
我认为最好对第三种策略/执行代码进行调整,但是我仍然对编码尚不陌生,不确定会是什么。有关如何解决此问题的任何建议?
Input:
Job1 ...
0 339 ...
1 757 ...
2 739 ...
3 448 ...
Desired Output:
Job1 ...
0 Utilities ...
1 Professional ...
2 Professional ...
3 Retail ...
job = {'code': (list(range(17, 29)),
list(range(47, 58)),
list(range(67, 78)), ...)
'true': ('Agriculture, Forestry & Fisheries',
'Mining',
'Construction', ...)}
尝试一下:
df1
Job1
0 20
1 50
2 70
job = {'code': (list(range(17, 29)),
list(range(47, 58)),
list(range(67, 78))),
'true': ('Agriculture, Forestry & Fisheries',
'Mining',
'Construction')}
pd_replace = pd.DataFrame(job).explode('code')
df1.replace(dict(zip(pd_replace['code'], pd_replace['true'])))
Job1
0 Agriculture, Forestry & Fisheries
1 Mining
2 Construction
解决了。不是最快的方法,但是可以。
job = {'code': (list(range(17, 29)), ...),
'true': ('Agriculture, Forestry & Fisheries', ...)}
for i, x in enumerate(job['code']):
for key in df_jobs:
df[key].replace(to_replace=x, value=[job['true'][i]]*len(x), inplace=True)