我有一个熊猫数据帧tsp_data_unique
这样的..
order_id quant_bought Clusters
0 537 2 Cluster 2
1 540 1 Cluster 10
2 541 1 Cluster 4
3 542 2 Cluster 2
4 543 2 Cluster 2
5 545 3 Cluster 2
6 546 2 Cluster 2
7 548 3 Cluster 1
8 549 3 Cluster 6
9 550 4 Cluster 2
10 553 1 Cluster 11
11 555 1 Cluster 1
12 556 1 Cluster 1
13 557 1 Cluster 3
14 584 3 Cluster 2
15 586 3 Cluster 2
16 587 3 Cluster 5
17 588 1 Cluster 7
18 589 1 Cluster 10
19 590 1 Cluster 9
20 591 2 Cluster 2
21 592 3 Cluster 2
22 593 1 Cluster 2
23 594 7 Cluster 8
24 595 3 Cluster 2
25 596 1 Cluster 1
26 608 2 Cluster 2
27 609 4 Cluster 2
而第二个数据帧作为df
Clusters order_id
0 Cluster 1 [548, 555, 556, 596]
1 Cluster 10 [540, 589]
2 Cluster 11 [553]
3 Cluster 2 [537, 542, 543, 545, 546, 550, 584, 586, 591, ...
4 Cluster 3 [557]
5 Cluster 4 [541]
6 Cluster 5 [587]
7 Cluster 6 [549]
8 Cluster 7 [588]
9 Cluster 8 [594]
10 Cluster 9 [590]
现在,我想在第一个数据帧由order_id's
列降序排列Cluster 2
数据帧df
列Clusters
的quant_bought
。
我做的蟒蛇以下。
p = df.order_id[df['Clusters'] == 'Cluster 2']
a = tsp_data_unique['order_id'].isin(p.values[0])
b = tsp_data_unique['quant_bought'][a]
b.sort()
b = b[::-1]
p = tsp_data_unique['order_id'][b.index]
list_p = p.values.tolist()
df.order_id[df['Clusters'] == 'Cluster 2'] = list_p
当我给你降有序列表中Cluster 2
到df
它给了我一个错误
ValueError: Length of replacements must equal series length
请帮忙..
我认为,在列名单与工作是不容易的。
如果index
值,其中df['Clusters'] == 'Cluster 2'
只有一个,你可以使用iloc
:
p = df.order_id[df['Clusters'] == 'Cluster 2']
a = tsp_data_unique['order_id'].isin(p.values[0])
b = tsp_data_unique['quant_bought'][a]
#replace sort to sort_values, because future warning
b.sort_values(inplace=True)
b = b[::-1]
p = tsp_data_unique['order_id'][b.index]
list_p = p.values
print list_p
[550 586 584 545 591 546 543 542 537]
idx = df[df['Clusters'] == 'Cluster 2'].index[0]
print idx
1
df['order_id'].iloc[idx] = list_p
print df.iloc[idx]
Clusters Cluster 2
order_id [550, 586, 584, 545, 591, 546, 543, 542, 537]
Name: 1, dtype: object
希望这可以帮助。
In [25]: tsp_data_unique
Out[25]:
order_id quant_bought cluster
0 537 2 4
1 540 1 3
2 541 5 4
3 542 1 4
4 544 2 3
In [26]: df = tsp_data_unique.sort_values(['cluster', 'order_id'], ascending=[True, False]).groupby('cluster')['order_id'].apply(lambda x: x.tolist())
In [27]: df
Out[27]:
cluster
3 [544, 540]
4 [542, 541, 537]
Name: order_id, dtype: object
在这里,您正试图分配列表作为一个数据帧的元素。但是,预计在列表中像[ 5 ]
一个值。既然你是分配列表的长度是> 1
和你试图取代值的长度刚好1,有长的不匹配和Python抛出一个错误。
要解决这个问题,尝试用你的列表,另一个列表的第一个元素,如下图所示:
df.order_id[df['Clusters'] == 'Cluster 2'] = [ list_p ]