我正在尝试合并两个数据集,以仅保留可以匹配的值。我有一个包含23799
行和3
列的数据集,我在其中提取50
的样本,另一个数据集也具有23799
行和3
列。共同的列称为Links
。第一个数据集的示例是:
Links \
0 #
1 https://www.google.com
2 http://www.youtube.com
3 https://www.forbes.com
... ...
Date \
0 #
1 12 April 2020
2 10 April 2020
3 12 April 2020
... ...
和第二个看起来像(考虑三列):
Links \
0 #
1 https://www.google.com
2 http://www.youtube.com
3 https://www.forbes.com
... ...
Visualization \
0 #
1 140000000
2 523412
3 1020
... ...
预期输出:
Links \
0 #
1 https://www.google.com
2 http://www.youtube.com
3 https://www.forbes.com
... ...
Date \
0 #
1 12 April 2020
2 10 April 2020
3 12 April 2020
... ...
Visualization \
0 #
1 140000000
2 523412
3 1020
... ...
(50 rows)
[如果我提取一个50
链接的样本对一个具有5
列(第一个数据集为3
,第二个数据集为2
)作为一个列名(Links
)相同。链接不应从一个数据集更改为另一个数据集,但它们保持相同的名称,因此我应该期待一个完美的匹配。行数应该是50 x 5 columns
,而不是1174
行,因为我只想考虑从我一直在考虑的样本中获得的链接。
我使用以下代码合并/加入数据集:
merged = pd.merge(sample, vis_dataset, on='Links', how='left')
但是行数(1174 rows
)错误。我也尝试过正确的,内部的...但是我从来没有得到等于50的行数。您能告诉我我做错了吗?
谢谢
尝试使用
merged = pd.merge(sample, vis_dataset, on='Links', left_index=True, how='left')
我认为应该可以。