合并两个数据集:仅匹配的行

问题描述 投票:1回答:1

我正在尝试合并两个数据集,以仅保留可以匹配的值。我有一个包含23799行和3列的数据集,我在其中提取50的样本,另一个数据集也具有23799行和3列。共同的列称为Links。第一个数据集的示例是:

                                                   Links  \
0                                                      #   
1                                 https://www.google.com   
2                                 http://www.youtube.com   
3                                 https://www.forbes.com   
...                                                  ...   

                                                   Date  \
0                                                      #   
1                                 12 April 2020  
2                                 10 April 2020   
3                                 12 April 2020   
...                                                  ...  

和第二个看起来像(考虑三列):

                                                   Links  \
0                                                      #   
1                                 https://www.google.com   
2                                 http://www.youtube.com   
3                                 https://www.forbes.com   
...                                                  ...  

                                        Visualization  \
0                                                      #   
1                                 140000000   
2                                    523412   
3                                      1020   
...                                                  ...  

预期输出:

                      Links  \
    0                                                      #   
    1                                 https://www.google.com   
    2                                 http://www.youtube.com   
    3                                 https://www.forbes.com   
    ...                                                  ...   

                                                       Date  \
    0                                                      #   
    1                                 12 April 2020  
    2                                 10 April 2020   
    3                                 12 April 2020   
    ...                                                  ...  

  Visualization  \
    0                                                      #   
    1                                 140000000   
    2                                    523412   
    3                                      1020   
    ...                                                  ...  

(50 rows)

[如果我提取一个50链接的样本对一个具有5列(第一个数据集为3,第二个数据集为2)作为一个列名(Links )相同。链接不应从一个数据集更改为另一个数据集,但它们保持相同的名称,因此我应该期待一个完美的匹配。行数应该是50 x 5 columns,而不是1174行,因为我只想考虑从我一直在考虑的样本中获得的链接。

我使用以下代码合并/加入数据集:

merged = pd.merge(sample, vis_dataset, on='Links', how='left')

但是行数(1174 rows)错误。我也尝试过正确的,内部的...但是我从来没有得到等于50的行数。您能告诉我我做错了吗?

谢谢

python pandas
1个回答
1
投票

尝试使用

merged = pd.merge(sample, vis_dataset, on='Links', left_index=True, how='left')

我认为应该可以。

© www.soinside.com 2019 - 2024. All rights reserved.