合并两个数据集：仅匹配的行

Question

我正在尝试合并两个数据集，以仅保留可以匹配的值。我有一个包含23799行和3列的数据集，我在其中提取50的样本，另一个数据集也具有23799行和3列。共同的列称为Links。第一个数据集的示例是：

                                                   Links  \
0                                                      #   
1                                 https://www.google.com   
2                                 http://www.youtube.com   
3                                 https://www.forbes.com   
...                                                  ...   

                                                   Date  \
0                                                      #   
1                                 12 April 2020  
2                                 10 April 2020   
3                                 12 April 2020   
...                                                  ...

和第二个看起来像（考虑三列）：

                                                   Links  \
0                                                      #   
1                                 https://www.google.com   
2                                 http://www.youtube.com   
3                                 https://www.forbes.com   
...                                                  ...  

                                        Visualization  \
0                                                      #   
1                                 140000000   
2                                    523412   
3                                      1020   
...                                                  ...

预期输出：

                      Links  \
    0                                                      #   
    1                                 https://www.google.com   
    2                                 http://www.youtube.com   
    3                                 https://www.forbes.com   
    ...                                                  ...   

                                                       Date  \
    0                                                      #   
    1                                 12 April 2020  
    2                                 10 April 2020   
    3                                 12 April 2020   
    ...                                                  ...  

  Visualization  \
    0                                                      #   
    1                                 140000000   
    2                                    523412   
    3                                      1020   
    ...                                                  ...  

(50 rows)

[如果我提取一个50链接的样本对一个具有5列（第一个数据集为3，第二个数据集为2）作为一个列名（Links ）相同。链接不应从一个数据集更改为另一个数据集，但它们保持相同的名称，因此我应该期待一个完美的匹配。行数应该是50 x 5 columns，而不是1174行，因为我只想考虑从我一直在考虑的样本中获得的链接。

我使用以下代码合并/加入数据集：

merged = pd.merge(sample, vis_dataset, on='Links', how='left')

但是行数（1174 rows）错误。我也尝试过正确的，内部的...但是我从来没有得到等于50的行数。您能告诉我我做错了吗？

谢谢

Answer 1

尝试使用

merged = pd.merge(sample, vis_dataset, on='Links', left_index=True, how='left')

我认为应该可以。

合并两个数据集：仅匹配的行

问题描述投票：1回答：1

1个回答

最新问题

合并两个数据集：仅匹配的行

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1