在Python中获得2个不等长的数据帧[重复]

Question

这个问题在这里已有答案：

我已经查看了所有的互联网和熊猫文档。

我有2个pandas DataFrames（带字符串值）它们实际上有14列和1667行。

我需要比较它们并返回较长的一个或多个不在较短的值中的值

   df1
0 X
1 Y
2 Z

   df2
0 X
1 Y

结果：

   df_diff
2 Z

我尝试了不同的合并和连接，也许我只是愚蠢，但无法使它工作。这是比较2个数据帧并返回新数据帧中所有不相等行的函数的一部分。如果你有整个功能的解决方案随时发布它作为答案。

Answer 1

这会有用吗？

set(df_1['columname']) - set(df_2['columnname'])

如果您想要完整数据集的差异，您可以：

set(df_1.values.flatten()) - set(df_2.values.flatten())