这个问题在这里已有答案:
我已经查看了所有的互联网和熊猫文档。
我有2个pandas DataFrames(带字符串值)它们实际上有14列和1667行。
我需要比较它们并返回较长的一个或多个不在较短的值中的值
df1
0 X
1 Y
2 Z
df2
0 X
1 Y
结果:
df_diff
2 Z
我尝试了不同的合并和连接,也许我只是愚蠢,但无法使它工作。这是比较2个数据帧并返回新数据帧中所有不相等行的函数的一部分。如果你有整个功能的解决方案随时发布它作为答案。
这会有用吗?
set(df_1['columname']) - set(df_2['columnname'])
如果您想要完整数据集的差异,您可以:
set(df_1.values.flatten()) - set(df_2.values.flatten())