通过使用Python找出两个过人之处丢失的事务

Question

我下面有2 Excel中的CSV文件

df1 =  {'Transaction_Name':['SC-001_Homepage', 'SC-002_Homepage', 'SC-003_Homepage', 'SC-001_Signinlink'], 'Count': [1, 0, 2, 1]}
df1 = pd.DataFrame(df1, columns=df1.keys())

df2 =  {'Transaction_Name':['SC-001_Homepage', 'SC-002_Homepage', 'SC-001_Signinlink', 'SC-002_Signinlink'], 'Count': [2, 1, 2, 1]}
df2 = pd.DataFrame(df2, columns=df2.keys())

在df1我看到有一个叫SC-003_Homepage额外交易这是不存在的df2。有人可以帮助我如何找到只交易这是在缺少df2？

到目前为止，我已经在下面所做的工作，以获得交易。

merged_df = pd.merge(df1, df2, on = 'Transaction_Name', suffixes=('_df1', '_df2'), how='inner')

Answer 1

也许简单set将做的工作

set(df1['Transaction_Name']) - set(df2['Transaction_Name'])

Answer 2

添加合并列，然后筛选基于对丢失的数据。看下面的例子。

欲了解更多信息，请参阅merge documentation

import pandas as pd

df1 =  {'Transaction_Name':['SC-001_Homepage', 'SC-002_Homepage', 'SC-003_Homepage', 'SC-001_Signinlink'], 'Count': [1, 0, 2, 1]}
df1 = pd.DataFrame(df1, columns=df1.keys())

df2 =  {'Transaction_Name':['SC-001_Homepage', 'SC-002_Homepage', 'SC-001_Signinlink', 'SC-002_Signinlink'], 'Count': [2, 1, 2, 1]}
df2 = pd.DataFrame(df2, columns=df2.keys())

#create a merged df
merge_df = df1.merge(df2, on='Transaction_Name', how='outer', suffixes=['', '_'], indicator=True)

#filter rows which are missing in df2
missing_df2_rows = merge_df[merge_df['_merge'] =='left_only'][df1.columns]

#filter rows which are missing in df1
missing_df1_rows = merge_df[merge_df['_merge'] =='right_only'][df2.columns]

print missing_df2_rows
print missing_df1_rows

输出：

   Count Transaction_Name
2    2.0  SC-003_Homepage
   Count   Transaction_Name
4    NaN  SC-002_Signinlink

通过使用Python找出两个过人之处丢失的事务

问题描述投票：3回答：2

2个回答

最新问题

通过使用Python找出两个过人之处丢失的事务

问题描述 投票：3回答：2

2个回答

最新问题

问题描述投票：3回答：2