合作时间最长的一对员工——Python/Pandas

Question

我最近不得不编写一个代码，该代码返回在一个共同项目上合作最多的一对员工。这是我想出的代码：

注1：Null 被程序读取为“今天”

注2：数据来自以下形式的.txt文件：

EmpID,ProjectID,DateFrom,DateTo
1,101,2014-11-01,2015-05-01
1,103,2013-11-01,2016-05-01
2,101,2013-12-06,2014-10-06
2,103,2014-06-05,2015-05-14
3,100,2016-03-01,2018-07-03
3,102,2015-06-04,2017-09-04
3,103,2015-06-04,2017-09-04
4,102,2013-11-13,2014-03-13
4,103,2016-02-14,2017-03-15
4,104,2014-10-01,2015-12-01
5,100,2013-03-07,2015-11-07
5,101,2015-07-09,2019-01-19
5,102,2014-03-15,NULL
6,101,2014-03-15,2014-03-16

我目前遇到的问题是，我必须调整/更改代码以返回彼此合作时间最长的一对员工（不是在单个项目上，而是在所有项目上）。我在调整当前的代码时遇到了麻烦，它运行得非常好，我想知道我是否应该从头开始（但这会花费我很多时间，我不这样做）目前没有）。我很难获得在项目中一起工作过的员工的组合。

如果有人能给我任何提示，我将非常感激！谢谢！

编辑1：评论中的一个人提醒我提到重叠的天数应该被计算为例如：

A 和 B 整个 6 月都在从事两个项目。这意味着它应该算作 30 天的总共同工作（对于两个项目），而不是将两个项目时间加在一起，这将导致 60 天。

Answer 1

这是我能想到的更直接的方法之一。

将时间跨度扩展到每个日期一行。
合并同一个项目的所有日期（以获得一起工作的人员的所有组合）
删除在同一天一起工作但项目不同的重复行人员。
只需找出每个工作配对中有多少行。

代码：

import pandas as pd
import numpy as np

def expand_period_daily(df, start, stop):
    # Allows it to work for one day spans. 
    df.loc[df[stop].notnull(), stop] = (df.loc[df[stop].notnull(), stop] 
                                        + pd.Timedelta(hours=1))

    real_span = df[[start, stop]].notnull().all(1)

    # Resample timespans to daily fields. 
    df['temp_id'] = range(len(df))
    dailydf = (df.loc[real_span, ['temp_id', start, stop]].set_index('temp_id').stack()
                 .reset_index(level=-1, drop=True).rename('period').to_frame())
    dailydf = (dailydf.groupby('temp_id').apply(lambda x: x.set_index('period')
                      .resample('d').asfreq()).reset_index())

    # Merge back other information
    dailydf = (dailydf.merge(df, on=['temp_id'])
                      .drop(columns=['temp_id', start, stop]))

    return dailydf

# Make dates, fill missings.
df[['DateFrom', 'DateTo']] = df[['DateFrom', 'DateTo']].apply(pd.to_datetime, errors='coerce')
df[['DateFrom', 'DateTo']] = df[['DateFrom', 'DateTo']].fillna(pd.to_datetime('today').normalize())

dailydf = expand_period_daily(df.copy(), start='DateFrom', stop='DateTo')

# Merge, remove rows of employee with him/herself.
m = (dailydf.merge(dailydf, on=['period', 'ProjectID'])
            .loc[lambda x: x.EmpID_x != x.EmpID_y])

# Ensure A-B and B-A are grouped the same
m[['EmpID_x', 'EmpID_y']] = np.sort(m[['EmpID_x', 'EmpID_y']].to_numpy(), axis=1)

# Remove duplicated projects on same date between employee pairs
m = m.drop_duplicates(['period', 'EmpID_x', 'EmpID_y'])

m.groupby(['EmpID_x', 'EmpID_y']).size().to_frame('Days_Together')

输出：

                 Days_Together
EmpID_x EmpID_y               
1       2                  344
        3                  333
        4                   78
2       6                    2
3       4                  396
        5                  824

测试用例

为了更清楚地了解它如何处理重叠并组合不同的项目，以下是以下测试用例：

   EmpID  ProjectID   DateFrom     DateTo
0      1        101 2014-11-01 2014-11-15
1      1        103 2014-11-01 2014-11-15
2      1        105 2015-11-02 2015-11-03
3      2        101 2014-11-01 2014-11-15
4      2        103 2014-11-01 2014-11-15
5      2        105 2015-10-02 2015-11-05
6      3        101 2014-11-01 2014-11-15

员工 1 和 2 在 2014 年 11 月在 2 个项目上完美重叠了 15 天。然后，他们在 2015 年在另一个项目上又一起工作了 2 天。1、2 和 3 在一个项目上一起工作了 15 天。

运行这个测试用例我们得到：

                 Days_Together
EmpID_x EmpID_y               
1       2                   17
        3                   15
2       3                   15

Answer 2

dd1=df1.sql.set_alias("tb1").join(df1.sql.set_alias("tb2"),condition="tb1.projectid=tb2.projectid and tb1.empid!=tb2.empid").order("tb1.projectid")\
    .select("tb1.empid,tb1.projectid,tb1.datefrom::date datefrom,coalesce(tb1.dateto,'2099-01-01')::date dateto,tb2.empid empid2,tb2.DateFrom::date DateFrom2,coalesce(tb2.dateto,'2099-01-01')::date DateTo2")\
    .select("empid,empid2,projectid,generate_series(datefrom,dateto,interval '1 day') col1,generate_series(datefrom2,dateto2,interval '1 day') col2").df()
dd1.assign(col3=dd1.apply(lambda ss:len(set(ss.col1).intersection(ss.col2)),axis=1)).sql\
    .row_number("over(partition by projectid order by col3 desc) row_number2","*")\
    .filter("row_number2=1").select("empid,empid2,projectid,col3")


┌───────┬────────┬───────────┬───────┐
│ EmpID │ empid2 │ ProjectID │ col3  │
│ int64 │ int64  │   int64   │ int64 │
├───────┼────────┼───────────┼───────┤
│     3 │      5 │       102 │   824 │
│     2 │      6 │       101 │     2 │
│     3 │      4 │       103 │   396 │
│     3 │      5 │       100 │     0 │
└───────┴────────┴───────────┴───────┘

合作时间最长的一对员工——Python/Pandas

问题描述投票：0回答：2

2个回答

代码：

输出：

测试用例

最新问题

合作时间最长的一对员工——Python/Pandas

问题描述 投票：0回答：2

2个回答

代码：

输出：

测试用例

最新问题

问题描述投票：0回答：2