在单独的数据框中使用日期范围进行过滤 - R.

Question

我正在努力创建一个独特的投资者名单，这些投资者在合并过去的6个月内持有目标股票。

我有两个独立的数据框用于此目的： - df1包含投资者ID，股票ID，日期和股票的投资组合持有。 - df2包含收单机构股票ID，目标股票ID和合并日期。

investor stock  date            portfolio holdings
629      10     01/01/1990      100
629      10     02/01/1990      100
629      10     03/01/1990      70
629      10     04/01/1990      50
629      10     05/01/1990      0
629      10     06/01/1990      0
664      10     04/01/1990      100
664      10     05/01/1990      100
664      10     06/01/1992      100
664      12     10/10/1992      100
664      12     11/10/1992      100
1020     10     12/12/1995      50
1020     10     13/12/1995      25
1020     10     14/12/1995      25
1020     10     15/12/1995      0
...      ...    ...             ...

acquirer stock  target stock    date of merger
100             10              06/01/1990
101             12              10/10/1992
102             14              15/12/1995
...             ...             ...

对于每次合并，我想过滤掉那些在合并前6个月内持有任何目标股票量超过0的投资者。投资者在合并之日持有的投资组合为0，如果他们在此之前的6个月内保持正数，则无关紧要。

我需要的只是那些持有目标股票的投资者名单，如下所示。稍后我将使用此列表作为更大数据集的过滤器。

investor
629
664
…

选择投资者629是因为她在合并日期前6个月内持有股票10。投资者664的选择基于她持有的股票10和12.投资者1020未被选中，因为虽然她持有股票10，但它不在合并日期的6个月内。

Answer 1

首先，我merge这两个数据集。合并它们意味着执行类似连接的操作。

df3 = merge (
    df1, df2,
    by.x = "stock", by.y = "target stock"
)

df3是合并的数据集。它包含所有df1和所有df2列和行。我匹配满足条件stock = target stock的两个数据集。请查看merge函数以获取更多详细信息（只需在R控制台中键入?merge）。

df4 = df3

tmp = sapply(
    df4[, "date of merger"], 
    function(d) as.Date(seq(d, length = 2, by = "-6 months")[2])
)

df4[, "date of merger start"] = as.Date(tmp, origin = "1970-01-01")

df4

然后我添加一个新列。这个新专栏从date of merger减去6个月：我将用它来检查哪些行符合条件

"date of merger -6 months" <= "date" <= "date of merger"

我只保留符合条件的行：

df5 = subset(
    df4, "portfolio holdings" > 0 & "date" <= "date of merger" & "date of merger start" <= "date"
)

df5

请查看subset help（?subset）了解更多详情。

您声明您只对investor不同的值感兴趣：

unique(df5[, "investor"])

笔记

我在测试代码时遇到了一些问题，因此可能需要一些修复，但这就是我亲自解决问题的方法
你可能会找到许多不同的解决方案，我不能保证你这是最好的解决方案
应优化代码（避免创建无用的对象，如tmp，df3和df4：我将它们添加为中间步骤，以便更容易调试/理解:)
我建议使用SQL从数据库执行这些操作（基本上是数据过滤）

在单独的数据框中使用日期范围进行过滤 - R.

问题描述投票：0回答：1

1个回答

最新问题

在单独的数据框中使用日期范围进行过滤 - R.

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1