在所有对置换R中减去列数据

问题描述 投票:1回答:3

我在数据框中有每小时的价格数据,我需要在其中减去所有排列以找到金融交易的最佳配对。每列(不包括价格日期,小时)可以视为该股票在该特定价格日期和小时的收盘价。这是数据:

test <- data.frame(pricedate = as.Date('2019-12-18'), hour = c(1,2,3,4,5), A = c(3,5,6,4,2), B = c(5,3,2,6,7), C = c(1,2,3,6,9))

我想获得所有排列组合之间的差异的新数据框(或表)。因此,“ A减去B”不同于“ B减去A”。而且我不需要从自身减去一列。结果表如下所示:


Pricedate      Hour        A-B    A-C   B-A    B-C   C-A   C-B 

2019-12-18      1          -2      2     2      4     -2    -4
2019-12-18      2           2      3    -2      1     -3    -1
.
.
.

我相信我需要数据保持这种形式,因为在此之后我想在R中计算一些财务统计数据。

r dplyr quantitative-finance tidy
3个回答
3
投票

这是一个整洁的方法。首先,我们将转换为更长的格式,其中A:C的每一列都在新行中表示,并且来自哪一列的名称位于称为“ col”的新列中。然后,我们将该表连接到自身,以便将每一行与共享相同日期和小时的所有行合并。

然后我们计算差值,过滤掉从中减去行的行,将两个列标题合并为一个标识列,然后转换回宽格式。

library(tidyverse)

test_longer <- test %>%
  pivot_longer(A:C, names_to = "col", values_to = "val")

test_longer %>%
  left_join(test_longer, 
            suffix = c("1", "2"),
            by = c("pricedate", "hour")) %>%
  filter(col1 != col2) %>%
  mutate(dif = val1 - val2) %>%
  unite("col", c(col1, col2), sep = "-") %>%
  select(-c(val1, val2)) %>%
  pivot_wider(names_from = col, values_from = dif)


# A tibble: 5 x 8
  pricedate   hour `A-B` `A-C` `B-A` `B-C` `C-A` `C-B`
  <date>     <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
1 2019-12-18     1    -2     2     2     4    -2    -4
2 2019-12-18     2     2     3    -2     1    -3    -1
3 2019-12-18     3     4     3    -4    -1    -3     1
4 2019-12-18     4    -2    -2     2     0     2     0
5 2019-12-18     5    -5    -7     5    -2     7     2

1
投票

[我知道您将dplyrtidy列为标签,但这是可以在整洁的管道中轻松使用的基本方法:

somefunc <- function(x) {
  as.data.frame(t(apply(x, 1, function(z) {
    df <- as.data.frame.table(outer(z, z, `-`))
    df <- df[ df[[1]] != df[[2]], ]
    setNames(df[[3]], paste(df[[1]], df[[2]], sep = "_"))
  })))
}
somefunc(test[3:5])
#   B_A C_A A_B C_B A_C B_C
# 1   2  -2  -2  -4   2   4
# 2  -2  -3   2  -1   3   1
# 3  -4  -3   4   1   3  -1
# 4   2   2  -2   0  -2   0
# 5   5   7  -5   2  -7  -2

0
投票

[使用combn的另一种基本R方法。由于B-A-(A-B),因此我们可以使用combn计算每两个值之间的差,并通过对计算出的值求反来获得另一个组合。

cols <- combn(names(test)[3:5], 2, paste, collapse = "-")
cols <- c(cols, sub("(.)-(.)", "\\2-\\1", cols))

test[cols] <- t(apply(test[3:5], 1, function(x) {
     out <- combn(x, 2, function(x) x[1] - x[2])
     c(out, -out)
}))

test
#   pricedate hour A B C A-B A-C B-C B-A C-A C-B
#1 2019-12-18    1 3 5 1  -2   2   4   2  -2  -4
#2 2019-12-18    2 5 3 2   2   3   1  -2  -3  -1
#3 2019-12-18    3 6 2 3   4   3  -1  -4  -3   1
#4 2019-12-18    4 4 6 6  -2  -2   0   2   2   0
#5 2019-12-18    5 2 7 9  -5  -7  -2   5   7   2
© www.soinside.com 2019 - 2024. All rights reserved.