特定字符串的有条件出现，并且使用R相对地制作了新的数据帧

Question

我有一个大数据框，其中包含4列和许多行（附带示例）。

#what I have
Arm <- c("5prime","3prime","5prime","CoMature","3prime","5prime","3prime","3prime")
Family <- c("LET-7","LET-7","LET-7","MIR-10","MIR-103","MIR-124","MIR-124","MIR-124")
Sequence <- c("ATCGGCA","ATGCTAC","ATCGGCA","ATCGTTT","TGAGGAG","TGATCAG","AATTCAG","AATTCAG")
Star_seq <- c("TTCAGGT","TATACTG","TTCAGGT","GAGATCA","CAAAAGC","CACATGC","AATATGC","AATATGC")
my_data_frame <- data.frame(Arm,Family,Sequence,Star_seq)

我基本上想对Family列中的每个i计数Arm列中'5prime'，'3prime'或'CoMature'的出现次数。然后，对于最常见的一个（“ 5prime”，“ 3prime”或“ CoMature”），选择第三列和第四列。总而言之，我需要有一个最终文件，该文件显示Family列中每个i的最频繁使用的臂（在第一行中）以及第三列和第四列中的相对顺序。

#what I want as output
five_prime_counts <- c("2","0","0","1")
three_prime_counts <- c("1","0","1","2")
CoMature_counts <- c("0","1","0","0")
Arm_new <- c("5prime","CoMature","3prime","3prime")
Family_new <- c("LET-7","MIR-10","MIR-103","MIR-124")
Sequence_new <- c("ATCGGCA","ATCGTTT","TGAGGAG","AATTCAG")
Star_seq_new <- c("TTCAGGT","GAGATCA","CAAAAGC","AATATGC")
my_data_frame_new <- data.frame(five_prime_counts,three_prime_counts,CoMature_counts,Arm_new,Family_new,Sequence_new,Star_seq_new)

Answer 1

我们可以为每个Family和Arm添加一个计数变量，为每个Sequence中的最大计数获取相应的Star_seq，Arm和Family值，并以宽格式获取数据。

library(dplyr)

my_data_frame %>%
  add_count(Family, Arm) %>%
  group_by(Family) %>%
  mutate(Sequence = Sequence[which.max(n)], 
         Star_seq =  Star_seq[which.max(n)], 
         Arm_new = Arm[which.max(n)]) %>%
  distinct() %>%
  tidyr::pivot_wider(names_from = Arm, values_from = n, values_fill = list(n = 0))

#  Family  Sequence Star_seq Arm_new  `5prime` `3prime` CoMature
#  <fct>   <fct>    <fct>    <fct>       <int>    <int>    <int>
#1 LET-7   ATCGGCA  TTCAGGT  5prime          2        1        0
#2 MIR-10  ATCGTTT  GAGATCA  CoMature        0        0        1
#3 MIR-103 TGAGGAG  CAAAAGC  3prime          0        1        0
#4 MIR-124 AATTCAG  AATATGC  3prime          1        2        0

特定字符串的有条件出现，并且使用R相对地制作了新的数据帧

问题描述投票：1回答：1

1个回答

最新问题

特定字符串的有条件出现，并且使用R相对地制作了新的数据帧

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1