[我已经在excel中提供了一些非常笨拙的格式的数据,我需要对其进行重塑,使其适合在R中运行生存分析。
我将数据摘录上载到Google云端硬盘:https://drive.google.com/open?id=1ret3bCDCYPDALQ16YBloaeopfl2-qVbp原始数据框包含大约2100个观测值和950个变量
这里是基本数据框:
my.data<-data.frame(
ID=c( "", "","C8477","C5273","C5566"),
LR=c("2012Y","State:FL",5,6,8),
LR=c("2012Y","State:AZ",5,8,10),
LR=c("2011Y","State:FL",7,2,1)
)
my.data
# ID LR LR.1 LR.2
# 1 2012Y 2012Y 2011Y
# 2 State:FL State:AZ State:FL
# 3 C8477 5 5 7
# 4 C5273 6 8 2
# 5 C5566 8 10 1
所有列均具有相同的名称“ LR”。我不知道以后是否会出现问题...
在第1行中给出了Year,在第2行中给出了观察的相应状态。
作为输出,我需要一些面板数据供以后的生存分析使用。
my.data<-data.frame(
ID=c("C8477","C5273","C5566"),
Year=c("2012","2012","2011"),
State=c("FL","AZ","FL"),LR=c(5,8,1)
)
my.data
# ID Year State LR
# 1 C8477 2012 FL 5
# 2 C5273 2012 AZ 8
# 3 C5566 2011 FL 1
我玩过重塑功能和seq函数,但是这些都不会使我朝正确的方向移动,因为数据帧排列得很奇怪。
这里是实现此目的的reshape2
和tidyr
版本:
这是tidyverse
方法:
[这里是使用reshape
的base-R方法: