我有一个数据框架,包含巴西各州每天的COVID病例和死亡病例,像这样。
state date cases deaths
RO 2020-03-20 1 0
RO 2020-03-21 1 0
RO 2020-03-22 3 0
RO 2020-03-23 3 0
RO 2020-03-24 3 0
RO 2020-03-25 5 0
我的问题是,这些州的开始日期不一样 虽然所有的州都在2020 -05 -24结束。例如: RO
2020-03-20开始,但 AC
在2020-03-19开始。有什么技术可以让我把它们标准化,让每个州都从2020-02-26开始?
假设'日期'是 Date
类,其中一个选项将是 complete
library(dplyr)
library(tidyr)
df1 %>%
group_by(state, region) %>%
complete(date = seq(as.Date('2020-02-26'), last(date), by = '1 day')) %>%
ungroup
默认情况下,用 complete
将有其他列,即 "案件","死亡 "的这些行,作为 NA
除非我们改变 fill
争论