如何清理不规则字符串并将其组织到右列的数据框中

Question

我有两个在向量中看起来像这样的长字符串：

x <- c("Job Information\n\nLocation: \n\n\nScarsdale, New York, 10583-3050, United States \n\n\n\n\n\nJob ID: \n53827738\n\n\nPosted: \nApril 22, 2020\n\n\n\n\nMin Experience: \n3-5 Years\n\n\n\n\nRequired Travel: \n0-10%",
       "Job Information\n\nLocation: \n\n\nGlenview, Illinois, 60025, United States \n\n\n\n\n\nJob ID: \n53812433\n\n\nPosted: \nApril 21, 2020\n\n\n\n\nSalary: \n$110,000.00 - $170,000.00 (Yearly Salary)")

而且我的目标是将它们整齐地组织在一个数据帧（输出形式）中，如下所示：

#View(df)
     Location     Job ID    Posted      Min Experience   Required Travel   Salary
[1] Scarsdale,... 53827738  April 22... 3-5 Years         0-10%             NA
[2] Glenview,...  53812433  April 21...  NA                NA            $110,000.00 - $170,000.00 (Yearly Salary)

（...）可以整齐地在此处呈现数据框。

但是，正如您所看到的，两个字符串不一定具有相同的服装。例如，第一个字符串具有“最低体验”和“所需旅行”，但是在第二个字符串中，这些字段不存在，但具有薪水。所以这对我来说变得非常棘手。我以为我会在\n字符之间阅读，但是没有设置，有些有两个换行符，另一些有4或5。我想知道是否有人可以帮助我。我将不胜感激！

Answer 1

我们可以在一个或多个'\n'（'\n{1,}'）上分割字符串。从每个单词（'Job Information'）中删除第一个单词，因为我们在任何地方都不需要它（x <- x[-1]）。对于字符串的其余部分，我们可以看到它们是成对的，形式为columnname-columnvalue。我们使用交替索引从中创建一个数据框，然后bind_rows将所有名称按名称合并。

dplyr::bind_rows(sapply(strsplit(gsub(':', '', x), '\n{1,}'), function(x) {
   x <- x[-1]
   setNames(as.data.frame(t(x[c(FALSE, TRUE)])), x[c(TRUE, FALSE)])
}))

#                                        Location   Job ID         Posted  Min Experience 
#1 Scarsdale, New York, 10583-3050, United States  53827738 April 22, 2020       3-5 Years
#2       Glenview, Illinois, 60025, United States  53812433 April 21, 2020            <NA>
#   Required Travel                                    Salary 
#1            0-10%                                      <NA>
#2             <NA> $110,000.00 - $170,000.00 (Yearly Salary)

如何清理不规则字符串并将其组织到右列的数据框中

问题描述投票：1回答：1

1个回答

最新问题

如何清理不规则字符串并将其组织到右列的数据框中

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1