我有一个更大的数据框,由文本组成,我想在其中随机重新排列每个字符串中单词的顺序。
给你一个具体的例子我的数据看起来有点像下面的数据:
library(stringi)
require(tidyverse)
set.seed(123)
n <- 100
df <- data.frame(id = 1:n,
text = rep(stri_rand_lipsum(n)))
# Some preprocessing
df <- df %>%
mutate(text = tolower(text),
text = gsub("[[:punct:]]", "", text))
我想在变量中找到的每个字符串中随机重新排列词序
text
.
我找到了几种重新排列每个字母的方法,但没有找到任何随机排列单词顺序的方法。有人知道怎么做吗?一个重要因素是我的数据包含数百万行,因此,该方法也需要适用于更大的数据集。
谢谢!