我有一个网络抓取评论的数据集,不幸的是它们包含很多
<br \>
标签,所以在我清理数据(删除停用词等)之后,数据集中仍然存在很多单个“br”。
我想删除这些换行符以及一些在文本中没有意义的随机字母数字字符(例如 b00oex3)。所以清洁后这是一个例子:
product b001e5dxao br train chocolate chai mix 12 ounce bags br br
我想把它变成
product train chocolate chai mix ounce bags.
我试过了
gsub("(<br />)"," ",text)
但它返回以下错误
gsub(., "(
)", " ", text) 错误: 断言“tree->num_tags == num_tags”在执行正则表达式时失败:文件“tre-compile.c”,第 634 行 另外: 警告信息: 在 gsub(., "(
)", " ", text) 中: 参数 'pattern' 的长度 > 1,并且只使用第一个元素