我有一个某些单词(如 Bäumchen、Tischchen 之类的小词)的数据集,其中仍然包含一些“错误”单词。我现在想做的就是用正则表达式把它们踢掉,这样我最终的输出就只是小词。我知道我必须输入这样的话
('教堂|德拉亨|拉亨.....')
因为 |充当“或”。
但是我需要哪个提示才能使我的输出不包含那些排除的内容?我不能简单地使用
regexr('kirche|drachen|lachen.....')
因为这没有产生我想要的结果。我还尝试使用
stringr
中的 tidyverse
包,但很快就放弃了,因为我在这里需要不同的命令。但如果有人有 stringr
的想法,我也欢迎。
如果您需要有关数据集的更多信息,请告诉我。
到目前为止我已经尝试过了
regexr('kirche|drachen|lachen.....')
根据https://stringr.tidyverse.org/reference/str_replace.html这是stringr执行此操作的方法:
str_replace_all(string, pattern, replacement)
我想你应该这样打电话
str_replace_all(yourstring, "kirche|drachen|lachen.....", "")
这应该用空的单词代替