用正则表达式从数据集中消除某些数据

问题描述 投票:0回答:1

我有一个某些单词(如 Bäumchen、Tischchen 之类的小词)的数据集,其中仍然包含一些“错误”单词。我现在想做的就是用正则表达式把它们踢掉,这样我最终的输出就只是小词。我知道我必须输入这样的话

('教堂|德拉亨|拉亨.....')

因为 |充当“或”。

但是我需要哪个提示才能使我的输出不包含那些排除的内容?我不能简单地使用

regexr('kirche|drachen|lachen.....')

因为这没有产生我想要的结果。我还尝试使用

stringr
中的
tidyverse
包,但很快就放弃了,因为我在这里需要不同的命令。但如果有人有
stringr
的想法,我也欢迎。 如果您需要有关数据集的更多信息,请告诉我。

到目前为止我已经尝试过了

regexr('kirche|drachen|lachen.....')

r regex
1个回答
0
投票

根据https://stringr.tidyverse.org/reference/str_replace.html这是stringr执行此操作的方法:

str_replace_all(string, pattern, replacement)

我想你应该这样打电话

str_replace_all(yourstring, "kirche|drachen|lachen.....", "")

这应该用空的单词代替

© www.soinside.com 2019 - 2024. All rights reserved.