我想替换我的文本中的缩写、数字和符号,由于我的文本是德文而不是英文,我在转换时遇到了问题。
我试过了,但这只对英文文本有效,对德文无效。
review_text <- replace_abbreviation(review_text)
review_text <- replace_number(review_text)
review_text <- replace_symbol(review_text)
但这只对英文文本有效,对德文无效。 我应该添加什么才能使该功能在德文中也能使用?
qdap和qdap相关的软件包只用于英文。如果你想使用德语文本与ümlauts和一切,像quanteda和udpipe这样的软件包可以处理这个问题。但它们不能处理缩写和符号。现在的 replace_symbol
函数的调整很简单,只需检查函数,复制代码创建自己的函数,并将英文翻译替换为德语翻译即可。
该 replace_abbreviation
函数指向一个替换表,在该表中,缩写与相应的值一起存储。你需要为德语创建自己的表。
最大的问题是将数字翻译成文本。这对于每种语言来说都是不同的,并不是真的可以在网上找到。搜索这个往往会导致在excel中把数字转换为文本。但如果你能读懂python,你可以将python函数翻译成R(或使用reticulate)来解决这个问题。请看 这个环节 到Github上的一个python库,它可以为包括德语在内的几种语言做这件事。但我不确定这是否能用于文本挖掘。