R-文本挖掘:替换德文中的缩略语、数字和符号。

问题描述 投票:0回答:1

我想替换我的文本中的缩写、数字和符号,由于我的文本是德文而不是英文,我在转换时遇到了问题。

我试过了,但这只对英文文本有效,对德文无效。

review_text <- replace_abbreviation(review_text)

review_text <- replace_number(review_text)

review_text <- replace_symbol(review_text)

但这只对英文文本有效,对德文无效。 我应该添加什么才能使该功能在德文中也能使用?

r replace numbers text-mining abbreviation
1个回答
0
投票

qdap和qdap相关的软件包只用于英文。如果你想使用德语文本与ümlauts和一切,像quanteda和udpipe这样的软件包可以处理这个问题。但它们不能处理缩写和符号。现在的 replace_symbol 函数的调整很简单,只需检查函数,复制代码创建自己的函数,并将英文翻译替换为德语翻译即可。

replace_abbreviation 函数指向一个替换表,在该表中,缩写与相应的值一起存储。你需要为德语创建自己的表。

最大的问题是将数字翻译成文本。这对于每种语言来说都是不同的,并不是真的可以在网上找到。搜索这个往往会导致在excel中把数字转换为文本。但如果你能读懂python,你可以将python函数翻译成R(或使用reticulate)来解决这个问题。请看 这个环节 到Github上的一个python库,它可以为包括德语在内的几种语言做这件事。但我不确定这是否能用于文本挖掘。

© www.soinside.com 2019 - 2024. All rights reserved.