德语自动词边界检测

我有一堆德语文本，但丢失了所有空格。现在我需要执行某种单词边界检测，以从“NamensänderungimNamenderIntegration”到[“Namensänderung”，“im”，“Namen”，“der”，“Integration”]。

我找到了python包wordsegment，它工作正常，但不理想。我还找到了 german_compound_splitter，但这也会将“Namensänderung”拆分为“Namens”“änderung”。有谁有这方面的经验或者知道我如何构建解决方案？

python nlp linguistics word-boundary

0
投票

您可以利用 nltk 库（自然语言工具包）中的 word_tokenize 函数自动检测德语文本中的单词边界。但是，您需要确保已下载 NLTK 和必要的语料库，包括德语分词器模型。