我有一堆德语文本,但丢失了所有空格。现在我需要执行某种单词边界检测,以从“NamensänderungimNamenderIntegration”到[“Namensänderung”,“im”,“Namen”,“der”,“Integration”]。
我找到了python包wordsegment,它工作正常,但不理想。我还找到了 german_compound_splitter,但这也会将“Namensänderung”拆分为“Namens”“änderung”。有谁有这方面的经验或者知道我如何构建解决方案?
您可以利用 nltk 库(自然语言工具包)中的 word_tokenize 函数自动检测德语文本中的单词边界。但是,您需要确保已下载 NLTK 和必要的语料库,包括德语分词器模型。