德语自动词边界检测

问题描述 投票:0回答:1

我有一堆德语文本,但丢失了所有空格。现在我需要执行某种单词边界检测,以从“NamensänderungimNamenderIntegration”到[“Namensänderung”,“im”,“Namen”,“der”,“Integration”]。

我找到了python包wordsegment,它工作正常,但不理想。我还找到了 german_compound_splitter,但这也会将“Namensänderung”拆分为“Namens”“änderung”。有谁有这方面的经验或者知道我如何构建解决方案?

python nlp linguistics word-boundary
1个回答
0
投票

您可以利用 nltk 库(自然语言工具包)中的 word_tokenize 函数自动检测德语文本中的单词边界。但是,您需要确保已下载 NLTK 和必要的语料库,包括德语分词器模型。

© www.soinside.com 2019 - 2024. All rights reserved.