我设法找到了一个不错的荷兰语NLTK标记器,可以在我需要注释的文本中标记POS。我的嵌套列表如下所示:
['de', 'oude', 'tovenaar', 'overpeinsde', 'zijn', 'leven'],
['hij',
'had',
'spijt',
'van',
'de',
'betoveringen',
'die',
'hij',
'ooit',
'gedaan',
'had'],
['hij',
'had',
'ooit',
'getracht',
'een',
'vredig',
'rijk',
'te',
'stichten',
'zonder',
'oorlog',
'en',
'honger'],
它总共有1096个单词和105个句子。
我使用的标记器:
from nltk.tag.perceptron import PerceptronTagger
tagger = PerceptronTagger(load=False)
tagger.load('model.perc.dutch_tagger_small.pickle')
tagger.tag(wordlist[0])
获取第一个元素的输出。
[('hoofdstuk', 'nounsg'),
('ergens', 'adv'),
('in', 'prep'),
('een', 'det__art'),
('ver', 'adj'),
('koninkrijk', 'nounsg')]
也许是因为还很早,但是我无法为所有句子使用该标记器而烦恼。
任何提示,技巧和指导,不胜感激。谢谢!
您已将标记器应用于第一个元素wordlist[0]
。
迭代for
循环中的所有元素,并对每个元素应用标记。
for element in wordlist:
tagger.tag(element)