如何对列表中的句子使用荷兰标记器?

问题描述 投票:0回答:1

我设法找到了一个不错的荷兰语NLTK标记器,可以在我需要注释的文本中标记POS。我的嵌套列表如下所示:

['de', 'oude', 'tovenaar', 'overpeinsde', 'zijn', 'leven'],
 ['hij',
  'had',
  'spijt',
  'van',
  'de',
  'betoveringen',
  'die',
  'hij',
  'ooit',
  'gedaan',
  'had'],
 ['hij',
  'had',
  'ooit',
  'getracht',
  'een',
  'vredig',
  'rijk',
  'te',
  'stichten',
  'zonder',
  'oorlog',
  'en',
  'honger'], 

它总共有1096个单词和105个句子。

我使用的标记器:

 from nltk.tag.perceptron import PerceptronTagger
tagger = PerceptronTagger(load=False)
tagger.load('model.perc.dutch_tagger_small.pickle')
tagger.tag(wordlist[0])

获取第一个元素的输出。

[('hoofdstuk', 'nounsg'),
 ('ergens', 'adv'),
 ('in', 'prep'),
 ('een', 'det__art'),
 ('ver', 'adj'),
 ('koninkrijk', 'nounsg')]

也许是因为还很早,但是我无法为所有句子使用该标记器而烦恼。

任何提示,技巧和指导,不胜感激。谢谢!

python nlp nltk
1个回答
0
投票

您已将标记器应用于第一个元素wordlist[0]

迭代for循环中的所有元素,并对每个元素应用标记。

for element in wordlist:
    tagger.tag(element)
© www.soinside.com 2019 - 2024. All rights reserved.