编辑NLTK语料库

问题描述投票：0回答：2

除了nltk附带的语料库，我还想用自己的语料库训练它，该语料库遵循相同的语音规则。如何找到它正在使用的语料库，以及如何添加自己的语料库（此外，不能替代）？

编辑：这是我当前正在使用的代码：

inpy = raw_input("$")
text = nltk.word_tokenize(inpy)
d = nltk.pos_tag(text)

python nltk corpus tagged-corpus

2个回答

0
投票

NLTK带有大量不同的语料库。如果您更详细地指定要扩充的语料库，这将有所帮助。 NLTK中主要的英语POS语料库是Brown corpus。另请参见http://www.nltk.org/book/ch05.html以及http://en.wikipedia.org/wiki/Brown_Corpus和http://www.nltk.org/nltk_data/

0
投票

[另一个好的语料库是Cambridge sparks语料库//http://gestyy.com/w5WKju

我正在将其用于我的聊天机器人。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.