nltk 相关问题

Natural Language Toolkit是一个用于计算语言学的Python库。


如何从python中的列表列表中删除停用词

我有一组格式为列表的推文。我使用的代码用于删除停用词,但它不返回列表列表,而是返回一个大列表。我需要它作为列表...

回答 3 投票 0

如何在Pandas数据帧(Python)中查找语料库中最常用的单词

我有Pandas数据框,如下所示。我已经对我的文本文件进行了标记,并使用NLTK Countvectorizer转换为pandas数据帧。另外,我已经删除了停用词和......

回答 2 投票 0

Python无法完成一个句子

关于如何对一个句子进行标记,有很多指南,但我没有找到任何关于如何做相反的事情。 import nltk words = nltk.word_tokenize(“我找到了治疗我疾病的药。”)结果我......

回答 11 投票 15

nltk包返回TypeError:'LazyCorpusLoader'对象不可调用

我正在使用nltk == 3.4.1并且我正在执行此代码:import nltk.corpus as stopwords import nltk nltk.download(“stopwords”)sw = stopwords.words('english')我收到此错误(没有第三行......

回答 1 投票 0

NLTK fcfg语法解析器超出索引

我是NLTK的新手。试图将“给我看电影”转换成一个简单的SQL SELECT语句“从电影中选择标题”。我相信句子是(VP + NP)与VP(V + PRO)和NP(DET + N)。但是......

回答 1 投票 0

re.sub错误与“预期字符串或字节类对象”

我已阅读有关此错误的多篇帖子,但我仍然无法弄明白。当我尝试循环我的函数时:def fix_Plan(location):letters_only = re.sub(“[^ a-zA-Z]”,#搜索...

回答 1 投票 21

使用Python计算N Grams

我需要计算Unigrams,BiGrams和Trigrams的文本文件,其中包含以下文字:“囊性纤维化仅影响美国30,000名儿童和年轻人,吸入盐雾......

回答 8 投票 20

如果字符串包含停用词,请从字符串中删除元素[复制]

我有一个列表如下:lst = ['for Sam','just in','Mark Rich']我试图从字符串列表中删除一个元素(字符串包含一个或多个单词),其中包含停用词。作为第1和第2 ......

回答 2 投票 1

AttributeError:'list'对象没有属性'isdigit'。有效地指定句子列表中每个单词的POS?

假设我将句子列表(在大型语料库中)列为标记化单词的集合。样本格式如下:tokenized_raw_data的格式如下:[['arxiv',':',...

回答 1 投票 1

预期字符串或字节类似对象错误

从nltk import word_tokenize,sent_tokenize text = data.loc [:,“text”] tokenizer = word_tokenize((text))print(tokenizer)我试图在...上的特定列上执行word tokenizer

回答 1 投票 0