Natural Language Toolkit是一个用于计算语言学的Python库。
我有一个包含数百个txt文件的文件夹,我需要分析它们的相似性。下面是我用来运行相似性分析的脚本示例。最后我得到一个数组或矩阵我可以绘制等我...
我正在使用nltk和sklearn构建一个基本的NLP程序。我在数据库中有一个大型数据集,我想知道训练分类器的最佳方法是什么。是否可以下载...
我想用正则表达式标记符对下面的句子进行标记化最有利于NUT BUTTERS当我将标记化器定义为tokenizer = RegexpTokenizer(r'\ w +')时,我输出为['MOST',...
如何从PlaintextCorpusReader读取原始数据时摆脱UnicodeDecodeError
我正在通过以下方式从一组文本文件创建语料库:newcorpus = PlaintextCorpusReader(corpus_root,'。*')现在我希望以下列方式访问文件的单词:...
我想在解析句子时检索子发辫,如下所示:sentence =“所有新药物必须经过测试才能开出处方”parser = stanford ....
如何从文本语料库中删除特定的单字组,但仍保留该单词的双字组?
我有这样的情况,我必须从文本语料库中删除特定单词unigram,同时保持该单词的双字符以及该单词的单词。我想传递一个文本地址......
我正在使用(OMW)wordnet专门针对阿拉伯语的python / nltk。所有的功能都适用于英语,但是当我使用时,我似乎无法执行任何这些功能......
我在anaconda中安装了nltk并尝试了本教程中的一些示例set pythonprogramming.net运行分类器保存示例后,它在anaconda上显示了一些错误...
NLTK ConsecutiveNPChunker抛出了ValueError
我尝试了nltk.org第7章的工作。特别是在这里:http://www.nltk.org/book/ch07.html,在3.2节下面有一个ConsecutiveNPChunker类。我试图复制代码。 ...
例如,我想删除重复的字符,如hhhaaappy到hhaappy,因为h和重复两次。我想删除重复两次以上的所有字符。如何在...中实现它
AttributeError:'unicode'对象没有属性'wup_similarity'
我正在使用Python 2.7中的nltk模块。以下是来自nltk.corpus导入wordnet的代码作为wn listsyn1 = [] listsyn2 = []用于wn.synsets('dog',pos = wn.NOUN)中的synset:print ...
如何解决错误:AttributeError:'generator'对象没有属性'endswith'
当我试图运行此代码来预处理文本时,我得到下面的错误,有人遇到类似的问题,但帖子没有足够的细节。我在这里把一切都放在上下文中......
我使用nltk的CategorizedPlaintextCorpusReader创建了一个自定义语料库。我的语料库的.txt文件中有unicode字符,我无法解码。我认为这是事实......
我有一个标记化文本列表(list_of_words),如下所示:list_of_words = ['08 / 20/2014','10:04:27','pm','complet','vendor','per' ,'mfg / recommended','08 / 20/2014','...
NLTK提供打印布朗(或古腾堡)语料库中所有单词的功能。但是等效功能似乎不适用于Wordnet。有没有办法通过NLTK做到这一点?如果有 ...
处理“StanfordTokenizer将在版本3.2.5中弃用”警告[关闭]
我正在使用NLTK包装器测试StanfordNERTagger并出现此警告:DeprecationWarning:StanfordTokenizer将在版本3.2.5中弃用。请使用nltk.tag.corenlp ....
这是我的问题:我有一个包含文章数据集的csv文件,包括列:ID,CATEGORY,TITLE,BODY。在python中,我将文件读取到像这样的pandas数据框:import pandas as pd df = pd ....
假设我有100条推文。在这些推文中,我需要提取:1)食品名称,以及2)饮料名称。推文的例子:“昨天我吃了可口可乐,午餐吃了热狗,还有一些bana分开......
我之前的帖子的更新,有一些变化:说我有100条推文。在这些推文中,我需要提取:1)食品名称,以及2)饮料名称。我还需要附上类型(饮料或食物)和......