nltk 相关问题

Natural Language Toolkit是一个用于计算语言学的Python库。

使用阈值计算矩阵对

我有一个包含数百个txt文件的文件夹,我需要分析它们的相似性。下面是我用来运行相似性分析的脚本示例。最后我得到一个数组或矩阵我可以绘制等我...

回答 1 投票 0

我可以多次训练我的分类器吗?

我正在使用nltk和sklearn构建一个基本的NLP程序。我在数据库中有一个大型数据集,我想知道训练分类器的最佳方法是什么。是否可以下载...

回答 1 投票 1

用Regex Tokenizer进行Tokenize

我想用正则表达式标记符对下面的句子进行标记化最有利于NUT BUTTERS当我将标记化器定义为tokenizer = RegexpTokenizer(r'\ w +')时,我输出为['MOST',...

回答 2 投票 1

如何从PlaintextCorpusReader读取原始数据时摆脱UnicodeDecodeError

我正在通过以下方式从一组文本文件创建语料库:newcorpus = PlaintextCorpusReader(corpus_root,'。*')现在我希望以下列方式访问文件的单词:...

回答 2 投票 0

如何在nlp中解析时检索子树

我想在解析句子时检索子发辫,如下所示:sentence =“所有新药物必须经过测试才能开出处方”parser = stanford ....

回答 1 投票 1

如何从文本语料库中删除特定的单字组,但仍保留该单词的双字组?

我有这样的情况,我必须从文本语料库中删除特定单词unigram,同时保持该单词的双字符以及该单词的单词。我想传递一个文本地址......

回答 1 投票 0

nltk“OMW”wordnet与阿拉伯语

我正在使用(OMW)wordnet专门针对阿拉伯语的python / nltk。所有的功能都适用于英语,但是当我使用时,我似乎无法执行任何这些功能......

回答 1 投票 1

运行时出现NLTK Python错误

我在anaconda中安装了nltk并尝试了本教程中的一些示例set pythonprogramming.net运行分类器保存示例后,它在anaconda上显示了一些错误...

回答 2 投票 0

NLTK ConsecutiveNPChunker抛出了ValueError

我尝试了nltk.org第7章的工作。特别是在这里:http://www.nltk.org/book/ch07.html,在3.2节下面有一个ConsecutiveNPChunker类。我试图复制代码。 ...

回答 1 投票 0

如何删除字符串中重复两次以上的字符?

例如,我想删除重复的字符,如hhhaaappy到hhaappy,因为h和重复两次。我想删除重复两次以上的所有字符。如何在...中实现它

回答 2 投票 2

AttributeError:'unicode'对象没有属性'wup_similarity'

我正在使用Python 2.7中的nltk模块。以下是来自nltk.corpus导入wordnet的代码作为wn listsyn1 = [] listsyn2 = []用于wn.synsets('dog',pos = wn.NOUN)中的synset:print ...

回答 1 投票 0

如何解决错误:AttributeError:'generator'对象没有属性'endswith'

当我试图运行此代码来预处理文本时,我得到下面的错误,有人遇到类似的问题,但帖子没有足够的细节。我在这里把一切都放在上下文中......

回答 1 投票 0

NLTK - 在自定义语料库中解码Unicode

我使用nltk的CategorizedPlaintextCorpusReader创建了一个自定义语料库。我的语料库的.txt文件中有unicode字符,我无法解码。我认为这是事实......

回答 1 投票 1

如何从Python中删除列表中的日期

我有一个标记化文本列表(list_of_words),如下所示:list_of_words = ['08 / 20/2014','10:04:27','pm','complet','vendor','per' ,'mfg / recommended','08 / 20/2014','...

回答 3 投票 7

如何打印Wordnet的全部内容(最好使用NLTK)?

NLTK提供打印布朗(或古腾堡)语料库中所有单词的功能。但是等效功能似乎不适用于Wordnet。有没有办法通过NLTK做到这一点?如果有 ...

回答 3 投票 4

处理“StanfordTokenizer将在版本3.2.5中弃用”警告[关闭]

我正在使用NLTK包装器测试StanfordNERTagger并出现此警告:DeprecationWarning:StanfordTokenizer将在版本3.2.5中弃用。请使用nltk.tag.corenlp ....

回答 1 投票 5

如何从pandas数据框创建语料库以使用NLTK进行操作

这是我的问题:我有一个包含文章数据集的csv文件,包括列:ID,CATEGORY,TITLE,BODY。在python中,我将文件读取到像这样的pandas数据框:import pandas as pd df = pd ....

回答 1 投票 1

NLP上是否有现有模块

任何人都可以告诉我是否有任何包在python中可用来构建名词的问题?并帮助我完成类似的项目。

回答 1 投票 1

从python中的推文中提取n-gram

假设我有100条推文。在这些推文中,我需要提取:1)食品名称,以及2)饮料名称。推文的例子:“昨天我吃了可口可乐,午餐吃了热狗,还有一些bana分开......

回答 2 投票 0

来自python中的文本的n-gram

我之前的帖子的更新,有一些变化:说我有100条推文。在这些推文中,我需要提取:1)食品名称,以及2)饮料名称。我还需要附上类型(饮料或食物)和......

回答 3 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.