nltk 相关问题

Natural Language Toolkit是一个用于计算语言学的Python库。

如何在机器学习中打印分类特征?

假设我有一个火车数据集r1:便宜,昂贵->价格r2:兴奋->娱乐r3:炎热,夏天->天气r4:钱->价格r5:下雨->天气...

回答 1 投票 -1

[如何使用NLTK正则表达式模式使用UP / DOWN指示器注释金融新闻? https://arxiv.org/pdf/1811.11008.pdf

我正在复制本文描述的算法:https://arxiv.org/pdf/1811.11008.pdf在最后一页,它描述了使用..提取语法为'NP JJ'中定义的叶子。 。

回答 1 投票 1

NLTK正则表达式示例https://arxiv.org/pdf/1811.11008.pdf

我正在复制本文描述的算法:https://arxiv.org/pdf/1811.11008.pdf在最后一页,它描述了使用..提取语法为'NP JJ'中定义的叶子。 。

回答 1 投票 0

如何使用正则表达式从NLTK语料库中找到大写字母?

我想制作一个包含所有大写字母的正则表达式单词列表。数据集是一堆称为语料库的生物学论文文本文件。 len(corpus ....

回答 2 投票 0

如何在NLTK中使用word_tokenize忽略单词之间的标点符号?

我正在使用NLTK word_tokenize忽略单词之间的字符。如果我有一句话:test ='我应该在标准普尔交易吗?这适用于电话号码333-445-6635和电子邮件test @ ...

回答 2 投票 2

使用word_tokenize忽略单词nltk python3之间的标点符号

我正在使用NLTK word_tokenize忽略单词之间的字符。如果我有一句话:test ='我应该在标准普尔交易吗?' word_tokenize方法将标准普尔拆分为'...

回答 1 投票 0

如何使用正则表达式从NLTK语料库中找到大写字母?

我想制作一个包含所有大写字母的正则表达式单词列表。数据集是一堆称为语料库的生物学论文文本文件。 len(corpus ....

回答 2 投票 0

有人可以告诉我remove_punct_dict命令在做什么吗?最后一行命令的输出是什么?

def LemTokens(tokens):返回[lemmer.lemmatize(token)表示令牌中的令牌] remove_punct_dict = dict((ord(punct),None)表示字符串中的punct)。

回答 1 投票 -1

我如何编写Python脚本来循环遍历147个URL,以将抓取的文本附加到我的数据框中?

我有一个147个多伦多星报新闻文章的Excel文件,我已编译并创建了一个数据框。我还编写了一个Python脚本,可以一次从一篇文章中提取文本。但是,我'...

回答 1 投票 -1

如何在wordnet中使用超级/ hyponyms查找单词的抽象性?

我有2个字,比方说计算机和工具。计算机是一个具体的名词,而工具则相对抽象。我想获得每个单词的抽象程度,以反映这一点。我以为...

回答 1 投票 1

如何替换Pyspark中的特殊角色?

我对Pyspark还是陌生的,我正在尝试使用Pyspark进行一些文本预处理。我有一个列名称和ZipCode属于火花数据框架new_df。 “名称”列包含值...

回答 1 投票 1

使用NLTK(5400)和Spacy(5300)的句子计数给出不同的答案。需要知道为什么吗?

我是NLP的新手。使用Spacy和NLTK来计数JSON文件中的句子,但是两个答案都有很大的不同。我以为答案是一样的。有人可以告诉我吗? ...

回答 1 投票 0

我如何将组词应用于自己的文本语料库?

我最近遇到了本文(https://arxiv.org/pdf/1605.09096.pdf),并且我一直在阅读GitHub(https://github.com/williamleif/histwords),但事实并非如此对我清楚...

回答 1 投票 1

出现序列错误-TypeError:序列项0:预期的str实例,找到列表

我需要您的帮助,以将单词列表连接到字符串中。我试图将其映射为字符串,但无济于事。这是我的for循环的摘录。对于范围(len(tokenized))中的i:tokenized [i] =''....

回答 1 投票 0

词性(POS标签)标记器

[扩展了我在Bangla语法检查器上的本科论文,现在我想使用python为我自己的语言构建语音标记器。我想创建自己的数据集并训练模型。任何...

回答 1 投票 0

在句子列表中查找单词列表并返回匹配的句子

从句子列表和单词列表中,只有当三个单词都与单词列表(Trigrams)匹配时,如何才能返回句子列表。请提出建议。以下是示例列表。 ...

回答 1 投票 -1

用python构造字母组合,二元组和三元组

如何为大型语料库构造单字组,二元组和三元组,然后计算它们的频率。按最频繁到最不常见的克数排列结果。来自nltk ...

回答 1 投票 0

ModuleNotFoundError NLTK

令牌化工作正常,但是当我尝试执行命名实体识别namedEnt = ne_chunk(tagged,binary = True)时,出现以下错误,我确实使用pip install从cmd安装了NumPy ...

回答 1 投票 0

如果我想保留句子顺序,那么在NLTK中矢量化文本数据的最佳方法是什么?

我正在对文本数据进行分类,并希望将其输入模型中,但是我遇到了问题。我不想使用CountVectorizer,因为它不保留其结构,但也不想手动...

回答 1 投票 0

使用nltk.corpus多线程

我想在多线程环境中访问nltk.corpus.wordnet。一旦启用多线程,诸如synsets()之类的方法就会失败。如果禁用它,一切正常。错误...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.