corpus 相关问题

语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系,或者您只是为了任何目的寻找免费提供的语料库,请考虑在https://opendata.stackexchange.com上提出您的问题。

我如何确定语料库中的哪些文本包含Python中的NLTK套件生成的错误?

我正在尝试使用Python进行一些基本的语料库分析。我收到以下错误消息:追溯(最近一次呼叫最近):文件“”,行2,在打印中(len(poems.words(...

回答 1 投票 0

在基于gensim文件的培训中表示包含多个句子的文档的正确方法

这些算法实现对实际句子没有任何真正的了解或依赖。他们只接受文本-单词标记。

回答 1 投票 0

使用熊猫连接系列数据时出现怪异错误

我有一堆带有文本数据行的数据框。我从每个数据框中导入了一个列,并将其附加到列表中,如下所示:将pandas导入为pd import glob path ='filepath'#使用您的...

回答 1 投票 0

用R组合语料库中的两个词

所以这是我的代码ny

回答 1 投票 -1

从R中的语料库创建相关矩阵

我的语料库很大,我想为整个语料库中的所有术语创建一个相关矩阵。我可以使用以下代码找到语料库中任何给定单词的相关性:...

回答 1 投票 0

R函数不返回语料库

我创建了一个清理主体的函数#function to clean corpus clean_corpus

回答 1 投票 0

如何从语料库中提取特定文本?

我有一个包含213个文档的语料库,这些文档的长度各不相同。我的目的是从每个文档中提取一个特定的文本部分,该文本涉及“财政政策”。使我的尝试复杂的是...

回答 1 投票 1

编辑NLTK语料库

除了nltk附带的语料库,我还想用自己的语料库训练它,该语料库遵循相同的语音规则。如何找到它正在使用的语料库,以及如何添加自己的语料库...

回答 2 投票 0

如何在Python语料库上使用“ collocation_list”函数?

我是Python的新手,请尝试导入我自己的语料库以在其文本中查找搭配词。我正在使用Python 3.7.5。并遵循Bird,Klein和Loper的教科书指示。但是,当我尝试...

回答 1 投票 1

Python NLP:从自然语言字符串中删除奇怪单词/字符的有效方法

我正在处理许多包含自然语言的字符串。例如:s1 =“早上好先生r,请发送早间短信wa x x种类詹妮弗·哈迪目录玛丽广告庄园西t f ...

回答 1 投票 -1

将语料库转换为数据帧将返回NA's

我正在尝试将我的语料库转换回一个数据框,但它仅返回NA。请帮助代码:library(wordcloud)df

回答 1 投票 0

使用spacy或nltk从德语文本数据中提取人名?

我正在使用德语的spacy模型来提取命名实体,例如位置名称,人员名称和公司名称,但没有得到正确的结果作为输出。是否缺少任何内容...

回答 1 投票 0

(如何选择语料库的所有“内容”,而不只是特定的[[1]]或[[2]]等?

我想选择所有语料库内容作为一个整体进行分析,而不是一次进行分析,我该如何更改此代码?尝试一次选择一个,但是要分析70个文档,我想...

回答 1 投票 0

希望从文本或pdf文件中提取文本作为不同的段落

[在艾哈迈达巴德R /刑事上诉书编号1的古贾拉特高级法院检查以下文字。 2009年第251号文件,用于批准和签名:尊敬的RPDHOLARIA先生========================== ...

回答 1 投票 -1

如何从大型语料库中找到每个单词的单词频率?

一个月前我问过这个问题。然而,没有人给出答案甚至评论。我正在重复这个问题,以便有人会帮助这一次。我有一个很大的Unicode Monolingual ...

回答 1 投票 -3

对于完全相同的单词,idf结果是不同的

我在python中运行tfidf模型。 texts = [** tokenized words **] dictionary = corpora.Dictionary(texts)corpus = list(map(dictionary.doc2bow,texts))test_model = models.TfidfModel(corpus)corpus_tfidf = ...

回答 1 投票 0

无法将语料库转换为R中的数据框架

我已经看过这里发布的其他类似问题(像这样),但问题仍然存在。我有一个文本数据的数据框,我需要阻止它。所以我把它转换成......

回答 4 投票 6

为部落语言POS标记创建语料库

我正在使用NLTK从文本字符串中提取名词,并且每个单词已经在(ibaloi)语言中都有POS标签,后来用于创建语法:sentence =“这是一个部落...

回答 1 投票 0

创建具有4M行的语料库和DTM的更有效方法

我的文件有超过4M的行,我需要一种更有效的方法将我的数据转换为语料库和文档术语矩阵,以便我可以将它传递给贝叶斯分类器。请考虑以下代码:...

回答 4 投票 13

是什么让这个文本中的文本小写,我怎么能把它变成大写?

我正在尝试在R中构建一个单词云,但它只返回小写文本。片

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.