corpus 相关问题

语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系,或者您只是为了任何目的寻找免费提供的语料库,请考虑在https://opendata.stackexchange.com上提出您的问题。

选择两个非连续文件以在Quanteda中形成子语料库

我希望有关选择两个或多个非连续文件以形成子语料库的建议。此代码选择1个文件:testcorpus

回答 1 投票 1

R:使用for循环查找另一个字符串旁边的特定字符串

我在单个向量中有一本小说的文本,它已被单词novel.vector.words拆分我正在寻找字符串“blood of”的所有实例。但是,由于矢量被单词分割,每个......

回答 1 投票 1

来自VCorpus和DTM的术语频率不匹配

我从Corpus和DTM计算了测试文件的术语频率,如下所示。但他们并不相符。谁能告诉我不匹配的来源?是因为我用错了......

回答 1 投票 0

R:quanteda从语料库中删除标签

我正在使用quanteda包处理一些文本。我的文本中包含标签,其中一些标签包含URL等唯一值。我不仅要删除标签,还要删除标签内的所有内容。 ...

回答 1 投票 0

如何将文档术语矩阵子集化以进行训练

我有一个文档术语矩阵,我想分成两个,一组用于训练,另一组用于测试。我试过下面的代码:library(tm)text.vector

回答 1 投票 0

如何通过python连接时更改默认的Mysql连接超时?

我使用python con = _mysql.connect('localhost','dell-pc','','test')连接到mysql数据库。我编写的程序需要花费大量时间才能完全执行,即大约10个小时。其实我 ...

回答 4 投票 45

通过限制语料库文档的字大小来进行潜在Dirichlet分配(LDA)性能

我一直在使用python(gensim包)中的Latent Dirichlet分配(LDA)生成客户评论的yelp数据集。在生成令牌时,我只选择有...的单词

回答 2 投票 0

如何执行k意味着从Gensim TF IDF值进行聚类

我正在使用Gensim进行矢量空间模型。在从Gensim创建字典和语料库后,我使用以下行计算了(Term frequency * Inverse document Frequency)TFIDF:Term_IDF = ...

回答 2 投票 1

如何根据语料库中的频率过滤字典键?

所以,我正在做一项任务,而且我仍然坚持这一部分。我有一个字典,字符串元组作为键和相应的值。现在我必须通过删除键来过滤字典...

回答 1 投票 0

使用NLTK创建和利用标记的语料库

我正在尝试在马达加斯加(我的母语)创建一个标记语料库。我按照Python文本处理和自然语言处理文档中的说明和https://www.nltk ....

回答 1 投票 0

如何从Project Gutenberg文本中删除页眉/页脚?

我尝试过各种方法从Project Gutenberg文本中剥离许可证,用作语言学习项目的语料库,但我似乎无法想出一种无监督,可靠的方法。 ...

回答 3 投票 19

拆分用R和Quanteda标记语料库

我正在为NLP做一个项目。我需要在.txt文件中获取一些博客,新闻和推文(您可能已经听说过这个顶点)并创建n-gram频率。我做了实验......

回答 2 投票 0

如何建立一个标签语料库(文本挖掘)

我试图通过挖掘所有主题标签来分析Twitter数据。我想将所有主题标签放在语料库中,并将此语料库映射到单词列表。你知道我怎么能管理这个......

回答 1 投票 0

如何从PlaintextCorpusReader读取原始数据时摆脱UnicodeDecodeError

我正在通过以下方式从一组文本文件创建语料库:newcorpus = PlaintextCorpusReader(corpus_root,'。*')现在我希望以下列方式访问文件的单词:...

回答 2 投票 0

如何打印Wordnet的全部内容(最好使用NLTK)?

NLTK提供打印布朗(或古腾堡)语料库中所有单词的功能。但是等效功能似乎不适用于Wordnet。有没有办法通过NLTK做到这一点?如果有 ...

回答 3 投票 4

将功能应用于textreuse语料库

我有一个数据框如下:df

回答 1 投票 2

从大型语料库中提取词频列表

我有一个名为SubIMDB的大型英语语料库,我想用它们的频率列出所有单词。意味着它们在整个语料库中出现了多少。这个频率列表应该......

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.