corpus 相关问题

语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系，或者您只是为了任何目的寻找免费提供的语料库，请考虑在https://opendata.stackexchange.com上提出您的问题。

选择两个非连续文件以在Quanteda中形成子语料库

我希望有关选择两个或多个非连续文件以形成子语料库的建议。此代码选择1个文件：testcorpus

r subset corpus quanteda

回答 1 投票 1

R：使用for循环查找另一个字符串旁边的特定字符串

我在单个向量中有一本小说的文本，它已被单词novel.vector.words拆分我正在寻找字符串“blood of”的所有实例。但是，由于矢量被单词分割，每个......

r for-loop corpus

回答 1 投票 1

来自VCorpus和DTM的术语频率不匹配

我从Corpus和DTM计算了测试文件的术语频率，如下所示。但他们并不相符。谁能告诉我不匹配的来源？是因为我用错了......

r text-mining tm corpus

回答 1 投票 0

R：quanteda从语料库中删除标签

我正在使用quanteda包处理一些文本。我的文本中包含标签，其中一些标签包含URL等唯一值。我不仅要删除标签，还要删除标签内的所有内容。 ...

r regex tags corpus quanteda

回答 1 投票 0

如何将文档术语矩阵子集化以进行训练

我有一个文档术语矩阵，我想分成两个，一组用于训练，另一组用于测试。我试过下面的代码：library（tm）text.vector

r nlp corpus

回答 1 投票 0

如何通过python连接时更改默认的Mysql连接超时？

我使用python con = _mysql.connect（'localhost'，'dell-pc'，''，'test'）连接到mysql数据库。我编写的程序需要花费大量时间才能完全执行，即大约10个小时。其实我 ...

python mysql corpus

回答 4 投票 45

通过限制语料库文档的字大小来进行潜在Dirichlet分配（LDA）性能

我一直在使用python（gensim包）中的Latent Dirichlet分配（LDA）生成客户评论的yelp数据集。在生成令牌时，我只选择有...的单词

python tokenize lda gensim corpus

回答 2 投票 0

如何执行k意味着从Gensim TF IDF值进行聚类

我正在使用Gensim进行矢量空间模型。在从Gensim创建字典和语料库后，我使用以下行计算了（Term frequency * Inverse document Frequency）TFIDF：Term_IDF = ...

numpy k-means gensim tf-idf corpus

回答 2 投票 1

如何根据语料库中的频率过滤字典键？

所以，我正在做一项任务，而且我仍然坚持这一部分。我有一个字典，字符串元组作为键和相应的值。现在我必须通过删除键来过滤字典...

python-3.x nltk corpus

回答 1 投票 0

使用NLTK创建和利用标记的语料库

我正在尝试在马达加斯加（我的母语）创建一个标记语料库。我按照Python文本处理和自然语言处理文档中的说明和https：//www.nltk ....

python nltk corpus pos-tagger

回答 1 投票 0

如何从Project Gutenberg文本中删除页眉/页脚？

我尝试过各种方法从Project Gutenberg文本中剥离许可证，用作语言学习项目的语料库，但我似乎无法想出一种无监督，可靠的方法。 ...

nlp text-processing heuristics corpus stripping

回答 3 投票 19

拆分用R和Quanteda标记语料库

我正在为NLP做一个项目。我需要在.txt文件中获取一些博客，新闻和推文（您可能已经听说过这个顶点）并创建n-gram频率。我做了实验......

r nlp tokenize corpus quanteda

回答 2 投票 0

如何建立一个标签语料库（文本挖掘）

我试图通过挖掘所有主题标签来分析Twitter数据。我想将所有主题标签放在语料库中，并将此语料库映射到单词列表。你知道我怎么能管理这个......

r text-mining corpus topic-modeling

回答 1 投票 0

如何从PlaintextCorpusReader读取原始数据时摆脱UnicodeDecodeError

我正在通过以下方式从一组文本文件创建语料库：newcorpus = PlaintextCorpusReader（corpus_root，'。*'）现在我希望以下列方式访问文件的单词：...

python nltk python-unicode corpus

回答 2 投票 0

如何打印Wordnet的全部内容（最好使用NLTK）？

NLTK提供打印布朗（或古腾堡）语料库中所有单词的功能。但是等效功能似乎不适用于Wordnet。有没有办法通过NLTK做到这一点？如果有 ...

python nlp nltk wordnet corpus

回答 3 投票 4

将功能应用于textreuse语料库

我有一个数据框如下：df

r nlp text-mining corpus

回答 1 投票 2

从大型语料库中提取词频列表

我有一个名为SubIMDB的大型英语语料库，我想用它们的频率列出所有单词。意味着它们在整个语料库中出现了多少。这个频率列表应该......

python python-3.x nlp corpus word-frequency

回答 1 投票 -1

corpus 相关问题

最新问题