语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系,或者您只是为了任何目的寻找免费提供的语料库,请考虑在https://opendata.stackexchange.com上提出您的问题。
我希望有关选择两个或多个非连续文件以形成子语料库的建议。此代码选择1个文件:testcorpus
我在单个向量中有一本小说的文本,它已被单词novel.vector.words拆分我正在寻找字符串“blood of”的所有实例。但是,由于矢量被单词分割,每个......
我从Corpus和DTM计算了测试文件的术语频率,如下所示。但他们并不相符。谁能告诉我不匹配的来源?是因为我用错了......
我正在使用quanteda包处理一些文本。我的文本中包含标签,其中一些标签包含URL等唯一值。我不仅要删除标签,还要删除标签内的所有内容。 ...
我有一个文档术语矩阵,我想分成两个,一组用于训练,另一组用于测试。我试过下面的代码:library(tm)text.vector
我使用python con = _mysql.connect('localhost','dell-pc','','test')连接到mysql数据库。我编写的程序需要花费大量时间才能完全执行,即大约10个小时。其实我 ...
通过限制语料库文档的字大小来进行潜在Dirichlet分配(LDA)性能
我一直在使用python(gensim包)中的Latent Dirichlet分配(LDA)生成客户评论的yelp数据集。在生成令牌时,我只选择有...的单词
我正在使用Gensim进行矢量空间模型。在从Gensim创建字典和语料库后,我使用以下行计算了(Term frequency * Inverse document Frequency)TFIDF:Term_IDF = ...
所以,我正在做一项任务,而且我仍然坚持这一部分。我有一个字典,字符串元组作为键和相应的值。现在我必须通过删除键来过滤字典...
我正在尝试在马达加斯加(我的母语)创建一个标记语料库。我按照Python文本处理和自然语言处理文档中的说明和https://www.nltk ....
如何从Project Gutenberg文本中删除页眉/页脚?
我尝试过各种方法从Project Gutenberg文本中剥离许可证,用作语言学习项目的语料库,但我似乎无法想出一种无监督,可靠的方法。 ...
我正在为NLP做一个项目。我需要在.txt文件中获取一些博客,新闻和推文(您可能已经听说过这个顶点)并创建n-gram频率。我做了实验......
我试图通过挖掘所有主题标签来分析Twitter数据。我想将所有主题标签放在语料库中,并将此语料库映射到单词列表。你知道我怎么能管理这个......
如何从PlaintextCorpusReader读取原始数据时摆脱UnicodeDecodeError
我正在通过以下方式从一组文本文件创建语料库:newcorpus = PlaintextCorpusReader(corpus_root,'。*')现在我希望以下列方式访问文件的单词:...
NLTK提供打印布朗(或古腾堡)语料库中所有单词的功能。但是等效功能似乎不适用于Wordnet。有没有办法通过NLTK做到这一点?如果有 ...
我有一个名为SubIMDB的大型英语语料库,我想用它们的频率列出所有单词。意味着它们在整个语料库中出现了多少。这个频率列表应该......