corpus 相关问题

语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系,或者您只是为了任何目的寻找免费提供的语料库,请考虑在https://opendata.stackexchange.com上提出您的问题。

使用BERT嵌入语料库(以及节省词汇),而无需使用预训练的BERT

[就像word2vec / GloVe一样,我希望从头开始将我的特定领域语料库(大约1000万个单词)与BERT一起嵌入。有了这些嵌入,我可以将它们用于句子相似度(已经使用过的SBERT)。但我确实...

回答 1 投票 0

如何使用正则表达式从NLTK语料库中找到大写字母?

我想制作一个包含所有大写字母的正则表达式单词列表。数据集是一堆称为语料库的生物学论文文本文件。 len(corpus ....

回答 2 投票 0

如何使用正则表达式从NLTK语料库中找到大写字母?

我想制作一个包含所有大写字母的正则表达式单词列表。数据集是一堆称为语料库的生物学论文文本文件。 len(corpus ....

回答 2 投票 0

如何仅计算相邻年份在组中文档之间的Quanteda相似度?

我有一个历时性语料库,其中包含不同组织的文本,每个文本的期限为1969年至2019年。对于每个组织,我想比较1969年的文本和1970、1970和1971年的文本等。文本...

回答 1 投票 1

Quanteda Textstat_simil距离仅用于相邻文本

我有一个历时性语料库,其中包含不同组织的文本,每个文本的期限为1969年至2019年。对于每个组织,我想比较1969年的文本和1970、1970和1971年的文本等。文本...

回答 1 投票 1

R无法从PDF中读取文本

我一直在尝试将PDF文件夹读入R以使语料库有一段时间了。我用过:teleeos

回答 1 投票 0

将Quanteda dfm转换为stm

我将tm语料库转换为Quanteda语料库。我申请dfm。然后,我将dfm转换为stm格式。这段代码在15分钟前还可以正常工作;我所做的只是添加了一些要删除的单词...

回答 1 投票 0

如何计算短文本语料库的语义相似度?

两个短文本语料库之间无监督地比较语义相似性的正确方法是什么?比较两者的LDA主题分布似乎不是一个解决方案,就像简短的...

回答 1 投票 0

在哪里可以找到Quanteda网站上示例中使用的data_corpus_irishbudget2010?

我已经在Tutorials.Quanteda.io中进行了所有练习,但是有关构建DFM的部分使用了名为data_corpus_irishbudget2010的语料库。这是代码:toks_irish

回答 1 投票 0

使用Python在大文本中计算多词术语的频率

我有一本字典,包含近一百万个多字词(包含空格的词条)。看起来像[...,“多层陶瓷”,“多层陶瓷电容器”,“多层光学...

回答 1 投票 0

仅打印python中的前25个一致性

[我正在完成我大学的一项任务,我不知道如何仅打印单词的前25个一致性而不是整个列表。

回答 1 投票 0

尝试在sklearn软件包中为countVectorizer安装语料库

我正在尝试通过for循环一次将本地驱动器中的主体从python加载到python,然后读取每个文本文件并保存以供countVectorizer分析。但是,我只得到最后一个...

回答 1 投票 0

从大型语料库中提取包含一个单词的句子,包括标点符号,在python中

我正在使用大型语料库(〜30GB),我需要提取包含单词列表(〜5000)包括标点符号的句子。我正在使用正则表达式方法,但是我对任何建议都开放...

回答 2 投票 1

NLTK语料库:IndexError:列表索引超出范围

这里,当我运行此特定代码时,导入os导入nltk导入nltk.corpus print(os.listdir(nltk.data.find(“ corpora”)))`我得到IndexError Traceback(最新的...

回答 1 投票 -1

试图利用一个库来进行一些主题建模,但是进展不顺利

我有一个.csv术语文档矩阵,我想使用gensim在python中执行一些潜在的dirichlet分配。但是,我对Python或LDA并不是特别熟悉。我在gensim中发布了……

回答 1 投票 -1

试图利用一个库来进行一些主题建模,但是进展不顺利

我有一个.csv术语文档矩阵,我想使用gensim在python中执行一些潜在的dirichlet分配。但是,我对Python或LDA并不是特别熟悉。我在gensim中发布了……

回答 1 投票 0

如何将TF-IDF矩阵转换为前10个单词的整体字典

我正在尝试在一些文本上获得单词的整体tf-idf分数。我正在遵循此处介绍的计算tf-idf的手动方法:https://towardsdatascience.com/natural-language-processing -...

回答 1 投票 1

情感分析中用户输入或文本文件数据中的问题

我是Python-NLTK的新手。我已经使用电影评论数据集编写了代码。当我将硬编码的示例文本用于情感分析时,它工作正常,但是当我尝试接受用户输入或获取...

回答 1 投票 0

阅读txt中的中文时出错:corpus()仅适用于字符,语料库,语料库,data.frame,kwic对象

我尝试使用R,jiebaR和语料库生成一个词云并获取中文语音的词频,但无法生成语料库。这是我的代码:library(jiebaR)library(stringr)library(corpus)...

回答 1 投票 2

如何使用R中的tm包从非英语语料库中删除常见单词的结尾

我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本,将它们存储在语料库上,进行了某种清理,但是...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.