语料库最常指的是结构化文本的集合。如果您的问题与编程没有密切关系,或者您只是为了任何目的寻找免费提供的语料库,请考虑在https://opendata.stackexchange.com上提出您的问题。
使用BERT嵌入语料库(以及节省词汇),而无需使用预训练的BERT
[就像word2vec / GloVe一样,我希望从头开始将我的特定领域语料库(大约1000万个单词)与BERT一起嵌入。有了这些嵌入,我可以将它们用于句子相似度(已经使用过的SBERT)。但我确实...
我想制作一个包含所有大写字母的正则表达式单词列表。数据集是一堆称为语料库的生物学论文文本文件。 len(corpus ....
我想制作一个包含所有大写字母的正则表达式单词列表。数据集是一堆称为语料库的生物学论文文本文件。 len(corpus ....
我有一个历时性语料库,其中包含不同组织的文本,每个文本的期限为1969年至2019年。对于每个组织,我想比较1969年的文本和1970、1970和1971年的文本等。文本...
Quanteda Textstat_simil距离仅用于相邻文本
我有一个历时性语料库,其中包含不同组织的文本,每个文本的期限为1969年至2019年。对于每个组织,我想比较1969年的文本和1970、1970和1971年的文本等。文本...
我将tm语料库转换为Quanteda语料库。我申请dfm。然后,我将dfm转换为stm格式。这段代码在15分钟前还可以正常工作;我所做的只是添加了一些要删除的单词...
两个短文本语料库之间无监督地比较语义相似性的正确方法是什么?比较两者的LDA主题分布似乎不是一个解决方案,就像简短的...
在哪里可以找到Quanteda网站上示例中使用的data_corpus_irishbudget2010?
我已经在Tutorials.Quanteda.io中进行了所有练习,但是有关构建DFM的部分使用了名为data_corpus_irishbudget2010的语料库。这是代码:toks_irish
我有一本字典,包含近一百万个多字词(包含空格的词条)。看起来像[...,“多层陶瓷”,“多层陶瓷电容器”,“多层光学...
[我正在完成我大学的一项任务,我不知道如何仅打印单词的前25个一致性而不是整个列表。
尝试在sklearn软件包中为countVectorizer安装语料库
我正在尝试通过for循环一次将本地驱动器中的主体从python加载到python,然后读取每个文本文件并保存以供countVectorizer分析。但是,我只得到最后一个...
从大型语料库中提取包含一个单词的句子,包括标点符号,在python中
我正在使用大型语料库(〜30GB),我需要提取包含单词列表(〜5000)包括标点符号的句子。我正在使用正则表达式方法,但是我对任何建议都开放...
这里,当我运行此特定代码时,导入os导入nltk导入nltk.corpus print(os.listdir(nltk.data.find(“ corpora”)))`我得到IndexError Traceback(最新的...
我有一个.csv术语文档矩阵,我想使用gensim在python中执行一些潜在的dirichlet分配。但是,我对Python或LDA并不是特别熟悉。我在gensim中发布了……
我有一个.csv术语文档矩阵,我想使用gensim在python中执行一些潜在的dirichlet分配。但是,我对Python或LDA并不是特别熟悉。我在gensim中发布了……
我正在尝试在一些文本上获得单词的整体tf-idf分数。我正在遵循此处介绍的计算tf-idf的手动方法:https://towardsdatascience.com/natural-language-processing -...
我是Python-NLTK的新手。我已经使用电影评论数据集编写了代码。当我将硬编码的示例文本用于情感分析时,它工作正常,但是当我尝试接受用户输入或获取...
阅读txt中的中文时出错:corpus()仅适用于字符,语料库,语料库,data.frame,kwic对象
我尝试使用R,jiebaR和语料库生成一个词云并获取中文语音的词频,但无法生成语料库。这是我的代码:library(jiebaR)library(stringr)library(corpus)...
我正在尝试使用R的tm包对某些网站的意大利用户在此处撰写的评论进行一些文本挖掘。我刮掉了文本,将它们存储在语料库上,进行了某种清理,但是...