nlp 相关问题

自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。

如何使用 Huggingface 的 Trainer 进行单轮训练?

我想定义一个 Huggingface Trainer 对象,其中包含一组训练参数,包括在给定的一组 epoch 上进行学习率退火的线性时间表,然后继续进行 tr...

回答 2 投票 0

如何在SentenceTransformer之上添加密集层?

在本教程(训练和微调 Sentence Transformer 模型)中,他们通过将词嵌入模块与池化层相结合来创建 SentenceTransformer: 来自句子_转换...

回答 1 投票 0

Word2Vec 计算电影与高预演电影的相似度

我有一个数据集,其中包含电影的用户评分和电影描述,如下所示 将 pandas 导入为 pd df =pd.DataFrame({ '描述': [ “两个被监禁的男子多年来一直保持着联系”...

回答 1 投票 0

如何从 BARTTokenizer 查找位置嵌入?

目标是添加令牌嵌入(定制-使用不同模型获得)和位置嵌入。 有没有一种方法可以找出位置嵌入以及令牌嵌入......

回答 1 投票 0

在Python中使用FST库

如何安装 OpenFST? 我一直这样做: wget http://www.openfst.org/twiki/pub/FST/FstDownload/openfst-1.4.1.tar.gz tar -zxvf openfst-1.4.1.tar.gz cd openfst-1.4.1 。/配置 使...

回答 2 投票 0

如何使用Roberta计算单词和句子嵌入?

我正在尝试使用 Roberta 计算单词和句子嵌入,对于单词嵌入,我从 RobertaModel 类中提取最后一个隐藏状态输出 [0],但我不确定这是否是正确的...

回答 3 投票 0

将 json 文件格式更改为 .spacy 以进行自定义 NER 标记

我想为我的项目创建一个自定义标签。为了获得有关此主题的帮助,我浏览了本教程的使用 spaCy 3.0 构建自定义 NER 模型。 JSON 文件的包含内容 [{“文本”:&q...

回答 1 投票 0

Python:“Doc2Vec”对象没有属性“dv”

感谢您的建议,我已经编辑了问题 我遇到这个: AttributeError: 'Doc2Vec' object has no attribute 'dv' 错误来自 回溯(最近一次调用最后一次): 文件“F:\Projects\项目代码\

回答 2 投票 0

如何减少小数据集的计算时间?

我一直致力于文本检测作为我研究的一部分,重点关注各种特征。我遇到了计算时间的重大问题。我的数据集包含 3400 行和 2

回答 1 投票 0

如何进行标题预测?

我正在使用 python bert-base-uncased 模型基于句子创建标题。这是我写的代码。我需要根据 possible_labels 预测标题。难道是……

回答 1 投票 0

如何找到发音相似的单词?

我正在编写一个专门的(食品领域)多语言搜索引擎。 我使用 python 和 nltk 库。 我有一个相当大的食谱数据库,包含我想要支持的所有文化。 我问是否...

回答 1 投票 0

如何根据输入的问题内容查询相似度高的问题?

我有一个Java学生考试系统。 mysql数据库中有超过一百万个问题。题目内容由中文、英文、乳胶数学公式组成。 现在,我想要...

回答 1 投票 0

如何将具有自定义标准化功能的 Keras TextVectorization 层配置保存到 pickle 文件中并重新加载?

我有一个 Keras TextVectorization 层,它使用自定义标准化函数。 def custom_standardization(input_string,保留= ['[',']'],add = ['¿']): strip_chars = 字符串.标点符号 ...

回答 1 投票 0

python - TypeError:__init__() 得到意外的关键字参数“checkpoint_callback”

我收到此错误消息: TypeError Traceback(最近一次调用最后一次) 在 () 5 max_epochs=N_EPOCHS, ...

回答 2 投票 0

为什么Python会忽略列名中的符号?

我有一个如下所示的文本数据框 报告 ID、文本 1、+83 -193 -380 +55 +901 2、-94 +44 +2892 -60 3、+7010-3840+3993 虽然 Txt 字段有 +282 和 -829 但这些是字符串值...

回答 1 投票 0

如何制作可与 HuggingFace Transformers & Trainer 一起使用的“多头”回归数据加载器?

我正在研究一个多头回归问题,对于每个文本我想预测 5 个分数。您可以通过设置 Problem_type = 'regression' 来完成此操作,如变压器代码中所示 问题是...

回答 1 投票 0

检查一个文本有多少百分比可以在另一个文本中找到的有效方法?

所以到目前为止我一直在尝试几个库,但找不到适合代表我想要实现的目标的东西。我有两篇文本,其中一篇可能包含也可能不包含在 anot 中...

回答 1 投票 0

在Python中检测字母字符属于哪些

有没有库或其他简单的方法来检测Python中的字母字符属于哪些?我知道我可以为此使用 unicode 代码范围,但如果已经有内置方式或库或......

回答 2 投票 0

Python 中带有否定词的词袋

我有这份文件 这不是普通的文字 这是科学术语的文本 这些文件的正文是这样的 报告ID,文本 1、K9G3P9 4H477 -Q207KL41 98464 ... Q207KL41 2、D84T8X4 -D9W4S2 -

回答 1 投票 0

POS-Tagger 非常慢

我正在使用 nltk 通过首先删除给定的停用词来从句子生成 n-gram。然而,nltk.pos_tag() 非常慢,在我的 CPU(Intel i7)上最多需要 0.6 秒。 输出: ['第一个...

回答 4 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.