自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。
修改 tidytext get_sentiments() 中某些单词的情绪
我正在尝试修改我的 df 中一些特定单词的情感,使它们更适合我的上下文,它们在我的上下文中使用时带有负面含义,但已被归类为具有
NLP 预处理 Data Frame 中的文本,正确的顺序是什么?
我正在尝试预处理具有两列的数据框。每个单元格包含一个字符串,称为“标题”和“正文”。 基于这篇文章我尝试重现预处理。怎么...
我正在尝试使用 spaCy 的显示功能来显示实体。 我的渲染输出与我的 anvil.server.wait_forever() 代码一起显示在我的 Jupyter Notebook 代码单元中。 这是一个考试...
Bert 编码器接受输入并进入多头注意力模型。但它们如何保持顺序呢?由于当前单词不采用先前单词的顺序。另外,为什么是双向的...
AttributeError:“TFBERtModel”对象没有属性“parameters”
你好,我正在尝试为我训练过的分词器训练 Bert 模型。我导入了 从变压器导入 TFBertModel 模型 = TFBertModel.from_pretrained("bert-base-uncased") 现在我...
是否存在用于微调生成语言(变压器)模型的通用脚本? 它可以基于支持加载许多不同模型的库(例如 HuggingFace)。 我...
X 有 95812 个特征,但 RandomForestClassifier 期望有 178341 个特征作为输入
我有一个使用文本数据的随机森林模型。但是,当我在新数据(测试集)上尝试该模型时,训练集和测试集之间的特征数量不兼容。还有,转变...
我编写了一个自定义编码器和解码器层,它实现了《Attention Is All You Need》论文中描述的架构。一切正常,直到我尝试编译它,我得到一个呃......
我有一个数据集,并尝试使用 berTopic 建模将其转换为主题,但问题是,我无法获取主题的所有文档。 berTopic 每个主题仅返回 3 个文档。 主题模型 =
我正在尝试使用变压器模型(用于回答问题)。我正在提交一个短字符串作为输入示例。 这是我最简单的代码: 从 Transformer 导入 AutoTokenizer,
我正在使用 Python 的 Transformer 模块实现预训练的 Transformer 模型来执行文本摘要,我想比较给定的微调 BART Transformer 的性能
我正在尝试安装 DeepSearch 库,以便我可以使用预训练模型来构建语音转文本项目。 ModuleNotFoundError Traceback(最近一次调用最后一次) <
如何按照官方方式将 Hugging Face LLaMA v2 模型的权重重新初始化为原始模型?
我想重新初始化我正在使用/下载的 LLaMA v2 模型的权重。我浏览了他们的 HF 代码中的所有文档和源代码: https://github.com/huggingface/transformers/blob/...
如何使用 spaCy 获取令牌 id(我想将文本句子映射到整数序列)
我想使用 spacy 对句子进行标记,以获得可用于下游任务的整数标记 ID 序列。我希望像下面这样使用它。请填写 ??? 导入spacy # 加载
我有一个关于output_attentions的问题,我需要制作一个关于BERT模型最后一层的注意力的热图。但我不知道output_attentions[0]是第一个还是最后一个......
我正在尝试安装 DeepSearch 库,以便我可以使用预训练模型来构建语音转文本项目。 ModuleNotFoundError Traceback(最近一次调用最后一次) 在...
如何将自定义 OpenAIModel 集成到 AutoModelForSequenceClassification 模型中?
我开发了一个自定义 OpenAIModel 模块,其行为类似于 BERT 模型,但会发出 OpenAI 嵌入请求并在调用时返回结果。我想使用这个模块,利用 Hugging Face 的
使用特定领域 PDF 中的未标记数据微调 Hugging Face 的 Llama 模型
我不确定接下来的步骤。具体来说,我有以下问题: 如何为微调过程准备未标记的数据? 微调 Llama 模型的最佳方法是什么...
在我努力从头开始构建BERT模型以获取实践经验和对模型的全面理解的过程中,我遇到了一个困惑点
我正在尝试使用 BERT(或任何语言嵌入模型)来解决语义文本相似性问题:给定产品 A,找到产品 B,它基本上是相同的底层产品,但有一些...