nlp 相关问题

自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。

解决运行Doc2vec gensim时结果不同的问题的解决方案?

我尝试查找有关Doc2vec运行时返回不同结果的问题的信息。我之前看到了很多关于此的问题,我知道它发生是因为向量是随机初始化的。嗬...

回答 1 投票 0

Tensorflow 嵌入 InvalidArgumentError:索引 [18,16] = 11905 不在 [0, 11905) [[nodeequential_1/embedding_1/embedding_lookup

我正在使用 TF 2.2.0 并尝试创建 Word2Vec CNN 文本分类模型。但无论我如何尝试,模型或嵌入层始终存在问题。我找不到明确的解决方案...

回答 2 投票 0

_batch_encode_plus() 得到了意外的关键字参数“return_attention_masks”

我正在研究 RoBERTA 模型来检测推文中的情绪。 在谷歌合作实验室上。遵循 Kaggle 的此 Notebook 文件 - https://www.kaggle.com/ishivinal/tweet-emotions-analysis-using-lstm-glove-robe...

回答 2 投票 0

R 中.txt 的词频分析未返回预期输出

analyze_document <- function(filename) { # Read text data text <- readLines(filename, encoding = "UTF-8") %>%粘贴(折叠=“”) # 预处理 文字 <-

r nlp
回答 1 投票 0

从文本片段中删除付费专区语言(pandas)

我正在尝试对我的数据集进行一些预处理。具体来说,我试图从文本中删除付费墙语言(下面以粗体显示),但我不断得到一个空字符串作为我的输出。 这是同样的...

回答 1 投票 0

属性错误:模块“chromadb”没有属性“config”

所以我最近开始从事 chromabd 工作,我遇到了这个错误: “模块‘chromadb’没有属性‘config’” 这是我的代码: 从 langchain.vectorstores 导入 Chroma 来自

回答 2 投票 0

我正在 ROCO 数据集上微调 BLIP 图像字幕

我的火车数据集包含 1800 张图像。由于我的内存限制,我只使用 8 的批量大小。我正在 Google Colab Pro 上训练它。从 8 开始增加会引发内存不足错误。我有

回答 1 投票 0

使用 Python 进行搜索引擎查询的命名实体识别

我正在尝试使用Python对搜索引擎查询进行命名实体识别。 搜索引擎查询的一个重要问题是它们通常不完整或全部小写。 为了这个任务,我...

回答 1 投票 0

文本生成始终会产生空白字符

以下代码显示了 20 个 epoch 后非常正常的损失图表,但是当尝试使用种子文本对其进行测试时,它始终输出空行(“”)。要么是我根本不理解...

回答 1 投票 0

使用MBart50Tokenizer快速分词器处理多个句子

我正在尝试在 GPU 上将 MBart50TokenizerFast 与 facebook/mbart-large-50-many-to-one-mmt 一起使用,并尝试一次性提供多个句子(句子无法组合)。这是我的代码(...

回答 1 投票 0

如何优化在 pandas dataframe 上的列表上使用循环的函数?

我在 pandas 数据帧上使用一个函数: 导入spacy 从集合导入计数器 # 加载英语语言模型 nlp = spacy.load("en_core_web_sm") # 过滤掉 o...的函数

回答 1 投票 0

使用 QLoRA 和 Peft 进行错误训练变压器

所以我正在尝试使用 Peft 和 QLoRA 微调 google Gemma 模型。昨天我成功地将其微调了 1 个 epoch,作为测试。然而,当我今天打开笔记本并运行单元格时...

回答 1 投票 0

从文本中提取困难的单词

我需要从输入文本中识别困难的单词。我不想使用常用单词列表,因为需要为儿童设置难度级别。是否有一个评分机制可以计算...

nlp
回答 1 投票 0

最新版本模拟中的 Torchtext 功能

大家好,我正在尝试解决任务,之前使用的是 torchtext.dataset.TranslationDataset、torch.data.Field 和 torch.data.BucketIterator。但是,更新后它们被删除了......

回答 1 投票 0

SpaCy:正则表达式模式在基于规则的匹配器中不起作用

我正在尝试定义一个正则表达式,用作我的 spaCy 模型中实体标尺组件中的文本模式。 目的是每当发现单词结构时添加带有“COMP”标签的标记...

回答 1 投票 0

如何恢复 BERT/XLNet 嵌入?

我最近一直在尝试堆叠语言模型,并注意到一些有趣的事情:BERT 和 XLNet 的输出嵌入与输入嵌入不同。比如说这个...

回答 2 投票 0

有没有办法让langchain中的LLM仅根据提供的上下文(pdf)回答问题?

iam 尝试使用 langchain 与多个 pdf 系统进行聊天,但如果我向机器人询问提供的 pdf 中的问题,它会根据 llm 预训练的知识进行回答,我希望它只回答

回答 1 投票 0

从词汇表中找出单词

我在 pandas 数据框中有一些文本 df['mytext'] 我还有一个词汇表(单词列表)。 我正在尝试列出并计算每个文档词汇表中的单词 我已经尝试过

回答 1 投票 0

在word2vec模型中测试时如何嵌入词汇?

我正在用 100 000 个词汇量训练我的 word2vec 模型(skip-gram)。但是在测试时,我得到了一些不在词汇表中的单词。为了找到它们的嵌入,我尝试了两种方法: 计算...

回答 1 投票 0

通过掩蔽和拥有多个正确标签来微调 BERT

我的目标是针对涉及简单算术运算(例如“5 + 3 = 8”或“7 加 2 等于 9”)的特定任务微调 BERT 模型。我的数据集包含数千个示例...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.