nlp 相关问题

自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。

RAG:将检索到的整个文档注入到提示中,而不是仅注入 page_content

使用抹布链时,我意识到整个Document都被注入到提示符中。仅传递文档的 page_content 不是更有意义吗?我担心看到 [Docu...

回答 1 投票 0

将人称代词替换为之前提到的人称(吵闹的coref)

我想做一个嘈杂的解决方案,以便给定一个人称代词,该代词被前一个(最近的)人代替。 例如: Alex 正在考虑以 10 亿美元收购一家英国初创公司。哈...

回答 3 投票 0

使用 chromadb 进行相似度搜索,默认设置返回 4 个相同的文档对象

我是矢量存储新手,总的来说,我正在使用 RAG 迈出第一步 相关点冻结信息: 色度-hnswlib==0.7.3 色度数据库==0.4.24 语言链==0.1.13 langchain-社区==0.0.29 langchain-core==0....

回答 1 投票 0

加载拥抱脸部模型时出错:SafeTensorsInfo.__init__() 得到意外的关键字参数“sharded”

我一直在使用 TheBloke 的 Huggingface 转换器量化 Llama2 模型。突然,当我尝试加载模型时,我今天早些时候运行的代码抛出了错误。 这段代码很简单...

回答 1 投票 0

加载量化的 Llama2 AWQ 模型时出错:SafeTensorsInfo.__init__() 获得意外的关键字参数“sharded”

我一直在使用 TheBloke 的 Huggingface 转换器量化 Llama2 模型。突然,当我尝试加载模型时,我今天早些时候运行的代码抛出了错误。 这段代码很简单...

回答 1 投票 0

代码切换中的自动语音识别

我正在开始新项目,该项目应该在同一音频中采用两种或多种语言作为输入,并以一种语言转录本输出语音。我有什么想法可以实现这个项目 我

回答 1 投票 0

如何从图像中预测字符?

需求:从图像中读取或预测字符。 Preq:我在 python 中使用 pytesseract 和 opencv 从 imagesv 读取文本,但我看到一个问题,如下所述。 问题: 图片很少

回答 1 投票 0

使用 SpaCy 匹配器获取上一句话

我正在文本文件上逐行运行 SpaCy Matcher。我的文件中的每个文本条目都位于单独的行上。我正在尝试提取 1) 匹配的实例,2) 完整的句子,以及 3) 前一个

回答 1 投票 0

如何使用SpaCy NER?

我正在开发一个小型项目,将相似的句子聚集在一起。在实现这一目标之前,我必须对极其脏的数据进行预处理(这些数据都是用户输入的,免费...

回答 1 投票 0

当词汇量非常大时,替代 one-hot 编码输出到模型

我正在关注这个博客。在其中他谈到了如何在 keras 中构建语言模型。他展示了如何在 keras 中构建一个简单的模型。 分离后,我们需要对输出字进行一次热编码。 ...

回答 1 投票 0

寻找Python库来删除文本中的无关字符和空格

我正在开发一个涉及处理文本数据的项目。我的目标是纠正与文本中不必要的字符和空格特别相关的错误。我正在寻找有关 sui 的建议...

回答 1 投票 0

T5模型如何使用forward()方法代替model.generate()

对于我的用例,我需要使用 model.forward() 而不是 model.generate() 方法 即代替下面的代码 outs = model.model.generate(input_ids=batch['source_ids'], ...

回答 2 投票 0

按照 github 存储库中的说明安装 medaCy 包时出错

我想运行这个命令来安装medaCy的预测和模型训练(稳定版本): ! pip install git+https://github.com/NLPatVCU/medaCy.git 但我遇到了如图所示的错误...

回答 1 投票 0

余弦相似度的输出不符合预期

我正在尝试生成句子中两个单词之间的余弦相似度。这句话是“黑猫坐在沙发上,棕色狗睡在地毯上”。 我的Python代码如下...

回答 1 投票 0

如何加快 NLP 中停用词删除和词形还原的计算时间

作为文本分类模型预处理的一部分,我使用 NLTK 库添加了停用词删除和词形还原步骤。代码如下: 将 pandas 导入为 pd 导入nltk; nltk.do...

回答 2 投票 0

使用open ai api汇总新闻文章时出错

# 生成摘要 摘要 = 聊天(消息) 打印(摘要.内容) 这是代码 错误: 属性错误:模块“openai”没有属性“错误” 这是错误,有关如何修复它的任何帮助...

回答 1 投票 0

使用训练师课程时升级加速

我在 Google Colab 上使用 Pytorch 的 Trainer 类时遇到问题,因为它要求 accelarate>=0.21.0,即使我已经更新了所有要求,还有其他选择吗? ”

回答 1 投票 0

如何检测两个句子是否相似,不是在意思上,而是在音节/单词上?

以下是一些需要被视为“相似”的句子类型的示例 有一种最不寻常的噪音正在迅速缩小,她很快就听出了 有一个最

回答 1 投票 0

如何使用非结构化(python 包)创建目录

tl;博士 如何使用非结构化包从具有分层节标题的 pdf 文档中提取干净的目录? 更多细节 我有一个 pdf 文档,有多个...

回答 1 投票 0

将 spacy token 向量转换为文本

我正在使用 spacy 创建句子的向量。如果句子是“我正在工作”,它会给出一个形状为 (3, 300) 的向量。有什么方法可以使用这些向量取回句子中的文本...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.