nlp 相关问题

自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。

如何使用AI API生成特定长度的文本

我正在尝试使用 AI API(OpenAI GPT、Claude、Gemini...)生成恰好具有一定数量的字符或单词长度的文本输出,但我遇到了困难。这是我所经历过的...

回答 1 投票 0

培训法学硕士执行职能

我想开发一个能够在给定的智能家居环境中执行操作并回答问题的聊天机器人。 我很好奇如何通过法学硕士来做到这一点。我如何定制/训练模型来执行...

回答 1 投票 0

基于关键词的句子分类Python库

我想根据句子列表是否与特定关键字的情感匹配将它们分成两个列表。例如: valid_keyword = "已接受访客" 句子=[ ”

回答 2 投票 0

Spacy nlp = spacy.load(“en_core_web_lg”)

我已经下载了 spaCy,但是每次我尝试 nlp = spacy.load("en_core_web_lg"), 命令时,我都会收到此错误: OSError:[E050]找不到模型“en_core_web_lg”。好像不是

回答 7 投票 0

自定义名称实体识别

我有以下一句话: text="英格兰的天气极其恶劣" 我想要执行自定义名称实体识别 (NER) 过程 首先,正常的 NER 程序将输出

回答 2 投票 0

ValueError:无法使用已编译的正则表达式作为 regex=False 的替换模式

我正在 Google Colab 上做一个项目,我使用以下版本: !pip install "gensim==4.2.0" !pip install "texthero==1.0.5" 直到最近,我收到了以下战争...

回答 1 投票 0

对多个文件进行标记化 python

我目前正在尝试对大文本进行标记,但是我想要对目录中的很多文件进行标记,因为一一进行标记非常耗时。 从变形金刚导入...

回答 1 投票 0

将 safe.tensor 转换为 pytorch bin 文件

我用 HuggingFace 微调了我的 Transformer 模型。它为我提供了一个 model.safetensor 文件以供以后使用。 我想将模型插入到仅使用 pytorch.bin 文件的旧框架中。我...

回答 1 投票 0

使用 tf.layers.TextVectorization 预处理大型数据集会出现内存错误

我有大约 300k 个文件,大约 9GB 的医学文献。 我的目标是确定数据集中所有标记的频率并将它们序列化为 csv 文件(标记、频率)。 为了达到

回答 1 投票 0

将json转换为矢量数据库最简单的方法是什么

我需要将json文件转换为矢量数据库。我用的是chromadb。 集合.添加( files=["这是一个文档","这是另一个文档"], 元数据=[{"来源&...

回答 1 投票 0

如何在Spacy中标记不包含特定符号的单词?

我正在尝试使用正则表达式在 Spacy 中标记一个单词,但我想添加一个条件:它不能在内部任何位置包含符号“/”。我的代码如下所示: [{'lower': {"regex": "^.*(...

回答 1 投票 0

无法使用python-docx读取docx文件

我有这个代码: 导入操作系统 导入回溯 导入 pdfplumber 从 docx 导入文档 def read_docx(文件路径): 尝试: doc = 文档(文件路径) 内容 = [段落.文本

回答 1 投票 0

在 Python 中使用 Langchain 或 LlamaIndex 包装器计算代币

我正在开发一个项目,我需要通过使用 Python 中的 Langchain 或 LlamaIndex 包装器计算代币来执行成本分析。我想知道是否有一种方法可以同时计算令牌...

回答 1 投票 0

ModuleNotFoundError:未检测到 java 安装。请安装java以使用 language-tool-python

我想检查给定句子中是否存在问题的数字。 我的代码是 导入语言_工具_python tl = language_tool_python.LanguageTool('en-US') txt =“好的系泊先生和我的...

回答 2 投票 0

斯坦福 NLP 注释 pipeline.annotate 导致 Java 中的 OutOfMemoryError

因此,我们使用斯坦福 NLP 来注释输入文本,而这些输入文本小得可笑。下面是一个相同的例子。 “您能给我有关穆罕默德·西瓦·约翰(Mohammad Siva John)的详细信息吗?...

回答 1 投票 0

直接从 Llama Index 读取文档作为文件,而不是指定文件夹路径

我正在使用llama索引,希望直接将文档作为文件读取,而不是像官方文档中所述指定文件夹路径。当前方法假设 llama 索引用户

回答 1 投票 0

句子相似度的加权输入

我正在使用点分数构建句子相似度的语言模型。目前,我正在使用拥抱脸部的gte-large语言模型。 我想知道是否有一种方法可以给出加权输入......

回答 1 投票 0

调用 Hugging Face load_dataset("glue", "mrpc") 时出错

我正在遵循这里的huggingface教程,它给了我一个奇怪的错误。当我运行以下代码时: 从数据集导入load_dataset 从 Transformer 导入 AutoTokenizer,

回答 1 投票 0

如何向现有的 Huggingface 标记生成器添加新标记?

如何将新令牌添加到现有的 Huggingface AutoTokenizer 中? 按照规范,Huggingface https://huggingface.co/learn/nlp-course/chapter6/2 有这个教程,但它以“

回答 2 投票 0

在 Pytorch 的数据处理中使用 tokenizer 的最佳函数/阶段是什么?

我正在继承 torch.utils.data.Dataset 并编写一个整理函数以分别传递给 Dataloader 的数据集和 collate_fn 参数。 在数据集的 __getitem__ 或 collate_fn 之间,我是

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.