nlp 相关问题

自然语言处理(NLP)是人工智能的子领域,涉及从自然语言数据转换或提取有用信息。方法包括机器学习和基于规则的方法。

为什么LLMChain的答案被砍掉了?

我想使用 Huggingface API 和 Gemma 模型构建一个问答应用程序,但模型提供的答案被切断了。我已经在 Google Colab 和 Kaggle note 上尝试过了...

回答 1 投票 0

word2vec 无法使用 gensim 库工作

我正在尝试使用 gensim 提供的 word2vec 模型对我的数据集进行矢量化。我面临着 scipy 提出的错误。 从 gensim.models 导入 Word2Vec 从 nltk.tokenize 导入 word_tokenize 导入...

回答 1 投票 0

Gensim 的 Doc2Vec 包含多种语言的文档

我正在利用文档向量表示的相似性构建一个基于内容的推荐系统。 我的文档是书籍的描述。大多数是英文的,但也有一些是

回答 1 投票 0

使用word2vec对类别中的单词进行分类

背景 我有带有一些样本数据的向量,每个向量都有一个类别名称(地点、颜色、名称)。 ['约翰','杰伊','丹','内森','鲍勃'] -> '名字' ['黄色', '红色', '绿色'] -> '科罗拉多州...

回答 3 投票 0

Pytesseract 返回边界框内的文本

我目前正在尝试对一组文档进行命名实体提取。我的计划是: 使用 pytesseract 进行 OCR 提取文本 申请法学硕士来获取患者姓名、年龄等实体。 一...

回答 1 投票 0

R Tidymodels textrecipes - 使用 spacyR 进行标记 - 如何从生成的标记列表中删除标点符号

我想通过使用带有spacyR引擎的step_tokenize来标记我的文本,然后再使用step_lemma进行词形还原。接下来,我想删除例如标点符号

回答 1 投票 0

Tensorflow unicode 文本编码-解码

我刚刚开始使用西里尔文字。文本预处理后无法正确打印俄语文本。如何在文本加载期间设置编码? 导入路径库 文本 = pathlib.Path('rus.txt').rea...

回答 3 投票 0

Word2Vec Hierarchical Softmax 中的内部顶点里面有什么?

我有一个关于分层 Softmax 的问题。实际上,我不太明白内部顶点(不是叶顶点)中存储的内容。我清楚地理解了这个算法的主要思想...

回答 1 投票 0

Pytorch运行时错误RuntimeError:mat1和mat2形状无法相乘(10x2048和64x6)

我正在尝试连接X,Y和Rag特征,但它给了我错误我已经使用了简单的concat,但它给了我错误我只想在前向函数中连接x,y,rag特征,可以

回答 1 投票 0

如何在多个数据集上训练拥抱人脸模型?

我正在尝试基于两个数据集微调模型,按照 Hugging Face 网站上的示例,我在 Yelp Review 数据集上进行模型训练,但我也想在...

回答 1 投票 0

运行时错误:无法导入transformers.integrations.bitsandbytes

我正在尝试以 4 位精度加载 llm 模型。但是,我得到了 RuntimeError: Failed to import Transformers.integrations.bitsandbytes 因为以下错误(查找它的 Traceba...

回答 1 投票 0

如何将段落拆分成没有标点符号(包括句号、逗号等)的句子

我想将段落分成没有标点符号的句子,包括句号、逗号等。 例如:“我叫 Brayan,今年 12 岁” 需要拆分为 我的名字是Br...

回答 1 投票 0

导入错误:无法从“layoutlm

我正在尝试保存 LayoutLM 模型的预测。 论文 - https://arxiv.org/abs/1912.13318 笔记本 - https://www.kaggle.com/code/iamarjunchandra/layoutlm-document-sequence-labeling-model/

回答 1 投票 0

LangChain 代理使用 Structured_chat_agent 和 Wikipedia 工具解析错误,handle_parsing_errors 达到限制

我试图要求 GPT 4 使用维基百科进行提示,通过 LangChain 使用代理和工具。 我遇到的困难是我一直在使用的书《使用 GPT-4 和 ChatGPT 开发应用程序》:Bu...

回答 1 投票 0

如何读取基于选区的解析树

我有一个由斯坦福大学 CoreNLP 系统预处理的句子语料库。它提供的功能之一是句子的解析树(基于选区)。虽然我可以理解解析树

回答 3 投票 0

Spacy:找不到模型“en_core_web_sm”。它似乎不是一个 Python 包或数据目录的有效路径

我正在尝试加载en_core_web_sm spaCy模型,但我没有成功。 发生的错误如下: OSError:[E050]找不到模型“en_core_web_sm”。没看出...

回答 3 投票 0

自然语言处理。序列到序列分类

我正在尝试运行我的代码进行序列到序列分类,但我遇到了一个名为 0D 或 1D 目标张量预期的错误,loss = criteria(outputs, la.. .

回答 1 投票 0

Python安装Constituent Tree Lib时出错

我正在尝试在Python中使用视觉上如此吸引人的成分树库:https://github.com/Halvani/Constituent-Treelib。我已按照安装步骤进行操作(pip install,...),但是...

回答 1 投票 0

如何在Python中稳定Kmeans集群

我正在分析以确定给定文本中的功能需求。为了实现这一目标,我从文本中提取了名词和动词,并应用 KMeans 聚类对相似的语义词进行分组

回答 1 投票 0

在格鲁吉亚数据集上从微调的 Mistral 7B 模型生成文本的问题

我使用包含大约 100,000 篇文章的乔治亚数据集对 Mistral 7B 模型进行了微调,包括自定义标记器微调。微调过程耗时约9个小时。然而,当...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.