word-embedding 相关问题

有关字嵌入的问题,自然语言处理中的语言建模技术。问题可能涉及特定方法,例如Word2Vec,GloVe,FastText等,或者字嵌入及其在机器学习库中的使用。

大矩阵上的余弦距离

我有一个大小为 (100000, 100) 的嵌入矩阵。 我想计算矩阵中所有成对的余弦距离。我尝试过使用 sklearn.metrics.pairwise.cosine_distances 函数,但它

回答 1 投票 0

是否可以对像 vec2word 这样的预训练词嵌入模型进行微调?

我正在我的搜索引擎系统中进行语义匹配。我看到词嵌入可以用于此任务。然而,我的数据集非常有限而且很小,所以我不认为训练一个单词

回答 1 投票 0

如何使用gensim使用deepset的词嵌入预训练模型?

我试图理解 word2vec,并决定尝试一下德语 word2vec 模型。然后我找到了 deepset 的关于他们预训练模型的页面,但我不明白如何使用......

回答 4 投票 0

GloVe 嵌入空字符串

它看起来像是 glove.twitter.27B.200d.txt 文件中空字符串的嵌入,该文件是此 zip 文件的一部分: https://nlp.stanford.edu/data/glove.twitter.27B.zip 在第 38523 行提供,...

回答 1 投票 0

pytorch:IndexError:索引超出自身范围

我正在按照此 github 代码尝试使用我自己的聊天来运行模型。我能够修复一些最初对我不起作用的事情(正则表达式、引导 txt 文件时的编码) 我正在...

回答 1 投票 0

嵌入pytorch

嵌入会让相似的单词彼此更接近吗?我只需要给它所有的句子吗?或者它只是一个查找表,我需要对模型进行编码?

回答 5 投票 0

使用 BERT 提高语义搜索引擎上下文准确性的技术有哪些?

我正在使用 BERT(使用余弦距离)实现语义搜索引擎,在某种程度上,该方法能够在高级上下文中找出句子。然而,当范围缩小时

回答 1 投票 0

ModuleNotFoundError:没有名为“llama_index.embeddings.langchain”的模块

我正在尝试使用LangChain嵌入,在Google colab中使用以下代码: 这些是安装: pip安装pypdf pip install -q Transformers einops 加速 langchain BitsandByte...

回答 1 投票 0

使用 HuggingFace 预训练模型生成文档嵌入时出现张量大小错误

我正在尝试使用 HuggingFace Transformer 库中预先训练的模型来获取文档嵌入。输入是文档,输出是使用预训练模型对该文档的嵌入...

回答 1 投票 0

Qdrant 矢量数据库中使用单个集合还是多个集合?

我是 Qdrant 的新手。目前,我计划将嵌入以及基本上包含语言信息的有效负载存储在 Qdrant(矢量数据库)中。我们的主要目标是使用 ANN

回答 1 投票 0

如何使用单词嵌入列表在 JSON 文件中搜索字符串并返回最近的出现次数?

我在 Python 中看到了一段代码,它生成一个包含嵌入表示(表示字符串的向量)的文件。 在模型“all-MiniLM-L6-v2”中生成的文件格式为: ...

回答 1 投票 0

Word2vec 中不存在该键

我在使用预训练模型时遇到了一些问题:w2v_512.model。 错误是“密钥‘xxx’不存在” 我认为这可能是“xxx”这个词无法转换为嵌入...

回答 1 投票 0

训练词嵌入时进行二次采样

NLP 新手,有一个关于词嵌入的问题。作为学习练习,我正在尝试训练自己的基于 word2vec 的一组词嵌入。我有一个英语句子语料库

回答 1 投票 0

Tensorflow 嵌入 InvalidArgumentError:索引 [18,16] = 11905 不在 [0, 11905) [[nodeequential_1/embedding_1/embedding_lookup

我正在使用 TF 2.2.0 并尝试创建 Word2Vec CNN 文本分类模型。但无论我如何尝试,模型或嵌入层始终存在问题。我找不到明确的解决方案...

回答 2 投票 0

旋转嵌入的平移不变性

RoPE(旋转位置编码),Llama中使用的位置编码,是一种相对位置编码。注意力分数必然仅由标记之间的相对距离决定。

回答 1 投票 0

在word2vec模型中测试时如何嵌入词汇?

我正在用 100 000 个词汇量训练我的 word2vec 模型(skip-gram)。但是在测试时,我得到了一些不在词汇表中的单词。为了找到它们的嵌入,我尝试了两种方法: 计算...

回答 1 投票 0

为什么可以将 OpenAI Embeddings 与 Anthropic Claude 模型一起使用?

我使用 Flowise 构建了一个 QnA 应用程序。 到目前为止,我将 ChatOpenAI 节点与 OpenAI Embeddings 一起使用。 今天,我想尝试一下 Anthropic Claude LLM,但找不到具体的 Anthropic Embedd...

回答 1 投票 0

初始化词汇表外 (OOV) 标记

我正在为 NLP 任务构建 TensorFlow 模型,并且正在使用预训练的 Glove 300d 词向量/嵌入数据集。 显然,有些标记无法解析为嵌入,因为没有包含在

回答 2 投票 0

如何使用 Huggingface 的生物医学模型来获取文本嵌入?

我有生物医学文本,我正在尝试获取使用生物医学变压器的嵌入: my_text = [“人类消费巧克力的历史可以追溯到公元 400 年,并且富含

回答 1 投票 0

有什么方法可以检索 langchain VectorStore 中的嵌入存储吗?

我正在使用 Langchain 加载文档,将其分割成块,嵌入这些块,嵌入它们,然后将嵌入向量存储到 langchain VectorStore 数据库中。我的用例要求我...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.