word-embedding 相关问题

有关字嵌入的问题,自然语言处理中的语言建模技术。问题可能涉及特定方法,例如Word2Vec,GloVe,FastText等,或者字嵌入及其在机器学习库中的使用。

如何获得 RoBERTa 词嵌入?

给定一个“Roberta 是 BERT 的高度优化版本”类型的句子,我需要使用 RoBERTa 获取该句子中每个单词的嵌入。我尝试过查看示例...

回答 2 投票 0

向 HuggingFace 数据集添加新列

在数据集中我有 5000000 行,我想在我的数据集中添加一个名为“embeddings”的列。 数据集 = dataset.add_column('嵌入', 嵌入) 变量嵌入是一个 numpy memmap ...

回答 4 投票 0

将顶点ai文本嵌入响应转换为矢量表示

我正在尝试生成文本的矢量表示,然后将其放入我的搜索数据库中以执行操作,例如语义搜索或推荐。 为此,我首先使用顶点...

回答 2 投票 0

如何在langchain中创建嵌入模型

我想将 llama-2 的隐藏状态作为嵌入模型传递给我的方法 FAISS.from_document(, )。 目前,我有 llama-2 模型并获得嵌入...

回答 1 投票 0

用于文本分类的检索增强生成(RAG)

我目前正在探索实施检索增强生成(RAG)进行文本分类,但我面临着缺乏全面的在线资源来指导我完成整个过程的问题。 在

回答 1 投票 0

`torch.einsum` API 是如何工作的?

torch.einsum API 如何工作? 我试图理解如何 torch.einsum("ac,bc->ab",norm_max_func_embedding,norm_nl_embedding) 正在计算相似度? 我明白这是做...

回答 1 投票 0

如何获取 gensim.models.FastText.train() 的进度条?

我有以下代码来训练 FastText 嵌入模型。 embed_model = FastText(向量大小=meta_hyper['向量大小'], 窗口=meta_hyper['窗口'],

回答 1 投票 0

如何在 PyTorch 中将不同维度的嵌入和掩码相乘?

在我的前向方法中,我目前有一个大小为 torch.Size([8,22,16]) 的字符嵌入,其中 8 表示批量大小,22 表示数据集中每个单词的最大字符长度。 ..

回答 1 投票 0

如何将字符串对象类型转换回张量对象

我正在处理 csv。我嵌入了一个列并转换为张量。喜欢, 张量([-1.7110e-01, 1.3811e-01, -2.5881e-01, -1.8281e-01, -3.3073e-01, -1.1071e-01]) 将这些张量保存为...

回答 1 投票 0

bert中为什么使用nn.Embedding层进行位置编码?

在bert模型的huggingface实现中,对于位置嵌入,使用了nn.Embedding。 为什么使用它来代替变压器论文中描述的传统正弦/余弦位置嵌入......

回答 1 投票 0

HuggingFace 推理端点性能极慢

我使用 HuggingFace 的全 MiniLM-L6-v2 模型计算文本段落的向量嵌入。由于免费端点的响应速度并不总是足够快,而且我需要能够扩展,因此我部署了

回答 1 投票 0

是否有任何预训练的词嵌入可用于对源代码进行分类?

我正在尝试对从堆栈溢出中获取的源代码片段语料库进行分类。我正在探索各种技术,例如 Tf-Idf、带有 CNN 的 keras 嵌入层、bert 等。 由于源代码分类...

回答 1 投票 0

带有嵌入的 OpenAI 提示中的上下文有限

我正在研究 OpenAI 和 10k SEC PDF 文件。我的堆栈是OpenAI + Langchain + Pinecone。 我试图用

回答 1 投票 0

关于我之前关于使用 python 从头开始训练 Word2Vec 模型的问题的额外问题

我之前的问题 我确实从这段代码中完成了 word2vec 模型的训练,但我还有一些问题。 首先,我从函数generate_training_data中想知道,训练数据是否正确

回答 1 投票 0

更新faiss索引中的元素

我正在使用 faiss indexflatIP 来存储与某些单词相关的向量。我还使用另一个列表来存储单词(列表中第 n 个元素的向量是 faiss 索引中的第 n 个向量)。我有两个问题...

回答 4 投票 0

使用 GloVe 在 R 中预训练词嵌入

我正在尝试使用 GloVe 在 R 中使用预先训练的词嵌入。我有一个只有 40,000 个 token 的小语料库。有 30 条文本,有 3 个文档变量:议长、政党、政府任职年数。那个...

回答 0 投票 0

张量流异常:ValueError:形状(无,1)和(无,5)不兼容

我尝试使用“BBC新闻档案”的数据进行训练。因此,用于训练的序列具有以下形状:训练序列:(1780, 120),验证序列:(445, 120) 标签

回答 1 投票 0

为什么神经网络需要词嵌入?

当我们使用词嵌入对文档进行向量化时,为什么需要神经网络来进行文本分类?如果词嵌入捕获了单词/文档的含义,那么为什么我们不能只使用 cos...

回答 0 投票 0

在词嵌入训练期间如何对不同的词进行加权?

我可以用不同的重量称重吗?如何? 我知道我们用随机权重进行初始化,但我想以不同的方式对向量进行加权,例如,一个单词对于单词嵌入来说比另一个单词更重要,...

回答 0 投票 0

“词汇属性已从 KeyedVector 中删除”错误,Gensim 4.0.0

我正在尝试使用 Gensim 4.0 实现 word2vec 但它返回一个错误; AttributeError:在 Gensim 4.0.0 中,vocab 属性已从 KeyedVector 中删除。 使用 KeyedVector 的 .key_to_index 字典,.

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.