word-embedding 相关问题

有关字嵌入的问题,自然语言处理中的语言建模技术。问题可能涉及特定方法,例如Word2Vec,GloVe,FastText等,或者字嵌入及其在机器学习库中的使用。

用于文本分类的检索增强生成(RAG)

我目前正在探索实施检索增强生成(RAG)进行文本分类,但我面临着缺乏全面的在线资源来指导我完成整个过程的问题。 在

回答 1 投票 0

`torch.einsum` API 是如何工作的?

torch.einsum API 如何工作? 我试图理解如何 torch.einsum("ac,bc->ab",norm_max_func_embedding,norm_nl_embedding) 正在计算相似度? 我明白这是做...

回答 1 投票 0

如何获取 gensim.models.FastText.train() 的进度条?

我有以下代码来训练 FastText 嵌入模型。 embed_model = FastText(向量大小=meta_hyper['向量大小'], 窗口=meta_hyper['窗口'],

回答 1 投票 0

如何在 PyTorch 中将不同维度的嵌入和掩码相乘?

在我的前向方法中,我目前有一个大小为 torch.Size([8,22,16]) 的字符嵌入,其中 8 表示批量大小,22 表示数据集中每个单词的最大字符长度。 ..

回答 1 投票 0

如何将字符串对象类型转换回张量对象

我正在处理 csv。我嵌入了一个列并转换为张量。喜欢, 张量([-1.7110e-01, 1.3811e-01, -2.5881e-01, -1.8281e-01, -3.3073e-01, -1.1071e-01]) 将这些张量保存为...

回答 1 投票 0

bert中为什么使用nn.Embedding层进行位置编码?

在bert模型的huggingface实现中,对于位置嵌入,使用了nn.Embedding。 为什么使用它来代替变压器论文中描述的传统正弦/余弦位置嵌入......

回答 1 投票 0

HuggingFace 推理端点性能极慢

我使用 HuggingFace 的全 MiniLM-L6-v2 模型计算文本段落的向量嵌入。由于免费端点的响应速度并不总是足够快,而且我需要能够扩展,因此我部署了

回答 1 投票 0

是否有任何预训练的词嵌入可用于对源代码进行分类?

我正在尝试对从堆栈溢出中获取的源代码片段语料库进行分类。我正在探索各种技术,例如 Tf-Idf、带有 CNN 的 keras 嵌入层、bert 等。 由于源代码分类...

回答 1 投票 0

带有嵌入的 OpenAI 提示中的上下文有限

我正在研究 OpenAI 和 10k SEC PDF 文件。我的堆栈是OpenAI + Langchain + Pinecone。 我试图用

回答 1 投票 0

关于我之前关于使用 python 从头开始训练 Word2Vec 模型的问题的额外问题

我之前的问题 我确实从这段代码中完成了 word2vec 模型的训练,但我还有一些问题。 首先,我从函数generate_training_data中想知道,训练数据是否正确

回答 1 投票 0

更新faiss索引中的元素

我正在使用 faiss indexflatIP 来存储与某些单词相关的向量。我还使用另一个列表来存储单词(列表中第 n 个元素的向量是 faiss 索引中的第 n 个向量)。我有两个问题...

回答 4 投票 0

使用 GloVe 在 R 中预训练词嵌入

我正在尝试使用 GloVe 在 R 中使用预先训练的词嵌入。我有一个只有 40,000 个 token 的小语料库。有 30 条文本,有 3 个文档变量:议长、政党、政府任职年数。那个...

回答 0 投票 0

张量流异常:ValueError:形状(无,1)和(无,5)不兼容

我尝试使用“BBC新闻档案”的数据进行训练。因此,用于训练的序列具有以下形状:训练序列:(1780, 120),验证序列:(445, 120) 标签

回答 1 投票 0

为什么神经网络需要词嵌入?

当我们使用词嵌入对文档进行向量化时,为什么需要神经网络来进行文本分类?如果词嵌入捕获了单词/文档的含义,那么为什么我们不能只使用 cos...

回答 0 投票 0

在词嵌入训练期间如何对不同的词进行加权?

我可以用不同的重量称重吗?如何? 我知道我们用随机权重进行初始化,但我想以不同的方式对向量进行加权,例如,一个单词对于单词嵌入来说比另一个单词更重要,...

回答 0 投票 0

“词汇属性已从 KeyedVector 中删除”错误,Gensim 4.0.0

我正在尝试使用 Gensim 4.0 实现 word2vec 但它返回一个错误; AttributeError:在 Gensim 4.0.0 中,vocab 属性已从 KeyedVector 中删除。 使用 KeyedVector 的 .key_to_index 字典,.

回答 1 投票 0

基于嵌入的搜索

我正在尝试在文档中创建基于嵌入的搜索,其中包括标题、标题和内容。 这样我们就有了包含标题、标题和内容的数据框。 工作流程: 检索 k pa...

回答 1 投票 0

训练模型从用户文本输出 xml 文件以创建结构模型

我想训练一个模型,它将返回一个 xml 文件,然后我可以用它来创建结构模型。 例如,下面的代码表示具有一定交叉长度的一定长度的 Bar...

回答 0 投票 0

为什么 model.fit() 函数会报错?

我从 BERT 嵌入生成嵌入矩阵,如下所示: # 加载预训练模型分词器和模型 tokenizer = BertTokenizer.from_pretrained('bert-base-multilingual-cased') 模型 = BertModel.

回答 1 投票 0

如何在SQL Server中存储n维向量?

我想在 SQL Server 中存储一个大的 n 维向量(例如嵌入向量)作为与另一行关联的元数据。 在这个例子中,它将是一个 384 维向量,对于 e...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.