为什么使用行的第一个标记作为句子向量

问题描述 投票:0回答:1

在Tomas Mikolov的doc2vec实现中,句子的第一个标记用作句子向量。但我不知道这是否会占用第一个令牌并影响其单词向量。我考虑为每个句子分别设置句子向量,这相当于一个单词,就像上下文窗口中偏移量为-1或结尾的单词一样。它也像其他单词一样初始化。我不确定这是否正确。也许我还没有理解Tomas Mikolov的方法?期待您的回复。

nlp doc2vec
1个回答
0
投票

使用行上的第一个标记作为检索学习的pargraph-vector的关键只是一种快速简单的输入格式约定。它让Mikolov很容易将'Paragraph Vector'算法实现为word2vec.c的一个小补丁,只需稍加特殊处理第一个令牌。

当您使用该补丁中的代码时,如果激活了paragraph-vectors标志,则第一个标记不会被视为正常单词,而是其余句子/上下文的一部分。

如果您需要更多灵活性,可以查看其他库中相同算法的实现。例如,'Paragraph Vector'算法在Python gensim库中可用作类Doc2Vec,并包含更多选项 - 包括从单个文本训练多个doc-vector,其他可控元参数和惯用Python数据源。

© www.soinside.com 2019 - 2024. All rights reserved.