TensorFlow Universal Sentence Encoder Lite嵌入的有限范围？

Question

从TensorFlow.js中的universal-sentence-encoder开始，我注意到嵌入中的数字范围不是我预期的。我期待在[0-1]或[-1,1]之间进行一些分配，但是没有看到其中任何一个。

对于句子“猫很棒！”这是一个可视化，其中每个维度都投影到[-0.5,0.5]的比例上：

这是“我想知道这句话的嵌入将是什么”的相同类型的可视化（我尝试的前10个句子的模式类似）：

为了调试，我查看了demo Colab notebook中是否出现了同样的事情，看起来似乎是这样。如果我看到这两个句子的嵌入范围，我就会看到以下内容：

# NEW: added this, with different messages
messages = ["cats are great!", "sometimes models are confusing"]
values, indices, dense_shape = process_to_IDs_in_sparse_format(sp, messages)

with tf.Session() as session:
  session.run([tf.global_variables_initializer(), tf.tables_initializer()])
  message_embeddings = session.run(
      encodings,
      feed_dict={input_placeholder.values: values,
                input_placeholder.indices: indices,
                input_placeholder.dense_shape: dense_shape})

  for i, message_embedding in enumerate(np.array(message_embeddings).tolist()):
    print("Message: {}".format(messages[i]))
    print("Embedding size: {}".format(len(message_embedding)))
    message_embedding_snippet = ", ".join(
        (str(x) for x in message_embedding[:3]))
    print("Embedding: [{}, ...]\n".format(message_embedding_snippet))
    # NEW: added this, to show the range of the embedding output
    print("Embedding range: [{}, {}]".format(min(message_embedding), max(message_embedding)))

输出显示：

Message: cats are great!
Embedding range: [-0.05904272198677063, 0.05903803929686546]

Message: sometimes models are confusing
Embedding range: [-0.060731519013643265, 0.06075377017259598]

所以这再次不是我所期待的 - 范围比我预期的更窄。我认为这可能是我错过的TF惯例，但是无法在TFHub page或guide to text embeddings或paper中看到它，所以如果不深入研究训练代码，我不知道还能在哪里看。

colab笔记本示例代码有一个例句，上面写着：

Universal Sentence Encoder嵌入也支持短段落。段落的长度没有硬性限制。粗略地说，嵌入的“稀释”越多。

但嵌入的范围与colab中的所有其他示例大致相同，即使是一个单词示例。

我假设这个范围不仅仅是任意的，而且我确实认为范围集中在零和小，但我试图理解这个规模是如何形成的。

Answer 1

通用语句编码器的输出是长度为512的向量，其L2范数为（大约）1.0。您可以通过计算内部产品来检查这一点

ip = 0
for i in range(512):
  ip +=  message_embeddings[0][i] * message_embeddings[0][i]

print(ip)

> 1.0000000807544893

其含义是：

大多数值可能在以零为中心的狭窄范围内
向量中最大可能的单个值是1.0 - 这只有在所有其他值都精确为0时才会发生。
同样，最小可能值为-1。
如果我们采用长度为512的随机向量，值均匀分布，然后将其标准化为单位幅度，我们希望看到的值与您看到的范围相似。

rand_uniform = np.random.uniform(-1, 1, 512)
l2 = np.linalg.norm(rand_uniform)
plt.plot(rand_uniform / l2, 'b.')
axes = plt.gca()
axes.set_ylim([-0.5, 0.5])

从视觉上看，激励的分布看起来并不均匀，而是偏向极端。

TensorFlow Universal Sentence Encoder Lite嵌入的有限范围？

问题描述投票：0回答：1

1个回答

最新问题

TensorFlow Universal Sentence Encoder Lite嵌入的有限范围？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1