我是学习变形金刚的学生。我想问一下,当我用 Transformer BERT 对单词进行向量化并为每个单词获得 768 个向量维度时,我很困惑这些数字是从哪里来的,是否有计算它们的公式?或者这个向量已经根据Transformer上每个词的token索引定义好了。我需要对这个概念的解释。谢谢
array([[-0.6438617 , -0.16065954, -0.5565007 , ..., -0.25163442,
0.07514413, -0.30617303],
[-0.3400169 , 0.10424673, -0.03935281, ..., -0.40216202,
0.16795622, -0.4955315 ],
[-0.34042516, 0.5039195 , 0.02804005, ..., -0.23906936,
-0.17713265, -0.28009415],
...,
[-0.39777777, -0.84454346, 0.03105666, ..., -0.31586862,
-0.15702638, 0.08373763],
[-0.78589696, 0.01650803, 0.02775506, ..., -0.08069627,
0.07355314, -0.38013673],
[ 0.22893211, 0.862909 , 0.06432542, ..., 0.3613814 ,
-2.1936886 , -0.27759486]], dtype=float32)
所以,我只想知道如何计算这些向量以产生一个从 -1 到 1 变化的负数和正数。非常感谢