Transformer嵌入数从何而来？

Question

我是学习变形金刚的学生。我想问一下，当我用 Transformer BERT 对单词进行向量化并为每个单词获得 768 个向量维度时，我很困惑这些数字是从哪里来的，是否有计算它们的公式？或者这个向量已经根据Transformer上每个词的token索引定义好了。我需要对这个概念的解释。谢谢

array([[-0.6438617 , -0.16065954, -0.5565007 , ..., -0.25163442,
         0.07514413, -0.30617303],
       [-0.3400169 ,  0.10424673, -0.03935281, ..., -0.40216202,
         0.16795622, -0.4955315 ],
       [-0.34042516,  0.5039195 ,  0.02804005, ..., -0.23906936,
        -0.17713265, -0.28009415],
       ...,
       [-0.39777777, -0.84454346,  0.03105666, ..., -0.31586862,
        -0.15702638,  0.08373763],
       [-0.78589696,  0.01650803,  0.02775506, ..., -0.08069627,
         0.07355314, -0.38013673],
       [ 0.22893211,  0.862909  ,  0.06432542, ...,  0.3613814 ,
        -2.1936886 , -0.27759486]], dtype=float32)

所以，我只想知道如何计算这些向量以产生一个从 -1 到 1 变化的负数和正数。非常感谢

Transformer嵌入数从何而来？

问题描述投票：0回答：0

最新问题

Transformer嵌入数从何而来？

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0