对于视频字幕模型,我对每个视频进行了 16 帧采样。我使用了 Video Swin Transformer 来提取视频特征,从而生成形状张量 (batch_size, 768, 4, 7, 7)。此外,我还使用 2D-CNN 来提取帧级特征,从而生成形状张量 (batch_size, 16, 768)。现在,我需要连接这两组特征以创建具有 (batch_size, 16, 768 * 2) 或类似形状的组合表示,以便通过传统的 Transformer 编码器有效地使用它们。如何实现这种串联以无缝集成到模型中?