结合 Video Swin Transformer 和 2D-CNN 功能进行视频字幕

问题描述投票：0回答：0

对于视频字幕模型，我对每个视频进行了 16 帧采样。我使用了 Video Swin Transformer 来提取视频特征，从而生成形状张量 (batch_size, 768, 4, 7, 7)。此外，我还使用 2D-CNN 来提取帧级特征，从而生成形状张量 (batch_size, 16, 768)。现在，我需要连接这两组特征以创建具有 (batch_size, 16, 768 * 2) 或类似形状的组合表示，以便通过传统的 Transformer 编码器有效地使用它们。如何实现这种串联以无缝集成到模型中？

python

conv-neural-network

feature-extraction

结合 Video Swin Transformer 和 2D-CNN 功能进行视频字幕

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0