结合 Video Swin Transformer 和 2D-CNN 功能进行视频字幕

问题描述 投票:0回答:0

对于视频字幕模型,我对每个视频进行了 16 帧采样。我使用了 Video Swin Transformer 来提取视频特征,从而生成形状张量 (batch_size, 768, 4, 7, 7)。此外,我还使用 2D-CNN 来提取帧级特征,从而生成形状张量 (batch_size, 16, 768)。现在,我需要连接这两组特征以创建具有 (batch_size, 16, 768 * 2) 或类似形状的组合表示,以便通过传统的 Transformer 编码器有效地使用它们。如何实现这种串联以无缝集成到模型中?

python conv-neural-network feature-extraction
© www.soinside.com 2019 - 2024. All rights reserved.