我正在尝试开发一种模型,可以预测给定图像序列的正面或负面。我计划首先将图像序列提供给 CNN 模型,然后再提供给 Transformer。这可能吗?我应该为此使用什么样的变压器?如果可能,请提供有关架构的信息。
谢谢