LSTM 无法从图像序列中正确学习

LSTM 无法从图像序列中正确学习

问题描述投票：0回答：0

我有一系列从视频中提取的连续图像序列，分为两类：广告和非广告。我的目标是训练一个神经网络来准确地对新的图像序列进行分类。为此，我创建了一个张量，其中包含每个图像的像素阵列和一个标记每个图像的 numpy 阵列。

我尝试使用 CNN 提取特征并使用获得的特征训练 LSTM。然而，尽管对网络进行了多次调整，其性能仍然保持在 52% 左右。当我从图像中提取自己的特征（Sobel 和颜色直方图）并用它们训练网络时，观察到相同的结果。即使在使用少量数据训练网络时，准确性也没有提高，这是出乎意料的，因为网络应该过度拟合数据。有趣的是，尽管不考虑时间相关性，但由 Conv2D 和 Dense 层组成的简单网络可以从数据中学习。

我不确定 LSTM 是否是该用例的最佳架构，或者我在实施中可能存在一些逻辑思维错误。也许应该考虑替代模型，例如变压器模型或更传统的分类方法？

如果有人能帮助我，那就太好了。如果有人感兴趣，我也可以分享我的代码。

machine-learning

deep-learning

classification

lstm

sequence

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0