LSTM 无法从图像序列中正确学习

问题描述 投票:0回答:0

我有一系列从视频中提取的连续图像序列,分为两类:广告和非广告。我的目标是训练一个神经网络来准确地对新的图像序列进行分类。为此,我创建了一个张量,其中包含每个图像的像素阵列和一个标记每个图像的 numpy 阵列。

我尝试使用 CNN 提取特征并使用获得的特征训练 LSTM。然而,尽管对网络进行了多次调整,其性能仍然保持在 52% 左右。当我从图像中提取自己的特征(Sobel 和颜色直方图)并用它们训练网络时,观察到相同的结果。即使在使用少量数据训练网络时,准确性也没有提高,这是出乎意料的,因为网络应该过度拟合数据。有趣的是,尽管不考虑时间相关性,但由 Conv2D 和 Dense 层组成的简单网络可以从数据中学习。

我不确定 LSTM 是否是该用例的最佳架构,或者我在实施中可能存在一些逻辑思维错误。也许应该考虑替代模型,例如变压器模型或更传统的分类方法?

如果有人能帮助我,那就太好了。如果有人感兴趣,我也可以分享我的代码。

machine-learning deep-learning classification lstm sequence
© www.soinside.com 2019 - 2024. All rights reserved.