用于异常检测的 LSTM 自动编码器

Question

我正在测试 LSTM 自动编码器在 2D 输入异常检测方面的不同实现。我的问题不是关于代码本身，而是关于理解每个网络的底层行为。

两种实现都具有相同数量的单元 (16)。模型 2 是“典型”的 seq to seq 自动编码器，编码器的最后一个序列重复“n”次以匹配解码器的输入。我想了解为什么模型 1 似乎很容易超过模型 2，以及为什么模型 2 不能做得比平均值更好？

型号1：

class LSTM_Detector(Model):
  def __init__(self, flight_len, param_len, hidden_state=16):
    super(LSTM_Detector, self).__init__()
    self.input_dim = (flight_len, param_len)
    self.units = hidden_state
    self.encoder = layers.LSTM(self.units,
                  return_state=True,
                  return_sequences=True,
                  activation="tanh",
                  name='encoder',
                  input_shape=self.input_dim)
    
    self.decoder = layers.LSTM(self.units,
                  return_sequences=True,
                  activation="tanh",
                  name="decoder",
                  input_shape=(self.input_dim[0],self.units))
    
    self.dense = layers.TimeDistributed(layers.Dense(self.input_dim[1]))
    
  def call(self, x):
    output, hs, cs = self.encoder(x)
    encoded_state = [hs, cs] # see https://www.tensorflow.org/guide/keras/rnn  
    decoded = self.decoder(output, initial_state=encoded_state)
    output_decoder = self.dense(decoded)

    return output_decoder

型号2：

class Seq2Seq_Detector(Model):
  def __init__(self, flight_len, param_len, hidden_state=16):
    super(Seq2Seq_Detector, self).__init__()
    self.input_dim = (flight_len, param_len)
    self.units = hidden_state
    self.encoder = layers.LSTM(self.units,
                  return_state=True,
                  return_sequences=False,
                  activation="tanh",
                  name='encoder',
                  input_shape=self.input_dim)
    
    self.repeat = layers.RepeatVector(self.input_dim[0])
    
    self.decoder = layers.LSTM(self.units,
                  return_sequences=True,
                  activation="tanh",
                  name="decoder",
                  input_shape=(self.input_dim[0],self.units))
    
    self.dense = layers.TimeDistributed(layers.Dense(self.input_dim[1]))
    
  def call(self, x):
    output, hs, cs = self.encoder(x)
    encoded_state = [hs, cs] # see https://www.tensorflow.org/guide/keras/rnn 
    repeated_vec = self.repeat(output)
    decoded = self.decoder(repeated_vec, initial_state=encoded_state)
    output_decoder = self.dense(decoded)

    return output_decoder

我在数据样本上安装了 200 个 Epoch 的这 2 个模型

(89, 1500, 77)

每个输入都是

(1500, 77)

的 2D 数组。还有测试数据

(10,1500,77)

。两种型号都只有

16 units

。

这里是自动编码器对测试数据的一个特征的结果。

结果模型1：（黑线是真实的，重建图像中的红色）

结果模型2：

我知道第二个更具限制性，因为输入序列中的所有信息都被压缩为一步，但我仍然感到惊讶的是它几乎无法比预测平均值更好。

另一方面，我觉得模型 1 往往更容易受到新数据的“影响”，而无需回馈输入。请参阅下面的模型 1 的示例，其中输入有一条扁线：

PS：我知道这种模型的数据并不多，我有更多可用的数据，但在这个阶段我只是在尝试并试图建立我的理解。

PS 2：两个模型都没有过度拟合其数据，并且训练和验证曲线几乎像教科书一样。

为什么行为上会有这么大的差距？

Answer 1

在模型 1 中，77 个特征的每个点都以这种方式压缩和解压缩：77->16->16->77 加上前面步骤中的一些信息。似乎用 TimeDistributed(Dense(...)) 替换 LSTM 在这种情况下也可能有效，但不能肯定，因为我不知道数据。第三张图可能会更好。

当输入中没有有用信号时，模型 2 的预测通常会发生，并且模型能做的最好的事情（好吧，优化做）就是预测训练集的平均目标值。

在模型 2 中，您有：

...
    self.encoder = layers.LSTM(self.units,
                  return_state=True,
                  return_sequences=False,
...

然后

    self.repeat = layers.RepeatVector(self.input_dim[0])

所以，事实上，当它发生时

    repeated_vec = self.repeat(output)
    decoded = self.decoder(repeated_vec, initial_state=encoded_state)

它只需要编码器的最后一个输出（在本例中代表 1500 的最后一步），将其复制 1500 次（input_dim[0]），并尝试根据最后几个值的信息来预测所有 1500 个值。那些。这是模型丢失大部分有用信号的地方。它没有足够/任何有关输入的信息，并且它可以学习的最好的东西是为了最小化损失函数（我认为在这种情况下是 MSE 或MAE）是为了预测每个特征的平均值。

此外，seq to seq 模型通常会将解码器步骤的预测作为下一个解码器步骤的输入传递，在当前情况下，它始终是相同的值。

TL;DR 1) seq-to-seq 并不是这种情况下的最佳模型； 2) 由于瓶颈，除了预测每个特征的平均值之外，它无法真正学会做任何更好的事情。

用于异常检测的 LSTM 自动编码器

问题描述投票：0回答：1

1个回答

最新问题

用于异常检测的 LSTM 自动编码器

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1