对PixelRNN的ROW_LSTM的一些疑惑

问题描述 投票:0回答:0

这里附上PixelRNN的论文---> https://arxiv.org/abs/1601.06759

在 3.1 节中,讨论 RowLSTM 的地方,我有以下疑问 1.) 他们使用大小为 (kx1) 的 1D_conv_kernel,我怀疑 kernel_sz 应该是 (1xk) 这样它只能连续看到。

2.) 然后他们说由于 1_D conv over input_image 的张量将具有形状 (4H xN x N),其中 H 是输出特征图的计数,据我所知每个 conv 结果的深度为 1,H conv 单位会得到深度为H的feature map,那么这4维是怎么来的?

3.) 然后在 gates 的一组方程之后,他们说 x_i 是输入映射的第 i_th 行 sz=(HxNx1) ,这里我有 2 个疑问--> a) input map指的是input images,那么这个H是干什么的? b) 他们将 x_i 称为一行,那么它应该具有 (1XN) 而不是 (NX1)

的 spatial_dim
  1. 请也阐明 K_ss 和 K_is 的暗淡。

提前致谢。非常感谢所有解决这些疑问的人。

我尝试在 Medium 上阅读有关 RowLSTM 的各种博客,但所有博客都只是逐行复制相同的内容而没有任何进一步的解释。

lstm generative
© www.soinside.com 2019 - 2024. All rights reserved.