对PixelRNN的ROW_LSTM的一些疑惑

问题描述投票：0回答：0

这里附上PixelRNN的论文---> https://arxiv.org/abs/1601.06759

在 3.1 节中，讨论 RowLSTM 的地方，我有以下疑问 1.) 他们使用大小为 (kx1) 的 1D_conv_kernel，我怀疑 kernel_sz 应该是 (1xk) 这样它只能连续看到。

2.) 然后他们说由于 1_D conv over input_image 的张量将具有形状 (4H xN x N)，其中 H 是输出特征图的计数，据我所知每个 conv 结果的深度为 1，H conv 单位会得到深度为H的feature map，那么这4维是怎么来的？

3.) 然后在 gates 的一组方程之后，他们说 x_i 是输入映射的第 i_th 行 sz=(HxNx1) ，这里我有 2 个疑问--> a) input map指的是input images，那么这个H是干什么的？ b) 他们将 x_i 称为一行，那么它应该具有 (1XN) 而不是 (NX1)

的 spatial_dim

请也阐明 K_ss 和 K_is 的暗淡。

提前致谢。非常感谢所有解决这些疑问的人。

我尝试在 Medium 上阅读有关 RowLSTM 的各种博客，但所有博客都只是逐行复制相同的内容而没有任何进一步的解释。

lstm

generative

对PixelRNN的ROW_LSTM的一些疑惑

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0