来自有关tf.contrib.rnn.RNNCell的tensorflow文档:“这个单元格的定义与文献中使用的定义不同。在文献中,'单元'是指具有单个标量输出的对象。此定义指的是水平数组这些单位。“
看来,rnn单元只接受向量作为输入。但是我想将图像/视频提供给rnn(例如[批量大小,步长,高度,宽度,通道])。有没有办法使用rnn cell和dynamic rnn来做到这一点,还是我必须手动构建一个rnn?
正如你所说,RNN只接受像[batch_size,sequence_lentgh,features]这样的Tensor作为输入。
为了从tensorflow使用RNN,您必须为每个帧提取CNN的特征,并将CNN输出数据转换为跟随[batch_size,sequence_lentgh,features]形状的张量,以便将其提供给RNN。