注意机制能否应用于前馈神经网络之类的结构?

问题描述 投票:-1回答:2

最近,我学习了解码器-编码器网络和注意力机制,发现许多论文和博客在RNN网络上实现了注意力机制。

我很感兴趣其他网络是否可以包含注意力机制。例如,编码器是前馈神经网络,解码器是RNN。没有时间序列的前馈神经网络可以使用注意力机制吗?如果可以的话,请给我一些建议。谢谢!

deep-learning recurrent-neural-network attention-model feed-forward
2个回答
0
投票

是,可以将注意力/自我注意力/多头注意力机制用于其他前馈网络。也可以在基于CNN的体系结构中使用关注机制,即在预测图像的另一部分时应更注意图像的哪一部分。注意力背后的邮件思想是在预测一个特定的输出时给予其他所有输入权重,或针对NLP问题如何关联句子中的单词。您可以阅读有关真正著名的Transformer体系结构,该体系结构基于自我注意并且其中没有RNN。要获得不同类型的注意力机制的要点,可以阅读this blog


0
投票

通常,前馈网络将功能视为独立的;卷积网络关注相对位置和邻近度; RNN和LSTM具有内存限制,并且倾向于单向读取。

与这些相反,注意力和变形器可以从单词的较远部分(比单词出现的早晚)掌握单词的上下文,以便对信息进行编码,以帮助我们理解单词及其在系统中的作用称为句子。

这里有一个具有注意机制的前馈网络的好模型:

https://arxiv.org/pdf/1512.08756.pdf

希望有用。

© www.soinside.com 2019 - 2024. All rights reserved.