我正在使用深度强化学习方法来引导代理从一个初始点到目标点。场景中还有其他特工和障碍物。
我的第一个问题是神经网络的输入将会有什么。
这些是我在初始场景中所知道的元素:
在其他情况下,我读到神经网络的输入是图像(可能使用传感器),但就我而言,我不想使用视觉传感器。
2.我发现在强化学习算法中,数据集不是预先生成的,而是我们在训练时模拟数据。
我没有找到如何利用上面提到的 3 个元素创建数据集。
神经网络的输入:可以是您认为有助于代理决策的任何特征
您可以通过为每个动作生成奖励来模拟数据。奖励可以是正的或负的,它将作为神经网络的目标。经过多次训练后,您的代理将学会采取具有高回报奖励的行动。