当在带有负奖励的图中找到最短路径时,策略梯度(REINFORCE)会发散

问题描述 投票:0回答:1

我想使用策略梯度来找到网络中一组节点之间的最短路径。使用带有标记为-1的边的图表示网络。现在,负值最接近0的路径是最短路径。因此,我将梯度下降用于策略参数更新。

这是TensorFlow中的更新规则。

self.cross_entropy = tf.nn.softmax_cross_entropy_with_logits_v2(labels = self.outputTrue, logits = self.outputPred)
self.cerd = tf.tensordot(self.cross_entropy, self.reward, axes=1)
self.meanCEloss = self.cerd/tf.cast(BS,tf.float32) # BS is the batch size.
self.train_step = tf.train.AdamOptimizer(1e-4).minimize(self.meanCEloss)

但是,运行代码后,self.meanCEloss会一直朝负无穷大减小,直到发生下溢。损失评估需要解决哪些问题才能解决该问题?

python-3.x tensorflow shortest-path reinforcement-learning policy-gradient-descent
1个回答
0
投票

乘以-1,然后最小化。这样,它将尝试找到得分最低的路径:最短的洗澡时间。您正在做的是否定项的无穷小,它会变为-∞。

© www.soinside.com 2019 - 2024. All rights reserved.