将正态分布转换为softmax

Question

我在github上找到了一个很好的强化学习例子，我想用它。我的问题是输出是正态分布层（下面的代码），因为它用于连续动作空间，而我想将它用于离散动作空间，其中模型有4个输出，我选择其中一个输出为对环境的行动。

作为一个快速测试我在正常分布层的输出上argmax，然后一个热选择backprop的动作。

env_action = np.argmax(action)
action = np.zeros(ppo.a_dim)    # turn action into one-hot representation
action[env_action] = 1

它运作得很好，但显然只是做argmax使代理人表现得很贪婪而且不会探索。

所以（我意识到这非常hacky）我可以这样做：

nd_actions =  self.sess.run([self.sample_op], {self.state: state})       
rescale_nd = scale(nd_actions, 0, 1)
probs = tf.nn.softmax(rebase_nd)
action = np.random.choice(4, p=probs.numpy()[0])

这样做有什么本质上的错误吗？我知道最好将网络的输出层明显改为softmax，但不幸的是，这样做需要对代码进行大量的重写，所以作为概念验证，我想测试一下是否有效。

l1 = tf.layers.dense(self.state, 400, tf.nn.relu, trainable=trainable,
                     kernel_regularizer=w_reg, name="pi_l1")
l2 = tf.layers.dense(l1, 400, tf.nn.relu, trainable=trainable, kernel_regularizer=w_reg, name="pi_l2")
mu = tf.layers.dense(l2, self.a_dim, tf.nn.tanh, trainable=trainable,
                     kernel_regularizer=w_reg, name="pi_mu_out")
log_sigma = tf.get_variable(name="pi_log_sigma_out", shape=self.a_dim, trainable=trainable,
                            initializer=tf.zeros_initializer(), regularizer=w_reg)
norm_dist = tf.distributions.Normal(loc=mu * self.a_bound, scale=tf.exp(log_sigma))

Answer 1

我发现了一个输出分布层，它提供了我正在寻找的东西，现在我不需要重新编写大量的代码 - HURRAY！

a_logits = tf.layers.dense(l2, self.a_dim, kernel_regularizer=w_reg, name="pi_logits") 
dist = tf.distributions.Categorical(logits=a_logits)

将正态分布转换为softmax

问题描述投票：1回答：1

1个回答

最新问题

将正态分布转换为softmax

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1