reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

选择按概率加权的随机状态

我正在尝试为自定义RL算法创建随机环境，此代码的目的是获取有序字典（例如：OrderedDict（[（0,1），（1,0），（2,0），（ 3,0）]）......中的第一个数字

python enumerate reinforcement-learning

回答 1 投票 1

SQUAD Challenge的EM得分

SQuAD Challenge将结果与F1和EM得分进行排名。有很多关于F1分数的信息（精确度和召回率的函数）。但EM得分会是多少？

tensorflow machine-learning deep-learning stanford-nlp reinforcement-learning

回答 1 投票 0

坚持理解TD（0）和TD（λ）的更新用途之间的区别

我正在研究这篇文章中的时间差异学习。这里TD（0）的更新规则对我来说很清楚，但是在TD（λ）中，我不明白所有先前状态的效用值是如何更新的...

machine-learning reinforcement-learning temporal-difference

回答 3 投票 9

TRPO / PPO在损失函数中的重要抽样项

在信任区域政策优化（TRPO）算法（以及随后的PPO）中，我不理解从标准政策梯度中替换对数概率项的动机......

machine-learning reinforcement-learning

回答 2 投票 0

DQN - Q-Loss没有收敛

我正在使用DQN算法来训练我的环境中的代理，如下所示：代理通过选择离散动作（左，右，上，下）来控制汽车。目标是驾驶所需的...

tensorflow deep-learning reinforcement-learning q-learning

回答 1 投票 5

无法使用具有函数逼近的Q-Learning来学习MountainCar

我正在尝试使用q-learning来实现求解MountainCar的线性函数逼近。我知道这个环境不能完全用线性函数近似，因为螺旋状......

python reinforcement-learning q-learning

回答 1 投票 2

CartPole的深度Q评分为9

所以我使用的是使用tensorflow来解决CartPole-v0的deepQ实现，但是输出有时（所有运行的40％）仍然停留在9.我尝试使用tf.set_random_seed修复种子，但是......

python python-3.x machine-learning tensorflow reinforcement-learning

回答 1 投票 0

FrozenLake Q-Learning更新问题

我正在学习Q-Learning并试图在OpenAI Gym的FrozenLake-v0问题上建立一个Q-learner。由于问题只有16个状态和4个可能的动作，所以应该相当容易，但看起来像......

python reinforcement-learning q-learning

回答 1 投票 0

为什么要连续采取行动？

在Deep Reinforcement Learning中，使用连续动作空间，为什么在代理执行之前将动作钳制在一起似乎是常见做法？示例：OpenAI Gym Mountain Car https：...

deep-learning reinforcement-learning continuous

回答 1 投票 1

具有负奖励的RL激活功能

对于具有正面和负面奖励的环境，我有一个关于适当激活功能的问题。在强化学习中，我相信，我们的产出应该是预期的......

machine-learning reinforcement-learning q-learning activation-function

回答 1 投票 4

MDP和强化学习 - VI，PI和Q学习算法的收敛性比较

我已经使用python实现了VI（Value Iteration），PI（Policy Iteration）和QLearning算法。比较结果后，我发现了一些东西。 VI和PI算法汇聚到相同的实用程序和......

python machine-learning reinforcement-learning q-learning mdp

回答 1 投票 1

张量流量损失已经很低

我正在进行强化学习的AI，并且我得到了奇怪的结果，丢失显示如下：Tensorflow损失：https：//imgur.com/a/Twacm在训练时，每场比赛结束后，它正在播放.. 。

python tensorflow keras reinforcement-learning othello

回答 1 投票 1

AlphaGo零板评估功能使用多个时间步作为输入......为什么？

根据AlphaGo Cheat Sheet，AlphaGo Zero使用一系列连续的板配置来编码其游戏状态。理论上，所有必要的信息都包含在最新的状态中，......

neural-network deep-learning artificial-intelligence torch reinforcement-learning

回答 1 投票 1

神经网络如何知道它从行动中得到的奖励？

我目前正致力于建立一个深度q网络，并且对我的Q网络如何知道我给它的奖励有点困惑。例如，我有这个状态动作功能与政策和时间...

neural-network deep-learning reinforcement-learning q-learning

回答 1 投票 2

Colaboratory：如何安装PyGame学习环境

在Colaboratory，我们被迫使用pip安装。一些第三个软件包，如健身房，PLE等，他们的安装应该是git clone https://github.com/ntasfi/PyGame-Learning-Environment.git cd ...

python linux jupyter-notebook reinforcement-learning google-colaboratory

回答 1 投票 0

如何正确实现DQN算法

我正在尝试在本文中实现DeepMind引入的Deep Q Learning算法：https：//arxiv.org/pdf/1312.5602.pdf我正在使用它来创建一个学习玩Pong的代理，但它... 。

machine-learning deep-learning artificial-intelligence reinforcement-learning openai-gym

回答 1 投票 0

Pytorch，`back` RuntimeError：尝试第二次向后遍历图形，但缓冲区已经被释放

我正在用PyTorch（0.4）实现DDPG并且卡住了支持损失。所以，首先我的代码执行更新：def update_nets（self，transitions）：“”“执行一个更新步骤：...

neural-network pytorch backpropagation reinforcement-learning loss

回答 2 投票 2

如何通过遵循全局步骤在Keras中实现指数衰减学习率

请看下面的例子#noding：utf-8 import numpy as np import pandas as pd import random import math from keras import Sequential from keras.layers import Dense，Activation from keras ....

neural-network keras deep-learning reinforcement-learning

回答 1 投票 2

使用tensorflow引入了一个新层

我想在tensorflow中引入一个新层作为激活函数。但是，有些错误无法解决。这是新图层的代码。 def smooth_relu（张量）：e = 0.15 alpha = ...

python tensorflow deep-learning reinforcement-learning

回答 1 投票 0

多臂强盗：当随机概率低于分配给强盗的成功概率时，为什么我们将奖励增加1

我试图了解使用python的多臂强盗问题。当随机概率小于成功时，我不断遇到返回值1（即奖励）的代码片段...

python machine-learning reinforcement-learning bandit

回答 1 投票 0

reinforcement-learning 相关问题

最新问题