reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

在openai体育馆中创建自定义环境,以游戏画面为观察依据

我已经使用PyGame制作了游戏。我想使用游戏屏幕的输出作为观察的习惯,而不是一组距离和角度。 (我看过用于自定义文档的文档...

回答 1 投票 0

计算机可以通过分析他人的游戏来学习游戏策略吗? [关闭]

我想知道是否有任何强化学习技术能够通过简单地分析其他人而不是玩游戏的比赛来学习如何玩游戏以及一些游戏策略,...]

回答 1 投票 4

深度Q学习**没有** OpenAI体育馆

是否有人在不使用开放式AI体育馆的情况下拥有或知道任何可以教授q学习的教程/课程。我正在尝试建立卷积q学习模型,并且使用...

回答 1 投票 -2

q-agent确实坏了,无法在0和-1的奖励之间做出决定

我在用dqn做某事;它没有用。我简化了问题,以便有2个动作:0和1。每个动作对应一个奖励:0或-1。不过,我的q代理人是...

回答 1 投票 0

如何为自定义问题创建MDP(RL)环境?

我正在尝试使用RL / GA解决资源调度问题。我被困在如何为问题创建自定义环境并实际进行一些测试的过程中。我阅读并实现了Q-Learning ...

回答 1 投票 0

RL算法已成功播放openai健身车CartPole-v1,但在atari Boxing-ram-v0上失败

我最近实现了ppo算法。他在CartPole-v1上运行良好,但在Boxing-ram-v0中却不起作用,有人可以解释吗?这是我的仓库,这是CartPole-v1和...

回答 1 投票 0

如何从pygame游戏中获取帧

我正在尝试从以前编码的pygames模块中提取帧,以在其上训练RL代理。但是,我不确定如何从游戏引擎中提取帧。更具体地说,我...

回答 1 投票 0

net.zero_grad()与optim.zero_grad()pytorch

这里,他们提到训练零参数梯度时需要包含optim.zero_grad()。我的问题是:我也可以做net.zero_grad(),是否会有相同的效果?还是...

回答 1 投票 2

IndexError:无法从空序列中选择

我正在尝试运行此命令python run.py --mode MLE并收到此错误。我找不到正确的解决方案。追溯(最近一次呼叫最近):文件“ run.py”,第208行,位于[[

回答 1 投票 0

通过两人游戏中的自玩游戏来提高Q学习代理的性能(MCTS?)[关闭]

我正在使用Q学习(第131页的萨顿书中所指定的非政策性TD-控制)来训练一个代理玩四连环。我的目标是纯粹通过...

回答 1 投票 0

将Q表保存到文件的最佳方法是什么?

我计划将我的q表保存到文本文件(作为字符串)以供将来使用,但是我想知道这样做的陷阱是什么?另外,关于存储q表的更好方法的任何建议...

回答 2 投票 2

两人游戏中的Q学习自学[关闭]

我正在使用Q学习(第131页的萨顿书中所指定的非政策性TD-控制)来训练一个代理玩四连环。我的目标是纯粹通过...

回答 1 投票 0

从python代码中解开错误的无效加载密钥'v'

我正在运行一个代码,该代码返回取消错误,任何人都可以帮助我理解此错误?谢谢......>

回答 1 投票 -1

我的DDQN网络是否正确实施?

这是我的重播/训练功能实现。我制作了DDQN,以便在重放/训练期间,模型比model2落后1批大小。通过将self.ddqn = False设置为普通DQN。这是...

回答 1 投票 0

您可以在卷积神经网络中添加强化学习以改善图像分类吗?

我对机器学习和深度学习非常陌生。我的疑问是如何在使用常规神经网络开发的图像分类器中增加强化学习,以随着时间的推移改善其性能?

回答 1 投票 0

为什么我的Tic Tac Toe Deep Q-Learning实现不学会阻止对手移动?

我正在尝试使用深度Q网络解决井字游戏。环境:长度为9的数组用于表示游戏的状态,其中1代表当前玩家的标记位置,...

回答 1 投票 0

同时具有状态值功能和动作值功能有什么用?

我是RL的初学者,想知道在RL算法(例如Markov Design Process)中具有状态值函数和动作值函数的优点是什么。有什么用...

回答 1 投票 0

PPO算法仅收敛于一个动作

我已经采用了PPO算法的一些参考实现,并正在尝试创建一个可以播放太空入侵者的代理。不幸的是,从第二次审判开始(在训练演员和...

回答 1 投票 0

Tensorflow session.run TypeError

我正在尝试学习RL和tensorflow。不幸的是,代码中有一个问题,我无法解决。以下调用失败:train_loss,_,train_summary = session.run([loss,...

回答 1 投票 1

PyTorch,具有LSTM的PPO不会按照情节轨迹进行训练

我正在学习强化学习。此代码会引起一些问题。当运行train()函数时,其策略和值函数输出均为Nan。这是我的运行简单环境的代码,...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.