强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。
我正在使用来自 Stablebaselines3 的 PPO 和 A2C 算法与 openai-gym 运行一些模拟。 我知道我可以自定义所有这些,但我想知道哪些是默认参数。 规格...
ValueError:使用序列设置数组元素。请求的数组将超过最大维数 1
模型没有学习..如果执行学习命令,就会出现值错误 导入jsbsim 导入系统 进口体育馆作为健身房 sys.modules["gym"] = 健身房 导入 jsbgym 导入操作系统 来自
我正在尝试使用旧教程 (https://www.youtube.com/watch?v=OYhFoMySoVs&t=2444s) 构建 RLearning 代理。我修复了一个关于旧健身房步骤功能的早期错误,但我似乎无法理解......
我打算解决的马尔可夫决策过程 (MDP) 的一个有趣量是状态 x 处的状态值函数 v。 (我的 MDP 是完全可观察的:观察 = 状态。) 我用的是TF-
我正试图理解贝尔曼方程,并面临一些困惑的时刻。1)在不同的资料中,我遇到了贝尔曼方程的不同定义。有时它被定义为价值状态......。
如何防止agent不停地重复同一个动作圈?当然,通过改变奖励系统的某种方式。但有没有一些通用的规则可以遵循,或者尝试包含在 ...
这几天我正在尝试着进行强化Deep-Q学习。而我是从一个基本的 "蛇 "的游戏开始的。在这篇文章的帮助下:https:/towardsdatascience.comhow-teach-an-ai-to-play-...。
DoodleJump Q-Learning,如何奖励和哪些输入?
我已经实现了DoodleJump,并希望人工智能通过Q -Learning来学习它。ANN和整个Q-Learning的过程也已经实现了。但目前看来是不行的。我很 ...
如果这是一个 "nooby "问题,很抱歉,但我真的不知道如何解决这个问题。我已经安装了keras和很多其他的东西用于深度学习与Ananconda,但现在我想尝试做一些......
我想知道如何绘制强化学习中的奖励曲线。特别是,我的模拟环境有很大的随机性。所以在奖励的原始数据中,有很多曲折的模式,甚至 ...
RuntimeError: size mismatch, m1: [5 x 10],m2: 在pytorchatensrcTHgenericTHTensorMath.cpp处,[5 x 32] 。
我需要你的帮助 运行下面的代码会抛出。RuntimeError: size mismatch, m1: [5 x 10], m2: 在pytorchatensrcTHgenericTHTensorMath.cpp处的[5 x 32],我看了类似的问题,但它们是...
我尝试使用saver方法保存模型(我使用DDPG类中的save函数来保存),但当恢复模型时,结果与我保存的模型相差甚远(我保存模型时, ...
在unity中创建了一个简单的游戏,球应该在不撞墙的情况下击中目标。于是,开始训练,结果太糟糕了。球只是收集4个目标中的一个。但是...
尊敬的组员们,你们好。我有与RL相关的疑问。请帮我指出正确的方向。我是一个相当新的RL,因此我的问题可能听起来很愚蠢,所以请容忍我。
PyTorch DQN代码不能解决OpenAI CartPole问题。
该代码来自DeepLizard教程;它显示,代理只能实现100集移动平均80-120秒,然后再重置下一集。OpenAI健身房认为195的平均数是 ...
NGU、R2D2、MuZero和Agent57在强化学习的分类学中处于什么位置?
OpenAI有一个很棒的强化学习算法分类法。我想知道下面的论文在这棵树上的位置?永不放弃 Agent57 MuZero R2D2
我已经尝试理解这个机器学习问题很多天了,它真的让我很困惑,我需要一些帮助。我正试图训练一个神经网络,其输入是一个图像,而这 ...
我想用RL-Coach和一个自定义的健身房环境做一个简单的BC实验。基于这个想法,我试图根据f_1,f_2和f_3来预测目标变量。Gym ...
我在我的一个项目中使用了这里提供的Soft Actor -Critic实施方案 但是当我尝试运行它时,我得到了以下错误。RuntimeError: one of the variables needed for gradient ...
我对RL很陌生,想知道RL的功能。在我的理解中,RL是一种神经网络,输入一个状态,输出每个动作的概率。训练...