reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

Stable Baselines 3:默认参数

我正在使用来自 Stablebaselines3 的 PPO 和 A2C 算法与 openai-gym 运行一些模拟。 我知道我可以自定义所有这些,但我想知道哪些是默认参数。 规格...

回答 1 投票 0

ValueError:使用序列设置数组元素。请求的数组将超过最大维数 1

模型没有学习..如果执行学习命令,就会出现值错误 导入jsbsim 导入系统 进口体育馆作为健身房 sys.modules["gym"] = 健身房 导入 jsbgym 导入操作系统 来自

回答 0 投票 0

如何正确重塑这个数组?

我正在尝试使用旧教程 (https://www.youtube.com/watch?v=OYhFoMySoVs&t=2444s) 构建 RLearning 代理。我修复了一个关于旧健身房步骤功能的早期错误,但我似乎无法理解......

回答 0 投票 0

使用TF-Agents的SAC代理时评估状态值函数

我打算解决的马尔可夫决策过程 (MDP) 的一个有趣量是状态 x 处的状态值函数 v。 (我的 MDP 是完全可观察的:观察 = 状态。) 我用的是TF-

回答 0 投票 0

贝尔曼方程定义

我正试图理解贝尔曼方程,并面临一些困惑的时刻。1)在不同的资料中,我遇到了贝尔曼方程的不同定义。有时它被定义为价值状态......。

回答 1 投票 0

代理商不间断地重复同一个动作圈,Q学习

如何防止agent不停地重复同一个动作圈?当然,通过改变奖励系统的某种方式。但有没有一些通用的规则可以遵循,或者尝试包含在 ...

回答 1 投票 0

利用强化学习,训练蛇按特定的步数吃食物。

这几天我正在尝试着进行强化Deep-Q学习。而我是从一个基本的 "蛇 "的游戏开始的。在这篇文章的帮助下:https:/towardsdatascience.comhow-teach-an-ai-to-play-...。

回答 1 投票 0

DoodleJump Q-Learning,如何奖励和哪些输入?

我已经实现了DoodleJump,并希望人工智能通过Q -Learning来学习它。ANN和整个Q-Learning的过程也已经实现了。但目前看来是不行的。我很 ...

回答 1 投票 0

蟒蛇如何导入keras-rl?

如果这是一个 "nooby "问题,很抱歉,但我真的不知道如何解决这个问题。我已经安装了keras和很多其他的东西用于深度学习与Ananconda,但现在我想尝试做一些......

回答 1 投票 0

绘制强化学习中的奖励曲线

我想知道如何绘制强化学习中的奖励曲线。特别是,我的模拟环境有很大的随机性。所以在奖励的原始数据中,有很多曲折的模式,甚至 ...

回答 1 投票 1

RuntimeError: size mismatch, m1: [5 x 10],m2: 在pytorchatensrcTHgenericTHTensorMath.cpp处,[5 x 32] 。

我需要你的帮助 运行下面的代码会抛出。RuntimeError: size mismatch, m1: [5 x 10], m2: 在pytorchatensrcTHgenericTHTensorMath.cpp处的[5 x 32],我看了类似的问题,但它们是...

回答 1 投票 0

如何保存DDPG模型?

我尝试使用saver方法保存模型(我使用DDPG类中的save函数来保存),但当恢复模型时,结果与我保存的模型相差甚远(我保存模型时, ...

回答 1 投票 1

为什么我的AI模型会训练,但不会进化 - ML代理商

在unity中创建了一个简单的游戏,球应该在不撞墙的情况下击中目标。于是,开始训练,结果太糟糕了。球只是收集4个目标中的一个。但是...

回答 1 投票 0

在强化学习中如何处理输入元素数的变化和多个动作?

尊敬的组员们,你们好。我有与RL相关的疑问。请帮我指出正确的方向。我是一个相当新的RL,因此我的问题可能听起来很愚蠢,所以请容忍我。

回答 1 投票 0

PyTorch DQN代码不能解决OpenAI CartPole问题。

该代码来自DeepLizard教程;它显示,代理只能实现100集移动平均80-120秒,然后再重置下一集。OpenAI健身房认为195的平均数是 ...

回答 1 投票 1

NGU、R2D2、MuZero和Agent57在强化学习的分类学中处于什么位置?

OpenAI有一个很棒的强化学习算法分类法。我想知道下面的论文在这棵树上的位置?永不放弃 Agent57 MuZero R2D2

回答 1 投票 0

在Keras中,我可以使用任意算法作为网络的损失函数吗?

我已经尝试理解这个机器学习问题很多天了,它真的让我很困惑,我需要一些帮助。我正试图训练一个神经网络,其输入是一个图像,而这 ...

回答 1 投票 0

RL-Coach简单行为克隆示例

我想用RL-Coach和一个自定义的健身房环境做一个简单的BC实验。基于这个想法,我试图根据f_1,f_2和f_3来预测目标变量。Gym ...

回答 1 投票 0

错误:梯度计算所需的一个变量已被inplace操作修改。

我在我的一个项目中使用了这里提供的Soft Actor -Critic实施方案 但是当我尝试运行它时,我得到了以下错误。RuntimeError: one of the variables needed for gradient ...

回答 1 投票 0

非重复动作的强化学习

我对RL很陌生,想知道RL的功能。在我的理解中,RL是一种神经网络,输入一个状态,输出每个动作的概率。训练...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.