reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

Stable Baselines 3：默认参数

我正在使用来自 Stablebaselines3 的 PPO 和 A2C 算法与 openai-gym 运行一些模拟。我知道我可以自定义所有这些，但我想知道哪些是默认参数。规格...

deep-learning reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

ValueError：使用序列设置数组元素。请求的数组将超过最大维数 1

模型没有学习..如果执行学习命令，就会出现值错误导入jsbsim 导入系统进口体育馆作为健身房 sys.modules["gym"] = 健身房导入 jsbgym 导入操作系统来自

reinforcement-learning multi-agent-reinforcement-learning

回答 0 投票 0

如何正确重塑这个数组？

我正在尝试使用旧教程 (https://www.youtube.com/watch?v=OYhFoMySoVs&t=2444s) 构建 RLearning 代理。我修复了一个关于旧健身房步骤功能的早期错误，但我似乎无法理解......

python numpy reinforcement-learning

回答 0 投票 0

使用TF-Agents的SAC代理时评估状态值函数

我打算解决的马尔可夫决策过程 (MDP) 的一个有趣量是状态 x 处的状态值函数 v。（我的 MDP 是完全可观察的：观察 = 状态。）我用的是TF-

tensorflow2.0 reinforcement-learning tensorflow-agents

回答 0 投票 0

贝尔曼方程定义

我正试图理解贝尔曼方程，并面临一些困惑的时刻。1）在不同的资料中，我遇到了贝尔曼方程的不同定义。有时它被定义为价值状态......。

dynamic-programming reinforcement-learning definition

回答 1 投票 0

代理商不间断地重复同一个动作圈，Q学习

如何防止agent不停地重复同一个动作圈？当然，通过改变奖励系统的某种方式。但有没有一些通用的规则可以遵循，或者尝试包含在 ...

python tensorflow reinforcement-learning q-learning

回答 1 投票 0

利用强化学习，训练蛇按特定的步数吃食物。

这几天我正在尝试着进行强化Deep-Q学习。而我是从一个基本的 "蛇 "的游戏开始的。在这篇文章的帮助下：https:/towardsdatascience.comhow-teach-an-ai-to-play-...。

machine-learning reinforcement-learning dqn

回答 1 投票 0

DoodleJump Q-Learning，如何奖励和哪些输入？

我已经实现了DoodleJump，并希望人工智能通过Q -Learning来学习它。ANN和整个Q-Learning的过程也已经实现了。但目前看来是不行的。我很 ...

python tensorflow reinforcement-learning q-learning

回答 1 投票 0

蟒蛇如何导入keras-rl？

如果这是一个 "nooby "问题，很抱歉，但我真的不知道如何解决这个问题。我已经安装了keras和很多其他的东西用于深度学习与Ananconda，但现在我想尝试做一些......

python keras anaconda spyder reinforcement-learning

回答 1 投票 0

绘制强化学习中的奖励曲线

我想知道如何绘制强化学习中的奖励曲线。特别是，我的模拟环境有很大的随机性。所以在奖励的原始数据中，有很多曲折的模式，甚至 ...

reinforcement-learning

回答 1 投票 1

RuntimeError: size mismatch, m1: [5 x 10]，m2: 在pytorchatensrcTHgenericTHTensorMath.cpp处，[5 x 32] 。

我需要你的帮助运行下面的代码会抛出。RuntimeError: size mismatch, m1: [5 x 10], m2: 在pytorchatensrcTHgenericTHTensorMath.cpp处的[5 x 32]，我看了类似的问题，但它们是...

python deep-learning pytorch reinforcement-learning

回答 1 投票 0

如何保存DDPG模型？

我尝试使用saver方法保存模型（我使用DDPG类中的save函数来保存），但当恢复模型时，结果与我保存的模型相差甚远（我保存模型时， ...

python tensorflow machine-learning reinforcement-learning

回答 1 投票 1

为什么我的AI模型会训练，但不会进化 - ML代理商

在unity中创建了一个简单的游戏，球应该在不撞墙的情况下击中目标。于是，开始训练，结果太糟糕了。球只是收集4个目标中的一个。但是...

c# unity3d tensorboard reinforcement-learning ml-agent

回答 1 投票 0

在强化学习中如何处理输入元素数的变化和多个动作？

尊敬的组员们，你们好。我有与RL相关的疑问。请帮我指出正确的方向。我是一个相当新的RL，因此我的问题可能听起来很愚蠢，所以请容忍我。

reinforcement-learning

回答 1 投票 0

PyTorch DQN代码不能解决OpenAI CartPole问题。

该代码来自DeepLizard教程；它显示，代理只能实现100集移动平均80-120秒，然后再重置下一集。OpenAI健身房认为195的平均数是 ...

python deep-learning reinforcement-learning openai-gym

回答 1 投票 1

NGU、R2D2、MuZero和Agent57在强化学习的分类学中处于什么位置？

OpenAI有一个很棒的强化学习算法分类法。我想知道下面的论文在这棵树上的位置？永不放弃 Agent57 MuZero R2D2

reinforcement-learning

回答 1 投票 0

在Keras中，我可以使用任意算法作为网络的损失函数吗？

我已经尝试理解这个机器学习问题很多天了，它真的让我很困惑，我需要一些帮助。我正试图训练一个神经网络，其输入是一个图像，而这 ...

python tensorflow keras neural-network reinforcement-learning

回答 1 投票 0

RL-Coach简单行为克隆示例

我想用RL-Coach和一个自定义的健身房环境做一个简单的BC实验。基于这个想法，我试图根据f_1，f_2和f_3来预测目标变量。Gym ...

python-3.x tensorflow machine-learning reinforcement-learning openai-gym

回答 1 投票 0

错误：梯度计算所需的一个变量已被inplace操作修改。

我在我的一个项目中使用了这里提供的Soft Actor -Critic实施方案但是当我尝试运行它时，我得到了以下错误。RuntimeError: one of the variables needed for gradient ...

python pytorch reinforcement-learning

回答 1 投票 0

非重复动作的强化学习

我对RL很陌生，想知道RL的功能。在我的理解中，RL是一种神经网络，输入一个状态，输出每个动作的概率。训练...

reinforcement-learning

回答 1 投票 0

reinforcement-learning 相关问题

最新问题