reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

Raspberry pi 上的深度强化学习

我正在尝试在树莓派 4 上运行深度强化问题。代码在 colab 上成功运行,但显示以下错误。任何人都可以帮助我在树莓派 4 上运行此代码。谢谢

回答 1 投票 0

ModuleNotFoundError:没有名为“websockets”的模块

我的python版本是3.6。我正在将本教程用于 Statecraft AI (https://pythonprogramming.net/building-neural-network-starcraft-ii-ai-python-sc2-tutorial/)。我从这里导入了 SC2 模块(

回答 4 投票 0

Matplotlib 图形在 RL 代理训练循环执行期间未更新

我目前正在开发一个 PPO 强化学习项目,使用 pytorch 和gymnasium 自定义环境。 Mi 的想法是,每 10 次训练迭代,绘制一个状态轨迹图和

回答 1 投票 0

如何让我的代理在我的孪生延迟深度确定性策略梯度 (TD3) 程序中学习?

在 ChatGPT (3.5) 的帮助下,我一直在不知疲倦地使用运行双延迟深度确定性策略的 TensorFlow.js 将强化学习程序从 Python 转换为 JavaScript

回答 1 投票 0

为什么稳定基线 3 中的多处理速度较慢?

我采用了 Stable Baselines 3 的多处理示例,一切都很好。 https://colab.research.google.com/github/Stable-Baselines-Team/rl-colab-notebooks/blob/sb3/multiprocessing_rl.ipynb#sc...

回答 1 投票 0

model.predict() 和 model.fit() 做什么?

我正在学习这个强化学习教程 到目前为止真的很棒但是有人可以解释一下吗 newQ = model.predict(new_state.reshape(1,64), batch_size=1) 和 莫...

回答 2 投票 0

经过训练的 RL Cartpole 模型使用稳定基线产生的奖励很差

我正在尝试使用 stablebaseline3 在 cartpole 环境上实现 A2C 算法。 虽然训练似乎很成功并获得了所需的奖励,但当我尝试使用该模式时......

回答 1 投票 0

为什么训练和推理的结果不同?

我正在使用双DQN算法训练强化学习。 目标是将充满零的二维板变成一。 为了训练成功,模型需要找到......

回答 1 投票 0

针对 Gym 的 Taxi-v3 问题实施 DQN 很困难

我一直致力于使用强化学习算法解决 Gym Taxi-v3 问题。最初,我应用了表格 Q 学习,经过 10,000 次训练迭代后,该算法实现了......

回答 1 投票 0

Tensorforce PPO 的评估阶段未达到预期效果

我构建了一个自定义强化学习环境并使用 PPO 来训练我的代理。以下是训练循环的片段。 环境=环境.create(环境=networkEnvironm...

回答 1 投票 0

缩放或将 numpy 数组的每个条目映射到另一个值范围

我正在尝试将强化学习连续动作值范围(-1.0,1.0)映射到实际输出。 假设我有 numpy 动作数组 actions = np.array([-1., 0.2, -0.3, 0.5])。数组的值...

回答 1 投票 0

DummyVecEnv 与 easyrl : AttributeError: 'tuple' 对象没有属性 'shape'

我正在为德州扑克(扑克)创建一个 PPO 代理,以下是我启动代理的方法: def initiate_agent(self, env): self.envwrapped = DummyVecEnv([lambda: env]) ob_size = 环境。

回答 1 投票 0

多智能体强化学习代码

我想研究一些基本的多智能体强化算法,如 team-Q、distributed-Q 以及频率最大 Q 值(FMQ),但我找不到相应的源代码。

回答 1 投票 0

n_state,reward,done,info = env.step(action)返回值错误

剧集 = 10 对于范围内的剧集(1,剧集+1): 状态 = env.reset() 完成=假 分数 = 0 虽然没有完成: env.render() 动作 = random.choice([0,1])

回答 1 投票 0

'mujoco._structs.MjData'对象没有属性'solver_iter'

我正在关注 Jonny Codes 的本教程,并完全按照所示方式复制它:https://www.youtube.com/watch?v=OqvXHi_QtT0 我的代码是: 将体育馆导入为健身房 从 stable_baselines3 导入 SAC、TD3、...

回答 1 投票 0

NaN值张量,定制开放式ai健身房环境

我正在为 Boid (https://en.wikipedia.org/wiki/Boid)) 集群开发自定义环境,并使用 StableBaselines3 中的 PPO。 初始 boid 位置是从 JSON 格式文件中读取的 行动...

回答 1 投票 0

在路径搜索问题中使用强化学习时如何设置奖励函数?

我创建了一个具有微小随机影响且没有任何障碍的环境,智能体可以四处移动以找到从起点到目的地的路径。首先我使用 ϵ -greedy 策略加载 20000

回答 1 投票 0

RLlib 中多代理环境观测空间的问题

我正在一个有两个代理(节点)的多代理环境中工作,每个代理必须根据对自己容量和...的容量的观察来决定是否传输。

回答 1 投票 0

打开AI Gym:Ant不渲染

我无法使用OpenAIgym框架渲染蚂蚁。 这是我的代码: 将体育馆导入为健身房 env =gym.make("Ant-v4") # 重置环境以开始新的剧集

回答 1 投票 0

使用 ReinforcementLearning.jl 时 DQN 的大型离散状态

我正在使用 Julia 包 ReinforcementLearning.jl。我希望从 DQN 不需要枚举和修改整个状态空间这一事实中获益。所以,我的问题是如何描述

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.