reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

我正在尝试在树莓派 4 上运行深度强化问题。代码在 colab 上成功运行，但显示以下错误。任何人都可以帮助我在树莓派 4 上运行此代码。谢谢

python tensorflow reinforcement-learning raspberry-pi4 openai-gym

回答 1 投票 0

我的python版本是3.6。我正在将本教程用于 Statecraft AI (https://pythonprogramming.net/building-neural-network-starcraft-ii-ai-python-sc2-tutorial/)。我从这里导入了 SC2 模块（

python-3.x neural-network artificial-intelligence reinforcement-learning

回答 4 投票 0

Matplotlib 图形在 RL 代理训练循环执行期间未更新

我目前正在开发一个 PPO 强化学习项目，使用 pytorch 和gymnasium 自定义环境。 Mi 的想法是，每 10 次训练迭代，绘制一个状态轨迹图和

python matplotlib pytorch reinforcement-learning

回答 1 投票 0

如何让我的代理在我的孪生延迟深度确定性策略梯度 (TD3) 程序中学习？

在 ChatGPT (3.5) 的帮助下，我一直在不知疲倦地使用运行双延迟深度确定性策略的 TensorFlow.js 将强化学习程序从 Python 转换为 JavaScript

javascript tensorflow machine-learning reinforcement-learning tensorflow.js

回答 1 投票 0

为什么稳定基线 3 中的多处理速度较慢？

我采用了 Stable Baselines 3 的多处理示例，一切都很好。 https://colab.research.google.com/github/Stable-Baselines-Team/rl-colab-notebooks/blob/sb3/multiprocessing_rl.ipynb#sc...

python multiprocessing reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

model.predict() 和 model.fit() 做什么？

我正在学习这个强化学习教程到目前为止真的很棒但是有人可以解释一下吗 newQ = model.predict(new_state.reshape(1,64), batch_size=1) 和莫...

python deep-learning keras reinforcement-learning

回答 2 投票 0

经过训练的 RL Cartpole 模型使用稳定基线产生的奖励很差

我正在尝试使用 stablebaseline3 在 cartpole 环境上实现 A2C 算法。虽然训练似乎很成功并获得了所需的奖励，但当我尝试使用该模式时......

python-3.x reinforcement-learning stable-baselines

回答 1 投票 0

为什么训练和推理的结果不同？

我正在使用双DQN算法训练强化学习。目标是将充满零的二维板变成一。为了训练成功，模型需要找到......

python tensorflow reinforcement-learning

回答 1 投票 0

针对 Gym 的 Taxi-v3 问题实施 DQN 很困难

我一直致力于使用强化学习算法解决 Gym Taxi-v3 问题。最初，我应用了表格 Q 学习，经过 10,000 次训练迭代后，该算法实现了......

reinforcement-learning q-learning dqn rllib

回答 1 投票 0

Tensorforce PPO 的评估阶段未达到预期效果

我构建了一个自定义强化学习环境并使用 PPO 来训练我的代理。以下是训练循环的片段。环境=环境.create(环境=networkEnvironm...

python tensorflow reinforcement-learning

回答 1 投票 0

缩放或将 numpy 数组的每个条目映射到另一个值范围

我正在尝试将强化学习连续动作值范围（-1.0,1.0）映射到实际输出。假设我有 numpy 动作数组 actions = np.array([-1., 0.2, -0.3, 0.5])。数组的值...

python numpy interpolation reinforcement-learning

回答 1 投票 0

DummyVecEnv 与 easyrl : AttributeError: 'tuple' 对象没有属性 'shape'

我正在为德州扑克（扑克）创建一个 PPO 代理，以下是我启动代理的方法： def initiate_agent(self, env): self.envwrapped = DummyVecEnv([lambda: env]) ob_size = 环境。

python reinforcement-learning

回答 1 投票 0

多智能体强化学习代码

我想研究一些基本的多智能体强化算法，如 team-Q、distributed-Q 以及频率最大 Q 值（FMQ），但我找不到相应的源代码。

reinforcement-learning

回答 1 投票 0

n_state,reward,done,info = env.step(action)返回值错误

剧集 = 10 对于范围内的剧集（1，剧集+1）：状态 = env.reset() 完成=假分数 = 0 虽然没有完成： env.render() 动作 = random.choice([0,1])

python machine-learning reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

'mujoco._structs.MjData'对象没有属性'solver_iter'

我正在关注 Jonny Codes 的本教程，并完全按照所示方式复制它：https://www.youtube.com/watch?v=OqvXHi_QtT0 我的代码是：将体育馆导入为健身房从 stable_baselines3 导入 SAC、TD3、...

reinforcement-learning openai-gym stable-baselines mujoco

回答 1 投票 0

NaN值张量，定制开放式ai健身房环境

我正在为 Boid (https://en.wikipedia.org/wiki/Boid)) 集群开发自定义环境，并使用 StableBaselines3 中的 PPO。初始 boid 位置是从 JSON 格式文件中读取的行动...

python reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

在路径搜索问题中使用强化学习时如何设置奖励函数？

我创建了一个具有微小随机影响且没有任何障碍的环境，智能体可以四处移动以找到从起点到目的地的路径。首先我使用 ϵ -greedy 策略加载 20000

python tensorflow pytorch neural-network reinforcement-learning

回答 1 投票 0

RLlib 中多代理环境观测空间的问题

我正在一个有两个代理（节点）的多代理环境中工作，每个代理必须根据对自己容量和...的容量的观察来决定是否传输。

reinforcement-learning openai-gym ray multi-agent rllib

回答 1 投票 0

打开AI Gym：Ant不渲染

我无法使用OpenAIgym框架渲染蚂蚁。这是我的代码：将体育馆导入为健身房 env =gym.make("Ant-v4") # 重置环境以开始新的剧集

python reinforcement-learning openai-gym

回答 1 投票 0

使用 ReinforcementLearning.jl 时 DQN 的大型离散状态

我正在使用 Julia 包 ReinforcementLearning.jl。我希望从 DQN 不需要枚举和修改整个状态空间这一事实中获益。所以，我的问题是如何描述

julia reinforcement-learning dqn state-space

回答 1 投票 0

reinforcement-learning 相关问题

最新问题