reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

如何修复 R 中 Q-Learning 算法的错误?

我正在尝试在 R 中实现 Q-Learning 算法: # 定义地图 地图<- matrix(c(0, 1, 1, 0, 0, 0, 0, 1), nrow = 2, ncol = 4, byrow = TRUE) # State labels rownames(map) <- c("S...

回答 1 投票 0

Pytorch:提供的尺寸数量(1)必须大于或等于张量中的维数(3)

我正在尝试为我的 dqn 代理使用优先重播缓冲区。我遇到的问题如下。 我有一个具有 (40, 40, 1) 状态表示的世界。当我尝试将过渡添加到...

回答 0 投票 0

流动车辆问题:避撞行为

在 main_UrbanRoadway.py 中,我借助 flow.core.params.py 中定义的 vehicle.add() 生成了 3 种类型的车辆流 要求 我对车辆流量的要求如下: 关注...

回答 0 投票 0

PPO算法的学习函数显示错误

我正在尝试使用 OpenAI gym 的 CarRacing-v2 来使用 PPO 算法训练汽车 导入操作系统 进口健身房 从 stable_baselines3 导入 PPO 从 stable_baselines3.common.vec_env 导入 DummyVecEnv ...

回答 1 投票 0

Cartpole 问题:要解压的值太多(预期为 4)

经典强化学习Cartpole问题的代码抛出错误: ValueError:使用以下代码时要解压的值太多(预期为 4): ``` # 采取行动

回答 1 投票 0

Gym-Anytrading RL环境返还0奖励

我尝试修改 _calculate_reward 函数并且 ep-rew-mean 总是返回 0 即使在我用 gym-anytrading 的原始代码修改它之后...结果仍然是 0 def my_calculate_reward(环境,行动):

回答 0 投票 0

如何在协作 MARL 中的代理之间发送(或广播)和接收消息

我设计了一个合作交流的MARL。现在我要确保通信部分。我有两个问题? 消息应该包含什么? 如何在...之间发送和接收消息

回答 0 投票 0

OpenAI DQN 运行时错误我该如何解决?

我正在学习强化学习,我想实施 Q-Network 来解决 OpenAI Taxi 环境问题。我在网上找到了这段代码,我正在尝试运行代码,但出现错误。贝尔...

回答 1 投票 0

“IndexError:索引 20 超出尺寸为 20 的轴 1 的范围”是什么

我在迷宫环境中进行 q 学习,但是,在初始阶段,它运行良好,但之后,我得到以下信息 max_future_q = np.max(q_table[new_discrete_state])

回答 3 投票 0

RuntimeError:梯度计算所需的变量之一已被 PyTorch 中的就地操作修改

我正在尝试为 10000 集的多代理 DDPG 网络 (MADDPG) 训练一个演员评论家网络,每集有 25 个时间步长。当我开始训练时,十集之后,我得到了这个

回答 0 投票 0

ValueError:“model_69”层需要 3 个输入,但它收到了 96 个输入张量

我试图不在 for 循环中使用 model.predict() 或 model.fit() 来加速训练,所以我试图针对我的案例实施此解决方案,但出现错误。该模型具有三个输入。 这是……

回答 0 投票 0

使用keras和openai gym的深度强化学习项目中的多个错误

我已经从有关深度 q-learning 的源代码中复制了代码以尝试从中学习,但它是一个较旧的源代码,因此 keras 和 openai gym 都有很多问题。我试过了

回答 0 投票 0

我可以用什么方法通过强化学习来预测概率分布?

我想知道我可以使用哪些方法来预测概率分布。本人想学习的AI模型信息如下: 输入:特征向量,权重向量,结果值(

回答 0 投票 0

PPO 算法不会学习

我编写了将目标对象移动到 2D 表面上特定目标位置的代码。 导入数学 将 numpy 导入为 np 将 matplotlib.pyplot 导入为 plt 进口健身房 从健身房导入空间 来自

回答 0 投票 0

Wandb Sweep 调整定义输出目录

运行sweep tuning时wandb可以定义输出目录吗? 我已经使用 wandb.init(dir="./out/") 定义了目录,但是 ./out/ 仅用于运行的输出,但是 ./wandb/

回答 0 投票 0

为什么我的 PPO 和 DQN 每集的平均奖励会随着时间的推移而减少?

我正在训练一个 RL 智能体来优化作业车间制造系统中的调度。我的方法基于以下代码:https://github.com/AndreasKuhnle/SimRLFab。它将环境迁移到

回答 0 投票 0

为什么我的 RL 训练代码会引发 OSerror:handle is closed

我在这里附上我的代码 定义火车(选择): 如果 torch.cuda.is_available(): 火炬.cuda.manual_seed(123) 别的: 火炬.manual_seed(123) 如果 os.path.isdir(opt.log_path):

回答 0 投票 0

多个连续变量的演员评论方法

我正在使用下面的代码(改编自 https://colab.research.google.com/github/keras-team/keras-io/blob/master/examples/rl/ipynb/actor_critic_cartpole.ipynb)来尝试并校准两个连续的

回答 0 投票 0

是否可以将强化学习应用于自动驾驶卡丁车?

我们正在尝试学习围绕电路自动驾驶卡丁车。在我们的研究中,我们看到强化学习用于虚拟环境。现在我们正在尝试用变形金刚摩...

回答 0 投票 0

A2C 和 stable_baselines3

我正在尝试使用 GitHub (https://github.com/nicknochnack/Reinforcement-Learning-for-Trading-Custom-Signals/blob/main/Custom%20Signals.ipynb) 中的代码第 3 点: 模型 = A2C('

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.