强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。
我正在尝试在 R 中实现 Q-Learning 算法: # 定义地图 地图<- matrix(c(0, 1, 1, 0, 0, 0, 0, 1), nrow = 2, ncol = 4, byrow = TRUE) # State labels rownames(map) <- c("S...
Pytorch:提供的尺寸数量(1)必须大于或等于张量中的维数(3)
我正在尝试为我的 dqn 代理使用优先重播缓冲区。我遇到的问题如下。 我有一个具有 (40, 40, 1) 状态表示的世界。当我尝试将过渡添加到...
在 main_UrbanRoadway.py 中,我借助 flow.core.params.py 中定义的 vehicle.add() 生成了 3 种类型的车辆流 要求 我对车辆流量的要求如下: 关注...
我正在尝试使用 OpenAI gym 的 CarRacing-v2 来使用 PPO 算法训练汽车 导入操作系统 进口健身房 从 stable_baselines3 导入 PPO 从 stable_baselines3.common.vec_env 导入 DummyVecEnv ...
经典强化学习Cartpole问题的代码抛出错误: ValueError:使用以下代码时要解压的值太多(预期为 4): ``` # 采取行动
我尝试修改 _calculate_reward 函数并且 ep-rew-mean 总是返回 0 即使在我用 gym-anytrading 的原始代码修改它之后...结果仍然是 0 def my_calculate_reward(环境,行动):
我设计了一个合作交流的MARL。现在我要确保通信部分。我有两个问题? 消息应该包含什么? 如何在...之间发送和接收消息
我正在学习强化学习,我想实施 Q-Network 来解决 OpenAI Taxi 环境问题。我在网上找到了这段代码,我正在尝试运行代码,但出现错误。贝尔...
“IndexError:索引 20 超出尺寸为 20 的轴 1 的范围”是什么
我在迷宫环境中进行 q 学习,但是,在初始阶段,它运行良好,但之后,我得到以下信息 max_future_q = np.max(q_table[new_discrete_state])
RuntimeError:梯度计算所需的变量之一已被 PyTorch 中的就地操作修改
我正在尝试为 10000 集的多代理 DDPG 网络 (MADDPG) 训练一个演员评论家网络,每集有 25 个时间步长。当我开始训练时,十集之后,我得到了这个
ValueError:“model_69”层需要 3 个输入,但它收到了 96 个输入张量
我试图不在 for 循环中使用 model.predict() 或 model.fit() 来加速训练,所以我试图针对我的案例实施此解决方案,但出现错误。该模型具有三个输入。 这是……
使用keras和openai gym的深度强化学习项目中的多个错误
我已经从有关深度 q-learning 的源代码中复制了代码以尝试从中学习,但它是一个较旧的源代码,因此 keras 和 openai gym 都有很多问题。我试过了
我想知道我可以使用哪些方法来预测概率分布。本人想学习的AI模型信息如下: 输入:特征向量,权重向量,结果值(
我编写了将目标对象移动到 2D 表面上特定目标位置的代码。 导入数学 将 numpy 导入为 np 将 matplotlib.pyplot 导入为 plt 进口健身房 从健身房导入空间 来自
运行sweep tuning时wandb可以定义输出目录吗? 我已经使用 wandb.init(dir="./out/") 定义了目录,但是 ./out/ 仅用于运行的输出,但是 ./wandb/
为什么我的 PPO 和 DQN 每集的平均奖励会随着时间的推移而减少?
我正在训练一个 RL 智能体来优化作业车间制造系统中的调度。我的方法基于以下代码:https://github.com/AndreasKuhnle/SimRLFab。它将环境迁移到
为什么我的 RL 训练代码会引发 OSerror:handle is closed
我在这里附上我的代码 定义火车(选择): 如果 torch.cuda.is_available(): 火炬.cuda.manual_seed(123) 别的: 火炬.manual_seed(123) 如果 os.path.isdir(opt.log_path):
我正在使用下面的代码(改编自 https://colab.research.google.com/github/keras-team/keras-io/blob/master/examples/rl/ipynb/actor_critic_cartpole.ipynb)来尝试并校准两个连续的
我们正在尝试学习围绕电路自动驾驶卡丁车。在我们的研究中,我们看到强化学习用于虚拟环境。现在我们正在尝试用变形金刚摩...
我正在尝试使用 GitHub (https://github.com/nicknochnack/Reinforcement-Learning-for-Trading-Custom-Signals/blob/main/Custom%20Signals.ipynb) 中的代码第 3 点: 模型 = A2C('