reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

我正在尝试在 R 中实现 Q-Learning 算法： # 定义地图地图<- matrix(c(0, 1, 1, 0, 0, 0, 0, 1), nrow = 2, ncol = 4, byrow = TRUE) # State labels rownames(map) <- c("S...

r reinforcement-learning sample

回答 1 投票 0

Pytorch：提供的尺寸数量（1）必须大于或等于张量中的维数（3）

我正在尝试为我的 dqn 代理使用优先重播缓冲区。我遇到的问题如下。我有一个具有 (40, 40, 1) 状态表示的世界。当我尝试将过渡添加到...

python-3.x pytorch buffer reinforcement-learning dqn

回答 0 投票 0

流动车辆问题：避撞行为

在 main_UrbanRoadway.py 中，我借助 flow.core.params.py 中定义的 vehicle.add() 生成了 3 种类型的车辆流要求我对车辆流量的要求如下：关注...

python reinforcement-learning sumo traffic-simulation flow

回答 0 投票 0

PPO算法的学习函数显示错误

我正在尝试使用 OpenAI gym 的 CarRacing-v2 来使用 PPO 算法训练汽车导入操作系统进口健身房从 stable_baselines3 导入 PPO 从 stable_baselines3.common.vec_env 导入 DummyVecEnv ...

python machine-learning reinforcement-learning openai-gym

回答 1 投票 0

Cartpole 问题：要解压的值太多（预期为 4）

经典强化学习Cartpole问题的代码抛出错误： ValueError：使用以下代码时要解压的值太多（预期为 4）： ``` # 采取行动

python reinforcement-learning

回答 1 投票 0

Gym-Anytrading RL环境返还0奖励

我尝试修改 _calculate_reward 函数并且 ep-rew-mean 总是返回 0 即使在我用 gym-anytrading 的原始代码修改它之后...结果仍然是 0 def my_calculate_reward（环境，行动）：

machine-learning reinforcement-learning algorithmic-trading

回答 0 投票 0

如何在协作 MARL 中的代理之间发送（或广播）和接收消息

我设计了一个合作交流的MARL。现在我要确保通信部分。我有两个问题？消息应该包含什么？如何在...之间发送和接收消息

reinforcement-learning multi-agent-reinforcement-learning

回答 0 投票 0

OpenAI DQN 运行时错误我该如何解决？

我正在学习强化学习，我想实施 Q-Network 来解决 OpenAI Taxi 环境问题。我在网上找到了这段代码，我正在尝试运行代码，但出现错误。贝尔...

python-3.x reinforcement-learning openai-gym

回答 1 投票 0

“IndexError：索引 20 超出尺寸为 20 的轴 1 的范围”是什么

我在迷宫环境中进行 q 学习，但是，在初始阶段，它运行良好，但之后，我得到以下信息 max_future_q = np.max(q_table[new_discrete_state])

python reinforcement-learning maze q-learning

回答 3 投票 0

RuntimeError：梯度计算所需的变量之一已被 PyTorch 中的就地操作修改

我正在尝试为 10000 集的多代理 DDPG 网络 (MADDPG) 训练一个演员评论家网络，每集有 25 个时间步长。当我开始训练时，十集之后，我得到了这个

python-3.x pytorch reinforcement-learning multi-agent-reinforcement-learning

回答 0 投票 0

ValueError：“model_69”层需要 3 个输入，但它收到了 96 个输入张量

我试图不在 for 循环中使用 model.predict() 或 model.fit() 来加速训练，所以我试图针对我的案例实施此解决方案，但出现错误。该模型具有三个输入。这是……

tensorflow keras deep-learning reinforcement-learning dqn

回答 0 投票 0

使用keras和openai gym的深度强化学习项目中的多个错误

我已经从有关深度 q-learning 的源代码中复制了代码以尝试从中学习，但它是一个较旧的源代码，因此 keras 和 openai gym 都有很多问题。我试过了

python tensorflow keras reinforcement-learning openai-gym

回答 0 投票 0

我可以用什么方法通过强化学习来预测概率分布？

我想知道我可以使用哪些方法来预测概率分布。本人想学习的AI模型信息如下：输入：特征向量，权重向量，结果值（

deep-learning reinforcement-learning probability-distribution

回答 0 投票 0

PPO 算法不会学习

我编写了将目标对象移动到 2D 表面上特定目标位置的代码。导入数学将 numpy 导入为 np 将 matplotlib.pyplot 导入为 plt 进口健身房从健身房导入空间来自

python machine-learning reinforcement-learning

回答 0 投票 0

Wandb Sweep 调整定义输出目录

运行sweep tuning时wandb可以定义输出目录吗？我已经使用 wandb.init(dir="./out/") 定义了目录，但是 ./out/ 仅用于运行的输出，但是 ./wandb/

logging artificial-intelligence reinforcement-learning wandb

回答 0 投票 0

为什么我的 PPO 和 DQN 每集的平均奖励会随着时间的推移而减少？

我正在训练一个 RL 智能体来优化作业车间制造系统中的调度。我的方法基于以下代码：https://github.com/AndreasKuhnle/SimRLFab。它将环境迁移到

reinforcement-learning openai-gym python-3.10 simpy reward

回答 0 投票 0

为什么我的 RL 训练代码会引发 OSerror:handle is closed

我在这里附上我的代码定义火车（选择）：如果 torch.cuda.is_available(): 火炬.cuda.manual_seed(123) 别的：火炬.manual_seed(123) 如果 os.path.isdir(opt.log_path):

python conv-neural-network python-multiprocessing reinforcement-learning openai-gym

回答 0 投票 0

多个连续变量的演员评论方法

我正在使用下面的代码（改编自 https://colab.research.google.com/github/keras-team/keras-io/blob/master/examples/rl/ipynb/actor_critic_cartpole.ipynb）来尝试并校准两个连续的

python tensorflow keras reinforcement-learning actor-critics

回答 0 投票 0

是否可以将强化学习应用于自动驾驶卡丁车？

我们正在尝试学习围绕电路自动驾驶卡丁车。在我们的研究中，我们看到强化学习用于虚拟环境。现在我们正在尝试用变形金刚摩...

python deep-learning reinforcement-learning

回答 0 投票 0

A2C 和 stable_baselines3

我正在尝试使用 GitHub (https://github.com/nicknochnack/Reinforcement-Learning-for-Trading-Custom-Signals/blob/main/Custom%20Signals.ipynb) 中的代码第 3 点：模型 = A2C('

tensorflow reinforcement-learning openai-gym stable-baselines

回答 1 投票 0

reinforcement-learning 相关问题

最新问题