reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

StableBaselines3 / 步骤 vs.total_timestepsvs.训练期间解决环境的次数

model.learn(total_timesteps=20) 花费的时间比我预期的要长得多,所以我试图了解我是否应该: 节约时间步长 加快我的环境 env.step(action) 训练更多时间...

回答 1 投票 0

OpenAI-Gym Mojoco Walker2d-v4模型全局坐标错误

我收到错误 ValueError:XML 错误:不再支持全局坐标。要转换现有模型,请在 MuJoCo 2.3.3 或更早版本中加载并保存它们 当我尝试加载 walker2d-v4 模型时...

回答 2 投票 0

mat1 和 mat2 必须具有相同的 dtype,但具有 Byte 和 Float

我正在尝试为游戏 2048 实现一种深度 Q 网络强化学习代理。我遇到的问题是矩阵乘法期间数据类型不匹配,一个矩阵包含...

回答 1 投票 0

PPO参数调整

我已经在自己的环境中测试了PPO-Clip。然而,在实现收敛后,学习曲线有时会转变成足够低的奖励,如下所示。 当我检查训练情况时...

回答 1 投票 0

获取帧作为 CartPole 环境的观察

在Python中,我使用stablebaselines3和gymnasium来实现自定义DQN。我使用 atari 游戏测试了代理并正常工作,现在我还需要在 CartPole 等环境上测试它 问题是

回答 1 投票 0

“错误:模型不支持多个环境;它需要”“单个矢量化环境。”

我为 PPO 代理初始化了环境,但遇到了此错误。 AssertionError:该算法仅支持 (, 我为 PPO 代理初始化了环境,但遇到了此错误。 AssertionError: The algorithm only supports (<class 'gymnasium.spaces.box.Box'>, <class 'gymnasium.spaces.discrete.Discrete'>, <class 'gymnasium.spaces.multi_discrete.MultiDiscrete'>, <class 'gymnasium.spaces.multi_binary.MultiBinary'>) as action spaces but Discrete(3) was provided. 这是错误部分中的另一条语句。是空间离散引起的问题吗? 这是代码: class CustomEnv(gymnasium.Env): def __init__(self, dataset, columns): super(CustomEnv, self).__init__() if dataset is None: raise ValueError("The dataset must be provided.") if columns is None: raise ValueError("The columns must be provided.") self.dataset = dataset self.columns = columns if not isinstance(dataset, pd.DataFrame): raise ValueError("The dataset must be a DataFrame.") self.dataset = dataset self.initial_balance = 10000 # Initial balance for trading self.current_step = 0 # Current step in the dataset self.balance = self.initial_balance self.holding = 0 # Number of units of the asset held by the agent # Use "MPN5P" as the price column self.price_column = "MPN5P" self.current_price = self.dataset[self.price_column].iloc[self.current_step] # Current price of the asset self.action_space = spaces.Discrete(3) # Three actions: 0 = buy, 1 = sell, 2 = hold self.observation_space = spaces.Box(low=0, high=1, shape=(1,), dtype=np.float32) self.columns = columns 我期待环境能够正确初始化和训练。但它要么导致 NaN 错误,要么导致 AssertionError。 我相信这应该是 Gymnasium 版本的问题。 查看他们的网站,他们以同样的方式定义了一个离散的动作空间根据这个,用spaces.Discrete(3)。 但从错误中,我们看到 'gymnasium.spaces.discrete.Discrete' 是您的操作空间的正确类,暗示您应该使用 spaces.discrete.Discrete(3) 来代替。您可以尝试一下,根据错误它应该起作用。令人惊讶的是,here您也可以看到,根据文档,您不必将“离散”部分放在中间,所以我猜您有一个过时的版本。在其他情况下,请检查您的 Gymnasium 版本(不是 OpenAI Gym),看看它是否太旧。 否则,我只能想到 OpenAI Gym 和 Farama's Gymnasium 都存在的一些错误,并导致它们之间的差异导致一些问题(但我发现这不太可能)。

回答 1 投票 0

如何解决pytorch中剪枝模型的深度复制错误

我正在尝试构建一个强化学习模型,其中我的演员网络有一些修剪过的连接。 当使用 torchrl 中的数据收集器 SyncDataCollector 时,深度复制失败(请参见下面的错误)。 这似乎...

回答 1 投票 0

Gym eplus 环境重置出错。找不到平台相关库并且内核总是很忙

找不到平台相关库,内核总是很忙。我正在等待,内核仍然很忙,但我的 energyplus 已成功完成。 [2024-03-08 14:58:19,486]

回答 1 投票 0

Deep Q 学习中目标网络尾随的有效性有数学证明吗?

在深度 Q 学习中,让目标网络跟随主网络,并每 100 步左右同步它们似乎是常见的做法,但我不清楚为什么会这样。 最好的解释...

回答 1 投票 0

OpenAI Gym 中的盒子空间始终返回浮点值

我正在尝试使用 OpenAI Gym 开始强化学习。我尝试进行“Hotter-Colder”练习(https://gym.openai.com/envs/HotterColder-v0/)。 对于动作空间,我正在尝试...

回答 1 投票 0

Pytorch 几何图批处理不使用 DataLoader 进行强化学习

我对使用图神经网络(GNN)还很陌生。我正在使用 PyTorch 几何。我正在创建一个强化学习算法,因此我想避免使用内置的 DataLoade...

回答 1 投票 0

强化学习推导中的随机梯度下降[已关闭]

我正在阅读 Sutton 和 Barto 的 RL 教科书,并且一直致力于理解我们如何从方程 9.4 得到方程 9.5。据我了解,9.4中的nabla/del告诉我们,我们必须求...的导数

回答 1 投票 0

Python 错误显示 pygame 和gymnasium [classic-control] 未安装,但两者均已安装

我刚刚开始学习OpenAIgymnasium,从CartPole-v1开始。 作为新手,我正在学习 YouTube 教程;视频:https://www.youtube.com/watch?v=Mut_u40Sqz4&t=2076s (我准备...

回答 2 投票 0

在 google colab 中运行健身房 atari?

所以我希望使用 GPU/TPU 在 colab 上训练一个模型,因为我的本地机器没有 GPU/TPU。我并不关心可视化训练,我只是想让 colab 来完成大部分工作。 当

回答 3 投票 0

稳定基线 3 在剧集被截断时抛出 ValueError

因此,我尝试通过 stablebaselines3 在我的自定义体育馆环境中训练代理,但它似乎总是随机崩溃并抛出以下 ValueError: 追溯(最近一次调用...

回答 1 投票 0

用零初始化 Q 表是否会对强化学习中的第一个动作产生偏差?

我正在研究一个强化学习问题,我用零初始化了 Q 表。我注意到,当不同动作的所有 Q 值最初设置为零时,arg-max 函数...

回答 1 投票 0

ndims 必须 >= 2: 1 强化学习中的问题

我有以下代码,用于基于以下链接将深度学习模型应用于 LunarLander-v2 环境:LunarLander-v2 代码在这里: # 将gymnas导入为gym 导入张量...

回答 1 投票 0

我应该使用强化学习将哪些内容保存到文件/数据库中?

我写了一个小井字棋游戏。到目前为止,计算机使用随机动作与自己对战。 现在,我想通过编写一个代理来应用强化学习,该代理将基于...

回答 1 投票 0

我的图书馆gym无法导入到jupyter笔记本

为什么我在jupyter笔记本中导入gym,没有名为“gym”的模块???我已经有了环境并成功安装了gym,但是当我尝试导入时没有模块 在此输入图像描述 我

回答 1 投票 0

体育馆/宠物动物园:让 Tic Tac Toe 显示 ansi 文本

使用 Tic Tac Toe 环境: 从 pettingzoo.classic 导入 tictactoe_v3 env = tictactoe_v3.env(render_mode="ansi") 环境重置(种子=1) 环境步骤(1) 打印(env.render()) 这输出...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.