reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

无法在 Anaconda 上从 OpenAI Gymnasium 捕获视频

我正在尝试从 OpenAI Gymnasium 捕获并保存视频。 在 Google Collab 中,此代码有效: !pip 安装体育馆 !pip 安装 moviepy 将体育馆导入为健身房 env =gym.make("CartPole-v1...

回答 1 投票 0

为什么我在尝试安装gym[all]时遇到错误?

我正在尝试安装gym[all],但每次都会收到此错误消息: 收集 pygame==2.1.0 (来自gym[all]) 使用缓存的 pygame-2.1.0.tar.gz (5.8 MB) 准备元数据(setup.py)...

回答 1 投票 0

无法使用 OpenGL 找到渲染

我正在使用 Mac,并尝试从 open ai 的健身房渲染环境 进口健身房 env=gym.make('CartPole-v1') img = env.render() 导入错误:找不到框架/System/Library/Frameworks/

回答 1 投票 0

自定义体育馆环境中的学习代理与 stable_baseline3 改变这个环境

我定制了一个gymnasium环境并使用stable_baseline3对其进行训练。但学习过程改变了我的环境。 >>>打印(env.step(2)) (510,-0.1,假,假,{}) >>>模型.学习(

回答 1 投票 0

无法在 stablebasekines3 中加载自定义模型

我尝试在 stablebaselines3 中加载预训练模型,但出现此错误。 C:\Users\prath\miniconda3 nvs lunitybutler\lib\site-packages\stable_baselines

回答 0 投票 0

Haskell GriWorld 无限循环

我正在尝试通过强化学习在 Haskell 中编写 GridWorld 模拟。我被困住了,因为我一直陷入第 109 行的无限循环。我已经盯着这个问题一周了,一个......

回答 1 投票 0

Keras-rl2 错误与 Tensorflow 的兼容性

我目前在使用 keras-rl2 和 tensorflow 时遇到问题,我不知道为什么,我只是在互联网上搜索 keras-rl2、tensorflow 和 keras 文档,但没有找到

回答 1 投票 0

我正在 Atari 上实施 DQN。我有一些与形状相关的问题

如果您可以从头开始制作 atari 基本 dqn(包装器除外),请分享该文件。 我随机收到 2 个错误 ValueError:使用序列设置数组元素。所要求的...

回答 1 投票 0

StableBaselines3 - NotImplementedError:不支持观察空间

我正在尝试在 Pendulum-v1 环境上运行 cleanrl。我通过转到此处并将默认 env-id 更改为 parser.add_argument("--env-id", type=str, default="Pendulum-v1&...

回答 1 投票 0

为什么我的 REINFORCE 算法无法学习?

我正在 CartPole 环境上训练 REINFORCE 算法。由于环境的简单性,我希望它能够快速学习。然而,这并没有发生。 这是主要部分...

回答 1 投票 0

从多种格式的RL脚本中AST提取参数

我有多种强化学习算法的实现,我试图从中提取参数、它们的数据类型和值。 然而,这些实现因脚本而异,有时

回答 1 投票 0

PyTorch 闪电运行时错误:CUDA 错误:初始化错误。 CPU 还可以工作

我不太擅长Python编码,而且我是Pytorch新手。问题是我可以通过定义 Accelerator = 'cpu' 在 CPU 上运行此代码,但是当我将其设置为 GPU 时,代码会卡在运行 _ = iter(train_lo...

回答 1 投票 0

如何修复安装 Box2D 时出现的造轮错误

我正在尝试在 Google Colab 中使用 Box2D 和 TensorFlow 编写强化学习模型。我对所有内容都有一个简单的一行安装命令,因为我发现 Colab 每当...

回答 1 投票 0

我们如何评估策略梯度方法中回报中的每项奖励?

StackOverflow 社区您好, 我对强化学习中的策略梯度方法有疑问。 在策略梯度方法中,我们增加/减少基于动作的对数概率......

回答 2 投票 0

StableBaselines3 / 步骤 vs.total_timestepsvs.训练期间解决环境的次数

model.learn(total_timesteps=20) 花费的时间比我预期的要长得多,所以我试图了解我是否应该: 节约时间步长 加快我的环境 env.step(action) 训练更多时间...

回答 1 投票 0

OpenAI-Gym Mojoco Walker2d-v4模型全局坐标错误

我收到错误 ValueError:XML 错误:不再支持全局坐标。要转换现有模型,请在 MuJoCo 2.3.3 或更早版本中加载并保存它们 当我尝试加载 walker2d-v4 模型时...

回答 2 投票 0

mat1 和 mat2 必须具有相同的 dtype,但具有 Byte 和 Float

我正在尝试为游戏 2048 实现一种深度 Q 网络强化学习代理。我遇到的问题是矩阵乘法期间数据类型不匹配,一个矩阵包含...

回答 1 投票 0

PPO参数调整

我已经在自己的环境中测试了PPO-Clip。然而,在实现收敛后,学习曲线有时会转变成足够低的奖励,如下所示。 当我检查训练情况时...

回答 1 投票 0

获取帧作为 CartPole 环境的观察

在Python中,我使用stablebaselines3和gymnasium来实现自定义DQN。我使用 atari 游戏测试了代理并正常工作,现在我还需要在 CartPole 等环境上测试它 问题是

回答 1 投票 0

“错误:模型不支持多个环境;它需要”“单个矢量化环境。”

我为 PPO 代理初始化了环境,但遇到了此错误。 AssertionError:该算法仅支持 (, 我为 PPO 代理初始化了环境,但遇到了此错误。 AssertionError: The algorithm only supports (<class 'gymnasium.spaces.box.Box'>, <class 'gymnasium.spaces.discrete.Discrete'>, <class 'gymnasium.spaces.multi_discrete.MultiDiscrete'>, <class 'gymnasium.spaces.multi_binary.MultiBinary'>) as action spaces but Discrete(3) was provided. 这是错误部分中的另一条语句。是空间离散引起的问题吗? 这是代码: class CustomEnv(gymnasium.Env): def __init__(self, dataset, columns): super(CustomEnv, self).__init__() if dataset is None: raise ValueError("The dataset must be provided.") if columns is None: raise ValueError("The columns must be provided.") self.dataset = dataset self.columns = columns if not isinstance(dataset, pd.DataFrame): raise ValueError("The dataset must be a DataFrame.") self.dataset = dataset self.initial_balance = 10000 # Initial balance for trading self.current_step = 0 # Current step in the dataset self.balance = self.initial_balance self.holding = 0 # Number of units of the asset held by the agent # Use "MPN5P" as the price column self.price_column = "MPN5P" self.current_price = self.dataset[self.price_column].iloc[self.current_step] # Current price of the asset self.action_space = spaces.Discrete(3) # Three actions: 0 = buy, 1 = sell, 2 = hold self.observation_space = spaces.Box(low=0, high=1, shape=(1,), dtype=np.float32) self.columns = columns 我期待环境能够正确初始化和训练。但它要么导致 NaN 错误,要么导致 AssertionError。 我相信这应该是 Gymnasium 版本的问题。 查看他们的网站,他们以同样的方式定义了一个离散的动作空间根据这个,用spaces.Discrete(3)。 但从错误中,我们看到 'gymnasium.spaces.discrete.Discrete' 是您的操作空间的正确类,暗示您应该使用 spaces.discrete.Discrete(3) 来代替。您可以尝试一下,根据错误它应该起作用。令人惊讶的是,here您也可以看到,根据文档,您不必将“离散”部分放在中间,所以我猜您有一个过时的版本。在其他情况下,请检查您的 Gymnasium 版本(不是 OpenAI Gym),看看它是否太旧。 否则,我只能想到 OpenAI Gym 和 Farama's Gymnasium 都存在的一些错误,并导致它们之间的差异导致一些问题(但我发现这不太可能)。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.