reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。


什么是强化学习的策略? [关闭]

我已经看到了这样的话:策略定义在给定时间表现的学习代理的方式。粗略地说,政策是从环境感知国家行动是一个映射...

回答 3 投票 8

在强化学习探索/开发的最佳实践

我的问题如下我在PyTorch DQN教程中的代码检查,但当时指的是强化学习一般:什么是最优的勘探/开采的最佳实践...

回答 1 投票 1

神经网络设置和监控的强化学习

我对使用强化学习训练神经网络,例如,DQN几个问题:1。应定义我们的模型中,当我们使用regularizers或丢失? 2.我们可以在监控什么?

回答 1 投票 -1

Tensorflow和多:传递会话

我最近一直在使用虚拟机器人控制神经网络的项目。我用tensorflow它的代码了,它运行平稳。到目前为止,我用连续的模拟评估...

回答 2 投票 11

教机器人通过强化学习,收集之前达到极限状态格子世界项目

我的问题是下面。我有一个简单的格子世界:https://i.imgur.com/2QyetBg.png代理开始于标有启动初始状态,目标是达到标示的终端状态...

回答 1 投票 0

强化学习的良好实施?

对于AI-类项目,我需要实现一个强化学习算法击败俄罗斯方块的一个简单的游戏。这场比赛是用Java编写的,我们的源代码。我知道的基本知识...

回答 9 投票 22

如何更新张量(权重值)试图用两个独立的网络?

我一直试图让AI使用RL酒杯。现在,我试图让两个独立的网络,这是DQN的一种方式。我在网上搜索,发现了一些办法,并试图使用它,但失败了。这个 ...

回答 1 投票 0

政策梯度:为什么会搅乱数据导致性能在下降?

以上是平均成绩每100个集,当代理上健身房环境LunarLanderContinuous-V2上运行。橙色和蓝色线是当代理饲料转换的结果...

回答 1 投票 0

Pytorch ValueError:优化器得到一个空参数列表

当尝试创建一个神经网络并使用Pytorch对其进行优化时,我得到了ValueError:优化器获得了一个空参数列表这是代码。 import torch.nn as nn import torch.nn ....

回答 1 投票 2

神经网络不学习(损失保持不变)

我和我的项目合作伙伴目前正面临着我们最新大学项目的问题。我们的任务是实现一个玩Pong游戏的神经网络。我们正在给球位置......

回答 1 投票 3

当Pytorch的mul()函数与numpy结合使用时,为什么会看到TypeError?

我在终端中收到以下错误:Traceback(最近一次调用最后一次):文件“deep_Q_learner.py”,第289行,in agent.replay_experience()文件“deep_Q_learner.py”,...

回答 1 投票 0

可以采取多种措施时的政策梯度是多少?

我试图使用政策渐变来编写强化学习算法,这是由Karpathy的博客文章启发的。 Karpathy的例子只有两个动作UP或DOWN,所以单个输出神经元......

回答 1 投票 1

强化学习中的负面奖励

我无法解决问题:如何消极的奖励有助于机器避免它们?问题的起源来自谷歌的游戏Pong解决方案。按照他们的逻辑,一旦游戏结束(......

回答 2 投票 0

如何确定CartPole环境何时解决?

我正在阅读本教程并看到以下代码:#Calculate score以确定环境何时解决得分。时间(时间)mean_score = np ....

回答 2 投票 0

OpenAI-Gym中的自定义环境

我想在Python中尝试强化学习。但我想用自己的州和奖励创建一个自定义环境。可能我想在这里使用时间序列数据(没有像股票......

回答 1 投票 -1

Pytorch:如何创建一个不是衍生品的更新规则?

我想实现下面的算法,取自本书第13.6节:我不明白如何在pytorch中实现更新规则(w的规则与theta的规则非常相似)。作为......

回答 1 投票 5

Epsilon和学习率衰减在epsilon贪婪q学习

我知道epsilon标志着勘探和开发之间的权衡。一开始,你希望epsilon高,这样你就可以大跃进并学习东西。当你了解未来......

回答 1 投票 3

张量的元素0不需要grad,也没有grad_fn

仅供参考:我正在尝试将重新学习机制应用于分类任务。我知道做cus深度学习在任务中可以超越rl是没用的。无论如何,在研究目的我...

回答 1 投票 0

OpenAI Gym - 如何创建一个热门的观察空间?

除了openAI的文档,我还没有找到更详细的文档。我需要知道正确的创建方式:一个具有1..n可能动作的动作空间。 (目前使用...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.