reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

AlphaGo零板评估功能使用多个时间步作为输入......为什么?

根据AlphaGo Cheat Sheet,AlphaGo Zero使用一系列连续的板配置来编码其游戏状态。理论上,所有必要的信息都包含在最新的状态中,......

回答 1 投票 1

神经网络如何知道它从行动中得到的奖励?

我目前正致力于建立一个深度q网络,并且对我的Q网络如何知道我给它的奖励有点困惑。例如,我有这个状态动作功能与政策和时间...

回答 1 投票 2

Colaboratory:如何安装PyGame学习环境

在Colaboratory,我们被迫使用pip安装。一些第三个软件包,如健身房,PLE等,他们的安装应该是git clone https://github.com/ntasfi/PyGame-Learning-Environment.git cd ...

回答 1 投票 0

如何正确实现DQN算法

我正在尝试在本文中实现DeepMind引入的Deep Q Learning算法:https://arxiv.org/pdf/1312.5602.pdf我正在使用它来创建一个学习玩Pong的代理,但它... 。

回答 1 投票 0

Pytorch,`back` RuntimeError:尝试第二次向后遍历图形,但缓冲区已经被释放

我正在用PyTorch(0.4)实现DDPG并且卡住了支持损失。所以,首先我的代码执行更新:def update_nets(self,transitions):“”“执行一个更新步骤:...

回答 2 投票 2

如何通过遵循全局步骤在Keras中实现指数衰减学习率

请看下面的例子#noding:utf-8 import numpy as np import pandas as pd import random import math from keras import Sequential from keras.layers import Dense,Activation from keras ....

回答 1 投票 2

使用tensorflow引入了一个新层

我想在tensorflow中引入一个新层作为激活函数。但是,有些错误无法解决。这是新图层的代码。 def smooth_relu(张量):e = 0.15 alpha = ...

回答 1 投票 0

多臂强盗:当随机概率低于分配给强盗的成功概率时,为什么我们将奖励增加1

我试图了解使用python的多臂强盗问题。当随机概率小于成功时,我不断遇到返回值1(即奖励)的代码片段...

回答 1 投票 0

Adam优化器错误:梯度计算所需的变量之一已通过就地操作进行了修改

我正在尝试实现与基本的演员 - 评论算法不同的Actor-Critic学习atuomation算法,它有点改变。无论如何,我使用了Adam优化器并实现了......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.