reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域，涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

AlphaGo零板评估功能使用多个时间步作为输入......为什么？

根据AlphaGo Cheat Sheet，AlphaGo Zero使用一系列连续的板配置来编码其游戏状态。理论上，所有必要的信息都包含在最新的状态中，......

neural-network deep-learning artificial-intelligence torch reinforcement-learning

回答 1 投票 1

神经网络如何知道它从行动中得到的奖励？

我目前正致力于建立一个深度q网络，并且对我的Q网络如何知道我给它的奖励有点困惑。例如，我有这个状态动作功能与政策和时间...

neural-network deep-learning reinforcement-learning q-learning

回答 1 投票 2

Colaboratory：如何安装PyGame学习环境

在Colaboratory，我们被迫使用pip安装。一些第三个软件包，如健身房，PLE等，他们的安装应该是git clone https://github.com/ntasfi/PyGame-Learning-Environment.git cd ...

python linux jupyter-notebook reinforcement-learning google-colaboratory

回答 1 投票 0

如何正确实现DQN算法

我正在尝试在本文中实现DeepMind引入的Deep Q Learning算法：https：//arxiv.org/pdf/1312.5602.pdf我正在使用它来创建一个学习玩Pong的代理，但它... 。

machine-learning deep-learning artificial-intelligence reinforcement-learning openai-gym

回答 1 投票 0

Pytorch，`back` RuntimeError：尝试第二次向后遍历图形，但缓冲区已经被释放

我正在用PyTorch（0.4）实现DDPG并且卡住了支持损失。所以，首先我的代码执行更新：def update_nets（self，transitions）：“”“执行一个更新步骤：...

neural-network pytorch backpropagation reinforcement-learning loss

回答 2 投票 2

如何通过遵循全局步骤在Keras中实现指数衰减学习率

请看下面的例子#noding：utf-8 import numpy as np import pandas as pd import random import math from keras import Sequential from keras.layers import Dense，Activation from keras ....

neural-network keras deep-learning reinforcement-learning

回答 1 投票 2

使用tensorflow引入了一个新层

我想在tensorflow中引入一个新层作为激活函数。但是，有些错误无法解决。这是新图层的代码。 def smooth_relu（张量）：e = 0.15 alpha = ...

python tensorflow deep-learning reinforcement-learning

回答 1 投票 0

多臂强盗：当随机概率低于分配给强盗的成功概率时，为什么我们将奖励增加1

我试图了解使用python的多臂强盗问题。当随机概率小于成功时，我不断遇到返回值1（即奖励）的代码片段...

python machine-learning reinforcement-learning bandit

回答 1 投票 0

Adam优化器错误：梯度计算所需的变量之一已通过就地操作进行了修改

我正在尝试实现与基本的演员 - 评论算法不同的Actor-Critic学习atuomation算法，它有点改变。无论如何，我使用了Adam优化器并实现了......

optimization error-handling deep-learning pytorch reinforcement-learning

回答 1 投票 1

reinforcement-learning 相关问题

最新问题