reinforcement-learning 相关问题

强化学习是机器学习和计算机科学的一个领域,涉及如何在最大化特定环境中的数字奖励的状态中选择动作。

TF Metric ChosenActionHistogram崩溃并显示错误

对于遇到此问题的任何人,我都为我解决了这个问题。我错误地将动作规范定义为一维向量(1),而不是标量值()。这似乎适用于除tf_metrics.ChosenActionHistogram()以外的所有其他指标。

回答 1 投票 1

ImportError:无法从'roboschool'导入名称'cpp_household'

请帮助我。我无法导入lib roboschool 1.0.49 Gym == 0.15.4输入导入roboschool输出D:\ Users \ gumin \ anaconda3 \ python.exe D:/ Users / gumin / anaconda3 / Lib / site-packages / roboschool / test。 py ...

回答 1 投票 0

如何安装Vizdoom python

我是编程新手,我正在尝试在Windows 10,python上安装vizdoom。使用以下命令:pip install vizdoom并保持出现此错误,我尝试搜索周围,花了几个小时,但...

回答 1 投票 1

在神经网络的卷积层之后添加新输入?

我正在进行强化学习,以训练无人机的自主导航。由于具有模拟环境和CNN:AlexNet,因此受支持的问题是基于摄像头的自主导航。我想...

回答 1 投票 0

运行“ python examples / rllib / traffic_light_grid.py”时出现错误错误

我正在尝试针对SUMO的RL框架流程进行多主体实验。但是,如果我尝试运行python examples / rllib / traffic_light_grid.py,则会出现以下错误:traci.exceptions ....

回答 1 投票 0

RuntimeError:'indices'的导数未实现

我正在按照此在线教程进行DQN编码,https://github.com/philtabor/Youtube-Code-Repository/blob/master/ReinforcementLearning/DeepQLearning/torch_deep_q_model.py,但是我正在运行...

回答 1 投票 0

[已解决]为什么在循环内部或外部初始化变量会更改代码行为?

我正在学习针对GridWorld环境的python中的策略迭代,这是我学习的一部分。我已经编写了以下代码:###政策迭代### def policy_iter(grid,policy):'''...

回答 2 投票 0

为什么在循环内部或外部初始化变量会更改代码行为?

我正在学习针对GridWorld环境的python中的策略迭代,这是我学习的一部分。我已经编写了以下代码:###政策迭代### def policy_iter(grid,policy):'''...

回答 2 投票 0

自定义RL环境的意外动作分配

我正在创建一个自定义环境并在其上培训RL代理。我使用稳定基准是因为它似乎实现了所有最新的RL算法,并且似乎与“ plug ...

回答 1 投票 1

'UnityEnvironment'对象没有属性'behavior_spec'

我点击了此链接至doc,以创建自己的环境。但是当我从mlagents_envs.environment运行此文件时,请导入UnityEnvironment env = UnityEnvironment(file_name =“ v1-ball-cube-game.x86_64”)...

回答 1 投票 1

如何将输出层连接到另一个神经网络的输入层?

Actor网络有5个代表状态值的输入神经元,并且将产生由一个输出神经元保持的一个输出值。 Q网络有6个输入神经元:5个代表状态值...

回答 1 投票 0

图像到文本-Pytesseract与Windows上的数字作斗争

我正在为ML项目实时预处理游戏框架。我想从框架中提取数字,所以我选择了Pytesseract,因为它在文本上看起来相当不错。不过,无论如何...

回答 1 投票 0


使用GradientTape优化后的Tensorflow强化学习RNN返回NaN

def create_example_model():tf.keras.backend.set_floatx('float64')model = Sequential()model.add(LSTM(128,input_shape =((60,len(df_train.columns)))))模型。 add(Dense(64,activation ='...

回答 1 投票 1

PyTorch模型训练:RuntimeError:cuDNN错误:CUDNN_STATUS_INTERNAL_ERROR

[在GPU上训练PyTorch模型几个小时后,程序失败,并出现错误RuntimeError:cuDNN错误:CUDNN_STATUS_INTERNAL_ERROR训练条件神经网络:PyTorch 4 -...

回答 1 投票 0

减少强化学习中的马尔可夫状态数

我已经开始尝试强化学习(使用萨顿的书)。我不能完全理解是必须减少马尔可夫状态空间而另一方面却不能使...

回答 3 投票 2

在argmax上使用聚集与取最大不同

我正在尝试学习在张量流上训练双DQN算法,但它不起作用。为了确保一切正常,我想测试一些东西。我想确保在...

回答 2 投票 0

用于二进制分类的强化学习

我正在尝试将数据集分为2类1和0。我使用了监督学习算法,现在我想尝试使用强化学习来达到相同的目的。我已经开始...

回答 1 投票 0

AlphaZero:在自播放期间访问了哪些节点?

阅读本文有助于很好地理解AlphaZero背后的原理。不过,我还是不太确定。以下是作者的UCT_search ...

回答 1 投票 1

在openai体育馆中创建自定义环境,以游戏画面为观察依据

我已经使用PyGame制作了游戏。我想使用游戏屏幕的输出作为观察的习惯,而不是一组距离和角度。 (我看过用于自定义文档的文档...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.