cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

如何调试代码 700“非法内存访问”,又名“CUDA_EXCEPTION_14,Warp 非法地址”?

我的代码正在显示 CUDA 调用“cudaStreamSynchronize(0)”时出错,代码为 700,在 489 上遇到非法内存访问 0# my_func(signed char const*, unsigned char const*, int*, i...

回答 1 投票 0

为了尽可能快的速度,我应该对 CUDA 中的矩阵使用什么步幅?

我正在处理大小范围从 2,000x2,000 到 5,000x5,000 的矩阵,进行乘法和 QR 分解等运算。例如,我很好奇我是否应该调整步幅......

回答 1 投票 0

通过在内核中初始化数据而出现“GPU 页面错误”

我是 CUDA/C++ 新手,正在研究统一内存。我找到了这个主题的介绍。但是,我对其中一个示例有疑问。 为了减轻迁移开销...

回答 1 投票 0

createInferBuild_内部错误

我在VS2022中用c++编写了以下几行代码。 记录器类:公共 ILogger { void log(严重性严重性,const char * msg)noexcept覆盖 { // 抑制我...

回答 1 投票 0

即使 GPU 被识别,Tensorflow 也无法选择 GPU

我尝试设置张量流以与我的GPU(gtx 1070)一起运行。 我安装了最新的 nvidia 驱动程序 546.29-desktop-win10-win11-64bit-international-dch-whql.exe nvidia-sim 的输出 +-------------...

回答 1 投票 0

运行时错误:CUDA 错误:内存不足 - CUDA 内存发生在验证阶段

当我的深度学习模型运行验证时,出现“CUDA 错误:内存不足”问题。虽然之前处于训练阶段、前向和反向传播阶段 - 这应该需要......

回答 1 投票 0

为了获得尽可能快的速度,我应该对 CUDA 中的矩阵使用什么步幅?

我正在处理大小范围从 2,000x2,000 到 5,000x5,000 的矩阵,进行乘法和 QR 分解等运算。例如,我很好奇我是否应该调整步幅......

回答 1 投票 0

带有 GPU 的 Docker 映像给出错误 535.129.3 与 DSO 版本 545.23.6 不匹配

我虽然支持 GPU 的 docker 镜像可以解决我安装 cuda 的问题。 我跑了: docker pull tensorflow/tensorflow:latest-gpu-jupyter docker run --gpus all -it --rm -p 8889:8888

回答 1 投票 0

GPU 利用率低是什么意思?

我正在使用 NUMBA 和 cupy 来执行 GPU 编码。现在我已将代码从 V100 NVIDIA 卡切换到 A100,但随后我收到以下警告: NumbaPerformanceWarning:网格大小 (27) < 2...

回答 2 投票 0

CuDNN 使用错误的 CUDA 版本

我正在 Ubuntu 22.04.3 上的新配置文件上重新进行 CUDA/CuDNN 设置,因为 Keras 引发了一个我无法修复的 libcublasLT 错误。为了项目兼容性,我需要将 TF 12.12 与 CUDA 11.8 和

回答 1 投票 0

GPU显存为空,但CUDA出现内存不足错误

在使用 rayune(1 个 GPU 进行 1 次试验)训练此代码期间,几个小时后 训练(大约 20 次试验) GPU:0,1 发生 CUDA 内存不足错误。即使在终止训练过程之后...

回答 1 投票 0

累积两个 Tensor Core wmma::accumulator 片段

假设我有两个 wmma::fragment a, b; 实例(即a和b)。我将如何进行 a 和 b 的逐元素加法并存储...

回答 1 投票 0

Cuda Toolkit 版本 11.7 与 pytorch 版本 11.6 兼容吗?

我已经安装了最新版本的 cuda 工具包 11.7,但现在在下载时我看到 pytorch 11.6 在那里,它们两个兼容吗?

回答 2 投票 0

机器学习模型训练时间的哪一部分需要实际的 matmul?

我正在学习 PyTorch,想了解 PyTorch 训练神经网络时所有相关的内容。 我想知道两件事: 训练时计算图存储在哪里...

回答 1 投票 0

CUDA 阵列缩减优化

我有两个数组 x (大小为 N ~1-1 亿)和 a (小得多的 Na ~1000-10000),我想使用 x 将 a 定义为 for(int j = 0; j < N; j++) { float i = floor( x[j] / da); // in princ...

回答 1 投票 0

使用 MSVC 获取“实例化导致未执行的类型”

在我的一个库中,我有以下代码(为简洁起见,进行了剪辑): 命名空间内存{ 命名空间管理{ 命名空间详细信息{ 模板 内联 T get_scalar_range_attri...

回答 1 投票 0

获取真实的OpenGL纹理格式

在我的应用程序中,我需要每帧更新纹理,为了快速完成此操作,我使用 CUDA,也是因为我的初始数据是 24 位 BGR。 所以我这样创建一个纹理: glTexImage2D(GL_TEXTUR...

回答 1 投票 0

如何使用 CMake 抑制 CUDA 的编译器警告?

我有一个同时启用了 CXX 和 CUDA 的项目: 项目(my_proj 语言 CXX CUDA) 我正在链接一个第三方库,它使用另一个第三方库(Eigen)作为依赖项。我正在建设

回答 1 投票 0

由于 cuda 中的向量相加,我得到了零并且没有错误

我正在运行一个cuda vec加法程序,稍后将零作为其总和的输出。我尝试过调试,但无法解决手头的问题。应该是把数字相加,但是

回答 2 投票 0

如何将CUDA线程与三重嵌套循环关联起来?

假设有三个变量 X、Y 和 Z,分别具有最小、最大和变化步长值,minX、maxX、minY、maxY、minZ、maxZ(最小值和最大值可以为任何值,负数或

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.