cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

运行 mae_vit_* 模型时 CUDA 11 内存不足,但 CUDA 10 可以工作

我在尝试从 GitHub 上的 Mae 存储库运行 mae_vit_large_patch16_dec512d8 和 mae_vit_huge_patch16_dec512d8 模型时遇到内存问题。我正在单个 112x112 上进行训练...

回答 1 投票 0

不下载CUDA就安装torch?

PyTorch 似乎与其自己的 CUDA 库捆绑在一起。但是,如果我们已经有了它们(可能是更新的)并且只想安装火炬怎么办? 还有额外的问题:为什么 PyTorch 无法检测或接受......

回答 1 投票 0

如何在Ubuntu 20上编译C++20 CUDA程序?

我正在尝试使用 nvidia/cuda:12.1.0-devel-ubuntu20.04 在 Ubuntu 20.04 LTS (Focal Fossa) 上使用 C++20 语言标准构建一些 CUDA 文件的程序: CUDA编译器标识是NV...

回答 1 投票 0

测量nvidia gpu的利用率

我正在寻找记录GPU级别利用率的方法。我有两个利用率的定义,乐观地我希望能够计算这两个定义: 正在运行/已使用的cuda数量...

回答 2 投票 0

无法找到 cuda lib 并包含在 ubuntu 上

我有一张安装了cuda的Nvidia显卡。我使用qt作为IDE,在我的.pro中,我需要放置cuda的include和libs路径。不幸的是,显卡不是我配置的……

回答 1 投票 0

CUDA 内核将 P010LE 转换为 ARGB

我从 10 位电影中提取帧,使用 ffmpeg 写入 P010LE 帧。我正在将帧加载到 uint8_t 向量中。我已经通过使用 rawpixels.net 查看帧数据来验证它。我是

回答 1 投票 0

如何在 Julia 中将矩阵数组存储在 CUDA 数组中

假设我有一个数组 A,它在每个索引/位置 x 处存储一个 2 x 2 矩阵 A[x]。在我的代码中,我想做基本运算,例如逐点乘法和加法,但也要做循环

回答 1 投票 0

运行 PyTorch 时出现“RuntimeError:分布式包没有内置 NCCL”错误

当我从另一台服务器运行 PyTorch 代码时,就会发生此异常。

回答 1 投票 0

Numba Cuda 支持任何键值数据结构吗?

Numba 有一个 typed_dict 实现,但它似乎仅适用于 CPU 编译的代码。 Numba.cuda 是否支持任何键值数据结构(例如搜索树)?

回答 1 投票 0

cuda 与张量核心有什么区别?

我对 HPC 计算相关的术语完全陌生,但我刚刚看到 EC2 在 AWS 上发布了其新型实例,该实例由新的 Nvidia Tesla V100 提供支持,该实例具有两种“核心”:...

回答 5 投票 0

无法在wsl2中获取cuda printf结果

代码(main.cu)是: #包括 #包括 __global__ 无效内核() { printf("你好,世界! ”); } int main() { 内核<<<1, 1>>...

回答 1 投票 0

如何检查哪些 CUDA 计算功能内核可用?

有没有办法在运行时检查当前程序编译的 CUDA 计算功能?或者 arch=compute_xx,code=sm_xx 标志是否设置了可以检查的任何定义? 背景...

回答 1 投票 0

GPU 一致性和功耗:每个 warp 仅在一个线程上运行代码是否可以节省电量?

在 GPU 编程中,人们非常关心“一致性”:线程在所谓的“warps”中执行(每个线程大约有 32 个线程)。扭曲的所有线程都以“锁步”方式运行...

回答 1 投票 0

CUBLAS 与行主数据的矩阵乘法,无需转置

我目前正在尝试在 GPU 上使用 CUBLAS 实现矩阵乘法。 它适用于方阵和某些大小的输入,但对于其他输入,最后一行不会返回(并且

回答 1 投票 0

绑定 CUDA 纹理读取为零

我尝试从纹理读取值并将它们写回全局内存。 我确信编写部分有效,因为我可以将常量值放入内核中,并且可以在输出中看到它们: __全球...

回答 2 投票 0

通过python distutils(用于python c扩展)编译带有可重定位设备代码的cuda代码

我有一些使用协作组的 cuda 代码,因此需要 -rdc=true 标志才能使用 nvcc 进行编译。我想从 python 调用 cuda 代码,所以我正在编写一个 python 接口...

回答 2 投票 0

严格的别名规则并在cuda中复制内核

背景 我想复制许多数组(它们可能有不同的类型),例如 cudaMemcpy(dst0, src0, num0 * sizeof(int), cudaMemcpyDeviceToDevice); cudaMemcpy(dst1, src1, num1 * sizeof(float),

回答 1 投票 0

Databricks AWS 内存差异

我正在使用 Databricks 在 Pytorch 中训练/测试模型,但我不断遇到没有意义的内存错误。在 Databricks 作业的配置中,我指定了 node_type_id 和

回答 1 投票 0

CUDA Runtime的当前设备和驱动程序上下文堆栈如何交互?

CUDA 运行时有“当前设备”的概念,而 CUDA 驱动程序没有。相反,驱动程序有一个上下文堆栈,其中“当前上下文”位于...

回答 1 投票 0

我可以利用 GPU 来加速 C# 中的非图形相关操作,例如并行 for 循环吗?

我有以下 CRC 计算,它在不同的数据源上并行执行 12 次。 一旦 CPU 线程数耗尽,我可以将其卸载到 GPU,还是 GPU 不适合......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.