cuda-wmma 相关问题

如何在cupy.RawKernel或cupy.RawModule中使用wmma::load_matrix_sync等WMMA函数？有人可以提供一个最小的例子吗？

我所做的就是， device = torch.device("cuda" if torch.cuda.is_available() else "cpu") torch.tensor([123,123]).to(设备) 我得到：运行时错误：CUDA 错误：设备端断言

获取此堆栈跟踪：抛出“c10::CUDAError”实例后调用终止什么（）：CUDA错误：初始化错误 CUDA 内核错误可能会在某些其他地方异步报告...

用不同的参数做了很多努力来构建支持 CUDA 的 OpenCV，但每次都会出现错误：失败：bin/opencv_world490.dll lib/opencv_world490.lib C:\windows\system3

我正在尝试在采用图灵架构设计的 GPU 上使用 Tensor Core 来乘以 8x8 大小的块。为此，我使用 WMMA API 和大小为 16x16 的片段。我的假设是共享的

这个问题的答案建议使用 %%globaltimer 寄存器来测量 CUDA 内核中经过的时间。我决定尝试一下： #定义 NS_PER_S 1000000000 __global__ 无效 sleepKernel() { ...

我有这个非常简单的代码来将两个矩阵与 Cuda Tensor Core 相乘 constexpr int M = 16； constexpr int N = 16； constexpr int K = 16； /* * 矩阵 A = M x N，B = N x K，C = M x K => ...

我有这个简单的结构：类型定义结构{ 边缘* 边缘；整数计数； }边缘列表；我想要的只是在 Cuda 中的设备上分配空间。尤其。我已经有一个 EdgeList* allEdges ...

当我运行我的程序时，我看到这个错误：我有 CUDA 11 并且 bin 文件夹中没有这样的 dll 文件：我用： Python 3.8.7 CUDA 11.0 张量流2.4.1 此页面上有信息 https://www.

我今天安装了 Anaconda、CUDA 和 PyTorch，但无法在 torch 中访问我的 GPU (RTX 2070)。我遵循了所有安装步骤，否则 PyTorch 工作正常，但是当我尝试访问 GPU 时

我尝试设置多个子流程，并使用 PyTorch 在每个子流程内的单独数据集上训练单独的模型。这是我的代码：（尚未涉及 cuda/GPU） ###################...

我尝试使用libtorch和OpenMP开发pytorch扩展。当我测试我的代码时，它在 CPU 模型中运行良好，大约需要 1 秒才能完成所有操作： s = 时间.time() adj_矩阵 =

我正在尝试使用cupy的RawKernel在python中编写自定义cuda内核，但是我不断收到以下错误回溯（最近一次调用最后一次）：文件“/nfs/users/xxxxxxxxx/git/raw_k...

我最近将cuda从9.0升级到10.2，但是当我成功升级时，我的演示如下，将默认出现“RuntimeError: NCCL Error 2: unhandled system error”。我不知道为什么，而且...

我正在尝试在我的 docker 容器中使用 cupy。我使用的容器其中一个用于 CUDA 和 cuDNN，另一个用于 cupy。我尝试了这段代码。导入 cupy 作为 cp cupy_array = cp.array([1, 2, 3])

我在带有gpu和cuda的计算机上成功使用了easyocr，但现在我也必须在只有cpu的机器上使用它。按照 https://www.jaided.ai/easyocr/ins 的安装指南进行操作后...

简而言之：尝试将图像传递到 StableCascadeCombinedPipeline 会出现运行时错误，抱怨张量并非全部都在 cuda 中。如果我注释掉图像，该应用程序将完美运行

半个月前，我可以毫无问题地使用Optuna进行48小时的研究，大约150+次试验。昨天我在相同的模型、相同的数据集、相同的批量大小和相同的设备上再次尝试了 Optuna（A...

我使用的是 Python 3.9，并且安装了 Tensorflow 2.10 和 CUDA Toolkit 11.2 和 cuDNN 8.2，因为这是 Windows 10 上原生支持的最后一个配置。我正在使用 NVI 进行训练...

大家好，实际上我正在 Cuda 上编程，并且正在测试一个简单的张量核心示例，但是我在 IntelliSense 方面遇到了问题，实际上它向我显示了此命令的错误（参见图片），并且我...

这是我的程序代码。而且这个错误甚至不限于此代码，无论我编写什么程序，它都不会输入大数据。并不是说我必须对这么大的数据做任何事情......