cuda 相关问题

CUDA是Nvidia GPU(图形处理单元)的并行计算平台和编程模型。 CUDA通过各种编程语言,库和API为Nvidia GPU提供了一个接口。

在 ffmpeg 中使用“overlay_cuda”,输入帧具有透明度

我正在尝试使用尽可能多的硬件辅助在 ffmpeg 中将全帧图像覆盖在 MP4 之上。 这是为 https://github.com/time4tea/gopro-dashboard-overlay 我有非 GPU

回答 0 投票 0

atomicAdd() 未在 Visual Studio 2019 中定义

你好,我是一个新手,在原子添加方面遇到了一些麻烦。 我通常尝试在 CUDA 中使用 atomicAdd 如果删除 atomicAdd 行,我可以编译代码。 我不明白为什么它不起作用。请...

回答 0 投票 0

如何安装正确版本的 Tensorflow、cuda、cuDNN 和 TensorRT

这里是新手, 我有一台 NVIDIA GeForce GTX 1650 Ti ubuntu-22.0.4 LTS 机器,安装了 Nvidia 驱动程序版本 530.41.03。 这个版本的驱动推荐我应该在系统上使用cuda 12.1...

回答 0 投票 0

Windows 和 Windows 11 中的 Windows.old 文件夹

我有一台搭载 Windows 11 操作系统的 NVIDIA Geforce RTX 3050 笔记本电脑。 我已经使用 conda 在 Windows 11 Anaconda3、Jupyter Notebook 上安装,并且运行良好。我已经安装了 CUDA 11.1 和相关的 C...

回答 0 投票 0

通过全局函数调用主机函数[关闭]

我需要在 CUDA 的全局函数中调用主机函数。 有合适的方法吗? 我试图在主机函数之前添加 __device__ 关键字,但它给了我 MSB3721 err ...

回答 0 投票 0

如何使用 CUDA thrust 进行分段缩减?

我想将部分归约结果存储在一个数组中。 假设我有数据 [8] = {10,20,30,40,50,60,70,80}。 如果我将数据划分为 chunk_size 2,则块将为 {10,20}, {30,40}, ... , ...

回答 0 投票 0

在 CUDA 设备代码中使用 std::vector

问题是:有没有办法在 Cuda 内核中使用“vector”类?当我尝试时出现以下错误: 错误:调用宿主函数(“std::vector...

回答 5 投票 0

如何防止 thrust::reduce_by_key 写入可分页内存?

我正在编写一个使用多个并发 CUDA 流的应用程序。当我的 thrust::reduce_by_key 调用似乎写入可分页内存时,我的其他流正在阻塞。我认为返回的 v...

回答 1 投票 0

thrust::reduce_by_key() 返回重复的键

这是我的代码: //初始化设备向量 整数大小 = N; thrust::device_vector 值(大小); thrust::device_vector key(size); //获取设备的设备指针_...

回答 1 投票 0

计算 CUDA 数组中数字的出现次数

我有一个无符号整数数组存储在带有 CUDA 的 GPU 上(通常有 1000000 个元素)。我想计算数组中每个数字的出现次数。只有几个不同的数字......

回答 4 投票 0

如何使用 CUDA thrust 获得所有部分缩减?

我想将部分归约结果存储在一个数组中。 假设我有数据 [8] = {10,20,30,40,50,60,70,80}。 如果我用 chunk_size 为 2 划分数据,每个块将像 {10,20}、{30,40}、...

回答 0 投票 0

C/C++ 中的动态分配是否“总是”在连续内存中完成(CUDA 推力::转换相关)?

我正在尝试比较 arr 和 arr2 的每个元素并将其存储回 arr2。 到目前为止我所拥有的是 诠释主要(){ 双 *arr, *arr2; 双 *darr, *darr2; // 分配 诠释 N = 5; 到...

回答 0 投票 0

CUDA Thrust:如何使用掩码进行最大减少操作?

我有一个很长的双精度向量 x[]。我有另一个 bools xMask[] 的长向量。它们具有相同的尺寸。我想用 Thrust 来计算 x[] 的最大值,但只针对那些元素...

回答 1 投票 0

为什么在 CUDA 中使用共享内存没有性能提升

这是我的代码,使用共享内存没有性能提升,优化步骤是否有问题,如果可以评论请包括代码 和块 4 4 4 网格大小 80 80 80 __global__ voi...

回答 0 投票 0

分析我的 CUDA 内核的内存访问合并

我想通过 BS_x*BS_Y 线程将内容移动到共享内存来读取 (BS_X+1)*(BS_Y+1) 全局内存位置,我开发了以下代码。 int i = threadIdx.x; int j ...

回答 3 投票 0

CUDA 中的 C++ 位集

我有一个广泛使用 bitset 模板的现有 C++ 代码。我正在将这段代码移植到 CUDA C,我对 CUDA 编程真的很陌生。我可以将 bitset 模板用作 __shared__ varia ...

回答 1 投票 0

共享和全局内存访问

我发现对于“全局”内存访问,合并(相邻)线程所需的内存地址是最佳事务的关键,而在“共享”内存中,非冲突...

回答 1 投票 0

创建具有块大小的共享向量?

我需要创建一个与块大小相同的共享向量。 __global__ 函数() { const int size = blockDim.x; __shared__ float* Vec[大小]; .. } 我收到这个错误 错误:表达式...

回答 4 投票 0

矩阵向量乘积 CUDA 通过平铺和共享内存提高性能

你好,我正在 CUDA 内核中研究矩阵向量积。我想通过平铺和共享内存提高性能。 问题是使用这段代码矩阵 M 或向量 N 不是

回答 1 投票 0

从一个内核启动到另一个内核,共享内存是否持久?

在尝试查找共享内存是否可以被多个内核访问时,我发现有时共享内存中的数据在被另一个内核访问时仍然存在,但有时......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.