cuda 相关问题

CUDA是Nvidia GPU（图形处理单元）的并行计算平台和编程模型。 CUDA通过各种编程语言，库和API为Nvidia GPU提供了一个接口。

在 ffmpeg 中使用“overlay_cuda”，输入帧具有透明度

我正在尝试使用尽可能多的硬件辅助在 ffmpeg 中将全帧图像覆盖在 MP4 之上。这是为 https://github.com/time4tea/gopro-dashboard-overlay 我有非 GPU

ffmpeg cuda nvidia

回答 0 投票 0

atomicAdd() 未在 Visual Studio 2019 中定义

你好，我是一个新手，在原子添加方面遇到了一些麻烦。我通常尝试在 CUDA 中使用 atomicAdd 如果删除 atomicAdd 行，我可以编译代码。我不明白为什么它不起作用。请...

visual-c++ cuda

回答 0 投票 0

如何安装正确版本的 Tensorflow、cuda、cuDNN 和 TensorRT

这里是新手，我有一台 NVIDIA GeForce GTX 1650 Ti ubuntu-22.0.4 LTS 机器，安装了 Nvidia 驱动程序版本 530.41.03。这个版本的驱动推荐我应该在系统上使用cuda 12.1...

tensorflow cuda conda nvidia

回答 0 投票 0

Windows 和 Windows 11 中的 Windows.old 文件夹

我有一台搭载 Windows 11 操作系统的 NVIDIA Geforce RTX 3050 笔记本电脑。我已经使用 conda 在 Windows 11 Anaconda3、Jupyter Notebook 上安装，并且运行良好。我已经安装了 CUDA 11.1 和相关的 C...

anaconda cuda nvidia wsl-2

回答 0 投票 0

通过全局函数调用主机函数[关闭]

我需要在 CUDA 的全局函数中调用主机函数。有合适的方法吗？我试图在主机函数之前添加 __device__ 关键字，但它给了我 MSB3721 err ...

cuda

回答 0 投票 0

如何使用 CUDA thrust 进行分段缩减？

我想将部分归约结果存储在一个数组中。假设我有数据 [8] = {10,20,30,40,50,60,70,80}。如果我将数据划分为 chunk_size 2，则块将为 {10,20}, {30,40}, ... , ...

c++ cuda reduce thrust

回答 0 投票 0

在 CUDA 设备代码中使用 std::vector

问题是：有没有办法在 Cuda 内核中使用“vector”类？当我尝试时出现以下错误：错误：调用宿主函数（“std::vector...

cuda

回答 5 投票 0

如何防止 thrust::reduce_by_key 写入可分页内存？

我正在编写一个使用多个并发 CUDA 流的应用程序。当我的 thrust::reduce_by_key 调用似乎写入可分页内存时，我的其他流正在阻塞。我认为返回的 v...

c++ cuda reduce thrust

回答 1 投票 0

thrust::reduce_by_key() 返回重复的键

这是我的代码： //初始化设备向量整数大小 = N; thrust::device_vector 值（大小）； thrust::device_vector key(size); //获取设备的设备指针_...

c++ cuda reduce thrust

回答 1 投票 0

计算 CUDA 数组中数字的出现次数

我有一个无符号整数数组存储在带有 CUDA 的 GPU 上（通常有 1000000 个元素）。我想计算数组中每个数字的出现次数。只有几个不同的数字......

c++ cuda reduce thrust

回答 4 投票 0

如何使用 CUDA thrust 获得所有部分缩减？

我想将部分归约结果存储在一个数组中。假设我有数据 [8] = {10,20,30,40,50,60,70,80}。如果我用 chunk_size 为 2 划分数据，每个块将像 {10,20}、{30,40}、...

cuda thrust

回答 0 投票 0

C/C++ 中的动态分配是否“总是”在连续内存中完成（CUDA 推力::转换相关）？

我正在尝试比较 arr 和 arr2 的每个元素并将其存储回 arr2。到目前为止我所拥有的是诠释主要（）{ 双 *arr, *arr2; 双 *darr, *darr2; // 分配诠释 N = 5; 到...

c++ c cuda thrust

回答 0 投票 0

CUDA Thrust：如何使用掩码进行最大减少操作？

我有一个很长的双精度向量 x[]。我有另一个 bools xMask[] 的长向量。它们具有相同的尺寸。我想用 Thrust 来计算 x[] 的最大值，但只针对那些元素...

c++ cuda reduce thrust

回答 1 投票 0

为什么在 CUDA 中使用共享内存没有性能提升

这是我的代码，使用共享内存没有性能提升，优化步骤是否有问题，如果可以评论请包括代码和块 4 4 4 网格大小 80 80 80 __global__ voi...

cuda

回答 0 投票 0

分析我的 CUDA 内核的内存访问合并

我想通过 BS_x*BS_Y 线程将内容移动到共享内存来读取 (BS_X+1)*(BS_Y+1) 全局内存位置，我开发了以下代码。 int i = threadIdx.x; int j ...

c++ cuda gpu-shared-memory

回答 3 投票 0

CUDA 中的 C++ 位集

我有一个广泛使用 bitset 模板的现有 C++ 代码。我正在将这段代码移植到 CUDA C，我对 CUDA 编程真的很陌生。我可以将 bitset 模板用作 __shared__ varia ...

c++ cuda gpu bitset gpu-shared-memory

回答 1 投票 0

共享和全局内存访问

我发现对于“全局”内存访问，合并（相邻）线程所需的内存地址是最佳事务的关键，而在“共享”内存中，非冲突...

cuda gpu gpu-shared-memory

回答 1 投票 0

创建具有块大小的共享向量？

我需要创建一个与块大小相同的共享向量。 __global__ 函数() { const int size = blockDim.x; __shared__ float* Vec[大小]; .. } 我收到这个错误错误：表达式...

c cuda gpu-shared-memory

回答 4 投票 0

矩阵向量乘积 CUDA 通过平铺和共享内存提高性能

你好，我正在 CUDA 内核中研究矩阵向量积。我想通过平铺和共享内存提高性能。问题是使用这段代码矩阵 M 或向量 N 不是

c++ cuda gpu gpgpu gpu-shared-memory

回答 1 投票 0

从一个内核启动到另一个内核，共享内存是否持久？

在尝试查找共享内存是否可以被多个内核访问时，我发现有时共享内存中的数据在被另一个内核访问时仍然存在，但有时......

c++ cuda gpu-shared-memory

回答 1 投票 0

cuda 相关问题

最新问题