gpu 相关问题

“图形处理单元”的缩写。有关编程传统图形应用程序的信息,请参阅“图形编程”的标记条目。对于使用GPU的通用编程,请参阅“gpgpu”的标记条目。对于特定的GPU编程技术,请参阅“opencl”,“cuda”和“thrust”的热门标签条目。

如何将结构体数组移动到GPU?

假设我创建了树并初始化了它。 现在,我如何在 openCL 中将节点向量移动到 GPU? 结构 BVHNode { 边界框bbox; BoundingSphere bsphere; std::向量 假设我创建了树并初始化了它。 现在,我如何在 openCL 中将节点向量移动到 GPU? struct BVHNode { BoundingBox bbox; BoundingSphere bsphere; std::vector<int> obj_triangles; // Store triangle indices that is inside node's volume int parentIndex; // Index of the parent node (-1 for root) int level; std::vector<int> childrenIndices; // Indices of the child nodes } class BVHTree { public: std::vector<BVHNode> nodes; int maxDepth; int nodeSize; } I tried to move like this size_t dataSize = bvhTree.nodes.size() * sizeof(BVHNode); cl::Buffer d_BVHtree_buf(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR, dataSize, BVHTree.nodes.data()); but it didn't work. GPU 既不支持函数递归,也不支持类,并且内存带宽对于 AoS 来说非常差(无合并)。 将树形数据结构扁平化为数组布局结构。您可能需要限制树深度并添加填充节点,以便数据索引规则间隔。或者,您可以使用间接寻址,这意味着添加一个额外的数组,其中包含节点的内存位置;这可以节省内存容量,但会破坏内存合并。您可以将固定深度递归作为函数调用的循环或链进行。

回答 1 投票 0

微调后的 llama2 模型在每个 GPU 上生成不同的结果

在使用llama2模型对个人数据训练的模型进行测试过程中,我遇到了以下问题: 在两个 GPU 上测试相同模型时,仅索引不同...

回答 1 投票 0

我无法安装加速包,因为它需要旧版本的base

我想安装加速1.3(当时是GPU加速包的最新版本),使用stack或cabal(最好是cabal)。它需要比我旧版本的基础...如何...

回答 1 投票 0

Haskell Cabal:无法安装加速包,因为它需要旧版本的基础

我想安装加速1.3(当时是GPU加速包的最新版本),使用stack或cabal(最好是cabal)。它需要比我旧版本的基础...如何...

回答 1 投票 0

pytorch GPU 在线性代数中的性能较慢

我正在 numpy 和 pytorch(cpu + gpu)之间做一个愚蠢的基准测试。我似乎无法理解 GPU 速度这么慢。 为了避免从 cpu t 来回移动阵列之间的开销...

回答 1 投票 0

hotplug vga(drm radeon) 将状态从断开连接更改为连接状态,但从 sys 中可见仍处于禁用状态

这是我的显卡: 03:00.0 VGA 兼容控制器:Advanced Micro Devices, Inc. [AMD/ATI] Caicos [Radeon HD 6450/7450/8450 / R5 230 OEM] 子系统:XFX Pine Group Inc. Caicos [Rade...

回答 1 投票 0

如何减少张量流模型使用的 GPU 量?

所以我目前使用的是Kaggle笔记本环境。我正在尝试建立一个用于图像分割的 U-Net 模型。当我构建模型时,它显示模式大小为 2.17mb,但这需要模型

回答 1 投票 0

有没有办法在nvcc中为设备代码(内核代码)启用`-Wconversion`?

我最近正在学习用CUDA编写前缀和算法。我有一个愚蠢的错误,我将浮点变量分配给失去精度的整数变量: // 第 3 阶段:填充最后一个元素 o

回答 1 投票 0

如何使用Numba CUDA JIT装饰器?

我已按照本教程使用 Numba CUDA JIT 装饰器:https://www.youtube.com/watch?v=-lcWV4wkHsk&t=510s。 这是我的Python代码: 将 numpy 导入为 np from timeit import default_timer as t...

回答 1 投票 0

在问题空间上启动单个内核与在较小的问题空间上多次启动相同的内核

最近我被要求在我的公司维护一个旧的图像处理项目(5年) 它使用 openCL。 有一段代码的工作原理如下 **如果(oneKernelFlag == true) 启动游戏...

回答 1 投票 0

我在 Tensorflow v2.15.0 中遇到 GPU 支持问题

我对张量流及其 GPU 支持有疑问。我运行了两个设置。一个正在工作,另一个不工作: 设置(工作): 张量流 v2.5.0 CUDA v.2.12 蟒蛇3.9.13 设置(不起作用...

回答 2 投票 0

如何限制TensorFlow中的可见设备?

我正在一台具有多个 GPU 的服务器上工作,我想选择一个具有足够可用空间的服务器。 使用pytorch,我发现只需设置os环境变量即可完成“

回答 1 投票 0

tSNE cuML 需要很长时间才能运行/未运行但没有返回错误

我最近在 Windows 笔记本电脑上使用 WSL2 在 conda 环境中安装了 RAPID。我使用以下命令来安装它: conda create --solver=libmamba -nrapids-24.02 -crapidsai-cconda-...

回答 1 投票 0

如何设置 TensorFlow 以与 GPU 一起使用

我想安装支持我的 GPU 的 TensorFlow。我有一块 GeForce GTX 4070 GPU。它的计算能力为8.9,绰绰有余。 我尝试使用以下命令安装张量流: 点安装

回答 1 投票 0

HTML Canvas 2D 太慢了

请帮助我理解为什么在 2D 上下文中的 HTML 画布上渲染过程需要很长时间,并且有多个帧从动画中掉出,并且有大量的点。此外,

回答 1 投票 0

是否可以将工作分配给每个 GPU 线程,而不是将工作分配给一组 GPU 线程?

我的标题的意思是,我已经实现了一个光线追踪程序。在程序中,由于内存问题,我将数组分成了块。追踪每块光线后,我将发送新的

回答 1 投票 0

如何修改PCI设备初始化时传递给内核的信息字段?

根据这个答案,系统中的PCI/PCIe设备(比如GPU)在使用之前需要经过一个初始化过程: 操作系统内核获取PCI配置寄存器中的值...

回答 1 投票 0

使用 Mali-G76 锁定已 root 的 Samsung Galaxy S10 上的 GPU 频率,以进行 Flutter 应用程序性能测试

我目前正在按照 Filip Hracek 的指南:Flutter 应用程序的性能测试,对 Android 上的 Flutter 应用程序进行性能测试。 我的测试设备是已root的三星 Galaxy S10 (SM-G9...

回答 1 投票 0

如何在Python中使用GPU计算FPS

我正在从事一个计算机视觉项目,其中所有处理或推理都在 GPU 上进行。我需要计算从视频流中获得的实时 FPS。该视频流可以是视频

回答 1 投票 0

如何使用可变长度内循环来展平 CUDA 中的嵌套循环?

我有以下 C++ 代码,我必须在 CUDA 中并行化。 #包括 使用命名空间 std; int main() { 整数长度=4; 整数x = 3; int a[长度 + 1] = {0, 3, 5, 9...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.