“图形处理单元”的缩写。有关编程传统图形应用程序的信息,请参阅“图形编程”的标记条目。对于使用GPU的通用编程,请参阅“gpgpu”的标记条目。对于特定的GPU编程技术,请参阅“opencl”,“cuda”和“thrust”的热门标签条目。
bfloat 类型比 VK_KHR_16bit_storage 扩展提供的 fp16 有什么好处吗?
在vulkan api中,有两个使用16位类型的扩展,即VK_KHR_16bit_storage和VK_KHR_shader_float16_int8。所以,如果硬件支持这些扩展,fp16类型变量可以被解析...
当我在colaboratory中使用rapps(cudf)时,我执行如下命令。但是这个命令通常需要大约20分钟,所以我每次使用cudf都必须等待。 https://colab.research.google.com/d...
为什么我的基于 JAX 的图像处理循环会随着时间的推移而变慢?如何优化 GPU 内存使用?
我正在使用 JAX 处理图像处理任务,并且遇到了一个问题,循环的性能随着时间的推移而显着下降。具体来说,前几次迭代运行得很快...
我目前正在尝试设置具有以下规格的 Google VM 实例: NVIDIA T4 GPU n1-standard-2(2 个 vCPU,1 个核心,7.5 GB) 配备 500GB SD 磁盘的 Windows Server 我需要它来运行...
我通常编写和优化在CPU上运行的代码,但是我目前正在尝试编写用于光散射的着色器。 我知道 CPU 有一定的优化,以便尝试接近 1
如何获取分配给多 GPU 节点上的 SLURM 作业的 GPU ID?
当我使用选项 --gres=gpu:1 向具有两个 GPU 的节点提交 SLURM 作业时,如何获取为该作业分配的 GPU 的 ID?是否有用于此目的的环境变量?那个...
我使用 PyTorch 实现了一个简单的线性回归模型,并尝试使用 GPU 加速训练。尽管如此,我并没有观察到训练时间有任何改善。剖析 mo...
我在jupyter笔记本上使用tensorflow。假设我想刷新 GPU 内存中的所有内容而不重新启动内核(这意味着不触及 RAM 内容)。请不要潜入
我已经建立了一个IvyBridge平台来编码OpenCL程序。我的系统是win7 64位,开发工具是VS2010。我的电脑上有一台 i7-3770k 和 nVidia GTX560。当我查询设备时...
GPU 和 CPU 之间矩阵乘法的性能差异:Eigen 与 ViennaCL
在 C++ 中使用 Eigen 和 ViennaCL 库执行矩阵乘法运算时,我遇到性能问题。我正在比较在
我正在学习 HuggingFace 课程,其中提供了以下代码。 从加速导入加速器 从 Transformers 导入 AdamW、AutoModelForSequenceClassification、get_scheduler
nvidia/cuda和tensorflow/tensorflow图像之间的区别
从 GPU 支持的角度来看,tensorflow/tensorflow 图像与 nvidia/cuda docker 图像有什么根本不同?我不关心例如Python 的东西。比如说我...
当我运行 best_model = Compare_models() 时,CPU 内存上有巨大的负载,而我的 GPU 未得到利用。如何在 GPU 上运行 setup() 或 Compare_models()? PyCaret 中有内置方法吗?
LLVM 具有适用于 AMD 和 NVIDIA GPU 的后端。目前是否可以使用 clang 将 c++(或子集)编译为 GPU 代码并运行它?显然像标准库这样的东西会是
除了“cuda”之外,你能在“hip”或“OpenCL”等其他任何东西上加速 torch DL 训练吗?
我注意到 torch.device 可以接受一系列参数,确切地说是 cpu、cuda、mkldnn、opengl、opencl、ideep、hip、msnpu。 然而,在训练深度学习模型时,我只见过cuda...
我使用统一内存来简化对 CPU 和 GPU 上数据的访问。据我所知,cudaMallocManaged 应该在设备上分配内存。我写了一个简单的代码来检查: #定义类型...
我在 GPU 上使用 pickle 保存了 Bert 的最后一个隐藏层,以供后续流程使用。 # 输出是bert的最后一个隐藏层,在GPU上转换 将 open(文件名, 'wb') 作为 f: pk.dump(输出,...
确定cuda/GPU作为LLM生成器的设备时出现问题,总是回到CPU
背景:我正在尝试微调 Microsoft 的 Phi-2 模型,这是一个发布在 HuggingFace 上的 25 亿参数 LLM,其指令调整有超过 2000 条引用。我想创建一个
ModuleNotFoundError:没有名为“nvcc_plugin”的模块
我正在尝试在 Colab 上使用 cuda c,遵循了设置 cuda c 的整个过程,我遇到的唯一问题是加载扩展 ModuleNotFoundError:没有名为“nvcc_plugin”的模块 (https...