distributed-computing 相关问题

利用多台计算机,通过通信链路相互连接,完成一项共同任务。

如何修复此 Databricks 分布式培训教程工作簿中的此运行时错误

我正在关注从这篇文章中找到的这个笔记本。我正在尝试使用单个节点和多个 GPU 来微调模型,因此我运行所有内容直至“运行本地训练&...

回答 1 投票 0

只有一个节点的图的直径是多少?

我正在尝试寻找分布式算法课程中问题的答案,为此我想澄清一些事情。 具有一个节点且自身有一条边的图的直径是多少...

回答 2 投票 0

运行 PyTorch 时出现“RuntimeError:分布式包没有内置 NCCL”错误

当我从另一台服务器运行 PyTorch 代码时,就会发生此异常。

回答 1 投票 0

redis 的列表增量

假设我在redis中有一个列表,上面有一个分布式服务,其想法是让分布式系统将数据写入这个列表,然后可以被其他主机查询。 给定一个像 s...

回答 1 投票 0

原子/锁定值数组与锁定数组

我正在解决一个涉及实施Google MapReduce 的家庭作业问题,我需要跟踪任务列表是否已完成。多个线程需要能够...

回答 1 投票 0

在 Spark 执行器节点上安装 Python 依赖项的最简单方法?

我了解您可以将单个文件作为 Python Spark 程序的依赖项发送。但是成熟的库(例如 numpy)呢? Spark 有没有办法使用提供的包法力...

回答 1 投票 0

使用 PyTorch 的 DDP 通过 mp.spawn() 进行多 GPU 训练不起作用

我正在尝试使用PyTorch和DDP实现多GPU单机训练。 我的数据集和数据加载器如下所示: # 使用 albumentations 定义转换- 变换训练 = A.Compose( ...

回答 1 投票 0

可串行化和可线性化有什么区别?

我对这两种一致性模型感到非常困惑。请给出一些时间线示例并进行解释。 http://en.wikipedia.org/wiki/Consistency_model

回答 3 投票 0

使用 PyTorch Lightning 中的大型 Memmaped OpenWebText 数据集对多 GPU 训练进行故障排除以实现 nanoGPT

描述 我目前正在致力于使用 PyTorch Lightning 实现 nanoGPT。我的目标是使用 PyTorch 数据集和 PyTorch Lightning 数据集加载大型内存映射 OpenWebText 数据集 (16GB)...

回答 1 投票 0

如何从 count-min-sketch 中获取前 K 个元素?

我正在阅读如何使用概率数据结构 count-min-sketch 来查找数据流中的前 k 个元素。但我似乎无法理解我们维护堆的步骤......

回答 3 投票 0

在 slurm 中跨节点分发 python 代码

我有一个计算成本高昂的模拟函数,我希望将其分布到多节点集群上。代码看起来像这样: 输入任务 = [输入_0、输入_1、...、输入_n] 为...

回答 1 投票 0

C - MPI:如何转置已经分散在进程中的伪二维数组?

我在代码开发中遇到了这样一个问题:长度为 (N_r * N_theta * N_phi) 的名为 arr 的向量“表示”一个名为 10 个形状 (N_rs, N_thetas, N_phis) 的 3D 张量

回答 1 投票 0

分布式多播中“接收”和“传送”有什么区别?

在多播上下文中,接收消息的进程和传递消息的进程有什么区别?

回答 1 投票 0

BASE 风格数据库中的乐观锁

BASE 风格的数据库是软状态和最终一致的。我知道不同的数据库管理系统各不相同,它们的配置也有很大的差异。但让我们想象一下: 让...

回答 1 投票 0

PySpark monotonically_increasing_id 结果在本地和 AWS EMR 上不同

我创建了一个小函数,它将为每一行分配一个复合 id,以便在给定子集大小的情况下将行本质上分组为较小的子集。在我的本地计算机上,逻辑运行完美。有一次我

回答 1 投票 0

在 AWS Batch 多节点之上运行 Ray?

我对在 AWS Batch 多节点上运行 Ray 感兴趣。这是 Ray 之前从未做过的模式,因此没有相关文档。但是,我真的很想尝试一下,因为雷可以......

回答 1 投票 0

Celery 中工人之间的任务智能分配

经过一周的尝试和搜索,我没有得到任何结果,我将感谢您的帮助。 概括: 我有 10 个工人,每个工人里面都有一个 app.task 。 每天,这10名工人...

回答 1 投票 0

分布式处理如何与 spark 和 S3 一起工作?

我已经详细研究了分布式处理如何与 spark 和 HDFS 一起工作。在这种对比中,我可以看到 spark 将分区读取为 HFile,并且 spark 将不同的 HFile 加载到不同的

回答 0 投票 0

多核计算机中的线程

我们观察一台多核计算机。在给定的计算机中,一个内核上有一个正在运行的线程,而另一个内核上有另一个线程正在运行。 有没有可能一个线程属于...

回答 0 投票 0

多计算机计算通信系统架构[关闭]

我参与了某个项目,我需要建立一个折衷制度,可以做到以下几点: 每台计算机都得到它的初始数据(最好发送它的形式...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.