distributed-computing 相关问题

利用多台计算机,通过通信链路相互连接,完成一项共同任务。

使用 Dask 在一堆服务器上训练 pytroch-lightning 模型的最简单方法是什么?

我可以访问几十个没有 GPU 但可以完全控制软件的 Dask 服务器(可以擦除它们并安装不同的东西)并且想要加速 pytorch-lightning 模型 tr ...

回答 1 投票 0

如何在多个 GPU 上扩展深度学习?

需要一些帮助来将训练过程扩展到多个 GPU “学习率”:1.0e-3, “规范化”:空, “验证”:0.20, “纪元”:64, “batch_siz...

回答 0 投票 0

如何将互斥量用于简单的分布式计数器/ id gen 且性能损失最小

我想使用不支持此功能的 nosql 数据库设置一个简单的自动递增 id,并且正在考虑使用互斥锁来保证排序。我很担心...

回答 0 投票 0

在 2PC 中如果提交失败会怎样?

在 2PC 中,如果协调器要求 3 个参与者提交,而第二个参与者失败且没有对协调器做出响应,会发生什么情况。 客户端到达向第二个节点询问值,第二个节点 ...

回答 3 投票 0

分布式系统初学者项目

我是一个全栈开发者。我想了解更多关于分布式计算和分布式系统的知识。我想知道互联网上一些最好的资源和一些初学者......

回答 0 投票 0

如何在 spark 中获取包含密集向量的 2 列的点积

我有一个包含密集向量的 spark 数据框,如 Col_W_DensV1 和 Col_w_DenseV2 列,现在我想计算它们之间的余弦相似度,因此需要点积。我现在...

回答 1 投票 0

如何根据中心点将点集划分为一组三角形?

在这里输入图片描述 15 个红色点是随机生成的。 蓝色的点称为“中心点”,这意味着包含它的任何封闭半空间也包含 15/(2+1)=5 个点在 r ...

回答 0 投票 0

是否可以使用外部 API 创建和编辑 Celery 计划的任务?

我想开发一个系统,允许最终用户通过一个应该集成到现有软件中的界面来创建、编辑和删除数据管道。这些数据管道

回答 0 投票 0

领导者提交日志条目并在通知追随者此承诺之前崩溃时,raft 如何保持安全?

在我的理解中,领导者向追随者发送AppendEntries RPC,如果大多数追随者返回成功,领导者将提交这个条目。它将通过将它应用到我来提交这个条目......

回答 2 投票 0

乐观的离线锁:在没有线性化的情况下提供序列化的数据库中实现这一点? (即,DB 不提供严格的可序列化性)

我正在研究乐观的离线锁定模式。即 https://martinfowler.com/eaaCatalog/optimisticOfflineLock.html 我已经看到很多参考资料表明可以通过...实现这种模式

回答 0 投票 0

DolphinDB函数mr的ds如何重新分区?

我有一个包含两级分区的分区表。第一层是按天的时间分区,第二层是股票代码的HASH分区。现在我想处理

回答 1 投票 0

如何向 API 客户端提供 1,000,000 个数据库结果?

继我之前的问题之后: 在 PostgreSQL 中使用“游标”进行分页 为 API 客户端提供 1,000,000 个数据库结果的好方法是什么? 我们目前正在使用

回答 3 投票 0

ClassNotFoundException:breeze.storage.Zero$DoubleZero$

我正在尝试使用 Spark MLLIB 的分布式 Kmeans 运行分布式 Kmeans,但出现以下错误: 引起:java.lang.ClassNotFoundException:breeze.storage.Zero$DoubleZero$ ...

回答 2 投票 0

Spark 迭代算法

我们有一个用例,在 Spark 作业中 我们遍历外部表的分区 加载该分区的数据(每个分区几乎相同的数据卷) 进行转换(自连接,无 udfs)...

回答 0 投票 0

pytorch DDP支持torch.nn.ModuleList吗?

我想并行 torch.nn.ModuleList,例如 nets = torch.nn.ModuleList([net1, net2]) 网 = torch.nn.parallel.DistributedDataParallel(网) 但是当我用 net1 向前迈出一步时 x =...

回答 1 投票 0

训练时如何为多个gpu分配不同的内存?

假设我有两个 GPU,GPU-0 和 GPU-1(它们是同一类型)。我希望在它们上训练一个简单的分类网络(例如 ResNet)。由于一些特殊的原因,希望GPU-0能多带点记忆……

回答 0 投票 0

理解raft算法RequestVote RPC

我正在尝试阅读本文的第 4 页:https://raft.github.io/raft.pdf 我正在尝试实施 RequestVote RPC,但我正在努力理解“接收者实现者......

回答 1 投票 0

在 Pytorch 中应该在哪里调用 torch.distributed.destroy_process_group()?

我注意到文档没有那个功能。因此,不清楚应该在哪里调用它。是否必须: 在每个工人代码的末尾调用它(即在 mp.spawn 内部) 或者叫它

回答 1 投票 0

将Cassandra数据存储到其他分布式文件系统,如MapR和hdfs上是否可行?

我只是想知道将apache Cassandra的数据存储到其他分布式文件系统的影响。比如说,我有一个5节点的Hadoop集群,复制因子为3。

回答 1 投票 0

ignite semaphore会自动清理吗?

在我们的项目中,我们使用Ignite旗语来锁定对资源的访问。资源由UUID唯一标识,每个资源使用一个Ignite旗语。我们没有关闭()semaphores......。

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.