distributed-computing 相关问题

利用多台计算机,通过通信链路相互连接,完成一项共同任务。

无法在 Fedora 上连接 Icecream (icecc)

我无法让icecc守护进程从任何运行Fedora 20的机器连接到本地icecc-scheduler。 我在 5 台不同的 Ubuntu 14.04 机器上进行设置时没有遇到任何问题,并且每台......

回答 2 投票 0

根据Cap Theorem的CA分布式系统如何存在

分布式系统如何做到一致可用(CA)? 因为我认为当网络分区发生时,CA 不可能以网络的每个节点,甚至分区...

回答 4 投票 0

Tensorflow,多 GPU 分布式训练

我尝试为具有多个GPU的本地机器实现分布式训练。 我遇到的错误与模型架构有关: 输入深度 (100) 不是滤波器输入深度 (76...

回答 1 投票 0

错误:主管 start_child 函数中的子规范无效

在我的 erlang 应用程序中,我有一个顶级主管来监视牛仔服务器(gen_server): 开始链接() -> 主管:start_link({local, ?SERVER}, ?MODULE, [])。 初始化([])->

回答 1 投票 0

为什么减少分区数量可以防止由于序列化结果尺寸过大而导致 StageFailure?

我正在尝试在数据块上生成大型数据框的随机排序版本。 我的首选代码是在数据帧上使用 .orderBy(rand()) 。 然而,这似乎会触发 SparkException...

回答 1 投票 0

在 torch.distributed 中使用 async all-reduce 时进程会被阻塞

我正在尝试在torch.distributed中使用异步all-reduce,这是在PyTorch文档中介绍的。但是,我发现虽然我设置了 async_op=True,但进程仍然被阻止。我去哪儿了...

回答 1 投票 0

Micrometer 和 Prometheus 具有无法公开 HTTP 的 Java 子进程

我有一个像这样运行的复杂产品。 公开 HTTP 服务的父 Java 进程。 父进程启动工作子进程(新的 JVM)并管理它们的生命周期。 工人

回答 1 投票 0

根据工作线程、核心和 DataFrame 大小确定 Spark 分区的最佳数量

Spark-land 中有几个相似但不同的概念,围绕如何将工作分配给不同的节点并同时执行。具体来说,有: Spark 驱动程序节点 (

回答 2 投票 0

分布式系统中 REST API 的幂等性和竞争条件

有什么可能的替代解决方案来实现幂等性并处理竞争条件。 对于前。考虑将客户添加到记录系统的请求。客户详细信息将有...

回答 1 投票 0

使用 Grpc 实现最少连接负载平衡

least_connection.proto代码 节点过载——启动负载均衡过程 回溯(最近一次调用最后一次): 文件“D:\lab7p2\最少连接 ode2.py”,第 73 行,位于 节点。

回答 1 投票 0

如何调试 ValueError: `FlatParameter` 需要统一的数据类型,但得到了 torch.float32 和 torch.bfloat16?

我正在尝试在 LLAMA 2 上使用 Huggingface PEFT LORA 微调进行 Pytorch Lightning Fabric 分布式 FSDP 训练,但我的代码最终失败: `FlatParameter` 需要统一的数据类型,但得到了

回答 1 投票 0

存储由torch DataLoader加载的CUDA或CPU张量哪个更好?

我正在开展一个项目,目标是在多个 GPU 上训练 PyTorch 模型。 我的输入数据存储在每个训练示例的单独文件中,在预处理过程中,我使用...

回答 1 投票 0

如何在远程任务中使用 Celery 原语?

我想使用 celery 的工作流程,例如位于另一个系统上的任务的组和和弦。目前使用 send_task() 来执行这些任务,但现在需要对多个任务进行分组

回答 1 投票 0

在运行期间更改发送到 slurm 中的 sbatch 的 bash 脚本是一个坏主意吗?

我想通过 sbatch_run.sh 脚本使用不同的参数多次运行 python 脚本 main.py,如下所示: #!/bin/bash #SBATCH --作业名称=sbatch_run #SBATCH --array=1-1000 #SBATCH --exc...

回答 1 投票 0

带有共享日志的 Raft 共识:好还是坏主意?

Raft 共识协议要求节点有一个复制日志,而我所知道的所有实现都要求每个节点都有一个持久的本地存储来保存日志。在云原生中

回答 1 投票 0

分布式互斥:小圈子形成

我一直在研究基于Quorum概念的分布式互斥算法。 引用: Coterie C 被定义为一组集合,其中每个集合 g ∈ C 称为群体。 以下

回答 2 投票 0

分布式系统中的 UUID 毫秒不安全吗?

我目前正在开发一个分布式系统,该系统在断开连接的分布式机器上生成大量记录,并将它们反馈给集中式系统,从而进一步

回答 1 投票 0

什么是服务网格?

在云计算的背景下,后端开发人员经常提到构建(或使用)“服务网格”,但我并不完全理解它是什么。能告诉更多吗?

回答 3 投票 0

无法使用 python 3.7 运行 ZMQStream 和 Tornado 事件循环

我一直在尝试使用 zmq eventloop 来设置服务器/客户端来进行 REQ / REP 消息传递。由于python 3不支持zmq提供的eventloop,我尝试用tornado的eventloop运行它......

回答 1 投票 0

在 Docker Nodejs 映像中写入文件时出现问题

我正在做一项活动,当图像需要访问此资源时,我需要将信息写入文件,如下所示。 这就是我的文件夹的组织方式。 node2 请求访问节点...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.