distributed-computing 相关问题

利用多台计算机,通过通信链路相互连接,完成一项共同任务。

为什么减少分区数量可以防止由于序列化结果尺寸过大而导致 StageFailure?

我正在尝试在数据块上生成大型数据框的随机排序版本。 我的首选代码是在数据帧上使用 .orderBy(rand()) 。 然而,这似乎会触发 SparkException...

回答 1 投票 0

在 torch.distributed 中使用 async all-reduce 时进程会被阻塞

我正在尝试在torch.distributed中使用异步all-reduce,这是在PyTorch文档中介绍的。但是,我发现虽然我设置了 async_op=True,但进程仍然被阻止。我去哪儿了...

回答 1 投票 0

Micrometer 和 Prometheus 具有无法公开 HTTP 的 Java 子进程

我有一个像这样运行的复杂产品。 公开 HTTP 服务的父 Java 进程。 父进程启动工作子进程(新的 JVM)并管理它们的生命周期。 工人

回答 1 投票 0

根据工作线程、核心和 DataFrame 大小确定 Spark 分区的最佳数量

Spark-land 中有几个相似但不同的概念,围绕如何将工作分配给不同的节点并同时执行。具体来说,有: Spark 驱动程序节点 (

回答 2 投票 0

分布式系统中 REST API 的幂等性和竞争条件

有什么可能的替代解决方案来实现幂等性并处理竞争条件。 对于前。考虑将客户添加到记录系统的请求。客户详细信息将有...

回答 1 投票 0

使用 Grpc 实现最少连接负载平衡

least_connection.proto代码 节点过载——启动负载均衡过程 回溯(最近一次调用最后一次): 文件“D:\lab7p2\最少连接 ode2.py”,第 73 行,位于 节点。

回答 1 投票 0

如何调试 ValueError: `FlatParameter` 需要统一的数据类型,但得到了 torch.float32 和 torch.bfloat16?

我正在尝试在 LLAMA 2 上使用 Huggingface PEFT LORA 微调进行 Pytorch Lightning Fabric 分布式 FSDP 训练,但我的代码最终失败: `FlatParameter` 需要统一的数据类型,但得到了

回答 1 投票 0

存储由torch DataLoader加载的CUDA或CPU张量哪个更好?

我正在开展一个项目,目标是在多个 GPU 上训练 PyTorch 模型。 我的输入数据存储在每个训练示例的单独文件中,在预处理过程中,我使用...

回答 1 投票 0

如何在远程任务中使用 Celery 原语?

我想使用 celery 的工作流程,例如位于另一个系统上的任务的组和和弦。目前使用 send_task() 来执行这些任务,但现在需要对多个任务进行分组

回答 1 投票 0

在运行期间更改发送到 slurm 中的 sbatch 的 bash 脚本是一个坏主意吗?

我想通过 sbatch_run.sh 脚本使用不同的参数多次运行 python 脚本 main.py,如下所示: #!/bin/bash #SBATCH --作业名称=sbatch_run #SBATCH --array=1-1000 #SBATCH --exc...

回答 1 投票 0

带有共享日志的 Raft 共识:好还是坏主意?

Raft 共识协议要求节点有一个复制日志,而我所知道的所有实现都要求每个节点都有一个持久的本地存储来保存日志。在云原生中

回答 1 投票 0

分布式互斥:小圈子形成

我一直在研究基于Quorum概念的分布式互斥算法。 引用: Coterie C 被定义为一组集合,其中每个集合 g ∈ C 称为群体。 以下

回答 2 投票 0

分布式系统中的 UUID 毫秒不安全吗?

我目前正在开发一个分布式系统,该系统在断开连接的分布式机器上生成大量记录,并将它们反馈给集中式系统,从而进一步

回答 1 投票 0

什么是服务网格?

在云计算的背景下,后端开发人员经常提到构建(或使用)“服务网格”,但我并不完全理解它是什么。能告诉更多吗?

回答 3 投票 0

无法使用 python 3.7 运行 ZMQStream 和 Tornado 事件循环

我一直在尝试使用 zmq eventloop 来设置服务器/客户端来进行 REQ / REP 消息传递。由于python 3不支持zmq提供的eventloop,我尝试用tornado的eventloop运行它......

回答 1 投票 0

在 Docker Nodejs 映像中写入文件时出现问题

我正在做一项活动,当图像需要访问此资源时,我需要将信息写入文件,如下所示。 这就是我的文件夹的组织方式。 node2 请求访问节点...

回答 1 投票 0

当我使用正确的用户和通行证将 Spring 网关的数量水平缩放到 2 个实例后,Keycloak 给出了身份验证错误。怎么解决?

我对这个问题的预感是,由于现在有多个 Spring Gateway 实例,可能会导致会话冲突,您能否使所有实例都...

回答 1 投票 0

错误:torch.distributed.elastic.multiprocessing.api:失败(退出代码:-11)local_rank:二进制文件为0:..../python

错误:torch.distributed.elastic.multiprocessing.api:失败(退出代码:-11)local_rank:二进制文件的0(pid:3680358):/home/lifesci/ekeys/anaconda3/envs/minigpt4-4/bin/ Python 回溯(最近一次调用

回答 1 投票 0

具有多个连接的Rq Worker

我在同一网络中有 3 台服务器。每台服务器上都运行着一个 redis 服务和某种生产者。生产者将作业排队到名为任务的本地 rq 队列中。 所以每个服务器都有...

回答 1 投票 0

在 Apache Spark 中,有没有办法强制 DataFrame 在特定节点上执行?

首先,让我描述一下我的设置。 我有两台通过以太网连接的电脑。 PC A 同时执行主节点和工作节点功能,而 PC B 仅作为工作节点运行。 由于某些限制,...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.