CyclicDist在多个语言环境中变慢

Question

我尝试使用CyclicDist模块实现矩阵乘法的实现。

当我使用一种语言环境与两种语言环境进行测试时，一种语言环境要快得多。是因为在两个Jetson纳米板之间进行通信的时间确实很大，还是我的实现没有利用CyclicDist的工作方式？

这是我的代码：

 use Random, Time, CyclicDist;
var t : Timer;
t.start();

config const size = 10;
const Space = {1..size, 1..size};

const gridSpace = Space dmapped Cyclic(startIdx=Space.low);
var grid: [gridSpace] real;
fillRandom(grid);
const gridSpace2 = Space dmapped Cyclic(startIdx=Space.low);
var grid2: [gridSpace2] real;
fillRandom(grid2);
const gridSpace3 = Space dmapped Cyclic(startIdx=Space.low);
var grid3: [gridSpace] real;
forall i in 1..size do {
    forall j in 1..size do {
        forall k in 1..size do {
            grid3[i,j] += grid[i,k] * grid2[k,j];
        }
    }
}
t.stop();
writeln("Done!:");
writeln(t.elapsed(),"seconds");
writeln("Size of matrix was:", size);
t.clear()

我知道我的实现对于分布式存储系统不是最佳的。

Answer 1

此程序未按比例缩放的主要原因可能是计算从未使用除初始语言环境之外的任何语言环境。具体来说，forall会在范围内循环，例如代码中的循环：

~ 60 [s]

总是使用在当前语言环境中执行的任务来运行所有迭代。这是因为范围不是在Chapel中分配的值，因此，它们的并行迭代器不会在区域设置之间分配工作。结果，循环体的所有大小** 3次执行：

CyclicDist在多个语言环境中变慢

问题描述投票：2回答：2

2个回答

最新问题

CyclicDist在多个语言环境中变慢

问题描述 投票：2回答：2

2个回答

最新问题

问题描述投票：2回答：2