OpenMP并行乘法比顺序乘法慢

问题描述 投票:-1回答:1

我正在学习OpenMP,我正在尝试做一个简单的任务:A [r] [c] * X [c] = B [r](矩阵向量乘法)。问题是:顺序代码比并行代码快,我也不知道为什么!我的代码:

#include <omp.h>
#include <time.h>
#include <stdio.h>
#include <stdlib.h>
#include <sys/wait.h>
#include <sys/time.h>
#include <sys/types.h>


// Defined variables
#define row_matriz_A 80000
#define col_matriz_A 800
#define THREADS_NUM 4

// FUNCAO - GERAR MATRIZES
void gerarMatrizes(int r, int c, int mA[], int vX[], int vB[]){...}

// FUNCAO - SEQUENTIAL MULTIPLICATION
void multSequencial(int r, int c, int mA[], int vX[], int vB[]){
    // Variables
    int i, j, offset, sum;                        
    struct timeval tv1,tv2;  
    double t1, t2;        
    // Begin Time
    gettimeofday(&tv1, NULL);
    t1 = (double)(tv1.tv_sec) + (double)(tv1.tv_usec)/ 1000000.00;
    for(i = 0; i < r; i++){
        sum = 0;
        for(j = 0; j < c; j++){
            offset = i * c + j;
            sum += mA[offset] * vX[j];
        }
        vB[i] = sum;
    }
    // End time
    gettimeofday(&tv2, NULL);
    t2 = (double)(tv2.tv_sec) + (double)(tv2.tv_usec)/ 1000000.00;
    printf("\nO tempo de execucao sequencial foi: %lf segundos.\n", (t2 - t1));
    return;
}

// FUNCAO - MULTIPLICACAO PARALELA COM OpenMP
void matvecHost(int r, int c, int mA[], int vX[], int vB[]){
    // Variaveis
    int tID, i, j, offset, sum;
    struct timeval tv1, tv2;
    double t1, t2;
    // Init vB
    for(i = 0; i < r; i++) vB[i] = 0;
    // BEGIN Time
    gettimeofday(&tv1, NULL);
    t1 = (double)(tv1.tv_sec) + (double)(tv1.tv_usec)/ 1000000.00;
    omp_set_num_threads(THREADS_NUM);
    #pragma omp parallel private(tID, i, j) shared(mA, vB, vX)
    {
        tID = omp_get_thread_num();     
        #pragma omp for
            for(i = 0; i < r; i++){
                sum = 0;
                for(j = 0; j < c; j++){
                    offset = i * c + j;
                    sum += mA[offset] * vX[j];
                }
                vB[i] = sum;
            }
    }
    // End time
    gettimeofday(&tv2, NULL);
    t2 = (double)(tv2.tv_sec) + (double)(tv2.tv_usec)/ 1000000.00;
    printf("\nO tempo de execucao OpenMP foi: %lf segundos.\n", (t2 - t1));
    return;
}

// FUNCAO - PRINCIPAL
int main(int argc, char * argv[]) {
    int row, col;
    row = row_matriz_A;
    col = col_matriz_A;
    int *matrizA = (int *)calloc(row * col, sizeof(int));
    int *vectorX = (int *)calloc(col * 1, sizeof(int));
    int *vectorB = (int *)calloc(row * 1, sizeof(int));
    gerarMatrizes(row, col, matrizA, vectorX, vectorB);                    
    multSequencial(row, col, matrizA, vectorX, vectorB);
    matvecHost(row, col, matrizA, vectorX, vectorB);
    return 0;
}

先前没有解决起作用的解决方案:

  • 在我的平方中使用折叠
  • 增加行和列的大小
  • 增加线程号(老师建议使用线程号==线程物理号)
  • 使用malloc代替m [i] [j]
c vector openmp matrix-multiplication
1个回答
0
投票

您在sumoffset上存在竞争条件-这些竞争条件在线程之间共享,而不是线程私有的。

这也可能解释了速度下降:在x86上,CPU实际上将努力工作以确保对共享变量的访问“有效”。这涉及到每次对(C0]和offset进行写入(!)后都刷新高速缓存行-因此所有线程都在疯狂地写入相同的变量,但是每个线程都必须等到前一个线程的写入(在不同的内核上) )在刷新后再次到达了本地缓存。当然,它将产生完全荒谬的结果。

我不知道您为什么要在函数开始时声明所有变量-容易发生此类错误。如果您在尽可能小的范围内声明了sumijsum(以及未使用的offset),那么您将永远不会遇到这个问题,因为它们将自动在线程专用这种情况。

© www.soinside.com 2019 - 2024. All rights reserved.