matrix-multiplication 相关问题

我想加速倍增打击：这是我需要改进的代码：无效乘法（int大小，int ** matA，int ** matB，int ** matC）{ for(int i=0;i 我想加速倍增打击：这是我需要改进的代码： void multiply(int size, int **matA, int **matB, int ** matC) { for(int i=0;i<size;i++) { for(int j=0;j<size;j++) { int t = matC[i][j]; for(int k=0;k<size;k++) { t += matA[i][k] * matB[k][j]; } matC[i][j] += t; } } } 我有两个矩阵和一个大小为 5000x5000 的结果矩阵。巨大的矩阵可能意味着它们无法完全加载到缓存中？ for循环中是否出现过多页错误？我想知道如何加快乘法速度，以及如何组织数据（使用一维数组还是二维数组？）我的答案代码是列表blow，我选择使用1d数组来模拟2d数组（每个矩阵使用new []一次），但我不确定使用2d数组时是否更快。我使用临时矩阵来存储 matB 的转置矩阵，以避免 for 循环中的页面错误。我添加 AVX2 以获得更高的性能。使用大小为 5000x5000 的一维数组或二维数组哪个更好？还有其他想法或技巧吗？ int** allocate(int rows, int cols) { int ** mat; mat = new int*[rows]; int *temp = new int[rows*cols]; for(int i = 0; i<rows; i++) { mat[i] = temp + i * cols; } return mat; } void multiply(int size, int **matA, int **matB, int ** matC) { int i; int n = size*size; // total size // column-major order int **transMatB = allocate(size, size); int *transArrB = transMatB[0]; //copy transposed data, maybe many page faults here. #pragma omp parallel for for(i = 0; i < n; i++) { transMatB[i/size][i%size] = matB[i%size][i/size]; } #pragma omp parallel for for(i = 0; i < n; i ++) { int *row = matA[i / size]; int *col = transMatB[i % size]; int temp; #ifdef __AVX2__ temp = multiplyAndSumArrays(row, col, size); #else temp = 0; for (int k = 0; k < size; k ++) { temp += row[k] * col[k]; } #endif matC[i / size][i % size] += temp; } // remove temp transposed mastrix delete[] transMatB[0]; delete[] transMatB; transMatB = nullptr; } 在优化方面，矩阵-矩阵乘法可能是研究最多的内核。对于最终结果，请阅读 Goto 和 van de Geijn 的论文，引用如下。关键在于该算法对 n^2 数据进行 n^3 次操作，因此具有在缓存中重用数据的潜力。简单的 3 循环版本无法重复使用，因此您需要做一些事情。幸运的是，所有输出组件都是独立的，因此您可以对操作进行重大改组。特别是最后一点：简而言之，3 个循环中的每一个都分为两个循环，一个在块上，一个在块内。然后你有 6 个循环（意味着 5 个！左右不同的算法）和 3 个块大小作为调整参数。上面的论文对此分析得很完整。请注意，这并不简单！对于合理可行的解决方案，请执行递归 2x2 乘法：将每个矩阵划分为 2x2 块结构，然后递归地相乘。当块足够小以适合缓存时，您将停止递归。这应该可以作为课堂作业来实现，从而提高成绩。您甚至可以简单地进行多线程处理。 Goto, Kazushige / Geijn, Robert A. van de Anatomy of high-performance matrix multiplication 2008 ACM Trans. Math. Softw. , Vol. 34, No. 3 ACM: New York, NY, USA p. 1-25

c++ openmp matrix-multiplication

回答 1 投票 0

使用 Numba JIT 与转置 NumPy 数组进行矩阵乘法不起作用

环境操作系统：Windows 10 Python版本：3.10 Numba 版本：0.57.0 NumPy 版本：1.24.3 例子将 numpy 导入为 np 从 numba 导入 njit @njit def matmul_transpose(a: np.ndarray, b: np.nda...

python numpy matrix matrix-multiplication numba

回答 3 投票 0

当我乘以 3 个矩阵时，Wolfram 和 Numpy 之间的结果不同？

首先，我确信 Wolfram 的答案是正确的，因为两个三明治矩阵是特征向量矩阵，所以答案必须采用特征基的形式。所以，问题...

numpy linear-algebra wolfram-mathematica matrix-multiplication eigenvector

回答 1 投票 0

如何在 C++ 中使用矩阵求幂计算高阶广义斐波那契数列的第 n 项？

我有兴趣在 C++ 中使用矩阵求幂计算高阶斐波那契序列的第 n 项，同时允许 n 相当大（在数百范围内）。序列 I

c++ boost c++20 matrix-multiplication fibonacci

回答 1 投票 0

有没有一种（更好的）方法来提取文件名的数字部分以用作矩阵的标量乘数？

我有一组 csv 文件，其中包含相同大小的矩阵，其中第一行和第一列是轴标签（如果有人熟悉的话，它们是荧光激发发射矩阵）