parallel-processing 相关问题

与并发处理形成鲜明对比的是，并行处理保证以并行方式执行所有线程级和/或指令级任务，并保证同时执行的代码路径的完成。

在Python中使用并行处理进行数据迁移

我在本地环境中有一个python脚本，它从sql server中提取数据，将其加载到pandas数据帧中，然后使用大查询客户端将数据帧写入bigquery。问题是...

python sql-server google-bigquery parallel-processing database-migration

回答 1 投票 0

Python 可能并行运行 io 任务，这不可避免地需要 for 循环？

让我用要点来澄清我的问题。在 PyTorch（或任何原因）中，我正在制作一个 Dataset 类我需要获取文件夹中图像的所有路径但图像的结构是严重的...

python pytorch parallel-processing

回答 1 投票 0

高效退出多线程应用程序（具体）

我已经阅读了一些有关将消息从一个线程冒泡到所有其他线程以优雅退出的正确方法的资料（每个线程都执行自己的退出例程）。其中，我喜欢...

c++ multithreading parallel-processing exit

回答 2 投票 0

OpenMP for 循环比串行代码花费更多时间

我尝试使用 OpenMP 并行化代码片段，结果发现使用 OpenMP 需要 25 倍的时间才能完成程序。有什么不对的吗？我该如何优化它？ #包括我尝试使用 OpenMP 并行化代码片段，结果发现使用 OpenMP 需要 25X 时间才能完成程序。有什么不对的吗？我该如何优化它？ #include <iostream> #include <cmath> #include <random> #include <chrono> #include <cstdlib> #include <omp.h> using namespace std; int main() { unsigned long long black_square = 1, digit_square = 13; //auto n = ((black_square)<<11) * static_cast<unsigned long long>(pow(digit_square,10)); auto n = static_cast<unsigned long long>(1e9); srand(0); int tmp = 0; std::random_device rd; // Will be used to obtain a seed for the random number engine std::mt19937 gen(rd()); // Standard mersenne_twister_engine seeded with rd() std::uniform_int_distribution<> distrib(1, 6); auto tStart = std::chrono::high_resolution_clock::now(); //#pragma omp parallel for schedule(static) reduction(+:tmp) #pragma omp parallel for schedule(static) reduction(+:tmp) num_threads(8) for (unsigned long long i=0; i<n; i++) tmp = (tmp+(5==rand()%6))%static_cast<int>(1e9); //for (unsigned long long i=0; i<n; i++) tmp = (tmp+(5==distrib(gen)))%static_cast<int>(1e9); tmp%=static_cast<int>(1e9); auto tEnd = std::chrono::high_resolution_clock::now(); cout << tmp << " obtained after " << n << " iterations in " << (tEnd-tStart).count()/1e9 << "s." << endl; return 0; } 代码由g++ -o a.out -O3 -std=c++11 -fopenmp tmp.cpp编译，其中g++的版本为8.5.0 20210514。操作系统是RHEL8.9，有20个Intel Xeon CPUs at 2.593GHz。串行代码平均运行时间为7.4s，而并行代码平均运行时间为180s。选项 -O3、-O2、-O1 具有相似的结果。随机生成器mt19937可以显着缩小性能差距，但并行代码仍然比串行版本慢得多。增加或减少 n 也会导致类似的结果。 rand()函数不需要是线程安全的。因此，像您所做的那样同时从多个线程调用它是不安全的 glibc 的 rand() 版本是线程安全的，但它是通过将整个函数包装在互斥体中来实现的。因此一次只有一个线程可以调用 rand()。由于在 rand 调用之外，您的代码执行的操作非常少，几乎所有执行时间都将在 rand() 内。所以并行版本并不是真正的并行。每次调用 rand() 时，每个线程轮流一次执行一个。所以它比单线程没有优势。但实际上更糟糕的是，因为线程必须争夺谁获得互斥锁，在每次调用后唤醒和睡眠，并在每个 CPU 核心的缓存之间移动 PRNG 状态。所以比单线程差很多。您应该做的是创建多个 PRNG 实例。有一个 gen 对象数组，每个线程一个。每个线程应该使用自己的 PRNG。确保每个对象在内存中相距足够远，不会共享缓存行，因此 PRNG 状态不需要在 CPU 缓存之间移动。

c++ performance parallel-processing g++ openmp

回答 1 投票 0

在 nvcuda.dll 中找不到 cudaDeviceSynchronize()

我正在编写CUDA代码，在VS2022中使用nvcc编译它，生成PTX文件，并从Embarcadero Delphi运行CUDA代码。为了从 Delphi 运行 CUDA 内核，我编写了一个 API

parallel-processing cuda nvcc

回答 1 投票 0

分布式包的问题

我在使用分布式包时遇到了麻烦。我有一个返回 100 x 4 数组的函数。该数组是通过对构建的 SharedArray 的某些维度进行平均而生成的...

parallel-processing julia distributed

回答 1 投票 0

使用 R 中的列表和数据帧进行并行处理

我正在尝试在 R 中并行化以下过程： df <- data.frame(col1 = c("A","B","C"), col2 = c("D","E","F")) mylist <- lis...