GNU并行-如何理解“块大小”设置,并猜测将其设置为什么?

问题描述 投票:1回答:1

[我如何在基于多内核的单台计算机上使用GNU并行运行grep时,根据我使用的“ large_file”文件大小,“ small_file”文件大小和正在使用的计算机来设置block-size参数,以获取最快的性能(还是请纠正我(如果我在这里还缺少其他内容)?将其设置得太高或太低,我会遇到哪些性能问题/速度瓶颈?我理解what块大小会这样做,因为它将块中的large_file阻塞,然后将这些块发送给每个作业,但是我仍然不知道如何以及为什么这会影响执行速度。] >

有关命令:

parallel --pipepart --block 100M --jobs 10 -a large_file.csv grep -f small_file.csv

其中large_file.csv所在的位置:

123456    1
234567    2
345667    22

和其中small_file.csv:

    1$
    2$

依此类推...

谢谢!

[基于“ large_file”文件大小,“ small_file”文件大小和我正在使用的计算机,如何在具有多个内核的单台计算机上使用GNU并行运行grep时如何设置块大小参数?]] >

parallel --pipepart --block -1 --jobs 10 -a large_file.csv grep -f small_file.csv

[--block -1将large_file.csv拆分为每个作业块一个块(此处为10个块)。

grep gnu-parallel
1个回答
0
投票
parallel --pipepart --block -1 --jobs 10 -a large_file.csv grep -f small_file.csv
© www.soinside.com 2019 - 2024. All rights reserved.