在32位数字中查找第一个(最低)置位的位置

问题描述 投票:0回答:1

我需要在一个32位数字中获得一个1位数字,其中只有一个1位(总是)。用C ++或asm最快的方法。

例如

input:    0x00000001, 0x10000000
output:            0,         28
c++ assembly x86 bit-manipulation intrinsics
1个回答
3
投票

#ifdef __GNUC__,使用__builtin_ctz(unsigned)GCC manual)。 GCC,clang和ICC都在所有目标ISA上都支持它。 (在没有本机指令的ISA上,它将调用GCC帮助器函数。)

对于64位整数,请使用__builtin_ctzll(unsigned long long)。不幸的是,GNU C位元内置函数没有采用固定宽度类型(特别是trailing零),但是对于x86,unsigned在GNU C上始终为32位(尽管不是AVR或MSP430)。在我知道的所有GNU C目标上,unsigned long long始终为uint64_t


在x86上,它会根据调整+目标选项而编译为bsfbsf tzcnt是在现代Intel上具有3个周期延迟的单个uop,在2个周期有延迟的情况下只有2 uops在AMD上运行(也许有点反转以提供lzcnt uop?)tzcnt。无论哪种方式,它都可以由快速的硬件直接支持,并且比纯C ++中的处理速度要快得多

内建函数对于未设置任何位的输入具有未定义的行为,从而使其可以避免以tzcnt身份运行而避免任何额外的检查。


[在其他编译器(尤其是MSVC)中,您可能想要TZCNT的内在函数,例如https://agner.org/optimize/中的bsf。 (_mm_tzcnt_32)。或者,您可能需要为非SIMD内在函数包含immintrin.h(MSVC)或Intel intrinsics guide


在没有BMI1的CPU上,

TZCNT解码as BSF”,因为其机器代码编码为intrin.h。对于非零输入,它们给出相同的结果,因此编译器可以并且总是使用x86intrin.h,因为在AMD上这要快得多。 (它们在Intel上的速度相同,因此没有缺点。在Skylake及更高版本上,tzcnt没有虚假的输出依赖性。BSF这样做的原因是,对于输入= 0,它的输出保持不变)。

((rep bsftzcnt的情况不太方便:bsr返回位索引,lzcnt返回前导零计数。因此,为了在AMD上获得最佳性能,您需要知道代码只能运行在支持BMI1 / TBM的CPU上,因此编译器可以使用bsr

请注意,仅设置了1位,从任一方向进行扫描都会找到相同的位。所以lzcnt。如果移植到仅具有前导零计数且没有位反转指令的另一个ISA,则可能有用。


相关:

  • lzcnt具有有关ISA的位扫描功能的更多信息。包括POSIX 31 - lzcnt = bsr = bsf = tzcnt,它返回从1开始的索引,并且必须做额外的工作才能考虑输入为0的可能性。

[编译器确实会识别https://en.wikipedia.org/wiki/Find_first_set并像内置函数一样内联它(就像它们对memcpy或sqrt所做的那样),但是当您实际上想要0-时,并不总是设法优化其固定序列来实现它的所有工作。基于索引。告诉编译器只有1位是特别困难的。


0
投票

在c ++中-查找表将是最快的。在asm中-第一条注释中提到的bsr指令。

© www.soinside.com 2019 - 2024. All rights reserved.