我需要在一个32位数字中获得一个1位数字,其中只有一个1位(总是)。用C ++或asm最快的方法。
例如
input: 0x00000001, 0x10000000
output: 0, 28
#ifdef __GNUC__
,使用__builtin_ctz(unsigned)
。(GCC manual)。 GCC,clang和ICC都在所有目标ISA上都支持它。 (在没有本机指令的ISA上,它将调用GCC帮助器函数。)
对于64位整数,请使用__builtin_ctzll(unsigned long long)
。不幸的是,GNU C位元内置函数没有采用固定宽度类型(特别是trailing零),但是对于x86,unsigned
在GNU C上始终为32位(尽管不是AVR或MSP430)。在我知道的所有GNU C目标上,unsigned long long
始终为uint64_t
。
在x86上,它会根据调整+目标选项而编译为bsf
或bsf
。 tzcnt
是在现代Intel上具有3个周期延迟的单个uop,在2个周期有延迟的情况下只有2 uops在AMD上运行(也许有点反转以提供lzcnt uop?)tzcnt
。无论哪种方式,它都可以由快速的硬件直接支持,并且比纯C ++中的处理速度要快得多。
内建函数对于未设置任何位的输入具有未定义的行为,从而使其可以避免以tzcnt
身份运行而避免任何额外的检查。
[在其他编译器(尤其是MSVC)中,您可能想要TZCNT的内在函数,例如https://agner.org/optimize/中的bsf
。 (_mm_tzcnt_32
)。或者,您可能需要为非SIMD内在函数包含immintrin.h
(MSVC)或Intel intrinsics guide。
TZCNT解码as BSF”,因为其机器代码编码为intrin.h
。对于非零输入,它们给出相同的结果,因此编译器可以并且总是使用x86intrin.h
,因为在AMD上这要快得多。 (它们在Intel上的速度相同,因此没有缺点。在Skylake及更高版本上,tzcnt没有虚假的输出依赖性。BSF这样做的原因是,对于输入= 0,它的输出保持不变)。
((rep bsf
与tzcnt
的情况不太方便:bsr返回位索引,lzcnt返回前导零计数。因此,为了在AMD上获得最佳性能,您需要知道代码只能运行在支持BMI1 / TBM的CPU上,因此编译器可以使用bsr
)
请注意,仅设置了1位,从任一方向进行扫描都会找到相同的位。所以lzcnt
。如果移植到仅具有前导零计数且没有位反转指令的另一个ISA,则可能有用。
相关:
lzcnt
具有有关ISA的位扫描功能的更多信息。包括POSIX 31 - lzcnt = bsr = bsf = tzcnt
,它返回从1开始的索引,并且必须做额外的工作才能考虑输入为0的可能性。[编译器确实会识别https://en.wikipedia.org/wiki/Find_first_set并像内置函数一样内联它(就像它们对memcpy或sqrt所做的那样),但是当您实际上想要0-时,并不总是设法优化其固定序列来实现它的所有工作。基于索引。告诉编译器只有1位是特别困难的。
在c ++中-查找表将是最快的。在asm中-第一条注释中提到的bsr
指令。