GCC的__thread是如何实现的？

Question

gcc中的

__thread

是如何实现的？它只是

pthread_getspecific

和

pthread_setspecific

的包装吗？

我的程序使用 posix API 进行 TLS，现在看到我的程序运行时间有 30% 花在了

pthread_getspecific

上，我有点失望。我在每个需要资源的函数调用的入口处调用它。内联优化后，编译器似乎没有优化出

pthread_getspecific

。因此，在内联函数之后，代码基本上会一次又一次地搜索正确的 TLS 指针，以获得返回的相同指针。

在这种情况下

__thread

会帮助我吗？我知道C11中有

thread_local

，但是我的gcc还不支持它。（但现在我看到我的 gcc 确实支持

_Thread_local

只是不支持宏。）

我知道我可以简单地测试一下看看。但我现在必须去其他地方，在尝试进行相当大的重写之前，我想更好地了解某个功能。

Answer 1

最近的 GCC，例如GCC 5 支持 C11 及其

thread_local

（如果使用例如

gcc -std=c11

进行编译）。正如 FUZxxl 评论的那样，您可以使用（而不是 C11

thread_local

）旧 GCC 版本支持的

__thread

限定符。了解线程本地存储。

pthread_getspecific

确实相当慢（它位于 POSIX 库中，因此不是由 GCC 提供，而是由 GNU glibc 或 musl-libc 提供），因为它涉及函数调用。使用

thread_local

变量很可能会更快。

查看MUSL的

thread/pthread_getspecific.c

文件的源代码获取实施示例。阅读相关问题的此答案。

并且

_thread

和

thread_local

（通常）不会神奇地翻译为对

pthread_getspecific

的调用。它们通常涉及一些特定的地址模式和/或寄存器（细节是特定于实现的，与ABI相关；在Linux上，我猜由于x86-64有更多的寄存器和地址模式，它的TLS实现比i386更快），在编译器、链接器和运行时系统的帮助下。相反，某些

pthread_getspecific

的实现可能会使用一些内部

thread_local

变量（在 POSIX 线程的实现中）。

例如，编译以下代码

#include <pthread.h>

const extern pthread_key_t key;

__thread int data;

int
get_data (void) {
  return data;
}

int
get_by_key (void) {
  return *(int*) (pthread_getspecific (key));
}

使用 GCC 5.2（在 Debian/Sid 上）和

gcc -m32 -S -O2 -fverbose-asm

给出以下使用 TLS 的

get_data

代码：

  .type get_data, @function
get_data:
.LFB3:
  .cfi_startproc
  movl  %gs:data@ntpoff, %eax   # data,
  ret
.cfi_endproc

以及以下

get_by_key

代码，其中对 pthread_getspecific

显式调用

：

get_by_key:
 .LFB4:
  .cfi_startproc
  subl  $24, %esp   #,
  .cfi_def_cfa_offset 28
  pushl key # key
  .cfi_def_cfa_offset 32
  call  pthread_getspecific #
  movl  (%eax), %eax    # MEM[(int *)_4], MEM[(int *)_4]
  addl  $28, %esp   #,
  .cfi_def_cfa_offset 4
  ret
  .cfi_endproc

因此，将 TLS 与

__thread

（或 C11 中的

thread_local

）结合使用可能比使用

pthread_getspecific

更快（避免调用开销）。

请注意，

thread_local

是<threads.h>

（C11标准头）中定义的便捷宏。

Answer 2

gcc 的

__thread

与 C11 的

_Thread_local

具有完全相同的语义。您无需告诉我们您正在为哪个平台编程，因为平台之间的实现细节有所不同。例如，在 x86 Linux 上，gcc 应该将对线程局部变量的访问编译为带有

%fs

段前缀的内存指令，而不是调用

pthread_getspecific

。

GCC的__thread是如何实现的？

问题描述投票：0回答：2

2个回答

最新问题

GCC的__thread是如何实现的？

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2