GCC的__thread是如何实现的?

问题描述 投票:0回答:2

gcc中的

__thread
是如何实现的?它只是
pthread_getspecific
pthread_setspecific
的包装吗?

我的程序使用 posix API 进行 TLS,现在看到我的程序运行时间有 30% 花在了

pthread_getspecific
上,我有点失望。我在每个需要资源的函数调用的入口处调用它。内联优化后,编译器似乎没有优化出
pthread_getspecific
。因此,在内联函数之后,代码基本上会一次又一次地搜索正确的 TLS 指针,以获得返回的相同指针。

在这种情况下

__thread
会帮助我吗?我知道C11中有
thread_local
,但是我的gcc还不支持它。 (但现在我看到我的 gcc 确实支持
_Thread_local
只是不支持宏。)

我知道我可以简单地测试一下看看。但我现在必须去其他地方,在尝试进行相当大的重写之前,我想更好地了解某个功能。

c multithreading gcc pthreads thread-local-storage
2个回答
19
投票

最近的 GCC,例如GCC 5 支持 C11 及其

thread_local
(如果使用例如
gcc -std=c11
进行编译)。正如 FUZxxl 评论的那样,您可以使用(而不是 C11
thread_local
)旧 GCC 版本支持的
__thread
限定符。了解线程本地存储

pthread_getspecific
确实相当慢(它位于 POSIX 库中,因此不是由 GCC 提供,而是由 GNU glibcmusl-libc 提供),因为它涉及函数调用。使用
thread_local
变量很可能会更快。

查看MUSL的

thread/pthread_getspecific.c
文件的源代码 获取实施示例。阅读相关问题的此答案

并且

_thread
thread_local
(通常)不会神奇地翻译为对
pthread_getspecific
的调用。它们通常涉及一些特定的地址模式和/或寄存器(细节是特定于实现的,与ABI相关;在Linux上,我猜由于x86-64有更多的寄存器和地址模式,它的TLS实现比i386更快),在编译器链接器运行时系统的帮助下。相反,某些
pthread_getspecific
的实现可能会使用一些内部
thread_local
变量(在 POSIX 线程的实现中)。

例如,编译以下代码

#include <pthread.h>

const extern pthread_key_t key;

__thread int data;

int
get_data (void) {
  return data;
}

int
get_by_key (void) {
  return *(int*) (pthread_getspecific (key));
}

使用 GCC 5.2(在 Debian/Sid 上)和

gcc -m32 -S -O2 -fverbose-asm
给出以下使用 TLS 的
get_data
代码:

  .type get_data, @function
get_data:
.LFB3:
  .cfi_startproc
  movl  %gs:data@ntpoff, %eax   # data,
  ret
.cfi_endproc

以及以下

get_by_key
代码,其中对 pthread_getspecific
显式调用

get_by_key:
 .LFB4:
  .cfi_startproc
  subl  $24, %esp   #,
  .cfi_def_cfa_offset 28
  pushl key # key
  .cfi_def_cfa_offset 32
  call  pthread_getspecific #
  movl  (%eax), %eax    # MEM[(int *)_4], MEM[(int *)_4]
  addl  $28, %esp   #,
  .cfi_def_cfa_offset 4
  ret
  .cfi_endproc

因此,将 TLS 与

__thread
(或 C11 中的
thread_local
)结合使用可能比使用
pthread_getspecific
更快(避免调用开销)。

请注意,

thread_local
<threads.h>
(C11标准头)中定义的
便捷宏。


4
投票

gcc 的

__thread
与 C11 的
_Thread_local
具有完全相同的语义。您无需告诉我们您正在为哪个平台编程,因为平台之间的实现细节有所不同。例如,在 x86 Linux 上,gcc 应该将对线程局部变量的访问编译为带有
%fs
段前缀的内存指令,而不是调用
pthread_getspecific

© www.soinside.com 2019 - 2024. All rights reserved.