子字符串和 Go 垃圾收集器

问题描述 投票:0回答:3

在 Go 中获取字符串的子字符串时,不会分配新的内存。相反,子字符串的底层表示包含一个数据指针,该指针是原始字符串的数据指针的偏移量。

这意味着,如果我有一个大字符串并希望跟踪一个小子字符串,则垃圾收集器将无法释放任何大字符串,直到我释放对较短子字符串的所有引用。

切片也有类似的问题,但您可以通过使用 copy() 复制子切片来解决这个问题。我不知道有任何类似的字符串复制操作。制作子字符串的“副本”的惯用且最快的方法是什么?

string go slice idioms
3个回答
1
投票

例如,

package main

import (
    "fmt"
    "unsafe"
)

type String struct {
    str *byte
    len int
}

func main() {
    str := "abc"
    substr := string([]byte(str[1:]))
    fmt.Println(str, substr)
    fmt.Println(*(*String)(unsafe.Pointer(&str)), *(*String)(unsafe.Pointer(&substr)))
}

输出:

abc bc
{0x4c0640 3} {0xc21000c940 2}

0
投票

我知道这是一个老问题,但是有几种方法可以做到这一点,而无需创建所需数据的两个副本。

首先是创建子字符串的

[]byte
,然后使用
string
将其强制转换为
unsafe.Pointer
。这是可行的,因为
[]byte
的标头与
string
的标头相同,只是
[]byte
末尾有一个额外的
Cap
字段,因此它只是被截断。

package main

import (
    "fmt"
    "unsafe"
)

func main() {
    str := "foobar"
    byt := []byte(str[3:])
    sub := *(*string)(unsafe.Pointer(&byt))
    fmt.Println(str, sub)
}

第二种方法是使用

reflect.StringHeader
reflect.SliceHeader
进行更明确的标头传输。

package main

import (
    "fmt"
    "unsafe"
    "reflect"
)

func main() {
    str := "foobar"
    byt := []byte(str[3:])
    bytPtr := (*reflect.SliceHeader)(unsafe.Pointer(&byt)).Data
    strHdr := reflect.StringHeader{Data: bytPtr, Len: len(byt)}
    sub := *(*string)(unsafe.Pointer(&strHdr))
    fmt.Println(str, sub)
}

0
投票

自 Go 1.17(2022 年 3 月)起

有一个函数可以创建字符串的副本,该函数会将底层数据复制到新位置:

strings.Clone(s)

// Use this if you want to extract only a few substrings of a big string
subString := strings.Clone( bigString[5:10] )
© www.soinside.com 2019 - 2024. All rights reserved.