正则表达式匹配 Google 表格中的重复子字符串

Question

我的数据总是以重复两次而没有分隔符的子字符串开头，然后是我不关心的其他数据。重复子字符串的长度各不相同，在下面的示例中，为了简单起见，我主要使用 [a-z] 字符，但重复子字符串在真实数据集中主要是 unicode 波浪线。

这可以通过积极的前瞻轻松完成

^(.+)(?=\1)

或者像这样直接引用捕获组

^(.+)\1

但是，Google 表格不支持其中任何一个。

任何帮助将不胜感激。

Answer 1

这是您可以在表格中测试的一种方法（

non-regex

）：

=let(Λ,A2, Σ,map(sequence(rounddown(len(Λ)/2)),lambda(Σ,{left(Λ,Σ),left(Λ,Σ)=mid(Λ,Σ+1,Σ)})),
    ifna(+filter(Σ,index(Σ,,2)),"-"))