我的数据总是以重复两次而没有分隔符的子字符串开头,然后是我不关心的其他数据。重复子字符串的长度各不相同,在下面的示例中,为了简单起见,我主要使用 [a-z] 字符,但重复子字符串在真实数据集中主要是 unicode 波浪线。
johnjohnsajoalsas
john
peterpeteraaksoskco
peter
a8co.a8co.robinson
a8co.
robrob7s:s7
rob
dkoisawks
\[null\]
这可以通过积极的前瞻轻松完成
^(.+)(?=\1)
或者像这样直接引用捕获组
^(.+)\1
但是,Google 表格不支持其中任何一个。
任何帮助将不胜感激。
这是您可以在表格中测试的一种方法(
non-regex
=let(Λ,A2, Σ,map(sequence(rounddown(len(Λ)/2)),lambda(Σ,{left(Λ,Σ),left(Λ,Σ)=mid(Λ,Σ+1,Σ)})), ifna(+filter(Σ,index(Σ,,2)),"-"))
left()
mid()