草图引擎中CQL内空间索引的正则表达式是什么

问题描述 投票:0回答:1

我在语料库中进行查询时遇到问题。我需要找到的是所有前面和后面都没有空格的点的实例,例如

a.a b.b c.c
。我在本页找到了空格的正则表达式 https://www.sketchengine.eu/guide/regular-expressions/#toggle-id-2 对于每个空白字符(空格、换行符)应该是
[[:space:]]
、制表符、回车)。

我的想法是,我会在索引中构建一个 CQL,它会搜索非空格(带有!)、一个点,然后再次搜索非空格,如下所示:

[lemma!="[[:space:]]"] [lemma="\."] [lemma!="[[:space:]]"]

但它不起作用。我尝试单独搜索正则表达式

[[:space:]]
,但它也不起作用。我也用
\s
尝试过:

[lemma="[\s]"] [lemma="\."] [lemma="[\s]"] and [lemma="\s"] [lemma="\."] [lemma="\s"]

还有“小于号”/“大于号”“小于号”“大于号”,我知道它只标记新段落的结束和开始,但仍然是一个开始

[lemma="</s><s>"] [lemma="\."] [lemma="</s><s>"]

但还是无济于事。

我尝试用另一种方式解决这个问题,通过这项研究,点之前和之后必须有一个字母(无论如何我不需要数字或符号):

[lemma="[[:alpha:]]*"] [lemma="\."] [lemma="[[:alpha:]]*"]

但它并没有找到我所有的结果。

有人可以告诉我我的正则表达式/CQL 做错了什么吗?

regex whitespace cql corpus sketching
1个回答
0
投票

尝试:

[lemma=".*(^|\S)\.($|\S).*"]

\S
表示任何非空白字符。因此,这匹配
.
,前面是字符串的开头或非空格,后面是字符串的结尾或非空格。

© www.soinside.com 2019 - 2024. All rights reserved.