我在使用 Hive 时遇到问题。问题似乎与分组有关。我基本上是从
regexp_extract
字符之间的 URL 中提取信息,我不想选择第一个匹配项,而是选择第 N 个匹配项。URL 可能如下所示:
/
我想提取
https://stackoverflow.com/questions/dghahjsg/ahfgajhfg/shjagdhjasg/text/regex-match-all-characters-between-two-strings
部分。
例如我正在尝试:text
演示
regexp_extract(cs.context_page_url, '(\/.?\/)', 5)
返回:
select split(str, '/+')[0],
split(str, '/+')[6]
from
(select 'https://stackoverflow.com/questions/dghahjsg/ahfgajhfg/shjagdhjasg/text/regex-match-all-characters-between-two-strings' str
)s