如何使用Hive摆脱URL中的查询?

问题描述 投票:0回答:1

我有几百万个网址,看起来像:

www.wikipedia.com/helloworld?somekey=published_links&otherkey=1
www.wikipedia.com/helloworld?wowkey=20005
www.wikipedia.com/helloworld

我想摆脱网址查询,以便它们看起来像:

www.wikipedia.com/helloworld

我怎样才能做到这一点?使用正则表达式是否安全?我应该使用parse_url代替(Hive)吗?

谢谢!

hive
1个回答
1
投票

你可以使用parse_url函数与http://https://串联到现有列,并获得HOSTPATH值连接它们以获得所需的结果。

select CONCAT(parse_url(concat('http://',col),'HOST'),
              parse_url(concat('http://',col),'PATH')
             )
from tbl
© www.soinside.com 2019 - 2024. All rights reserved.