GAWK的行为与标准正则表达式不同

问题描述 投票:0回答:1

我正在尝试使用gawk从某些HTML中删除链接,但它似乎不能像普通的正则表达式一样工作:

使用:

gsub(/<a href=\"(.*?)\">/,"<a href=\"#\">",html_desc)

输入:

<ul class="aclass asubclass">           <li><a href="https://www.anylink.com" class="anotherclass">Some Text</a></li>       </ul>

我想要什么:

<ul class="aclass asubclass">           <li><a href="#" class="anotherclass">Some Text</a></li>         </ul>

任何人都可以帮忙吗?

html regex awk href
1个回答
0
投票

要匹配href属性的引号内的所有内容并将其内容替换为#,可以使用:

gsub(/<a href=\"[^"]*/, "<a href=\"#", html_desc)

[^"]*匹配开引号后的所有非"字符。

© www.soinside.com 2019 - 2024. All rights reserved.