我正在尝试使用gawk从某些HTML中删除链接,但它似乎不能像普通的正则表达式一样工作:
使用:
gsub(/<a href=\"(.*?)\">/,"<a href=\"#\">",html_desc)
输入:
<ul class="aclass asubclass"> <li><a href="https://www.anylink.com" class="anotherclass">Some Text</a></li> </ul>
我想要什么:
<ul class="aclass asubclass"> <li><a href="#" class="anotherclass">Some Text</a></li> </ul>
任何人都可以帮忙吗?
要匹配href
属性的引号内的所有内容并将其内容替换为#
,可以使用:
gsub(/<a href=\"[^"]*/, "<a href=\"#", html_desc)
[^"]*
匹配开引号后的所有非"
字符。