从.html文件获取IP

问题描述 投票:0回答:1

他们是一个在线袜子网站,我在proxychains程序中使用该网站。我没有手动输入新的IP,而是尝试使过程自动化。我使用wget将其转换为我的主目录上的.html文件,如果我关注该文件,则这是一些输出:

</font></a></td><td colspan=1><font class=spy1>111.230.138.177</font> <font class=spy14>(Shenzhen Tencent Computer Systems Company Limited)</font></td><td colspan=1><font class=spy1>6.531</font></td><td colspan=1><TABLE width='13' height='8' CELLPADDING=0 CELLSPACING=0><TR  BGCOLOR=blue><TD  width=1></TD></TR></TABLE></td><td colspan=1><font class=spy1><acronym title='311 of 436 - last check status=OK'>71% <font class=spy1>(311)</font> <font class=spy5>-</font></acronym></font></td><td colspan=1><font class=spy1><font class=spy14>05-jun-2020</font> 23:06 <font class=spy5>(4 mins ago)</font></font></td></tr><tr class=spy1x onmouseover="this.style.background='#002424'" onmouseout="this.style.background='#19373A'"><td colspan=1><font class=spy14>139.99.104.233<script type="text/javascript">document.write("<font class=spy2>:<\/font>"+(a1j0e5^q7p6)+(m3f6f6^r8c3)+(a1j0e5^q7p6)+(t0b2s9^y5m3)+(w3c3m3^z6j0))</script></font></td><td colspan=1>SOCKS5</td><td colspan=1><a href='/en/anonymous-proxy-list/'><font class=spy1>HIA</font></a></td><td colspan=1><a href='/free-proxy-list/CA/'><font class=spy14>Canada</

如您所见,IP通常后跟一个spy [0-19

。我尝试使用以下代码使用awk解析实际的IP:
awk '/^spy/{FS=">";  print $2 } file-name.html

这是有问题的,因为它们会是IP后面跟随的一堆其他内容,我也猜想行首的锚点是什么?无论如何,我想知道是否有人可以给我关于如何使用awk解析IP地址的任何想法。我刚开始学习awk,很抱歉出现菜鸟问题。谢谢

html linux awk text-parsing streamline
1个回答
1
投票

使用正确的XML / HTML解析器和表达式:

xidel -se '(//td[@colspan=1]/font[@class="spy1"])[1]/text()' file.html

输出:

111.230.138.177  
© www.soinside.com 2019 - 2024. All rights reserved.