在Javascript中完全迭代/抓取HTML文档

问题描述 投票:1回答:2

我对Web开发很新,包括HTML / CSS和Javascript。

有没有办法刮掉整个HTML文档,只使用vanilla JS在内部文本中查找某些模式?

我需要从文档中提取/识别不同形式的IP地址,甚至是那些未在“a”标签中标记但仍符合IP地址的rfcs文本表示的IP地址。

此功能应该是使用Mozilla的WebExtensions API编写的Addon的一部分。因此,我试图避免使用外部库。

先感谢您!

javascript html web-scraping firefox-webextensions
2个回答
0
投票

以下怎么样,

grep -iohP '(?<=\x3e)([0-9]+\.){3}[0-9]+(?=\x3c)' file

参考:Extract IP address from HTML document

虽然在js中你可能不得不使用jQuery.grep()


0
投票

如果模式可以显示在任何地方,正则表达式可能是你在这种情况下最好的选择。例如,为了匹配用连字符分隔的电话号码的每个实例,myhtmlstring.match(/\d{3}-\d{3}-\d{4}/g)将返回与该模式匹配的所有子串的数组。

© www.soinside.com 2019 - 2024. All rights reserved.