我正在尝试复制网站以供离线查看,而没有任何依赖关系。
我想复制不带SCRIPT标签(特别是javascript)和不带外部脚本(.js)的HTML。
[曾尝试使用WGET --ignore-tags
和HTTrack进行此操作,但未按预期工作。脚本被整体复制。
例如,在Headless mode中调用Chrome chrome --headless --disable-gpu --dump-dom https://www.chromestatus.com/
将转储呈现的DOM的HTML,而不包含任何JavaScript。
[This post描述了如何使用Headless Chrome和Puppeteer构建爬虫。