使用WGET获取页面链接

Question

抱歉，第一次使用这里。

我正在使用

wget --spider --force-html -r -l5 http://example.com 2>&1 | grep '^--' | awk '{print $3}' > urls.txt

它工作得很好，但是它似乎没有复制每个页面上的“href=”链接。

wget -q http://example.com -O - | \
tr "\t\r\n'" '   "' | \
grep -i -o '<a[^>]\+href[ ]*=[ \t]*"\(ht\|f\)tps\?:[^"]\+"' | \
sed -e 's/^.*"\([^"]\+\)".*$/\1/g'>urls.txt

第二个确实抓取了我正在寻找的 href 链接，但它不会蜘蛛。

我试图让第一个接受每个页面上的 href 链接，或让第二个预制蜘蛛。我知道有更好的工具可以做到这一点，但在这个例子中我必须使用 WGET。

感谢您的阅读！

以上两种情况

Answer 1

尝试：

wget -q --spider -r -l5 http://example.com 2>&1 |
grep -i -o '<a[^>]+href[ ]*=[ ]*"[^"]*"' |
sed -e 's/^.*href[ ]*=[ ]*"\([^"]*\)".*$/\1/g' > urls.txt

使用WGET获取页面链接

问题描述投票：0回答：1

1个回答

最新问题

使用WGET获取页面链接

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1