使用WGET获取页面链接

问题描述 投票:0回答:1

抱歉,第一次使用这里。

我正在使用

wget --spider --force-html -r -l5 http://example.com 2>&1 | grep '^--' | awk '{print $3}' > urls.txt

它工作得很好,但是它似乎没有复制每个页面上的“href=”链接。

wget -q http://example.com -O - | \
tr "\t\r\n'" '   "' | \
grep -i -o '<a[^>]\+href[ ]*=[ \t]*"\(ht\|f\)tps\?:[^"]\+"' | \
sed -e 's/^.*"\([^"]\+\)".*$/\1/g'>urls.txt

第二个确实抓取了我正在寻找的 href 链接,但它不会蜘蛛。

我试图让第一个接受每个页面上的 href 链接,或让第二个预制蜘蛛。我知道有更好的工具可以做到这一点,但在这个例子中我必须使用 WGET。

感谢您的阅读!

以上两种情况

href wget
1个回答
0
投票

尝试:

wget -q --spider -r -l5 http://example.com 2>&1 |
grep -i -o '<a[^>]+href[ ]*=[ ]*"[^"]*"' |
sed -e 's/^.*href[ ]*=[ ]*"\([^"]*\)".*$/\1/g' > urls.txt
© www.soinside.com 2019 - 2024. All rights reserved.