抱歉,第一次使用这里。
我正在使用
wget --spider --force-html -r -l5 http://example.com 2>&1 | grep '^--' | awk '{print $3}' > urls.txt
它工作得很好,但是它似乎没有复制每个页面上的“href=”链接。
wget -q http://example.com -O - | \
tr "\t\r\n'" ' "' | \
grep -i -o '<a[^>]\+href[ ]*=[ \t]*"\(ht\|f\)tps\?:[^"]\+"' | \
sed -e 's/^.*"\([^"]\+\)".*$/\1/g'>urls.txt
第二个确实抓取了我正在寻找的 href 链接,但它不会蜘蛛。
我试图让第一个接受每个页面上的 href 链接,或让第二个预制蜘蛛。我知道有更好的工具可以做到这一点,但在这个例子中我必须使用 WGET。
感谢您的阅读!
以上两种情况
尝试:
wget -q --spider -r -l5 http://example.com 2>&1 |
grep -i -o '<a[^>]+href[ ]*=[ ]*"[^"]*"' |
sed -e 's/^.*href[ ]*=[ ]*"\([^"]*\)".*$/\1/g' > urls.txt