我想从这个网址 - https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf
下载多个pdf
如果我对完整的URL进行了wget,那么它会下载文件wget https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf
但如果我尝试以递归方式下载整个文件夹,则返回403(禁止访问)
wget -r https://dummy.site.com/aabbcc/xyz/
我试过设置用户代理,拒绝robots.txt和一堆其他来自互联网的解决方案,但我回到了同一点。
所以我想形成所有可能的URL列表,将给定的URL视为常见模式,并且不知道如何做到这一点。
我只知道我可以将该文件作为输入传递给wget,它将以递归方式下载文件。所以在这里寻求使用regEx形成URL列表的帮助。谢谢!
您无法使用通配符下载您看不到的文件。如果主机不支持目录列表,则您不知道文件名/路径是什么。另外,由于您不知道生成文件名的算法,因此您无法生成并获取它们。