使用regEx使用wget下载整个目录

Question

我想从这个网址 - https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf下载多个pdf

如果我对完整的URL进行了wget，那么它会下载文件wget https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

但如果我尝试以递归方式下载整个文件夹，则返回403（禁止访问）

wget -r https://dummy.site.com/aabbcc/xyz/

我试过设置用户代理，拒绝robots.txt和一堆其他来自互联网的解决方案，但我回到了同一点。

所以我想形成所有可能的URL列表，将给定的URL视为常见模式，并且不知道如何做到这一点。

我只知道我可以将该文件作为输入传递给wget，它将以递归方式下载文件。所以在这里寻求使用regEx形成URL列表的帮助。谢谢！

Answer 1

您无法使用通配符下载您看不到的文件。如果主机不支持目录列表，则您不知道文件名/路径是什么。另外，由于您不知道生成文件名的算法，因此您无法生成并获取它们。