使用regEx使用wget下载整个目录

问题描述 投票:-1回答:1

我想从这个网址 - https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf下载多个pdf

如果我对完整的URL进行了wget,那么它会下载文件wget https://dummy.site.com/aabbcc/xyz/2017/09/15/2194812/O7ca217a71ac444eda516d8f78c29091a.pdf

但如果我尝试以递归方式下载整个文件夹,则返回403(禁止访问)

wget -r https://dummy.site.com/aabbcc/xyz/

我试过设置用户代理,拒绝robots.txt和一堆其他来自互联网的解决方案,但我回到了同一点。

所以我想形成所有可能的URL列表,将给定的URL视为常见模式,并且不知道如何做到这一点。

我只知道我可以将该文件作为输入传递给wget,它将以递归方式下载文件。所以在这里寻求使用regEx形成URL列表的帮助。谢谢!

regex shell cygwin wget http-status-code-403
1个回答
1
投票

您无法使用通配符下载您看不到的文件。如果主机不支持目录列表,则您不知道文件名/路径是什么。另外,由于您不知道生成文件名的算法,因此您无法生成并获取它们。

© www.soinside.com 2019 - 2024. All rights reserved.