如何自动从网站下载文件？

Question

我想从此 URL 下载多个数据文件：https://pselookup.vrymel.com/

该网站包含一个日期字段和一个下载按钮。我想下载多年的数据（这意味着很多请求）并且我想自动完成。

我创建了一个 Javascript 片段，但是，它不断地一遍又一遍地下载同一个文件。

$dateField = document.getElementsByClassName('csv_download_input__Input-encwx-1 dDiqPH')[2]

$dlButton = document.getElementsByClassName('csv_download_input__Button-encwx-0 KLfyv')[2]

var now = new Date();
var daysOfYear = [];
for (var d = new Date(2016, 0, 1); d <= now; d.setDate(d.getDate() + 1)) {
    daysOfYear.push(new Date(d).toISOString().substring(0,10));
}

(function theLoop (i) {
  setTimeout(function () {
    $dlButton.click()
    $dateField.value = daysOfYear[i]
    if (--i) {          // If i > 0, keep going
      theLoop(i);       // Call the loop again, and pass it the current value of i
    }
  }, 3000);
})(daysOfYear.length-1);

如何自动下载所有文件？

Answer 1

首先，客户端中的 javascript 可能不是执行此操作的最佳语言，也不是实现此目的的最佳方法。它可能会起作用，但在选择解决问题的方法时最好知道什么是最好的。此外，它还可以避免您在接受下载的弹出窗口中单击约 800 次。

您可以通过编程方式获取文件，只需了解浏览器正在做什么来获取文件并尝试批量重现它。

检查调用后，您可以看到它正在调用端点，并且该端点正在返回一个链接，其中包含您可以下载的文件。

嗯，这很容易，所以现在您只需要用任何语言制作脚本就可以检索它们。

我选择了

javascript

，但不是客户端，而是

nodejs

，这意味着它必须从您的计算机运行。

您可以使用

bash

、

python

或任何其他语言执行相同操作。

要运行此程序，请执行以下操作：

转到一个新的空目录
奔跑
```
npm install axios
```
使用我粘贴的代码创建一个文件，我们称之为
```
crawler.js
```
奔跑
```
node crawler.js
```

这已使用

node v8.15.0

进行了测试

// NOTE: Require this to make a request and save the link as file 20190813:Alevale
const axios = require('axios');
const fs = require('fs');

let now = new Date();
let daysOfYear = [];
const baseUrl = 'https://a4dzytphl9.execute-api.ap-southeast-1.amazonaws.com/prod/eod/'

for (var d = new Date(2016, 0, 1); d <= now; d.setDate(d.getDate() + 1)) {
    daysOfYear.push(new Date(d).toISOString().substring(0,10));
}

const waitFor = (time) => {
    return new Promise((resolve => setTimeout(resolve, time)))
}

const getUrls = async () =>{
    let day
    for (day of daysOfYear) {
        console.log('getting day', baseUrl + day)
        // NOTE: Throttle the calls to not overload the server 20190813:Alevale
        await waitFor(4000)

        await axios.get(baseUrl + day)
            .then(response => {
                console.log(response.data);
                console.log(response);
                if (response.data && response.data.download_url) {
                    return response.data.download_url
                }
                return Promise.reject('Could not retrieve response.data.download_url')
            })
            .then((url) =>{
                axios({
                    method: 'get',
                    url,
                    responseType: 'stream'
                })
                    .then(function (response) {
                        // NOTE: Save the file as 2019-08-13 20190813:Alevale
                        response.data.pipe(fs.createWriteStream(`${day}.csv`))
                    })
                    .catch(console.error)

            })
            .catch(error => {
                console.log(error);
            });
    }
}

getUrls()

Answer 2

您可以不模拟用户，而是从以下位置获取下载链接： https://a4dzytphl9.execute-api.ap-southeast-1.amazonaws.com/prod/eod/2019-08-07 只需将末尾的日期更改为您要下载的文件的日期即可。并使用axios获取这个URL。

这会节省你一些时间（如果你真的不需要模拟用户的点击等）

然后你会得到这样的回复：

{
   download_url":"https://d3u9ukmkxau9he.cloudfront.net/eod/2019-08-07.csv?Expires=1566226156&Signature=QRUk3tstuNX5KYVPKJSWrXsSXatkWS-eFBIGUufaTEMJ~rgpVi0iPCe1AXl5pbQVdBQxOctpixCbyNz6b9ycDgYNxEdZqPr2o2pDe8cRL655d3zXdICnEGt~dU6p35iMAJkMpPSH~jbewhRSCPUwWXQBfOiEzlHwxru9lPnDfsdSnk3iI3GyR8Oc0ZP50EdUMHF7MjWSBRbCIwnu6wW4Jh0bPmZkQDQ63ms5QxehsmtuGLOgcrC6Ky1OffVQj~ihhmBt4LGhZTajjK4WO18hCP3urKt03qpC4bOvYvJ3pxvRkae0PH1f-vbTWMDkaWHHVCrzqZhkAh3FlvMTWj8D4g__&Key-Pair-Id=APKAIAXOVAEOGN2AYWNQ"
}

and then you can use axios to GET this url and download your file.

Answer 3

strona może być w php，一个 php 笑话 językiem serwera ，to oznacza rze php nie jest na komputerze osoby która weszła na stronę i stąd te błędy się zbierają

如何自动从网站下载文件？

问题描述投票：0回答：3

3个回答

最新问题

如何自动从网站下载文件？

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3