如何使用python从页面下载文件

Question

我从这个页面下载txt文件时遇到麻烦：https://www.ceps.cz/en/all-data#RegulationEnergy（当你向下滚动并看到下载：txt，xls和xml时）。

我的目标是创建将转到链接页面的scraper，例如点击txt链接并保存下载的文件。

主要问题我不知道如何解决：

该文件没有我可以调用和下载的真实链接，但链接是基于过滤器和文件类型使用JS创建的。
当我使用requests库进行python并调用所有标题的链接时，它只是将我重定向到https://www.ceps.cz/en/all-data。

方法尝试：

使用诸如ParseHub之类的scraper下载链接没有按预期工作。但是这个刮刀最接近我想要的。
使用requests库连接到链接，使用HXR请求用于下载文件的标题，但它只是将我重定向到https://www.ceps.cz/en/all-data。

如果您可以为此任务提出一些解决方案，请提前感谢您。 :-)

Answer 1

您可以使用Selenium将此数据下载到您选择的目录中;您只需指定要保存数据的目录。在下面的内容中，我将txt数据保存到我的桌面：

from selenium import webdriver

download_dir = '/Users/doug/Desktop/'

chrome_options = webdriver.ChromeOptions()
prefs = {'download.default_directory' : download_dir}
chrome_options.add_experimental_option('prefs', prefs)
driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get('https://www.ceps.cz/en/all-data')

container = driver.find_element_by_class_name('download-graph-data')
button = container.find_element_by_tag_name('li')
button.click()

Answer 2

你应该这样做：

import requests

txt_format = 'txt'
xls_format = 'xls' # open in binary mode
xml_format = 'xlm' # open in binary mode

def download(file_type):
    url = f'https://www.ceps.cz/download-data/?format={txt_format}'

    response = requests.get(url)

    if file_type is txt_format:
        with open(f'file.{file_type}', 'w') as file:
            file.write(response.text)
    else:
        with open(f'file.{file_type}', 'wb') as file:
            file.write(response.content)

download(txt_format)

如何使用python从页面下载文件

问题描述投票：3回答：2

2个回答

最新问题

如何使用python从页面下载文件

问题描述 投票：3回答：2

2个回答

最新问题

问题描述投票：3回答：2