用于保存网页的Python

问题描述 投票:1回答:3

这可能是一项非常简单的任务,但我找不到任何帮助。我的网站采用www.xyz.com/somestuff/ID格式。我有一份我需要信息的ID列表。我希望有一个简单的脚本来访问网站,并以特定文件夹中的简单格式ID_whatever_the_default_save_name_is下载每个ID的(完整)网页。

我可以运行一个简单的python脚本来为我做这个吗?我可以手工完成,它只有75个不同的页面,但我希望用它来学习将来如何做这样的事情。

python web web-scraping
3个回答
0
投票

Mechanize是一个用python爬网的好方法。您的问题的一个简单示例是:

import mechanize

br = mechanize.Browser()
response = br.open("www.xyz.com/somestuff/ID")
print response

这只是抓取你的网址并打印来自服务器的响应。


0
投票

这可以使用urllib模块在python中完成。这是Python 3中的一个简单示例:

import urllib.request

url = 'www.xyz.com/somestuff/ID'
req = urllib.request.Request(url)
page = urllib.request.urlopen(req)
src = page.readall()
print(src)

有关urllib模块的更多信息 - > http://docs.python.org/3.3/library/urllib.html


0
投票

你想要网站的HTML代码吗?如果是这样,只需使用主机站点创建一个url变量,然后添加页码。我将以http://www.notalwaysright.com为例进行此操作

import urllib.request

url = "http://www.notalwaysright.com/page/"

for x in range(1, 71):
    newurl = url + x
    response = urllib.request.urlopen(newurl)
    with open("Page/" + x, "a") as p:
        p.writelines(reponse.read())
© www.soinside.com 2019 - 2024. All rights reserved.