用于保存网页的Python

Question

这可能是一项非常简单的任务，但我找不到任何帮助。我的网站采用www.xyz.com/somestuff/ID格式。我有一份我需要信息的ID列表。我希望有一个简单的脚本来访问网站，并以特定文件夹中的简单格式ID_whatever_the_default_save_name_is下载每个ID的（完整）网页。

我可以运行一个简单的python脚本来为我做这个吗？我可以手工完成，它只有75个不同的页面，但我希望用它来学习将来如何做这样的事情。

Answer 1

Mechanize是一个用python爬网的好方法。您的问题的一个简单示例是：

import mechanize

br = mechanize.Browser()
response = br.open("www.xyz.com/somestuff/ID")
print response

这只是抓取你的网址并打印来自服务器的响应。

Answer 2

这可以使用urllib模块在python中完成。这是Python 3中的一个简单示例：

import urllib.request

url = 'www.xyz.com/somestuff/ID'
req = urllib.request.Request(url)
page = urllib.request.urlopen(req)
src = page.readall()
print(src)

有关urllib模块的更多信息 - > http://docs.python.org/3.3/library/urllib.html

Answer 3

你想要网站的HTML代码吗？如果是这样，只需使用主机站点创建一个url变量，然后添加页码。我将以http://www.notalwaysright.com为例进行此操作

import urllib.request

url = "http://www.notalwaysright.com/page/"

for x in range(1, 71):
    newurl = url + x
    response = urllib.request.urlopen(newurl)
    with open("Page/" + x, "a") as p:
        p.writelines(reponse.read())

用于保存网页的Python

问题描述投票：1回答：3

3个回答

最新问题

用于保存网页的Python

问题描述 投票：1回答：3

3个回答

最新问题

问题描述投票：1回答：3