我有一个使用 url 地址读取网页内容的代码。
之前我的代码运行良好,现在站点安全证书出现问题。为了解决IE的问题,我完成了将证书导入到受信任的站点,问题就解决了。
但是当我运行这段代码时:
df = pd.read_html(i,header=0)[0]
我收到错误:
Traceback (most recent call last):
File "D:\Distrib\Load_Data_from_Flat_ver_1.py", line 95, in <module>
df = pd.read_html(i,header=0)[0]
File "C:\Program Files\Python36\lib\site-packages\pandas\io\html.py", line 915, in read_html
keep_default_na=keep_default_na)
File "C:\Program Files\Python36\lib\site-packages\pandas\io\html.py", line 749, in _parse
raise_with_traceback(retained)
File "C:\Program Files\Python36\lib\site-packages\pandas\compat\__init__.py", line 385, in raise_with_traceback
raise exc.with_traceback(traceback)
ssl.CertificateError: hostname '10.89.174.12' doesn't match 'localhost'
谁能帮我解决这个问题吗?
错误是什么
阅读 ssl 包的 PSL 文档,您将找到发生此特定错误的示例。
>>> cert = {'subject': ((('commonName', 'example.com'),),)}
>>> ssl.match_hostname(cert, "example.com")
>>> ssl.match_hostname(cert, "example.org")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/home/py3k/Lib/ssl.py", line 130, in match_hostname
ssl.CertificateError: hostname 'example.org' doesn't match 'example.com'
检查服务器公用名称时,第二次检查失败。这正是您的情况所发生的情况。
Python路径
参考 Pandas 文档:
io : str 或类似文件 URL、类似文件的对象或包含 HTML 的原始字符串。 请注意,lxml 仅接受 http、ftp 和文件 url 协议。如果你 有一个以“https”开头的 URL,您可以尝试删除“s”。
您无法使用
read_html
方法从 HTTPS 读取。
要解决此问题,请首先使用 PSL 通过 HTTPS 下载资源,而不验证 SSL 上下文:
from urllib import request
import ssl
url="https://example.com/data.html"
context = ssl._create_unverified_context()
response = request.urlopen(url, context=context)
html = response.read()
然后用Pandas处理它:
import pandas as pd
df = pd.read_html(html)
创建有效的上下文
正如@AlastairMcCormack 所指出的:
只能用于本地主机或测试。context = ssl._create_unverified_context()
如果在不验证 SSL 上下文的情况下访问资源可以解决您的问题,那么就该创建有效的上下文(简介、片段)以便安全地获取您的资源。
服务器路径
您还可以创建一个新证书,其中通用名称与服务器域(或其 IP)匹配。这里
localhost
似乎来自发送到生产服务器的开发证书,这无法正常工作。
无论如何,这一点并不能解决
read_html
不处理HTTPS连接的事实。
虽然批准的响应是正确的答案,但一个快速而肮脏(对许多人来说很明显的问题)的解决方案是从“https”中删除“s”。通常,它会起作用