我可以从其他网站获取html:
import requests
url = 'https://datacamp.com/courses/all'
html = requests.get(url).content
html
输出:b'<!DOCTYPE html>\n<html class="no-js">\n <head>\n <script>\n...'
import requests
url = 'https://www.8a.nu/scorecard/ranking/'
html = requests.get(url).content
html
输出:b''
这是https://www.8a.nu/scorecard/ranking/中的源代码的片段>
<html xmlns="http://www.w3.org/1999/xhtml">
<head id="ctl00_Head1"><meta charset="utf-8" /><meta http-equiv="Content-Type" content="text/html;charset=UTF-8" /><link id="ctl00_cLink" rel="canonical" href="https://www.8a.nu/scorecard/ranking/" />
<title>8a.nu - World Ranking Outdoor Climbing</title>
<meta charset="utf-8" />
<meta http-equiv="Content-Type" content="text/html;charset=UTF-8" />
<link href="/8aStyle.css" type="text/css" rel="stylesheet" />
<script src="/js/Common.js" type="text/javascript"></script>
<style type="text/css">
任何主意是什么原因造成的?我知道某些网站是使用JavaScript生成的,但我仍然希望可以通过请求模块获取HTML源代码。
我正在尝试用Scrapy抓取攀爬网站8a.nu,但在获取html时遇到了问题。我可以从其他网站获取html:导入请求url ='https://datacamp.com / ...
请注意,此答案仅供参考。如果网站被用户代理阻止,则他们很可能不希望其网站被剪贴。我建议您先检查他们的服务条款,然后再继续。