使用python“BeautifulSoup”库,但无法打印出我抓取的网站上的数据

问题描述 投票:0回答:1

目前,我正在使用一个名为 BeautifulSoup 的 Python 库从 WEB 上抓取一些东西

但是我发现我抓到的数据无法打印出来

这是我的代码快照,如下所示

import requests 
from bs4 import BeautifulSoup  
reqget=requests.get('https://fubon-ebrokerdj.fbs.com.tw/z/zg/zg_A_0_5.djhtm') 
html=reqget.text 
sp=BeautifulSoup(html,'html.parser') 
data = [ i.text.strip() for i in sp.find_all('td',class_='t3t1')] 
print(data)

这段代码的输出是[],它是空的

然后我回去检查我抓取的网站的 HTML 代码。
事实上,它的 HTML 里面有数据
enter image description here
所以我想知道为什么它不能打印出数据,但数据确实存在于我抓取的网站中?

期望从我抓取的网站获取数据

python scrapy
1个回答
0
投票
>>> import requests
>>> reqget=requests.get('https://fubon-ebrokerdj.fbs.com.tw/z/zg/zg_A_0_5.djhtm')
>>> print(reqget.status_code)
403

服务器不会向您返回任何真实数据。鉴于它可以与 curl 配合使用,一些用户代理欺骗应该可以解决问题

 % curl -s https://fubon-ebrokerdj.fbs.com.tw/z/zg/zg_A_0_5.djhtm | grep t3r1 --count
174
最新问题
© www.soinside.com 2019 - 2024. All rights reserved.