目前,我正在使用一个名为 BeautifulSoup 的 Python 库从 WEB 上抓取一些东西
但是我发现我抓到的数据无法打印出来
这是我的代码快照,如下所示
import requests
from bs4 import BeautifulSoup
reqget=requests.get('https://fubon-ebrokerdj.fbs.com.tw/z/zg/zg_A_0_5.djhtm')
html=reqget.text
sp=BeautifulSoup(html,'html.parser')
data = [ i.text.strip() for i in sp.find_all('td',class_='t3t1')]
print(data)
这段代码的输出是[],它是空的
然后我回去检查我抓取的网站的 HTML 代码。
事实上,它的 HTML 里面有数据
所以我想知道为什么它不能打印出数据,但数据确实存在于我抓取的网站中?
期望从我抓取的网站获取数据
>>> import requests
>>> reqget=requests.get('https://fubon-ebrokerdj.fbs.com.tw/z/zg/zg_A_0_5.djhtm')
>>> print(reqget.status_code)
403
服务器不会向您返回任何真实数据。鉴于它可以与 curl 配合使用,一些用户代理欺骗应该可以解决问题
% curl -s https://fubon-ebrokerdj.fbs.com.tw/z/zg/zg_A_0_5.djhtm | grep t3r1 --count
174