我正在尝试在https://nces.ed.gov/collegenavigator/?id=139755页的净价格可扩展对象下获取表格。我已经看过BS4的教程,但是在这种情况下,我对html的复杂性感到困惑,以至于我不知道要使用哪种语法和标记。
这是表格的屏幕截图,我正在尝试获取html:
这是我到目前为止所拥有的。如何添加其他标签以将结果缩小到仅一张表?
import requests
from bs4 import BeautifulSoup
page = requests.get('https://nces.ed.gov/collegenavigator/?id=139755')
soup = BeautifulSoup(page.text, 'html.parser')
soup = soup.find(id="divctl00_cphCollegeNavBody_ucInstitutionMain_ctl02")
print(soup.prettify())
一旦我可以解析该数据,我将使用熊猫将其格式化为一个数据框。
好的,也许可以帮到你,我加了熊猫
这是在该手风琴中刮擦第一张桌子的基本脚本:
在这种情况下,我可能只使用pandas来检索所有表,然后在适当的地方进行索引