我是网络抓取的新手;我有一个从 COCA 抓取一些数据的小项目,但我什至不知道从哪里开始。看起来这个网页是使用一些 Javascript 构建的,我想知道是否有一些包可以让我与其交互?
以下是我希望我的程序执行的一些任务:
如有任何建议,我们将不胜感激。
PS:理想情况下,一切都应该在后台运行(不会打开浏览器)。
from pyvirtualdisplay import Display
from selenium import webdriver
display = Display(visible=0, size=(800, 600))
display.start()
browser = webdriver.Firefox()
browser.get('http://www.google.com')
print browser.title
browser.quit()
display.stop()
pyvirtualdisplay
在headless模式下Display(visible=0)
需要Xvbf
,这是Linux的一个功能。阅读更多此处有关 Xvbf 用法的信息。
正如有些人告诉您的那样,您可以使用
selenium
。
我建议您进入浏览器的开发人员工具并跟踪创建网站的网络请求,具体取决于页面的行为,也许您可以使用 python 模块request
来模拟您看到的请求制作网站,我个人认为比较简单。
如果您无法模拟请求,请使用 selenium。