我正在尝试从网页中捕获动态内容。加载内容后,数据将动态显示在网页上。在一个网页上,控制台中的响应为json格式,第二个为html。
我曾尝试使用scrappy和urllib3,但没有设法从网页本身中捕获静态数据。
这是我试图与草皮一起使用的。
class spider(scrapy.Spider):
name = 'myspider'
start_urls = [url]
def parse(self, response):
yield scrapy.FormRequest('myurl',
callback=self.write_vente,
headers=headers,
meta={'proxy': 'https://' + str(proxy)})
def write_vente(self, response):
filename = 'vente.html'
with open(filename, 'wb') as f:
f.write(response.body)
如果您知道要使用的任何解决方案或其他库/框架,甚至其他允许我这样做的编程语言,则>]
谢谢
我正在尝试从网页中捕获动态内容。加载内容后,数据将动态显示在网页上。在一个网页上,控制台中的响应为json格式,并且html ...
从动态网站抓取数据的最常用工具是Selenium WebDriver。其中也对Python有很好的支持,可以无头使用。如果您将其搜索与抓取结合使用,它还会包含大量文章。