从网页捕获动态请求内容

问题描述 投票:1回答:1

我正在尝试从网页中捕获动态内容。加载内容后,数据将动态显示在网页上。在一个网页上,控制台中的响应为json格式,第二个为html。

我曾尝试使用scrappy和urllib3,但没有设法从网页本身中捕获静态数据。

这是我试图与草皮一起使用的。

class spider(scrapy.Spider):                                                 
    name = 'myspider'                                                    
    start_urls = [url]                                                 

    def parse(self, response):                                               
        yield scrapy.FormRequest('myurl',    
                                 callback=self.write_vente,                  
                                 headers=headers,                            
                                 meta={'proxy': 'https://' + str(proxy)})    


    def write_vente(self, response):                                         
        filename = 'vente.html'                                              
        with open(filename, 'wb') as f:                                      
            f.write(response.body)  

如果您知道要使用的任何解决方案或其他库/框架,甚至其他允许我这样做的编程语言,则>]

谢谢

我正在尝试从网页中捕获动态内容。加载内容后,数据将动态显示在网页上。在一个网页上,控制台中的响应为json格式,并且html ...

python web-scraping httprequest
1个回答
0
投票

从动态网站抓取数据的最常用工具是Selenium WebDriver。其中也对Python有很好的支持,可以无头使用。如果您将其搜索与抓取结合使用,它还会包含大量文章。

© www.soinside.com 2019 - 2024. All rights reserved.