从网页捕获动态请求内容

Question

我正在尝试从网页中捕获动态内容。加载内容后，数据将动态显示在网页上。在一个网页上，控制台中的响应为json格式，第二个为html。

我曾尝试使用scrappy和urllib3，但没有设法从网页本身中捕获静态数据。

这是我试图与草皮一起使用的。

class spider(scrapy.Spider):                                                 
    name = 'myspider'                                                    
    start_urls = [url]                                                 

    def parse(self, response):                                               
        yield scrapy.FormRequest('myurl',    
                                 callback=self.write_vente,                  
                                 headers=headers,                            
                                 meta={'proxy': 'https://' + str(proxy)})    


    def write_vente(self, response):                                         
        filename = 'vente.html'                                              
        with open(filename, 'wb') as f:                                      
            f.write(response.body)

如果您知道要使用的任何解决方案或其他库/框架，甚至其他允许我这样做的编程语言，则>]

谢谢

我正在尝试从网页中捕获动态内容。加载内容后，数据将动态显示在网页上。在一个网页上，控制台中的响应为json格式，并且html ...

Answer 1

从动态网站抓取数据的最常用工具是Selenium WebDriver。其中也对Python有很好的支持，可以无头使用。如果您将其搜索与抓取结合使用，它还会包含大量文章。

从网页捕获动态请求内容

问题描述投票：1回答：1

1个回答

最新问题

从网页捕获动态请求内容

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1