抓取特定电影的所有烂番茄观众评论

问题描述 投票:0回答:1

我正在尝试在烂番茄上抓取某部电影的所有观众评论。每个评论页面显示 20 条评论,并有一个“加载更多”按钮,以便显示接下来的 20 条评论,依此类推。例如,请参阅https://www.rottentomatoes.com/m/inception/reviews?type=user&intcmp=rt-scorecard_audience-score-reviews

我可以使用selenium点击“LOAD MORE”按钮,直到加载所有评论,然后从所有评论中提取信息。对于评论数量合理的电影,此策略效果很好。

然而,当电影有大量观众评论时,就会出现问题,因为在点击一定量后页面需要时间加载,并且脚本最终崩溃。由于评论是按时间倒序排列的,因此很难找到很早的评论。

有谁知道是否有一种方法可以直接从网址对观众评论进行排序,例如按时间顺序对评论进行排序,以便最早的评论首先出现?

任何其他解决该问题的建议将不胜感激!

python web-scraping url rotten-tomatoes
1个回答
0
投票

您可以在抓取元素时删除它们,以避免浏览器页面内存不足。这里有一些方法—— Python selenium,如何删除元素?.

© www.soinside.com 2019 - 2024. All rights reserved.