NLP项目的数据收集

问题描述 投票:0回答:1

我正在尝试针对“狮子王”的电影评论进行情绪分析的NLP项目,但无法收集评论。这是我的代码:

导入请求导入时间

为我们的请求创建标题:标头= {'Referer':'https://www.rottentomatoes.com/m/the_lion_king_2019/reviews?type=user','User-Agent':'Mozilla / 5.0(Windows NT 10.0; Win64; x64)AppleWebKit / 537.36(KHTML,like Gecko)Chrome / 74.0.3729.108 Safari / 537.36','X-Requested-With':'XMLHttpRequest',}

url ='https://www.rottentomatoes.com/napi/movie/9057c2cf-7cab-317f-876f-e50b245ca76e/reviews/user'初始有效载荷参数有效载荷= {'direction':'next','endCursor':'','startCursor':'',}

[创建持久加载多个页面评论的会话对象:请注意,这是初始化操作,因此无论您要从服务器读取多少页,它都只会执行一次s = request.Session()

通过对带有我们的标头和有效负载参数的URL进行GET调用来获取一页评论(每个页面有10条评论的代码)>

响应类型为json,因此我们可以通过调用其json函数来获取json格式的一页评论数据r = s.get(URL,headers = headers,params = payload)#GET调用数据= r.json()

您需要从“数据”对象中收集所有请求的属性,并使用每个页面的值填充数据框。完全填充的DataFrame将是您的火车数据。

[要获取下一页的评论,请使用'data'对象中的有效值更新有效负载参数'startCursor'和'endCursor',并进行新的GET调用。重复此过程,直到您收集到3000条评论。

而且,我试图收集评论,但是我必须对每个页面都这样做,而不是创建一个循环。我的问题是如何从网站上收集30页的3000条评论。

我正在尝试针对“狮子王”的电影评论进行情绪分析的NLP项目,但无法收集评论。这是我的代码:导入请求导入时间为我们的请求创建标头:...

pandas nlp python-requests sentiment-analysis data-collection
1个回答
0
投票

请使用标记,您可以看到here

© www.soinside.com 2019 - 2024. All rights reserved.