NLP项目的数据收集

我正在尝试针对“狮子王”的电影评论进行情绪分析的NLP项目，但无法收集评论。这是我的代码：

导入请求导入时间

为我们的请求创建标题：标头= {'Referer'：'https://www.rottentomatoes.com/m/the_lion_king_2019/reviews?type=user'，'User-Agent'：'Mozilla / 5.0（Windows NT 10.0; Win64; x64）AppleWebKit / 537.36（KHTML，like Gecko）Chrome / 74.0.3729.108 Safari / 537.36'，'X-Requested-With'：'XMLHttpRequest'，}

url ='https://www.rottentomatoes.com/napi/movie/9057c2cf-7cab-317f-876f-e50b245ca76e/reviews/user'初始有效载荷参数有效载荷= {'direction'：'next'，'endCursor'：''，'startCursor'：''，}

[创建持久加载多个页面评论的会话对象：请注意，这是初始化操作，因此无论您要从服务器读取多少页，它都只会执行一次s = request.Session（）

通过对带有我们的标头和有效负载参数的URL进行GET调用来获取一页评论（每个页面有10条评论的代码）>

响应类型为json，因此我们可以通过调用其json函数来获取json格式的一页评论数据r = s.get（URL，headers = headers，params = payload）＃GET调用数据= r.json（）

您需要从“数据”对象中收集所有请求的属性，并使用每个页面的值填充数据框。完全填充的DataFrame将是您的火车数据。

[要获取下一页的评论，请使用'data'对象中的有效值更新有效负载参数'startCursor'和'endCursor'，并进行新的GET调用。重复此过程，直到您收集到3000条评论。

而且，我试图收集评论，但是我必须对每个页面都这样做，而不是创建一个循环。我的问题是如何从网站上收集30页的3000条评论。

我正在尝试针对“狮子王”的电影评论进行情绪分析的NLP项目，但无法收集评论。这是我的代码：导入请求导入时间为我们的请求创建标头：...

问题描述投票：0回答：1

1个回答

最新问题

NLP项目的数据收集

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1