如何在Heroku上刮取来自同一域的页面

问题描述 投票:0回答:1

我创建了一个用于发布内容的Facebook风格的URL抓取工具。

[当有人输入URL时,它将发送一个请求,在后端,我使用Nokogiri抓取URL来获取信息以构建帖子。

它对于所有其他网站(例如apple.com,sony.com都可以正常工作,但是当我使用来自我的原始域(“ mywebsite.com”)的链接时,该链接超时,除了Heroku超时后没有显示任何错误30秒如果我从计算机上的本地主机中抓取域名,则它可以正常工作。

是否有某种起源规则阻止Nokogiri抓取来自同一域的起源页面?

我正在使用Ruby On Rails 3.1.10,Nokogiri 1.4.7和Heroku Cedar Stack。

ruby-on-rails ruby heroku nokogiri
1个回答
1
投票

抓取是在后台作业中还是通过网络工作者运行?您只有1个dyno吗?如果您的应用只有1个网络工作者,则它可能正忙于抓取,因此无法投放该页面。

尝试将测功机缩放到2,然后看问题是否仍然存在。

heroku ps:scale web=2
© www.soinside.com 2019 - 2024. All rights reserved.