架构问题 - 在哪里放置刮擦任务

问题描述 投票:0回答:2

我目前正在构建一个应用程序,它每天只访问一个网站,并将该网站的特定表格上的信息保存到我设置的数据库中。我目前在我的模型上创建了一个类方法来完成刮擦。我创建的rake任务每天调用一次类方法。

虽然我的代码“有效”并且我每天收集一次信息,但我觉得有点奇怪,在我的模型中留下了刮擦的逻辑,我很好奇是否有一种更好的方法来完成这项任务。

class WebTable < ApplicationRecord


    def self.scrape_and_save_table_information
        doc = Nokogiri::HTML(open('https://www.calottery.com/play/scratchers-games/top-prizes-remaining'))
        rows = doc.css("tbody tr")
        rows.each do |row|
            row_object = {}
            row_object["cell_one"] = row.children[1].children[0].to_s
            row_object["cell_two"] = row.children[2].children[0].children.to_s
            row_object["cell_three"] = row.children[7].children[0].children[0].to_s
            @table = WebTable.create(row_object)

        end
    end

end

我的rake任务看起来像这样:

desc 'scraping webpages'
task scrape_web_pages: :environment do
    daily_prize_scrape = WebTable.scrape_and_save_table_information
end
ruby-on-rails model rake
2个回答
1
投票

Sidekiq工作人员往往工作得很好(双关语),特别是在循环的情况下,你可以从一个主要工作人员中产生其他工作人员,以获得更好的性能和更容易的错误捕获

例如。

class HardWorker
  include Sidekiq::Worker

  ['nice', 'rows'].each do |row|
    OtherWorker.perform_async(row)
  end
end

0
投票

更好的方法是使它成为一个ActiveJob工作,即使你打算在没有任何背景工作者的情况下使用YourTask.perform_nowrails runner来调用它。

它将允许您分离逻辑,也比rake任务更容易测试activejobs。

© www.soinside.com 2019 - 2024. All rights reserved.