我正在使用cron作业来安排我的可爬网程序以12小时的间隔运行。
我创建了一个抓取工具,可以抓取数据,并使用FEED_FORMAT
将其存储在csv文件中。
这是我的外壳文件内容
#!bin/bash
cd /abc/abc/spiders
PATH=$PATH:/usr/local/bin/scrapy
export PATH
scrapy crawl abc_spider
现在,使用cronjob -e
,我已安排cron每分钟运行一次。
* * * * * sh getdata.sh
[当我使用grep CRON var/sys/syslog
检查输出时,表明我的cron正在每分钟运行一次
尽管cron每分钟都在运行,但CSV文件中的数据并未更新。当我在sh getdata.sh
中将其作为CMD
运行时,它运行正常。
请让我知道您的建议,说明如何解决此问题以及如何使用CRON计划搜寻器,我已经尝试了许多解决方案,但此问题仍然存在
我正在使用cron作业来安排我的抓取抓取工具每12小时运行一次。我创建了一个蜘蛛,它会抓取数据并使用FEED_FORMAT将其存储在csv文件中。这是我的内容...
将命令更改为sudo scrapy crawl abc_spider
,然后查看是否有效。