我用Heritrix3.0搭建了一个爬取web数据的job。但它必须作为
Java 应用程序运行
Heritrix.java
,然后构建服务器。我必须打开浏览器键入 https://localhost:8443
来构建我的工作,然后启动该工作。然后取消暂停作业。如何为自动抓取网络做一个 cron 作业?请使用Java语言。
我的 FYP 有这个自动化。您可以使用 Java,但仍然根据
Heritrix
文档,调用将是 CURLs
因此最好、最简单和最快的方法是使用 Shell
脚本来调用 CURL
并完成任务。
获取引擎的当前状态:
curl -v -k -u admin:admin --anyauth --location -H "Accept: application/xml"
˓→https://localhost:8443/engine
在引擎中创建新的抓取作业:
curl -v -d "createpath=myjob&action=create" -k -u admin:admin --anyauth --
˓→location \
-H "Accept: application/xml" https://localhost:8443/engine
建立工作:
curl -v -d "action=build" -k -u admin:admin --anyauth --location -H "Accept:
˓→application/xml" https://localhost:8443/engine/job/myjob
启动工作:
curl -v -d "action=rescan" -k -u admin:admin --anyauth --location -H "Accept:
˓→application/xml" https://localhost:8443/engine