如何为 Heritrix3 网络爬虫编写 cron 作业？

Question

我用Heritrix3.0搭建了一个爬取web数据的job。但它必须作为

Java 应用程序

运行Heritrix.java，然后构建服务器。我必须打开浏览器键入

https://localhost:8443

来构建我的工作，然后启动该工作。然后取消暂停作业。如何为自动抓取网络做一个 cron 作业？请使用Java语言。

Answer 1

我的 FYP 有这个自动化。您可以使用 Java，但仍然根据

Heritrix

文档，调用将是

CURLs

因此最好、最简单和最快的方法是使用

Shell

脚本来调用

CURL

并完成任务。

获取引擎的当前状态：

curl -v -k -u admin:admin --anyauth --location -H "Accept: application/xml"
˓→https://localhost:8443/engine

在引擎中创建新的抓取作业：

curl -v -d "createpath=myjob&action=create" -k -u admin:admin --anyauth --
˓→location \
-H "Accept: application/xml" https://localhost:8443/engine

建立工作：

curl -v -d "action=build" -k -u admin:admin --anyauth --location -H "Accept:
˓→application/xml" https://localhost:8443/engine/job/myjob

启动工作：

curl -v -d "action=rescan" -k -u admin:admin --anyauth --location -H "Accept:
˓→application/xml" https://localhost:8443/engine