如何为 Heritrix3 网络爬虫编写 cron 作业?

问题描述 投票:0回答:1

我用Heritrix3.0搭建了一个爬取web数据的job。但它必须作为

Java 应用程序
运行Heritrix.java,然后构建服务器。我必须打开浏览器键入
https://localhost:8443
来构建我的工作,然后启动该工作。然后取消暂停作业。如何为自动抓取网络做一个 cron 作业?请使用Java语言。

java web-crawler heritrix
1个回答
0
投票

我的 FYP 有这个自动化。您可以使用 Java,但仍然根据

Heritrix
文档,调用将是
CURLs
因此最好、最简单和最快的方法是使用
Shell
脚本来调用
CURL
并完成任务。

获取引擎的当前状态:

curl -v -k -u admin:admin --anyauth --location -H "Accept: application/xml"
˓→https://localhost:8443/engine

在引擎中创建新的抓取作业:

curl -v -d "createpath=myjob&action=create" -k -u admin:admin --anyauth --
˓→location \
-H "Accept: application/xml" https://localhost:8443/engine

建立工作:

curl -v -d "action=build" -k -u admin:admin --anyauth --location -H "Accept:
˓→application/xml" https://localhost:8443/engine/job/myjob

启动工作:

curl -v -d "action=rescan" -k -u admin:admin --anyauth --location -H "Accept:
˓→application/xml" https://localhost:8443/engine
© www.soinside.com 2019 - 2024. All rights reserved.