从特定网站中提取新闻的Crawler / Scraper [关闭]

问题描述 投票:1回答:1

从新闻网站地址开始,我需要一个java API来检查该网站中的所有新闻页面,并能够对它们进行分类,然后为每个类别提取新闻。我已经尝试过Jsoup,这是最推荐的java scraper API。但是,我遇到了必须对新闻页面进行硬编码的问题,以及每个网站都有不同页面结构的事实,因此我的代码只适用于单个网站,这是不可取的。

我已经读过爬虫Nutch,它似乎具有爬行能力,但我不清楚它是否能满足我提到的所有要求。我的问题是,是否有任何现有的爬虫/刮刀有助于实现我的需求?谢谢。

java web-crawler jsoup nutch scraper
1个回答
0
投票

从每个新闻资源中提取纯文本是不同的。它与新闻标题的开始和结束标签以及页面中的实际新闻故事直接相关,其中大多数时间与广告等其他内容一起出现。它可以通过正则表达式完成,我在一个名为RoboNewser的项目中完成了这项工作。这是地址:https://www.robonewser.com

© www.soinside.com 2019 - 2024. All rights reserved.