自动进行项目调用的屏幕抓取

问题描述 投票:0回答:1

首先,我是编码方面的新手,因此我真的不知道从哪里开始。我希望屏幕抓取是正确的描述。

我的挑战:

我有一个定期发布项目调用的网站(德语为“ Bekanntmachung”:https://www.bmbf.de/foerderungen/)。这些调用具有带有设置部分的设置格式(对不起,德语,但您会想到:https://www.bmbf.de/foerderungen/bekanntmachung-2888.html)。

[我想从某些部分中提取信息,例如电话的名称/主题是什么,可以申请的人,您能得到多少钱,截止日期是什么时候,与谁联系。这些信息的表述方式总是非常相似,即使不是完全相同,也位于相似的位置。

我想编写/获取一个工具,该工具可以针对最近3-6个月的所有通话自动提取此信息,并将其放入excel文件中。

所以我从哪里开始?我应该使用哪种语言,是否可以搜索和调整类似算法的数据库以获取所需的信息?

谢谢您的帮助。

最好,乔纳斯。

screen-scraping
1个回答
0
投票

在页面底部,有一个“关注我们”和指向RSS feed的链接。如果这表明您想要什么,那可以完成一半的工作。它已经更新并且可以分析XML。

© www.soinside.com 2019 - 2024. All rights reserved.