关于网络抓取最佳做法

问题描述 投票:1回答:0

鉴于:

客户端

1-数据库

2-一种编码语言

服务器端:

1-一个显示自己的数据库结果的网站(博客文章按时间顺序递减,如果网站/作者更新了一篇文章,该文章可能会更改),每个帖子的唯一ID均不会改变。

总的来说,有没有人有什么好的资源可以帮助他们了解如何最好地解决这个问题?

从计算上来说,仅由于爬网和等待结果的性质(至少对我而言),这种类型的工作非常耗时。

我的典型流程(伪):

for each page on url:
  for each post on page:
      id = getID(post)
      data1...dataN = getData(post)
      call sql.execute("insert ... on duplicate key update")

sql部分繁琐且效率低下,我认为必须有一种更好的方法来完成此流程中的工作。

总体目标始终是:

1-从站点获取我关心的数据(在这里确认CSS /站点可以更改平均我使用xpath查找数据的位置),并在我已经指向捕获该数据的位置时停止(意思是:我在发布假定帖子始终按降序排列,我的数据库中已有ID,并且ID不变)。

2-以某种语言通过以后的分析提供数据,最适合我要解决的问题类型。

平均而言(这并不重要,但是)我在这里使用的软件包是:漂亮的汤,硒,机械化等。

java python language-agnostic web-scraping
© www.soinside.com 2019 - 2024. All rights reserved.