为什么爬虫架构中需要DNS Resolver?

问题描述 投票:0回答:2

在我读过的关于爬虫提案的每一篇论文中,我发现一个重要的组件是DNS解析器

我的问题是:

为什么有必要?我们不能直接向http://www.some-domain.com/发出请求吗?

dns network-programming web-crawler
2个回答
10
投票

DNS解析是网络爬行中众所周知的瓶颈。因为 由于域名服务的分布式特性,DNS 解析可能 需要通过互联网进行多次请求和往返, 需要几秒钟,有时甚至更长。马上,这放入 危及我们每秒获取数百个文档的目标。

DNS解析还有一个重要的难点;查找 标准库中的实现(可能被任何人使用 开发爬虫)通常是同步的。这意味着一旦 向域名服务发出请求,其他爬虫线程位于 该节点将被阻塞,直到第一个请求完成。到 为了规避这个问题,大多数网络爬虫实现了自己的 DNS 解析器: 爬虫的一个组件。

http://nlp.stanford.edu/IR-book/html/htmledition/dns-resolution-1.html


0
投票

DNS解析器在爬虫架构中是必需的,因为它将URL转换为相应的IP地址,然后用于访问网页。这是必需的,因为计算机之间使用IP地址进行通信,而DNS解析器就是其中的组件执行此翻译。它是网络爬行过程的重要组成部分,因为它允许爬虫从互联网访问和下载网页。

© www.soinside.com 2019 - 2024. All rights reserved.