web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

如何在网站上找到sitemap.xml路径?

如何找到网站的sitemap.xml文件?例如转到stackoverflow / sitemap.xml会得到404.在stackoverflow / robots.txt中写入以下内容:“这在技术上是无效的,因为...

回答 5 投票 38

Xpath - 包含文本值的表的多个嵌套div

我在网站上遇到了复杂的html结构,我想从中提取文本信息。网站有以下结构:

回答 2 投票 0

按顺序运行Multiple Spider

类Myspider1 #do something ....类Myspider2 #do something ...以上是我的spider.py文件的架构。我试图先运行Myspider1,然后运行Myspider2倍数......

回答 2 投票 4

列出某个域的所有网站

我有一个学校项目,我必须列出我所在国家政府的所有网站(.gov.pt),我正在努力想到实现这一目标的最好方法......有人可以帮助我吗?我的老师 ...

回答 1 投票 0

如何在Java应用程序中使用Nutch API?

我想在我的java应用程序中使用Nutch API来从网站抓取pdf链接进行分析,如何在我的java应用程序中使用Nutch jar呢?我能举个例子吗?

回答 1 投票 4

Nutch API建议

我正在开发一个项目,我需要一个成熟的爬虫来完成一些工作,而我正在为此目的评估Nutch。我目前的需求相对简单:我需要一个能够......的爬虫

回答 1 投票 6

© www.soinside.com 2019 - 2024. All rights reserved.