web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

剧作家设置cookie在Python中不起作用

我正在尝试使用python在playwright中向浏览器添加cookie,当我打印BrowserContext cookies时,我可以看到我添加的cookie,但是当我从浏览器中检查它时,它并没有...

回答 1 投票 0

拒绝访问但允许机器人(即 Google)访问 sitemap.xml

有没有一种方法可以让您只允许 Google、Yahoo 或其他搜索引擎机器人等机器人访问我的站点地图(位于 http://www.mywebsite.com/sitemap.xml)。这可以不吗

回答 3 投票 0

抓取 sofifa.com 时出现异常响应

我正在尝试使用 scrapy 工具抓取 sofifa.com 。使用下面的代码,我试图抓取仅存在于第一页中的 60 名玩家的全名和评分,但我得到了超过 60 名并且......

回答 2 投票 0

如何使用Python BeautifulSoup爬取javascript/JSON混合内容?

我正在尝试从我的批发商网站抓取产品数据信息,该网站使用 Prestashop CMS 并使用混合 JSON/Javascript 内容。 我用 python BeautifulSoup 和 req 编写了一个脚本...

回答 1 投票 0

Scrapy脚本,如何查找特定关键字并返回或打印url

好的,所以我必须完全编辑它。我已经让脚本部分工作,我可以毫无问题地启动它,这是脚本。粘贴链接在这里:http://pastebin.com/SKa5Wh1h 和...

回答 2 投票 0

URL警告: allowed_domains 仅接受域,而不接受 URL

我是 python 和爬虫的新手,需要帮助来理解我尝试从起始 URL 获取的每个链接上发生的以下错误:['https://www.eskom.co.za /类别/新闻/] 2024-01...

回答 1 投票 0

Stanford CoreNLP 文本分类情感分析

我正在完成我的个人学士学位期末项目,预计将在大约 50 天后完成。我想要创建的网站是一个用户可以分享他们找到 amu 的文章链接的网站......

回答 1 投票 0

为什么爬虫架构中需要DNS Resolver?

在我读过的每一篇关于爬虫提案的论文中,我发现一个重要的组件是 DNS 解析器。 我的问题是: 为什么有必要?我们不能直接向 http://www.some-do 发出请求吗...

回答 2 投票 0

python:[Errno 10054]现有连接被远程主机强制关闭

我正在使用 Twitter-py 编写 python 来抓取 Twitter 空间。我已将爬网程序设置为在每次请求 api.twitter.com 之间休眠一段时间(2 秒)。然而,经过一段时间的运行(a...

回答 7 投票 0

我想在自动化完成后将电影/连续剧的 IMDB 评级打印到终端

我使用 Google 搜索来查找元素,因为它似乎比 IMDB 更容易导航。 导入 selenium.webdriver 作为 webdriver print("该程序查找电影或电视剧的 IMDB 评级...

回答 1 投票 0

Scrapy 爬取了 0 页 0 项

我使用 scrapy 创建了一个爬虫,从 Indeed 上抓取数据,希望将职位、公司、地点、描述、资格返回到 csv 文件中。但我遇到了问题:它没有返回...

回答 1 投票 0

WP 站点的 Live Robots.txt 与通过 SFTP 访问的本地 Robots.txt 不同

我有一个托管在 WPEngine 上的 Wordpress 站点,它通过端点充当我们网站的 CMS。 在Wordpress网站上,我安装了YoastSEO插件,并编辑了robots.txt文件...

回答 1 投票 0

仅禁止主页 ( / ) 并允许 robots.txt 的所有其他页面

我需要阻止 Google 网络爬虫仅爬行我的主页,位于 / 但我需要允许抓取所有其他页面。我怎样才能做到这一点? 我尝试这样做: 用户代理: * 迪萨洛...

回答 1 投票 0

网页抓取时 JSON 中不需要的换行符

我想使用Scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的文字换行符。 这是一个

回答 1 投票 0

网页抓取时 JSON 中不需要的转义字符

我想使用scrapy从这个网站提取信息。但我需要的信息在 JSON 文件中;并且此 JSON 文件仅在描述部分包含不需要的转义字符。 这是一个示例...

回答 1 投票 0

如何停止搜索引擎索引维护页面

我需要为我正在运行的网站设置一个维护页面,例如当我执行站点维护(计划停机时间)或者某些东西确实发生故障而我需要暂停时显示...

回答 4 投票 0

谷歌地图评论用硒爬行

我是爬行初学者。我有个问题。这是我的代码和爬行的成功,但没有“更多”。 这是我的代码 从硒导入网络驱动程序 来自 selenium.webdriver.common.by ...

回答 1 投票 0

Python requests.get 返回空白结果

我是网络抓取新手,试图从 redfin.com 抓取一些住房信息,我使用 python requests 包来获取网站代码。但是,该代码有时会起作用并返回

回答 1 投票 0

Golang递归爬虫导致阻塞状态

我正在尝试用 Go 制作一个爬虫来生成 X 个 goroutine。目前,我只生成一个 goroutine (workers=1),并且我正在使用一个通道来发送/读取它。期望的结果是...

回答 1 投票 0

如何用Scrapy抓取页面的内链?

在下面的页面上,我有3个属于受害者、恶意软件和威胁源的链接列表,当我在抓取过程中到达上述项目时,我想输入它们的链接并抓取它们的内容...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.