web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

骨架加载器会阻止爬虫索引页面吗?

我们使用动态服务器渲染,这提供了更长的页面加载时间。有一个想法改用骷髅。 但有人担心这会干扰搜索引擎对页面的索引...

回答 1 投票 0

使用scrapy如何在python中爬取youtube链接

我需要知道使用Scrapy [python],以及如何具体获取网站上的youtube链接,有什么值得赞赏的想法吗?

回答 2 投票 0

根据邮政编码从超市网页提取产品数量

我正在尝试提取此网页上可用的产品数量: https://www.sklavenitis.gr/eidi-artozacharoplasteioy/keik-tsoyrekia-kroyasan/ 我有使用 scrapy 的代码,它确实能够...

回答 0 投票 0

是否可以使用 Goutte/PHP 抓取基于 JavaScript 的网站?

我想抓取几个网站,这些网站显然是使用 JavaScript 渲染的。具体来说,我想定位这个网站:http://cve.mitre.org/find/index.html 这是我的代码: $客户=新

回答 2 投票 0

抓取shopee 产品数据

我尝试使用Python脚本来获取Shopee产品数据,但它返回了一个错误。 我调用的API: https://my.xiapibuy.com/api/v4/pdp/get_pc?shop_id=169902600&item_id=22911296867 这个API来了...

回答 0 投票 0

有关账户资料和帖子/评论内容的TradingView爬虫API

根据本文在线金融通信平台中的不当行为和账户暂停 他们通过API访问TradingView的数据,特别是被暂停的账户会返回...

回答 0 投票 0

如何使用 Selenium 下载 PDF 文件?

我正在尝试从以下网站下载PDF:http://esaj.tjsp.jus.br/cjsg/getArquivo.do?conversationId=&cdAcordao=16548741 所以,我做的第一件事就是创建一个 time.sleep 来...

回答 0 投票 0

Google 显示旧标题,有人知道如何更改它吗?

在此处输入图像描述当输入公司名称时,搜索引擎仍然显示旧标题。 我们无法弄清楚这是如何发生的。然而,该页面是新抓取的......

回答 3 投票 0

Selenium - unDetected_chromedriver python:如何将打包的 .crx 扩展文件加载到 unDetected_chromedriver?

我知道如何加载解压/解压的扩展文件,但是有没有办法在 unDetected_chromedriver 中加载 .crx 格式的扩展? 我一直在尝试自动化 chrome 扩展...

回答 0 投票 0

PYTHON:有没有一种好的方法可以将递归函数添加到队列中? [已关闭]

我正在创建一个网络爬虫/站点映射器。我当前的方法是使用类似于下面的递归生成器 示例概念代码(递归生成器): def recursive_generator(target_url): 定义

回答 0 投票 0

是否需要爬虫测试?

爬虫工具有必要测试吗?以何种方式? 我的公司正在使用爬虫工具(通过 API 和 GUI)为客户收集数据。问题有时是目标网站的 GUI ...

回答 0 投票 0

'7'运行时错误-NoSuchElementError-找不到元素

你能帮我知道我错过了什么吗? 使用 Selenum 驱动程序,我想通过发送键自动收集特定产品的价格,通过网站上的搜索功能点击搜索按钮 -

回答 0 投票 0

如何按顺序发送python scrapy请求(从网站列表->网站->提取网页->网页(直到完成)->其他网站-> ....)?

问题是我想让我的蜘蛛向不同的网站发送请求,在这两者之间我有一个回调,提取当前网站域的所有链接并向他们发送请求,然后...

回答 0 投票 0

Next.js 动态页面不被 SEO 抓取

我在 Next.Js 中有一个博客网站,它有一个针对这条路线的动态页面:article/[slug]。我正在使用这只尖叫的青蛙来抓取页面并为其编制索引,尽管最初是在设置自定义 do...

回答 1 投票 0

如何使用正则表达式查找不显示的元素!重要

在这里输入图片描述 此屏幕截图显示显示不重要! 而我用正则表达式查找,结果是没有。 重新进口 导入请求 从 bs4 导入 BeautifulSoup wurl = 'h...

回答 0 投票 0

Selenium 使用 Web 应用程序查找和更新类

前段时间我设置了一个使用 selenium 的 Python 脚本来爬过一个网站。我试图采用代码从新网页获取数据,但遇到了麻烦。问题似乎是...

回答 1 投票 0

使用硒时无法定位元素

我正在尝试使用Chrome和Selenium登录网站,但是无法定位元素。我试过: 在其他网站上使用相同的代码,它可以工作。 找到页面中的所有元素,但没有什么可以......

回答 2 投票 0

用scrapy从多个页面中提取doi

我有这个网页(https://academic.oup.com/plphys/search-results?q=photosynthesis&allJournals=1&fl_SiteID=6323&page=1),我想从中提取信息,例如标题,n .. .

回答 1 投票 0

爬虫不会在最大页面限制处停止并继续爬行

我做了一个递归爬取功能来爬取网页。 maxPage限制为200,但是爬虫即使已经达到爬取页面的最大限制,也会继续爬取并发出请求。 ...

回答 0 投票 0

如何给爬虫回调函数添加关键字?

我在向爬虫添加关键字时遇到问题。我正在使用 scrapy、烧瓶和钩针。功能是: @crochet.run_in_reactor def scrape_with_crochet(要求): eventual = crawl_runner.crawl(蜘蛛,

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.