web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

如何将一个函数的输出作为另一个函数的输入[重复]

我正在为食谱网站制作网络爬虫,我想获取食谱的链接,然后使用该链接获取配料。我可以做到这一点,但只能通过手动输入链接...

回答 3 投票 0

如何将网站中的值放入Python中的数组中

我想将网站上的字段(文本)中的值(第一行必须被忽略)直接读取到Python中的字符数组中。作为一个新手,很难弄清楚如何做到这一点 - 那么......

回答 1 投票 0

Node.js Promises 返回某些元素未定义,我做错了什么或者我可以改进什么?

我的一些承诺返回“未定义”,我看不出我做错了什么。 尝试添加超时但没有解决它,我仍在学习并努力发现我的错误。 看起来...

回答 1 投票 0

爬取数据时如何获取MathJax中的元素?

我正在抓取一个具有以下“cheerio”标签的网站,如何获取 p 标签的完整文本以及带有属性“data-mathml”的 **span * *。 我正在抓取一个具有以下“cheerio”标签的网站,如何获取 p 标签的完整文本以及 **span * * 属性 “data-mathml”。 <p><strong class="content_question">Đề bài</strong></p> <p style="text-align: justify;">"a. " <span class="MathJax_Preview" style="color: inherit; display: none;"></span> <span id="MathJax-Element-1-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" style="font-size: 121%; position: relative;" data-mathml="<math xmlns=&quot;http://www.w3.org/1998/Math/MathML&quot;><mn>5</mn></math>" role="presentation"><span id="MJXc-Node-1" class="mjx-math" aria-hidden="true"><span id="MJXc-Node-2" class="mjx-mrow"><span id="MJXc-Node-3" class="mjx-mn"><span class="mjx-char MJXc-TeX-main-R" style="padding-top: 0.37em; padding-bottom: 0.37em;">5</span></span></span></span><span class="MJX_Assistive_MathML" role="presentation"><math xmlns="http://www.w3.org/1998/Math/MathML"><mn>5</mn></math></span></span><script type="math/tex" id="MathJax-Element-1">5</script> và <span class="MathJax_Preview" style="color: inherit; display: none;"></span><span id="MathJax-Element-2-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" style="font-size: 121%; position: relative;" data-mathml="<math xmlns=&quot;http://www.w3.org/1998/Math/MathML&quot;><mroot><mn>123</mn><mn>3</mn></mroot></math>" role="presentation"><span id="MJXc-Node-4" class="mjx-math" aria-hidden="true"><span id="MJXc-Node-5" class="mjx-mrow"><span id="MJXc-Node-6" class="mjx-mroot"><span class="mjx-root" style="font-size: 50%; vertical-align: 0.774em; width: 0px;"><span id="MJXc-Node-8" class="mjx-mn" style="padding-left: 0.543em;"><span class="mjx-char MJXc-TeX-main-R" style="padding-top: 0.37em; padding-bottom: 0.37em;">3</span></span></span><span class="mjx-box" style="padding-top: 0.045em;"><span class="mjx-surd"><span class="mjx-char MJXc-TeX-main-R" style="padding-top: 0.507em; padding-bottom: 0.553em;">√</span></span><span class="mjx-box" style="padding-top: 0.119em; border-top: 1.6px solid;"><span id="MJXc-Node-7" class="mjx-mn"><span class="mjx-char MJXc-TeX-main-R" style="padding-top: 0.37em; padding-bottom: 0.37em;">123</span></span></span></span></span></span></span><span class="MJX_Assistive_MathML" role="presentation"><math xmlns="http://www.w3.org/1998/Math/MathML"><mroot><mn>123</mn><mn>3</mn></mroot></math></span></span> <script type="math/tex" id="MathJax-Element-2">\root 3 \of {123} </script> " ;"</p> 在具有属性“data-mathml”的span标签中,我应该在该属性中获取文本还是获取元素以将数据返回给客户端? const html = response.data; const $ = cheerio.load(html); const mathjaxEquations = $("span[data-mathml]"); console.log({ mathjaxEquations }); 请帮助我,非常感谢!

回答 0 投票 0

在 python 中使用 request.get 向特斯拉库存 API 请求超时

我正在为 Tesla 库存编写一个 python 网络爬虫 url = "https://www.tesla.com/inventory/api/v1/inventory-results?query={%22query%22:{%22model%22:%22my%22,%22condition%22:%22new% 22,%

回答 1 投票 0

在nestjs中使用playwright打开网站时出现ERR_HTTP2_PROTOCOL_ERROR错误

错误:page.goto:net::ERR_HTTP2_PROTOCOL_ERROR,位于 https://example.com const 浏览器 = 等待 chromium.launch({ 无头:假, args: ['--disable-web-security'], }); const page = 等待浏览器。

回答 1 投票 0

保护电子邮件地址免受垃圾邮件机器人/网络爬虫的侵害

如何防止电子邮件蜘蛛从网页收集电子邮件? mailto: 链接它们是否会增加它们被拾取的可能性? URL 编码有用吗? 显然是最好的国家...

回答 6 投票 0

用于测试和学习的网络爬虫

嗨,我想尝试编写一个爬虫程序。 我从一个非常简单的代码开始,但是当我执行它时,我收到了一条错误消息。 代码有什么问题吗? 我在源点得到这个错误。

回答 1 投票 0

如何限制Scrapy CrawlSpider抓取的页面数量?

尽管网站有 50 个页面,但我想使用以下代码将抓取的页面数量限制为 5。我正在使用 Scrapy 的 CrawlSpider。我怎样才能做到这一点? 从 scrapy.linkextractors 导入 LinkExtracto...

回答 1 投票 0

使用 scrapy 转到 showthread.php 的下一页

我是scrapy新手。大约 4 天,我在获取 showthread.php(基于 vbulletin 的论坛)时被困在转到下一页。 我的目标:http://forum.femaledaily.com/showthread.php?359-Hair-Smoothing

回答 2 投票 0

使用什么云托管/计算服务进行网络爬行?

我目前正在开发一个项目,在该项目中抓取网站以查找相关帖子。这些帖子将被汇总,然后通过 Mailgun 作为时事通讯发送。此外,我还建立了一个网站

回答 1 投票 0

SemrushBot 无法停止

在过去的几天里,我正在监视我的网站日志,并看到一个机器人正在大量扫描我。 扫描的间隔非常频繁,每5-10秒一次。我试图阻止机器人......

回答 2 投票 0

有没有办法使用 Crawl.runner / 进程运行两个蜘蛛并将结果保存在两个单独的文件中?

我有两个不同脚本的scrapy蜘蛛 蜘蛛 蜘蛛1.py 蜘蛛2.py 蜘蛛中的代码示例如下: 从 scrapy.crawler 导入 CrawlerRunner 来自twisted.internet

回答 1 投票 0

如何使用Python从多页面网站抓取数据

我正在尝试从网站上抓取数据表 越南药物银行 我正在尝试用 Python 抓取它,但是它没有响应 导入请求 将 pandas 导入为 pd 参数 = { '尺寸...

回答 1 投票 0

如何使用node.js抓取具有动态内容的页面?

我正在尝试抓取一个网站,但我没有得到一些元素,因为这些元素是动态创建的。 我在node.js中使用cheerio,我的代码如下。 var request = require('req...

回答 5 投票 0

如何使用 playwright 从 fiba 页面选择选项

我正在尝试获取 2023 年国际篮联世界杯球队统计数据,其中我国(菲律宾)是主办国之一。 页面网址为:https://www.fiba.basketball/basketballworldcup/2023/teamstat...

回答 1 投票 0

Scrapy Spider 仅返回每个页面的第一个产品

我使用scrapy从亚马逊废弃产品,但它只返回每个页面的第一个产品并转到下一页我的代码有什么问题 导入scrapy 从 ..items 导入 AmazonItem AmazonSpS 类...

回答 1 投票 0

手动构建后打开链接可以工作,但从代码中却不行

我有一个网站,它使用 2 个 API 调用来构建下载 gzip 文件的实际链接,问题是标头发生了很大变化,我认为 cookie 也发生了很大变化,我尝试找出...

回答 1 投票 0

机器人检测在返回之前更改 JSON 数据的值,有什么想法可以解决这个问题吗?

可能可能性不大,但我正在尝试使用 Selenium-Profiles 来抓取凯悦酒店的网站以获取积分可用性。 https://www.hyatt.com/shop/service/rooms/roomrates/dpsas?spiritCode=dpsas&room...

回答 1 投票 0

获取 `scrapy` 来生成嵌套数据结构

我正在使用scrapy来抓取这个网站并抓取数据 我希望抓取的数据具有嵌套结构。像这样的东西 { 面额:{ 日期: { 债券编号:[...] }...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.