web-crawler 相关问题

Web爬虫（也称为Web爬虫）是一种以有条不紊，自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁，自动索引器，僵尸程序，Web蜘蛛，Web机器人，或者 - 尤其是在FOAF社区中 - Web scutters。

如何将一个函数的输出作为另一个函数的输入[重复]

我正在为食谱网站制作网络爬虫，我想获取食谱的链接，然后使用该链接获取配料。我可以做到这一点，但只能通过手动输入链接...

python beautifulsoup web-crawler

回答 3 投票 0

如何将网站中的值放入Python中的数组中

我想将网站上的字段（文本）中的值（第一行必须被忽略）直接读取到Python中的字符数组中。作为一个新手，很难弄清楚如何做到这一点 - 那么......

python web-crawler

回答 1 投票 0

Node.js Promises 返回某些元素未定义，我做错了什么或者我可以改进什么？

我的一些承诺返回“未定义”，我看不出我做错了什么。尝试添加超时但没有解决它，我仍在学习并努力发现我的错误。看起来...

node.js web-crawler domcrawler

回答 1 投票 0

爬取数据时如何获取MathJax中的元素？

我正在抓取一个具有以下“cheerio”标签的网站，如何获取 p 标签的完整文本以及带有属性“data-mathml”的 **span * *。我正在抓取一个具有以下“cheerio”标签的网站，如何获取 p 标签的完整文本以及 **span * * 属性 “data-mathml”。 Đề bài "a. " <mn>5</mn></math>" role="presentation">5<math xmlns="http://www.w3.org/1998/Math/MathML"><mn>5</mn></math><script type="math/tex" id="MathJax-Element-1">5</script> và <mroot><mn>123</mn><mn>3</mn></mroot></math>" role="presentation">3√123<math xmlns="http://www.w3.org/1998/Math/MathML"><mroot><mn>123</mn><mn>3</mn></mroot></math> <script type="math/tex" id="MathJax-Element-2">\root 3 \of {123} </script> " ;" 在具有属性“data-mathml”的span标签中，我应该在该属性中获取文本还是获取元素以将数据返回给客户端？ const html = response.data; const $ = cheerio.load(html); const mathjaxEquations = $("span[data-mathml]"); console.log({ mathjaxEquations }); 请帮助我，非常感谢！

node.js web-crawler mathjax cheerio mathml

回答 0 投票 0

在 python 中使用 request.get 向特斯拉库存 API 请求超时

我正在为 Tesla 库存编写一个 python 网络爬虫 url = "https://www.tesla.com/inventory/api/v1/inventory-results?query={%22query%22:{%22model%22:%22my%22,%22condition%22:%22new% 22,%

python timeout web-crawler

回答 1 投票 0

在nestjs中使用playwright打开网站时出现ERR_HTTP2_PROTOCOL_ERROR错误

错误：page.goto：net::ERR_HTTP2_PROTOCOL_ERROR，位于 https://example.com const 浏览器 = 等待 chromium.launch({ 无头：假， args: ['--disable-web-security'], }); const page = 等待浏览器。

web-scraping nestjs web-crawler playwright

回答 1 投票 0

保护电子邮件地址免受垃圾邮件机器人/网络爬虫的侵害

如何防止电子邮件蜘蛛从网页收集电子邮件？ mailto: 链接它们是否会增加它们被拾取的可能性？ URL 编码有用吗？显然是最好的国家...

web-crawler spam spam-prevention email-spam

回答 6 投票 0

用于测试和学习的网络爬虫

嗨，我想尝试编写一个爬虫程序。我从一个非常简单的代码开始，但是当我执行它时，我收到了一条错误消息。代码有什么问题吗？我在源点得到这个错误。

python beautifulsoup web-crawler

回答 1 投票 0

如何限制Scrapy CrawlSpider抓取的页面数量？

尽管网站有 50 个页面，但我想使用以下代码将抓取的页面数量限制为 5。我正在使用 Scrapy 的 CrawlSpider。我怎样才能做到这一点？从 scrapy.linkextractors 导入 LinkExtracto...