web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

抓取网页时出现403错误如何解决?

我正在从已发布的属性列表中抓取信息。当我运行代码时,页面似乎有一个防抓取系统。 该代码应该打开每个属性的链接,抓取...

回答 1 投票 0

Firebase 云功能 - Pupeteer 在云中找不到元素,但可以在模拟器中工作

我正在尝试使用木偶操纵者从网页上抓取一些数据。我创建了整个脚本并在模拟器中运行它,在模拟器本地一切正常。当我将同样的东西部署到...

回答 1 投票 0

如何在Python中使用getattr调用函数

案例 1 返回 None,但我想知道为什么您没有将 () 视为函数调用以及我如何像案例 1 一样使用它(如果有) 汤 = BeautifulSoup(result.text, "lxml") Article_h = soup.selec...

回答 2 投票 0

从“char *”赋值给“char”可以从指针生成整数,而不会在 C 中出现转换错误

我正在构建一个 C 工具,它将搜索 XML 文件中的所有属性,并使用curl 来抓取它们并检查它们是否返回 404 错误或者它们是否正常工作。 我的代码的所有模块都正常工作

回答 2 投票 0

Crawlee scrapper 多次调用同一个处理程序

我已经构建了一个 Crawlee scrapper,但由于某种原因它多次调用相同的处理程序,在我的数据集中创建了大量重复的请求和条目。还: 我已经尝试过手动设置...

回答 1 投票 0

无法抓取某些仅存在于F12菜单中的HTML元素

我对Python还很陌生,正在尝试抓取一个经常刷新自身的网站(这导致我尝试抓取的元素具有不稳定的指针),而目标元素却没有

回答 1 投票 0

Atlassian 页面上 Kendra Index WebCrawlers 的限制设置

是否存在已知的最大限制可以防止 AWS Kendra WebCrawler 在 Atlassian Confluence 页面上运行时被阻止? 我正在按照 master 上的技术规范运行爬虫

回答 1 投票 0

试图找出我的网络收集器不起作用

我是这个项目的编码(Python)新手。 只是想为 eBay 制作一个网络爬行机器人。 我在网上得到了其他网上商店的原始代码,虽然需要大量编辑,但我制作了

回答 1 投票 0

我无法使用selenium和Python从Nike网站提取价格数据有什么原因吗

我目前正在构建一个 Python 脚本,该脚本从 Nike 网站获取培训师的价格并将价格推送到 CSV 文件中。最初,代码采用了价格数据所在的元素......

回答 1 投票 0

从网站获取所有被谷歌索引的网址

我想要一个程序,从一个网站,获取索引到它的所有网址,并提供良好的输出,例如逐行获取所有网址,并获取网站中未使用的网址(因为蜘蛛可以一个...

回答 2 投票 0

Curl 在执行 50 次重定向后失败,但 wget 工作正常

我有一个基于 PHP 的实验性网络爬虫,我注意到它无法读取某些页面,例如在某些特定域上,curl 说它在执行 50 次重定向后失败,但 wget 读取...

回答 2 投票 0

使用 Amazon Athena 查询常见爬网数据集中的 HTML 内容

我目前正在探索 Amazon S3 上托管的大量 Common Crawl 数据集,并尝试使用 Amazon Athena 查询该数据集。我的目标是在 ...

回答 1 投票 0

如何从检查网络浏览器获取调用API的“请求标头”和“有效负载”

我需要调用 API,因此我需要向其发送请求标头和负载,否则我会收到 403。 请告诉我Python中的一个命令来接收它们,否则我必须手动输入...

回答 1 投票 0

如何保护开源免遭人工智能(误)使用?

截至 2023 年,有大量(生成式)人工智能可供公众使用;通常,他们会为给定的上下文重新构建最可能的符号序列。 当谈到

回答 3 投票 0

推断缺失的站点地图链接

我们正在从 robots.txt 中探索几个网站的站点地图。我们发现站点地图通常不包含网站的完整地图。在许多情况下,只准备了几页...

回答 1 投票 0

为什么 BeautifulSoup find_all 不返回带有 <br> 的元素?

环境: Python 3.9.4 美丽汤4==4.12.2 代码: 从 bs4 导入 BeautifulSoup test_content = '''123123... 环境: Python 3.9.4 美丽汤4==4.12.2 代码: from bs4 import BeautifulSoup test_content = '''<html><head></head><body><p>123</p><p>123<br>123</p></body></html>''' bs = BeautifulSoup(test_content, 'html.parser') 为什么bs.find_all('p')返回所有元素,而bs.find_all('p', string=True)只返回不含<br>的元素? >>> bs.find_all('p') [<p>123</p>, <p>123<br/>123</p>] >>> bs.find_all('p', string=True) [<p>123</p>] >>> import re >>> bs.find_all('p', string=re.compile('.+')) [<p>123</p>] 我搜索了 BeautifulSoup 的文档,但没有发现任何相关内容。 我的问题是为什么添加 string=True 会使 find_all 不返回带有 br 标签的元素? 如何找到所有元素(带或不带 <br> 标签)?不传递 string 参数在这里没有帮助,因为我的实际需要是查找具有某些关键字的元素,例如string=re.compile('KEYWORD') 这将为您提供 中的完整字符串 for p in bs.find_all('p'): print(p.get_text()) 123 123123 不确定您是否想要 将第二个字符串分成两个字符串

回答 1 投票 0

如何将一个函数的输出作为另一个函数的输入[重复]

我正在为食谱网站制作网络爬虫,我想获取食谱的链接,然后使用该链接获取配料。我可以做到这一点,但只能通过手动输入链接...

回答 3 投票 0

如何将网站中的值放入Python中的数组中

我想将网站上的字段(文本)中的值(第一行必须被忽略)直接读取到Python中的字符数组中。作为一个新手,很难弄清楚如何做到这一点 - 那么......

回答 1 投票 0

Node.js Promises 返回某些元素未定义,我做错了什么或者我可以改进什么?

我的一些承诺返回“未定义”,我看不出我做错了什么。 尝试添加超时但没有解决它,我仍在学习并努力发现我的错误。 看起来...

回答 1 投票 0

爬取数据时如何获取MathJax中的元素?

我正在抓取一个具有以下“cheerio”标签的网站,如何获取 p 标签的完整文本以及带有属性“data-mathml”的 **span * *。 我正在抓取一个具有以下“cheerio”标签的网站,如何获取 p 标签的完整文本以及 **span * * 属性 “data-mathml”。 <p><strong class="content_question">Đề bài</strong></p> <p style="text-align: justify;">"a. " <span class="MathJax_Preview" style="color: inherit; display: none;"></span> <span id="MathJax-Element-1-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" style="font-size: 121%; position: relative;" data-mathml="<math xmlns=&quot;http://www.w3.org/1998/Math/MathML&quot;><mn>5</mn></math>" role="presentation"><span id="MJXc-Node-1" class="mjx-math" aria-hidden="true"><span id="MJXc-Node-2" class="mjx-mrow"><span id="MJXc-Node-3" class="mjx-mn"><span class="mjx-char MJXc-TeX-main-R" style="padding-top: 0.37em; padding-bottom: 0.37em;">5</span></span></span></span><span class="MJX_Assistive_MathML" role="presentation"><math xmlns="http://www.w3.org/1998/Math/MathML"><mn>5</mn></math></span></span><script type="math/tex" id="MathJax-Element-1">5</script> và <span class="MathJax_Preview" style="color: inherit; display: none;"></span><span id="MathJax-Element-2-Frame" class="mjx-chtml MathJax_CHTML" tabindex="0" style="font-size: 121%; position: relative;" data-mathml="<math xmlns=&quot;http://www.w3.org/1998/Math/MathML&quot;><mroot><mn>123</mn><mn>3</mn></mroot></math>" role="presentation"><span id="MJXc-Node-4" class="mjx-math" aria-hidden="true"><span id="MJXc-Node-5" class="mjx-mrow"><span id="MJXc-Node-6" class="mjx-mroot"><span class="mjx-root" style="font-size: 50%; vertical-align: 0.774em; width: 0px;"><span id="MJXc-Node-8" class="mjx-mn" style="padding-left: 0.543em;"><span class="mjx-char MJXc-TeX-main-R" style="padding-top: 0.37em; padding-bottom: 0.37em;">3</span></span></span><span class="mjx-box" style="padding-top: 0.045em;"><span class="mjx-surd"><span class="mjx-char MJXc-TeX-main-R" style="padding-top: 0.507em; padding-bottom: 0.553em;">√</span></span><span class="mjx-box" style="padding-top: 0.119em; border-top: 1.6px solid;"><span id="MJXc-Node-7" class="mjx-mn"><span class="mjx-char MJXc-TeX-main-R" style="padding-top: 0.37em; padding-bottom: 0.37em;">123</span></span></span></span></span></span></span><span class="MJX_Assistive_MathML" role="presentation"><math xmlns="http://www.w3.org/1998/Math/MathML"><mroot><mn>123</mn><mn>3</mn></mroot></math></span></span> <script type="math/tex" id="MathJax-Element-2">\root 3 \of {123} </script> " ;"</p> 在具有属性“data-mathml”的span标签中,我应该在该属性中获取文本还是获取元素以将数据返回给客户端? const html = response.data; const $ = cheerio.load(html); const mathjaxEquations = $("span[data-mathml]"); console.log({ mathjaxEquations }); 请帮助我,非常感谢!

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.