web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

如何查找网站上的所有链接/页面

是否可以找到任何给定网站上的所有页面和链接?我想输入一个 URL 并生成该站点所有链接的目录树? 我看过 HTTrack 但下载了...

回答 5 投票 0

需要帮助使用Scrapy抓取此页面的内容

有人可以告诉我如何使用 Scrapy 从此页面抓取数据(名称和数字)。数据是动态加载的。如果您检查“网络”选项卡,您会发现一个针对 https://www 的 POST 请求。

回答 1 投票 0

如何在robots.txt文件中使用*通配符?

我的网站被频繁抓取。我的 robots.txt 如下: 用户代理: * 允许:.htm$ 不允许: /*?* 禁止:/mls.php?* 但“Googlebot 2”不遵守机器人规则。 以下是...

回答 1 投票 0

如何抓取 arxiv 理智?

我想要抓取“链接”、“标题”和“摘要” 我怎样才能爬行这个? 我试过 导入请求 导入 json url = 'http://www.arxiv-sanity.com/top?timefilter=year&vfilter=all' res = 要求...

回答 3 投票 0

抓取网页时出现403错误如何解决?

我正在从已发布的属性列表中抓取信息。当我运行代码时,页面似乎有一个防抓取系统。 该代码应该打开每个属性的链接,抓取...

回答 1 投票 0

Firebase 云功能 - Pupeteer 在云中找不到元素,但可以在模拟器中工作

我正在尝试使用木偶操纵者从网页上抓取一些数据。我创建了整个脚本并在模拟器中运行它,在模拟器本地一切正常。当我将同样的东西部署到...

回答 1 投票 0

如何在Python中使用getattr调用函数

案例 1 返回 None,但我想知道为什么您没有将 () 视为函数调用以及我如何像案例 1 一样使用它(如果有) 汤 = BeautifulSoup(result.text, "lxml") Article_h = soup.selec...

回答 2 投票 0

从“char *”赋值给“char”可以从指针生成整数,而不会在 C 中出现转换错误

我正在构建一个 C 工具,它将搜索 XML 文件中的所有属性,并使用curl 来抓取它们并检查它们是否返回 404 错误或者它们是否正常工作。 我的代码的所有模块都正常工作

回答 2 投票 0

Crawlee scrapper 多次调用同一个处理程序

我已经构建了一个 Crawlee scrapper,但由于某种原因它多次调用相同的处理程序,在我的数据集中创建了大量重复的请求和条目。还: 我已经尝试过手动设置...

回答 1 投票 0

无法抓取某些仅存在于F12菜单中的HTML元素

我对Python还很陌生,正在尝试抓取一个经常刷新自身的网站(这导致我尝试抓取的元素具有不稳定的指针),而目标元素却没有

回答 1 投票 0

Atlassian 页面上 Kendra Index WebCrawlers 的限制设置

是否存在已知的最大限制可以防止 AWS Kendra WebCrawler 在 Atlassian Confluence 页面上运行时被阻止? 我正在按照 master 上的技术规范运行爬虫

回答 1 投票 0

试图找出我的网络收集器不起作用

我是这个项目的编码(Python)新手。 只是想为 eBay 制作一个网络爬行机器人。 我在网上得到了其他网上商店的原始代码,虽然需要大量编辑,但我制作了

回答 1 投票 0

我无法使用selenium和Python从Nike网站提取价格数据有什么原因吗

我目前正在构建一个 Python 脚本,该脚本从 Nike 网站获取培训师的价格并将价格推送到 CSV 文件中。最初,代码采用了价格数据所在的元素......

回答 1 投票 0

从网站获取所有被谷歌索引的网址

我想要一个程序,从一个网站,获取索引到它的所有网址,并提供良好的输出,例如逐行获取所有网址,并获取网站中未使用的网址(因为蜘蛛可以一个...

回答 2 投票 0

Curl 在执行 50 次重定向后失败,但 wget 工作正常

我有一个基于 PHP 的实验性网络爬虫,我注意到它无法读取某些页面,例如在某些特定域上,curl 说它在执行 50 次重定向后失败,但 wget 读取...

回答 2 投票 0

使用 Amazon Athena 查询常见爬网数据集中的 HTML 内容

我目前正在探索 Amazon S3 上托管的大量 Common Crawl 数据集,并尝试使用 Amazon Athena 查询该数据集。我的目标是在 ...

回答 1 投票 0

如何从检查网络浏览器获取调用API的“请求标头”和“有效负载”

我需要调用 API,因此我需要向其发送请求标头和负载,否则我会收到 403。 请告诉我Python中的一个命令来接收它们,否则我必须手动输入...

回答 1 投票 0

如何保护开源免遭人工智能(误)使用?

截至 2023 年,有大量(生成式)人工智能可供公众使用;通常,他们会为给定的上下文重新构建最可能的符号序列。 当谈到

回答 3 投票 0

推断缺失的站点地图链接

我们正在从 robots.txt 中探索几个网站的站点地图。我们发现站点地图通常不包含网站的完整地图。在许多情况下,只准备了几页...

回答 1 投票 0

为什么 BeautifulSoup find_all 不返回带有 <br> 的元素?

环境: Python 3.9.4 美丽汤4==4.12.2 代码: 从 bs4 导入 BeautifulSoup test_content = '''123123... 环境: Python 3.9.4 美丽汤4==4.12.2 代码: from bs4 import BeautifulSoup test_content = '''<html><head></head><body><p>123</p><p>123<br>123</p></body></html>''' bs = BeautifulSoup(test_content, 'html.parser') 为什么bs.find_all('p')返回所有元素,而bs.find_all('p', string=True)只返回不含<br>的元素? >>> bs.find_all('p') [<p>123</p>, <p>123<br/>123</p>] >>> bs.find_all('p', string=True) [<p>123</p>] >>> import re >>> bs.find_all('p', string=re.compile('.+')) [<p>123</p>] 我搜索了 BeautifulSoup 的文档,但没有发现任何相关内容。 我的问题是为什么添加 string=True 会使 find_all 不返回带有 br 标签的元素? 如何找到所有元素(带或不带 <br> 标签)?不传递 string 参数在这里没有帮助,因为我的实际需要是查找具有某些关键字的元素,例如string=re.compile('KEYWORD') 这将为您提供 中的完整字符串 for p in bs.find_all('p'): print(p.get_text()) 123 123123 不确定您是否想要 将第二个字符串分成两个字符串

回答 1 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.