web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

论坛网站网页爬取的基本问题

我的任务是从托管在封闭网络上的 SiteScape 论坛上的论坛帖子中备份数据。我希望在 Python 中使用自动网络爬虫,使用 urllib.request 和 Beautiful Soup。

回答 0 投票 0

如何定位 Selenium 中的元素以在搜索框中搜索 Google Place ID?

我试图在 Google Place IDs 网站中找到搜索框,我尝试了 By.ID、By.CLASS_NAME、By.XPATH,但我失败了。 place_id_url = "https://developers.google.com/maps/documentation/javasc...

回答 2 投票 0

用硒点击 Href 元素

代码试图点击 python Selenium 中的 href 元素,但失败了。这是代码。 #提供对网络驱动程序的访问 从 selenium 导入 webdriver #allows interaction 元素...

回答 2 投票 0

Scrapy 请求 - 我自己的回调函数没有被调用

我想每隔一段时间请求一次页面,看看内容是否更新了,但是我自己的回调函数没有被触发 我的 allowed_domains 和请求 url 是 allowed_doma...

回答 1 投票 0

Python Instaloader 网页爬取HTTP错误码401

我正在尝试使用 Python 中的 Instaloader 模块从 Instagram 下载带有短代码列表的照片。几次成功下载后,我收到以下错误: 连接异常...

回答 1 投票 0

创建了一个不想抓取超过 1 个 URL 的爬虫

我创建了一个爬网,用于爬网我的客户网站以获取 SEO 数据。 正在收集数据,但它不会抓取超过 1 个 url。 而且我似乎无法在我的代码中找到错误。 定义正常化...

回答 0 投票 0

网络爬虫Scrapy框架的请求中断

我使用 Scrapy 框架作为网络爬虫。目标观察量约10亿,请求量约1000万。我检查了我的代码逻辑并确保它没问题。然而,有些...

回答 0 投票 0

在动态加载的网站上抓取图像 SRC 值

我正在写一个蜘蛛来抓取以下网站: https://bananarepublic.gap.com/browse/category.do?cid=28660&nav=meganav%3AMen%3AMen%27s%20Clothing%3ASweaters#department=75 我在努力

回答 0 投票 0

查找路径中包含单词“/complete/”且 url 不在任何 HTML 代码中的网站的 url 数量

我的目标是跟踪每天在其路径中使用“完整”一词创建的每个唯一 url。例如,https://example.com/complete/yyrh38/。限制是这些 url ...

回答 0 投票 0

如何使用 Beautifulsoup 获取 web html tbody 的内容?

今晚我尝试从'https://lpl.qq.com/esnew/data/rank.shtml?iGameId=190&sGameType=1,5'获取数据,顺便练习一下技巧。我用 beautifulsoup 来爬它。当我看到它的视图时,我...

回答 1 投票 0

为什么 REST bing 地图没有返回完整地址?

我正在编写一个程序,该程序可以获取市政厅的位置/查询搜索的数据框,并在另一列中返回它们的地址。问题是街道地址和邮政编码是......

回答 1 投票 0

python爬取时未检索到代理站点端口号

在使用 Python 进行网络抓取时,我无法从代理站点获取端口号。 在下面的 HTML 代码结构中,当我使用 Beautiful Soup 选择 IP 地址时,如下所示: 知识产权 =

回答 0 投票 0

如何使用Beautiful Soup获取网页图片?

我尝试通过以下方式保存图像: res=requests.get(url,headers=headers) bs=BeautifulSoup(res.content,"html.parser") 图片=bs.find_all("img") 对于我,枚举中的 img(

回答 1 投票 0

OkHttp post 在我登录网站时不起作用

我尝试发布表单数据以按照以下代码登录网络,但我仍然收到回复但未登录。虽然,我用邮递员测试了它但它有效。 注意:响应是html,我从网站上爬取html ...

回答 0 投票 0

Copy as Curl被屏蔽了,但是Replay没问题,怎么办?

在浏览器开发工具中,比如 chrome 和 edge,我尝试了 Copy as CURL, 复制为卷曲 这个 API 应该返回一个 JSON 正文,但是返回了一些带有 code405 的 HTML,似乎被某些防火墙阻止了。 ...

回答 0 投票 0

Python中Playwright如何异步保存图片?

我正在使用 Playwright 实现一个 python 网络抓取器,我有兴趣在给定 url 的情况下保存图像(即每个 url 包含并且只包含相应的图像)。但是,我有麻烦

回答 3 投票 0

从 URL 中抓取字段并构建排名表

这是我从网站上抓取数据的第一个项目,所以请指导我,因为我听起来肯定像个新手。所以这就是我想做的:废弃 URL 上的 Church Size 字段....

回答 0 投票 0

iOS APP与爬虫交互问题?

现在我已经基本实现了一个APP的大致内容。唯一的问题是数据交互 APP的数据来自于Python爬虫的结果(json文件)。 有两种类型的...

回答 0 投票 0

Scrapy - 作为分页回调的递归函数

我在使用 Scrapy 蜘蛛时遇到了一些困难。 函数 parse() 没有正常工作。它会收到带有搜索关键字的 url 的响应,然后是页面中每个列表的响应

回答 1 投票 0

有没有工具可以快速识别站点登录页面的身份验证(或反蜘蛛)方法并给出结果?

我正在写一个多站点蜘蛛。这些站点中的大多数都使用反蜘蛛方法或复杂的身份验证过程。 是否有工具或浏览器扩展可以记录

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.