web-crawler 相关问题

Web爬虫(也称为Web爬虫)是一种以有条不紊,自动化或有序方式浏览万维网的计算机程序。 Web爬虫的其他术语是蚂蚁,自动索引器,僵尸程序,Web蜘蛛,Web机器人,或者 - 尤其是在FOAF社区中 - Web scutters。

Scrapy - 爬行网站档案以及所有子目录

所以我尝试使用 Scrapy 从网站的存档版本中抓取数据。这是我的代码: 导入scrapy 从 scrapy.crawler 导入 * 从 scrapy.item 导入 * 来自 scrapy.linkextractors 导入...

回答 1 投票 0

爬取数据时出错:'EPollReactor'对象没有属性'_handleSignals'

我正在尝试从 URL 列表中抓取数据。我已经完成了下面的代码,昨天成功了,没有任何错误。 但是今天,当我回来再次运行代码时,出现了呃...

回答 1 投票 0

`scrapy` 无法从网站获得响应,但 `requests` 可以

我正在使用scrapy来抓取这个页面 但由于某种原因scrapy无法收到该网站的响应。 当我运行爬虫时,我收到 https 500 错误 这是我的基本蜘蛛 导入scrapy ...

回答 1 投票 0

Python 网络爬虫和“获取”html 源代码

所以我哥哥想让我用Python(自学)写一个网络爬虫,我懂C++,Java,还有一点html。我正在使用 2.7 版本并阅读 python 库,但有一些问题 1. 嗯...

回答 5 投票 0

机器人元标记中的“全部”或“索引,跟随”?

这是允许 Google 机器人抓取我们网站的正确方法吗? 允许 Google 机器人使用什么更好? 这是允许 Google 机器人抓取我们网站的正确方法吗? <meta name="robots" content="all"/> 允许 Google 机器人使用什么更好? <meta name="robots" content="all"/> 或 <meta name="robots" content="index,follow"/> 您并不明确需要元标记来允许 Google 抓取您的网站,尽管拥有元标记也没什么坏处。因为两者都没有优于对方的优势,所以使用 content="all" 来削减传输的一些额外字节。 文档: https://developers.google.com/search/docs/crawling-indexing/robots-meta-tag#directives https://developers.google.com/search/docs/crawling-indexing/special-tags 当然,我可以澄清什么是元标签以及它们如何工作。 元标记是嵌入网页 HTML 代码中的文本片段。访问者在页面上看不到它们,但搜索引擎(如 Google、Bing、Yahoo、DuckDuckGo 等)和其他网络服务可以读取它们。元标签可以提供有关页面内容、作者、关键字和其他元数据的信息。 有不同类型的元标记,每种都有其自己的用途。 一些最常见的元标签包括: 此标签提供页面内容的简短标题。搜索引擎可以使用此标题在 SERP 中显示有关该页面的文本片段。 此标签提供页面内容的简短描述。搜索引擎可以使用此描述在 SERP 中显示有关该页面的文本片段。 此标签列出了描述页面内容的关键字。搜索引擎可以使用这些关键字来帮助人们在搜索这些术语时找到页面。 此标签标识页面的作者。搜索引擎和其他网络服务可以使用此信息在搜索结果或其他地方显示作者的姓名。 此标签控制网页在移动设备上的显示方式。搜索引擎可以使用这些信息来确保移动用户在访问页面时有良好的体验。 元标签可以是搜索引擎优化(SEO)的重要组成部分。通过使用正确的元标记,您可以帮助搜索引擎了解您网页的内容并在搜索结果中将其排名更高。 以下是有关元标记的一些额外注意事项: 元标签不能保证提高您的搜索引擎排名。但是,如果使用正确,它们会很有帮助。 元标签应该与您的页面内容相关。使用不相关的关键字或描述实际上会损害您的搜索引擎排名。 元标签应该简洁。搜索引擎的作用有限 在搜索结果中显示文本片段的空间量。 元标签应随着内容的变化定期更新。 我希望这个澄清有帮助!

回答 2 投票 0

如何点击没有herf链接的图标与selenium

我是编程新手,我正在尝试抓取这个网站。 很抱歉,该网站仅适用于韩国人。 我想要的是使用selenium(python)移动到搜索的下一页。 另一边...

回答 1 投票 0

元标签说明

有人可以告诉我这是否是允许谷歌机器人抓取我们网站的正确方法? 还有什么更好让谷歌...

回答 2 投票 0

Selenium 页面加载为空白,除非使用相同的配置文件手动打开浏览器

我正在使用 selenium 进行爬行项目,但我在处理特定网页(chrome 和 firefox)时遇到了困难。 我发现了 2 个可以在一定程度上发挥作用的解决方法,但我想知道为什么会出现此问题...

回答 1 投票 0

如何用Python编写网络爬虫? [已关闭]

我需要用Python编写一个网络爬虫来搜索基本页面的内容,根据给定的规则找到特定的链接(例如链接应该以https而不是http开头)。我正在浏览的页面...

回答 1 投票 0

Scrapy 问题 - 当我运行 scrapy 文件时,没有输出

` 导入scrapy AudibleSpider 类(scrapy.Spider): 名称 = '可听' allowed_domains = ['www.audible.com'] def start_requests(自身): 产量 scrapy.Request( 网址=...

回答 1 投票 0

Googlebot 找不到 ads.txt 文件

我试图在我的网站上获取 google adsense,但每次 google 抓取我的网站时,它都会显示 ads.txt 状态为“未找到”。我可以通过 goi 查看许多帐户的 ads.txt 文件...

回答 1 投票 0

如何完全忽略chrome中的“调试器”语句?

“永远不要在这里暂停”不起作用 我继续之后: 还是暂停了

回答 3 投票 0

元素不可交互 - Selenium headless chrome=115.0.5790.170 - 如何解决这个问题?

我在使用带有无头chrome=115.0.5790.170的selenium时遇到问题,我有一张桌子和一个带有这个标签的td。 我在无头 chrome=115.0.5790.170 中使用 selenium 时遇到问题,我有一张桌子和一个带有此标签的 td。 <a id="formSegundaViaFatura:dtListaSegundaViaFaturaDebitoPendente:0:j_idt64" href="#" class="ui-commandlink ui-widget" onclick="PrimeFaces.addSubmitParam('formSegundaViaFatura',{'formSegundaViaFatura:dtListaSegundaViaFaturaDebitoPendente:0:j_idt64':'formSegundaViaFatura:dtListaSegundaViaFaturaDebitoPendente:0:j_idt64'}).submit('formSegundaViaFatura');return false;">2 via</a> 此代码将在没有图形资源的虚拟机中运行,只有终端,这就是我需要无头的原因。但是当我尝试与发送 click() 的此元素进行特定交互时,会出现错误。 Message: element not interactable (Session info: headless chrome=115.0.5790.170) Stacktrace: 如果有人知道我如何避免这个错误并与这个元素交互,我将非常感激,因为这是使这个爬虫在无头模式下工作的最后一部分。 如果您的问题是由使用 headless Chrome 引起的,那么您可以尝试使用 Chrome 的 newer 无头模式,该模式的激活方式如下: options.add_argument("--headless=chrome") 在完整的脚本中,看起来像这样: from selenium import webdriver from selenium.webdriver.chrome.service import Service service = Service() options = webdriver.ChromeOptions() options.add_argument("--headless=chrome") driver = webdriver.Chrome(service=service, options=options) # ... This is where you automate things... driver.quit() 您的自动化现在将在新的无头模式下获得与常规有头 Chrome 相同的结果。

回答 1 投票 0

网络抓取 Instagram 时出现问题

def insta_searching(word): url = "https://www.instagram.com/explore/tags/" + str(word) 返回网址 def select_first(驱动程序): 首先 = driver.find_element_by_css_selector("div.

回答 1 投票 0

为什么这个网站无法使用 Selenium + Python 正确加载 cookie?

我正在做一些网络抓取,实际上我的代码有问题。 我想做的就是: 进入网站 https://solucoes.receita.fazenda.gov.br/Servicos/cnpjreva/cnpjreva_solicitacao.asp 哇...

回答 1 投票 0

我想用BeautifulSoup和Requests构建一个网络爬虫,我还需要实现一个我不知道如何编码的关键字系统

我是一个完全的初学者。我懂一点 Java,但仅此而已。 从 bs4 导入 BeautifulSoup 从 pprint 导入 pprint url = 'https://jc.ne10.uol.com.br/economia' 数据 = requests.get(url) 我的...

回答 2 投票 0

如何通过Python爬行从网站获取数据

如何通过Python爬行从网站获取数据 项目介绍: 对于我的工作项目。 我需要从网站获取数据并在 Excel 文件或 csv 文件中显示结果。 我如何从

回答 1 投票 0

无法导出JSON文件

以下代码确实以CSV文件格式导出,但不以JSON格式导出。 我不知道问题是什么,也许是因为我无法在我的 scrapy 蜘蛛中使用爬行语法,而我使用

回答 1 投票 0

Selenium 驱动程序未反映 click() 后的页面更改

我想获取 etoro 上的库存清单。 但是当我尝试单击 selenium => 进行 click() 后,我希望元素已更新,但元素与 click() 之前相同 来自

回答 1 投票 0

如何用PHP识别google/yahoo/msn的网络爬虫?

据我所知, $_SERVER['REMOTE_HOST'] 应该以“google.com”或“yahoo.com”结尾。 但这是最有保障的方法吗? 还有其他出路吗?

回答 9 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.