robots.txt 相关问题

Robots.txt(机器人排除协议)是放置在网站域根目录中的文本文件,用于向兼容的Web机器人(例如搜索引擎爬虫)提供有关要爬网和不爬网的页面的说明,以及其他信息例如Sitemap位置。在现代框架中,以编程方式生成文件可能很有用。有关搜索引擎优化的一般问题更适合Webmasters StackExchange站点。

多个机器人元标签

我最近继承了一个代码库并发现了这个宝石: {% if PAGE_EXTRAS.hide_from_sitemap %} 我最近继承了一个代码库并发现了这个宝石: {% if PAGE_EXTRAS.hide_from_sitemap %} <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW"> <META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> {% endif %} 我不知道它想做什么。您是否有理由在这样的网站中放置多个明显冲突的机器人标签?或者它真的像我无知的眼睛看起来那么疯狂吗? 这对我来说似乎是一个错误。我能找到的唯一信息是在 Google 的机器人元标记规范: 如果我们的爬虫遇到竞争指令,我们将使用我们找到的最严格的指令。 所以(至少对于谷歌来说)代码: <meta name="robots" content="noindex, follow"> <meta name="robots" content="index, nofollow"> <meta name="robots" content="noindex, nofollow"> 的作用与: 完全相同 <meta name="robots" content="noindex, nofollow"> 可以想象,这段代码可能是某种偷偷摸摸的黑客行为,旨在通过利用不同的爬虫解决冲突的方式的差异,将不同的规则应用于不同的爬虫。如果是这样,恕我直言,这是一个糟糕的主意。当已经有合法的机制可以做同样的事情时,就不需要进行混乱而脆弱的黑客攻击: <meta name="googlebot" content="noindex, follow"> <meta name="bingbot" content="index, nofollow"> 根据这篇文章,最严格的将获胜: https://developers.google.com/search/blog/2007/03/using-robots-meta-tag

回答 2 投票 0

Robots.txt - 防止 .html 文件索引

我想阻止我们网站上 *.html 文件的索引 - 这样只对干净的 url 进行索引。 所以我希望将 www.example.com/en/login 编入索引,但不将 www.example.com/en/login/index.html 编入索引 目前我...

回答 2 投票 0

如何通过robots.txt让HTTrack爬虫远离我的网站?

我正在维护网站http://www.totalworkflow.co.uk,不确定HTTrack是否遵循robots.txt文件中给出的说明。如果有任何答案我们可以让 HTTrack 远离...

回答 2 投票 0

我可以在robots.txt中使用“Host”指令吗?

在 robots.txt 上搜索具体信息时,我偶然发现了有关此主题的 Yandex 帮助页面‡。它建议我可以使用 Host 指令告诉爬虫我首选的镜像域:...

回答 2 投票 0

链接到同一根文件夹的不同域名的robots.txt内容不同

我有两个域名链接到同一个根。如何让robots.txt根据域名有不同的内容?

回答 2 投票 0

防止通过.htaccess直接访问robots.txt

我想阻止用户访问我的 robots.txt 文件,但我仍然希望搜索引擎能够读取它。是否可以? 如果是的话我该怎么做?我相信如果我在 .htaccess 中编写以下内容,它会...

回答 3 投票 0

是否可以通过robots.txt控制抓取速度?

我们可以在robot.txt中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制Google Webmasters中的抓取速度(Google bot抓取网站的速度)。我想知道我是否...

回答 4 投票 0

如何阻止 Alexa 工具栏用户?

有什么想法可以阻止 Alexa 工具栏用户吗?当我们处于测试阶段时,我不想出现在排名中...... 我发现您可以通过以下方式阻止他们的搜索引擎 用户代理:ia_archiver 不允许: / 布...

回答 2 投票 0

推断缺失的站点地图链接

我们正在从 robots.txt 中探索几个网站的站点地图。我们发现站点地图通常不包含网站的完整地图。在许多情况下,只准备了几页...

回答 1 投票 0

从谷歌搜索中完全排除目录

所以我想排除整个目录(及其子文件夹)被任何搜索引擎索引。假设我的域名名为“example.com”,目录为“directory-to-exclude” 现在...

回答 2 投票 0

Google 无法访问Robots.txt。失败:Robots.txt 无法访问

我遇到了这个奇怪的问题:失败:在我的谷歌搜索控制台中无法访问Robots.txt。 我还注意到页面速度见解无法抓取我的网站。可能是什么原因造成的?我确实有一个...

回答 1 投票 0

检查robots.txt中的网址

我需要检查robots.txt文件中的某个URL是否可供某个代理抓取。 我在用着 导入 urllib.robotparser rp = urllib.robotparser.RobotFileParser("https://rus-t...

回答 1 投票 0

SemrushBot 无法停止

在过去的几天里,我正在监视我的网站日志,并看到一个机器人正在大量扫描我。 扫描的间隔非常频繁,每5-10秒一次。我试图阻止机器人......

回答 2 投票 0

如何在nuxt.js中实现robots.txt

我看过不同的文档,但我仍然不清楚robots.txt是放在服务器的根目录中还是放在代码本身的根目录中。 我想知道它是如何实现的...

回答 1 投票 0

如何实现robots.txt

我看过不同的文档,但我仍然不清楚robots.txt是放在服务器的根目录中还是放在代码本身的根目录中。 我想知道它是如何实现的...

回答 1 投票 0

如何禁止使用 robots.txt 嵌套文件夹?

在我的 robots.txt 中,我有一条禁止规则,例如: 用户代理: * 禁止:/_hcms/ 我想禁止在 _hcms 及其嵌套文件夹中放置任何内容,例如 /_hcms/a/ 或 /_hcms/b/。 我应该...

回答 1 投票 0

是否可以在一行中列出多个用户代理?

是否可以在robots.txt中向多个机器人发出一条指令而不必重复提及? 例子: 用户代理:googlebot yahoobot microsoftbot 禁止:/无聊的东西/

回答 5 投票 0

Google 搜索控制台实时索引失败,出现服务器错误 (5xx)

直到2023年2月,我的网站都被谷歌完美抓取。到目前为止,该网站还没有任何robots.txt。由于此错误,页面索引实时测试突然失败 失败:R...

回答 2 投票 0

Nuxt.js robots.txt 文件每个用户代理多次禁止

使用 Nuxts nuxt-robots 模块如何配置多个不允许每个用户代理。目前我有: 机器人:() => { 返回 { 用户代理: '*', 禁止:'/搜索/', 坐...

回答 2 投票 0

我的 nextjs 13 应用在 Search Console 上收到未经授权的 401 错误

我使用 clerk 进行身份验证构建了一个 nextjs 13 web 应用程序。问题是该网络应用程序的主页无法在 Google 上找到。当我测试 Live URL 时,它看起来是这样的: 输入图像描述...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.