robots.txt 相关问题

Robots.txt（机器人排除协议）是放置在网站域根目录中的文本文件，用于向兼容的Web机器人（例如搜索引擎爬虫）提供有关要爬网和不爬网的页面的说明，以及其他信息例如Sitemap位置。在现代框架中，以编程方式生成文件可能很有用。有关搜索引擎优化的一般问题更适合Webmasters StackExchange站点。

多个机器人元标签

我最近继承了一个代码库并发现了这个宝石： {% if PAGE_EXTRAS.hide_from_sitemap %} 我最近继承了一个代码库并发现了这个宝石： {% if PAGE_EXTRAS.hide_from_sitemap %} <META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW"> <META NAME="ROBOTS" CONTENT="INDEX, NOFOLLOW"> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> {% endif %} 我不知道它想做什么。您是否有理由在这样的网站中放置多个明显冲突的机器人标签？或者它真的像我无知的眼睛看起来那么疯狂吗？这对我来说似乎是一个错误。我能找到的唯一信息是在 Google 的机器人元标记规范: 如果我们的爬虫遇到竞争指令，我们将使用我们找到的最严格的指令。所以（至少对于谷歌来说）代码： <meta name="robots" content="noindex, follow"> <meta name="robots" content="index, nofollow"> <meta name="robots" content="noindex, nofollow"> 的作用与：完全相同 <meta name="robots" content="noindex, nofollow"> 可以想象，这段代码可能是某种偷偷摸摸的黑客行为，旨在通过利用不同的爬虫解决冲突的方式的差异，将不同的规则应用于不同的爬虫。如果是这样，恕我直言，这是一个糟糕的主意。当已经有合法的机制可以做同样的事情时，就不需要进行混乱而脆弱的黑客攻击： <meta name="googlebot" content="noindex, follow"> <meta name="bingbot" content="index, nofollow"> 根据这篇文章，最严格的将获胜： https://developers.google.com/search/blog/2007/03/using-robots-meta-tag

meta robots.txt

回答 2 投票 0

Robots.txt - 防止 .html 文件索引

我想阻止我们网站上 *.html 文件的索引 - 这样只对干净的 url 进行索引。所以我希望将 www.example.com/en/login 编入索引，但不将 www.example.com/en/login/index.html 编入索引目前我...

robots.txt

回答 2 投票 0

如何通过robots.txt让HTTrack爬虫远离我的网站？

我正在维护网站http://www.totalworkflow.co.uk，不确定HTTrack是否遵循robots.txt文件中给出的说明。如果有任何答案我们可以让 HTTrack 远离...

robots.txt web-crawler

回答 2 投票 0

我可以在robots.txt中使用“Host”指令吗？

在 robots.txt 上搜索具体信息时，我偶然发现了有关此主题的 Yandex 帮助页面‡。它建议我可以使用 Host 指令告诉爬虫我首选的镜像域：...

seo robots.txt

回答 2 投票 0

链接到同一根文件夹的不同域名的robots.txt内容不同

我有两个域名链接到同一个根。如何让robots.txt根据域名有不同的内容？

dns robots.txt

回答 2 投票 0

防止通过.htaccess直接访问robots.txt

我想阻止用户访问我的 robots.txt 文件，但我仍然希望搜索引擎能够读取它。是否可以？如果是的话我该怎么做？我相信如果我在 .htaccess 中编写以下内容，它会...

.htaccess robots.txt

回答 3 投票 0

是否可以通过robots.txt控制抓取速度？

我们可以在robot.txt中告诉机器人抓取或不抓取我们的网站。另一方面，我们可以控制Google Webmasters中的抓取速度（Google bot抓取网站的速度）。我想知道我是否...

search-engine robots.txt google-crawlers

回答 4 投票 0

如何阻止 Alexa 工具栏用户？

有什么想法可以阻止 Alexa 工具栏用户吗？当我们处于测试阶段时，我不想出现在排名中...... 我发现您可以通过以下方式阻止他们的搜索引擎用户代理：ia_archiver 不允许： / 布...

php .htaccess mod-rewrite robots.txt alexa-internet

回答 2 投票 0

推断缺失的站点地图链接

我们正在从 robots.txt 中探索几个网站的站点地图。我们发现站点地图通常不包含网站的完整地图。在许多情况下，只准备了几页...

web-crawler sitemap robots.txt

回答 1 投票 0

从谷歌搜索中完全排除目录

所以我想排除整个目录（及其子文件夹）被任何搜索引擎索引。假设我的域名名为“example.com”，目录为“directory-to-exclude” 现在...

indexing seo robots.txt google-search

回答 2 投票 0

Google 无法访问Robots.txt。失败：Robots.txt 无法访问

我遇到了这个奇怪的问题：失败：在我的谷歌搜索控制台中无法访问Robots.txt。我还注意到页面速度见解无法抓取我的网站。可能是什么原因造成的？我确实有一个...

laravel hosting google-search robots.txt

回答 1 投票 0

检查robots.txt中的网址

我需要检查robots.txt文件中的某个URL是否可供某个代理抓取。我在用着导入 urllib.robotparser rp = urllib.robotparser.RobotFileParser("https://rus-t...

python parsing robots.txt

回答 1 投票 0

SemrushBot 无法停止

在过去的几天里，我正在监视我的网站日志，并看到一个机器人正在大量扫描我。扫描的间隔非常频繁，每5-10秒一次。我试图阻止机器人......

web-scraping bots web-crawler robots.txt

回答 2 投票 0

如何在nuxt.js中实现robots.txt

我看过不同的文档，但我仍然不清楚robots.txt是放在服务器的根目录中还是放在代码本身的根目录中。我想知道它是如何实现的...

nuxt.js robots.txt

回答 1 投票 0

如何实现robots.txt

我看过不同的文档，但我仍然不清楚robots.txt是放在服务器的根目录中还是放在代码本身的根目录中。我想知道它是如何实现的...

nuxt.js robots.txt

回答 1 投票 0

如何禁止使用 robots.txt 嵌套文件夹？

在我的 robots.txt 中，我有一条禁止规则，例如：用户代理： * 禁止：/_hcms/ 我想禁止在 _hcms 及其嵌套文件夹中放置任何内容，例如 /_hcms/a/ 或 /_hcms/b/。我应该...

robots.txt

回答 1 投票 0

是否可以在一行中列出多个用户代理？

是否可以在robots.txt中向多个机器人发出一条指令而不必重复提及？例子：用户代理：googlebot yahoobot microsoftbot 禁止：/无聊的东西/

user-agent robots.txt

回答 5 投票 0

Google 搜索控制台实时索引失败，出现服务器错误 (5xx)

直到2023年2月，我的网站都被谷歌完美抓取。到目前为止，该网站还没有任何robots.txt。由于此错误，页面索引实时测试突然失败失败：R...

robots.txt google-search-console google-index

回答 2 投票 0

Nuxt.js robots.txt 文件每个用户代理多次禁止

使用 Nuxts nuxt-robots 模块如何配置多个不允许每个用户代理。目前我有：机器人：() => { 返回 { 用户代理： '*'，禁止：'/搜索/', 坐...

javascript vue.js nuxt.js robots.txt

回答 2 投票 0

我的 nextjs 13 应用在 Search Console 上收到未经授权的 401 错误

我使用 clerk 进行身份验证构建了一个 nextjs 13 web 应用程序。问题是该网络应用程序的主页无法在 Google 上找到。当我测试 Live URL 时，它看起来是这样的：输入图像描述...

robots.txt google-search-console nextjs13 unauthorized clerk

回答 0 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.