robots.txt 相关问题

Robots.txt（机器人排除协议）是放置在网站域根目录中的文本文件，用于向兼容的Web机器人（例如搜索引擎爬虫）提供有关要爬网和不爬网的页面的说明，以及其他信息例如Sitemap位置。在现代框架中，以编程方式生成文件可能很有用。有关搜索引擎优化的一般问题更适合Webmasters StackExchange站点。

这个网站如何以及为什么强制我的浏览器下载它的 robots.txt 文件？

当我转到此 URL 时，我的 Safari 会立即从该站点下载并打开 robots.txt 文件。我从未见过这种行为，也无法弄清楚网站如何以及为什么会实施它，除非我......

safari robots.txt malware

回答 0 投票 0

robots.txt 中的这一行是什么意思，我应该如何解释它？

我想知道是否允许我抓取以 /kommentare/x 结尾的 URL，其中 x 被替换为整数（例如 /kommentare/2）。尝试使用 scrapy 访问此 URL 时没有任何

python web-scraping python-requests scrapy robots.txt

回答 0 投票 0

使用 robots.txt 排除一个特定的用户代理并允许所有其他用户代理？

这听起来像是一个简单的问题。排除 waybackmachine 爬虫 (ia_archiver) 并允许所有其他用户代理。所以我设置 robots.txt 如下：用户代理： * 站点地图：https://www.example...

robots.txt

回答 1 投票 0

Google 未索引网站 - 说“被 Robots.txt 阻止” - 但是 Robots.txt 允许所有爬虫 - 两种不同的托管服务存在同样的问题

我已经建立并发布了很多网站，但从未遇到过以下问题：谷歌没有索引我的网站。每当我提交页面（在 Google Search Console 中）时，它都会说“被......阻止了

.htaccess ssl robots.txt google-search-console google-index

回答 0 投票 0

robots.txt 可以禁止使用星号作为产品 ID 通配符吗？

以下内容在我的 robots.txt 文件中有效吗？不允许：/*?action=addwishlist&product_id=* 而不是像下面这样为每个产品单独编写：不允许：/*?action=addwishlist&

seo bigcommerce robots.txt

回答 0 投票 0

禁止 robots.txt 中的所有分页页面

我不希望谷歌抓取我所有的分页：这是示例： http://example.com/blog-page/page/1 http://example.com/blog-page/page/2 http://example.com/blog-page/page/3 好吧，我有...

wordpress robots.txt

回答 3 投票 0

停止 web.archive.org 以保存网站页面

我尝试访问以前的 facebook.com 网页。该网站向我显示了一个错误，由于网站 robots.txt/，它无法保存页面任何人都可以告诉机器人中的哪些语句......

robots.txt

回答 3 投票 0

谷歌索引的 FTP 域

我们面临一个非常奇怪的问题，谷歌正在为我们的 FTP 域 ftp.example.com 编制索引。我们没有将其作为子域，也没有根文件夹或任何其他文件。所以我不是很...

.htaccess robots.txt google-search-console google-index

回答 1 投票 0

Robotparser 似乎没有正确解析

我正在编写一个爬虫，为此我正在实施 robots.txt 解析器，我正在使用标准库 robotparser。好像robotparser没有解析正确，我正在调试我的爬虫...

python python-2.7 web-crawler robots.txt

回答 5 投票 0

React 应用程序 robots.txt 文件自动恢复到其原始版本

我将 robots.txt 文件更新为用户代理： * 不允许：/搜索不允许：/类别/ 不允许：/标签/ 允许： / 站点地图：https://www.example.com//sitemap.xml 但几个小时后，它显示给我嘿...

reactjs robots.txt

回答 0 投票 0

如何在robots.txt中添加`nofollow, noindex`所有页面？

我想在我的网站构建过程中添加 nofollow 和 noindex。客户要求我使用这些规则。我知道我想在构建网站时将 nofollow 和 noindex 添加到我的网站。客户要求我使用这些规则。我知道 <meta name="robots" content="noindex,nofollow"> 但我只能访问robots.txt文件。有谁知道我可以通过noindex, nofollow文件应用robots.txt规则的正确格式？ noindex 和 nofollow 表示您不希望任何搜索引擎（例如 Google）抓取您的网站。所以，只需将以下代码放入您的robots.txt文件中： User-agent: * Disallow: / 意思是noindex和nofollow. 有一个非标准的Noindex字段，谷歌（可能没有其他消费者）支持作为实验功能。遵循 robots.txt 规范，您不能禁止索引或使用 robots.txt 链接。对于一个仍在开发中，还没有被索引，并且没有从可能被抓取的页面获得反向链接的网站，使用 robots.txt 应该足够了： # no bot may crawl User-agent: * Disallow: / 如果站点的页面已经被索引，和/或如果其他可能被抓取的页面链接到它，您必须使用noindex，它不仅可以在 HTML 中指定，而且也可以作为 HTTP 标头： X-Robots-Tag: noindex, nofollow Noindex 告诉搜索引擎不要在搜索结果中包含页面，但可以跟随链接（也可以转移 PA 和 DA） Nofollow 告诉机器人不要点击链接。我们也可以将 noindex 与 follow 结合在我们不想被索引的页面中，但我们想要跟随链接我刚读了这个帖子，想添加一个想法。如果有人想放置一个正在建设或开发中的站点，未经授权的用户无法查看我认为这个想法是安全的，尽管需要一点 IT 熟练程度。在任何操作系统上都有一个“主机”文件，作为 DNS 条目的手动存储库，覆盖在线 DNS 服务器。在 Windows 中，它位于 C:\Windows\System32\drivers tc\hosts 和 linuxes distros（Android 也是）下，我知道它在 /etc/hosts 下。也许在 OSX 中是一样的。想法是添加一个条目 xxx.xxx.xxx.xxx anyDomain.tld 到那个文件。在您的服务器/提供商中创建域很重要，但尚未发送到 DNS 服务器。会发生什么：当域在服务器中创建时，它会响应该域上的调用，但互联网上没有其他人（没有浏览器）知道您站点的 IP 地址，除了您在上面添加的计算机片段到主机文件。在这种情况下，您可以将更改添加到任何有兴趣查看您的站点（并获得您的授权）的人，以防止其他人无法查看您的站点。在您在线发布 DNS 之前，爬虫不会看到它。我什至将它用于我家人共享的私人文件服务器。在这里您可以找到有关如何编辑主机文件的详尽说明： https://www.howtogeek.com/howto/27350/beginner-geek-how-to-edit-your-hosts-file/

http robots.txt access-control

回答 4 投票 0

为 Laravel 9+ 添加 robots.txt

我想将 robots.txt 添加到我的 Laravel 项目中，但我发现 robots.txt 包与 Laravel 9+ 不兼容，所以如果您知道最新版本的 Laravel 有任何教程或包，请

laravel robots.txt

回答 0 投票 0

Wordpress-带有块的自定义页面-禁止google SEO块索引

我正在网上商店使用Wordpress和WooCommerce。使用我正在使用的主题，您可以通过添加“块”来自定义产品类别页面。因此，如果我想在产品顶部添加文字...

wordpress woocommerce seo robots.txt xml-sitemap

回答 1 投票 0

Google将我的站点地图索引为网页

我有以下问题。我的站点地图的内容显示在GOOGLE搜索结果中。主页上有指向站点地图的链接。那会导致它。我已将此URL作为站点地图添加到GOOGLE，并且...