robots.txt 相关问题

Robots.txt(机器人排除协议)是放置在网站域根目录中的文本文件,用于向兼容的Web机器人(例如搜索引擎爬虫)提供有关要爬网和不爬网的页面的说明,以及其他信息例如Sitemap位置。在现代框架中,以编程方式生成文件可能很有用。有关搜索引擎优化的一般问题更适合Webmasters StackExchange站点。

这个网站如何以及为什么强制我的浏览器下载它的 robots.txt 文件?

当我转到此 URL 时,我的 Safari 会立即从该站点下载并打开 robots.txt 文件。我从未见过这种行为,也无法弄清楚网站如何以及为什么会实施它,除非我......

回答 0 投票 0

robots.txt 中的这一行是什么意思,我应该如何解释它?

我想知道是否允许我抓取以 /kommentare/x 结尾的 URL,其中 x 被替换为整数(例如 /kommentare/2)。 尝试使用 scrapy 访问此 URL 时没有任何

回答 0 投票 0

使用 robots.txt 排除一个特定的用户代理并允许所有其他用户代理?

这听起来像是一个简单的问题。排除 waybackmachine 爬虫 (ia_archiver) 并允许所有其他用户代理。 所以我设置 robots.txt 如下: 用户代理: * 站点地图:https://www.example...

回答 1 投票 0

Google 未索引网站 - 说“被 Robots.txt 阻止” - 但是 Robots.txt 允许所有爬虫 - 两种不同的托管服务存在同样的问题

我已经建立并发布了很多网站,但从未遇到过以下问题: 谷歌没有索引我的网站。每当我提交页面(在 Google Search Console 中)时,它都会说“被......阻止了

回答 0 投票 0

robots.txt 可以禁止使用星号作为产品 ID 通配符吗?

以下内容在我的 robots.txt 文件中有效吗? 不允许:/*?action=addwishlist&product_id=* 而不是像下面这样为每个产品单独编写: 不允许:/*?action=addwishlist&

回答 0 投票 0

禁止 robots.txt 中的所有分页页面

我不希望谷歌抓取我所有的分页: 这是示例: http://example.com/blog-page/page/1 http://example.com/blog-page/page/2 http://example.com/blog-page/page/3 好吧,我有...

回答 3 投票 0

停止 web.archive.org 以保存网站页面

我尝试访问以前的 facebook.com 网页。 该网站向我显示了一个错误,由于网站 robots.txt/,它无法保存页面 任何人都可以告诉机器人中的哪些语句......

回答 3 投票 0

谷歌索引的 FTP 域

我们面临一个非常奇怪的问题,谷歌正在为我们的 FTP 域 ftp.example.com 编制索引。 我们没有将其作为子域,也没有根文件夹或任何其他文件。 所以我不是很...

回答 1 投票 0

Robotparser 似乎没有正确解析

我正在编写一个爬虫,为此我正在实施 robots.txt 解析器,我正在使用标准库 robotparser。 好像robotparser没有解析正确,我正在调试我的爬虫...

回答 5 投票 0

React 应用程序 robots.txt 文件自动恢复到其原始版本

我将 robots.txt 文件更新为 用户代理: * 不允许:/搜索 不允许:/类别/ 不允许:/标签/ 允许: / 站点地图:https://www.example.com//sitemap.xml 但几个小时后,它显示给我 嘿...

回答 0 投票 0

如何在robots.txt中添加`nofollow, noindex`所有页面?

我想在我的网站构建过程中添加 nofollow 和 noindex。客户要求我使用这些规则。 我知道 我想在构建网站时将 nofollow 和 noindex 添加到我的网站。客户要求我使用这些规则。 我知道 <meta name="robots" content="noindex,nofollow"> 但我只能访问robots.txt文件。 有谁知道我可以通过noindex, nofollow文件应用robots.txt规则的正确格式? noindex 和 nofollow 表示您不希望任何搜索引擎(例如 Google)抓取您的网站。 所以,只需将以下代码放入您的robots.txt文件中: User-agent: * Disallow: / 意思是noindex和nofollow. 有一个非标准的Noindex字段,谷歌(可能没有其他消费者)支持作为实验功能。 遵循 robots.txt 规范,您不能禁止索引或使用 robots.txt 链接。 对于一个仍在开发中,还没有被索引,并且没有从可能被抓取的页面获得反向链接的网站,使用 robots.txt 应该足够了: # no bot may crawl User-agent: * Disallow: / 如果站点的页面已经被索引,和/或如果其他可能被抓取的页面链接到它,您必须使用noindex,它不仅可以在 HTML 中指定,而且也可以作为 HTTP 标头: X-Robots-Tag: noindex, nofollow Noindex 告诉搜索引擎不要在搜索结果中包含页面,但可以跟随链接(也可以转移 PA 和 DA) Nofollow 告诉机器人不要点击链接。我们也可以将 noindex 与 follow 结合在我们不想被索引的页面中,但我们想要跟随链接 我刚读了这个帖子,想添加一个想法。 如果有人想放置一个正在建设或开发中的站点,未经授权的用户无法查看我认为这个想法是安全的,尽管需要一点 IT 熟练程度。 在任何操作系统上都有一个“主机”文件,作为 DNS 条目的手动存储库,覆盖在线 DNS 服务器。 在 Windows 中,它位于 C:\Windows\System32\drivers tc\hosts 和 linuxes distros(Android 也是)下,我知道它在 /etc/hosts 下。也许在 OSX 中是一样的。 想法是添加一个条目 xxx.xxx.xxx.xxx anyDomain.tld 到那个文件。 在您的服务器/提供商中创建域很重要,但尚未发送到 DNS 服务器。 会发生什么:当域在服务器中创建时,它会响应该域上的调用,但互联网上没有其他人(没有浏览器)知道您站点的 IP 地址,除了您在上面添加的计算机片段到主机文件。 在这种情况下,您可以将更改添加到任何有兴趣查看您的站点(并获得您的授权)的人,以防止其他人无法查看您的站点。在您在线发布 DNS 之前,爬虫不会看到它。 我什至将它用于我家人共享的私人文件服务器。 在这里您可以找到有关如何编辑主机文件的详尽说明: https://www.howtogeek.com/howto/27350/beginner-geek-how-to-edit-your-hosts-file/

回答 4 投票 0

为 Laravel 9+ 添加 robots.txt

我想将 robots.txt 添加到我的 Laravel 项目中,但我发现 robots.txt 包与 Laravel 9+ 不兼容,所以如果您知道最新版本的 Laravel 有任何教程或包,请

回答 0 投票 0

Wordpress-带有块的自定义页面-禁止google SEO块索引

我正在网上商店使用Wordpress和WooCommerce。使用我正在使用的主题,您可以通过添加“块”来自定义产品类别页面。因此,如果我想在产品顶部添加文字...

回答 1 投票 0

Google将我的站点地图索引为网页

我有以下问题。我的站点地图的内容显示在GOOGLE搜索结果中。主页上有指向站点地图的链接。那会导致它。我已将此URL作为站点地图添加到GOOGLE,并且...

回答 1 投票 2

使用python app在heroku上创建并读取.txt文件

我使用heroku作为主机创建了Line-bot应用程序,该应用程序可以通过从Line帐户发送命令来创建,读取和追加到heroku上的txt_files中,因此我尝试使用...向我的Line-bot发送消息。 >

回答 1 投票 1

无法阻止htaccess或robots.txt中的AspiegelBot

我在AspiegelBot爬网服务器上的一个站点时遇到问题,这导致许多内核被耗尽。我一直试图在没有成功的htaccess网站中阻止这两个机器人。 ...

回答 1 投票 1

忽略抓取工具中的robots.txt和meta标签

[有没有一种方法可以使网络搜寻器忽略robots.txt文件和标签?是的,我知道这可能会带来法律影响。这个问题很像另一个问题,但是答案非常...

回答 1 投票 0

无法使用laravel 5.8和Apache服务器访问robots.txt

在我的Apache服务器中,我正在运行Laravel 5.8版本的应用程序。当我尝试访问我的robots.txt时,返回404。但是,如果我之前使用/ public访问robots.txt,则可以正常工作。例如:...

回答 1 投票 0

在Java中列出允许和禁止的URL规则

我正在尝试使用以下代码捕获Java中robots.txt文件的允许和禁止规则:-打包robotest;公共类RoboTest {公共静态void main(String [] args){String ...

回答 2 投票 0

解析robots.txt文件的允许和禁止的部分

我正在尝试使用以下代码在netflix网站的robots.txt文件中获取用户代理的允许和不允许的部分:-robots =“”“用户代理:*不允许:/用户代理:googlebot ...] >

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.