如何在robots.txt中添加`nofollow, noindex`所有页面?

问题描述 投票:0回答:4

我想在构建网站时将

nofollow
noindex
添加到我的网站。客户要求我使用这些规则。

我知道

<meta name="robots" content="noindex,nofollow">

但我只能访问

robots.txt
文件。

有谁知道我可以通过

noindex, nofollow
文件应用
robots.txt
规则的正确格式?

http robots.txt access-control
4个回答
45
投票

noindex
nofollow
表示您不希望任何搜索引擎(例如 Google)抓取您的网站。

所以,只需将以下代码放入您的

robots.txt
文件中:

User-agent: *
Disallow: /

意思是

noindex
nofollow
.


6
投票

有一个非标准的

Noindex
字段,谷歌(可能没有其他消费者)支持作为实验功能

遵循 robots.txt 规范,您不能禁止索引或使用 robots.txt 链接。

对于一个仍在开发中,还没有被索引,并且没有从可能被抓取的页面获得反向链接的网站,使用 robots.txt 应该足够了:

# no bot may crawl 
User-agent: *
Disallow: /

如果站点的页面已经被索引,和/或如果其他可能被抓取的页面链接到它,您必须使用

noindex
,它不仅可以在 HTML 中指定,而且也可以作为 HTTP 标头

X-Robots-Tag: noindex, nofollow

-2
投票
  • Noindex 告诉搜索引擎不要在搜索结果中包含页面,但可以跟随链接(也可以转移 PA 和 DA)
  • Nofollow 告诉机器人不要点击链接。我们也可以将 noindex 与 follow 结合在我们不想被索引的页面中,但我们想要跟随链接

-3
投票

我刚读了这个帖子,想添加一个想法。

如果有人想放置一个正在建设或开发中的站点,未经授权的用户无法查看我认为这个想法是安全的,尽管需要一点 IT 熟练程度。

在任何操作系统上都有一个“主机”文件,作为 DNS 条目的手动存储库,覆盖在线 DNS 服务器。

在 Windows 中,它位于 C:\Windows\System32\drivers tc\hosts 和 linuxes distros(Android 也是)下,我知道它在 /etc/hosts 下。也许在 OSX 中是一样的。

想法是添加一个条目

xxx.xxx.xxx.xxx anyDomain.tld

到那个文件。 在您的服务器/提供商中创建域很重要,但尚未发送到 DNS 服务器。

会发生什么:当域在服务器中创建时,它会响应该域上的调用,但互联网上没有其他人(没有浏览器)知道您站点的 IP 地址,除了您在上面添加的计算机片段到主机文件。

在这种情况下,您可以将更改添加到任何有兴趣查看您的站点(并获得您的授权)的人,以防止其他人无法查看您的站点。在您在线发布 DNS 之前,爬虫不会看到它。

我什至将它用于我家人共享的私人文件服务器。

在这里您可以找到有关如何编辑主机文件的详尽说明: https://www.howtogeek.com/howto/27350/beginner-geek-how-to-edit-your-hosts-file/

© www.soinside.com 2019 - 2024. All rights reserved.