阻止来自搜索引擎的网站 - DuckDuckGo

Question

我有一个开发网站https://text-domain.com。（不是真正的网站）当我去https://duckduckgo.com并搜索text-domain.com时，它会返回结果。

到目前为止我尝试了什么：

使用以下代码创建robots.txt文件（放入我的根目录，即text-domain.com/robots.txt）：

User-agent: *
Disallow: /

然后在我的模板文件中添加了这样的元标记：

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

即便在这样做之后，我搜索了DuckDuckGo并得出了相同的结果。欢迎大家提出意见。

P.S

嗨，等了几天后有2个发现：

仍然，搜索结果被提取。
但是我看到一条消息说：“我们想在这里向您展示一个描述，但该网站不允许我们。” 是否有可能完全阻止在结果中显示？

Answer 1

DuckDuckGo应该尊重你的robots.txt。他们的机器人DuckDuckBot记录在https://duckduckgo.com/duckduckbot。

但请注意：DuckDuckGo机器人本身并不抓取所有内容（因为DuckDuckGo从其他来源获取结果），因此如果您不阻止这些其他来源（如Bing）的机器人，您的页面可能仍会显示。有关详细信息，请参阅mlissner’s answer。

有了robots.txt，有两件事需要考虑：

你的robots.txt的变化被识别需要时间。您必须等到相关机器人再次访问您的网站。
即使您的网址在robots.txt中被屏蔽，搜索引擎仍可能会在搜索结果中列出您的网址（没有抓取的元数据，如标题和说明）。

将qazxsw poi-qazxsw poi元素与qazxsw poi一起使用会阻止事件列出Google等搜索引擎中的URL，但DDG robots会支持它。

请注意您在示例中使用了错误的引号。它应该是

meta

代替

noindex

Answer 2

当涉及到他们的结果时，DuckDuckGo是一个奇怪的鸭子。我已经在很多搜索引擎上对这个主题进行过相当多的研究，并且在DDG上有一些来回的电子邮件。

这是交易。他们从其他搜索引擎获取内容，如doesn’t seem。据我所知，他们的搜索结果并未指出哪个搜索引擎是其来源，因此要删除您的内容，您需要基本上往所有来源上游并从那里删除您的内容。如果这听起来很麻烦，不要担心 - 无论如何你都想这样做，对吗？

DDG也有自己的爬虫，恰当地称为<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">。它不尊重<META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”> HTML标签，也不尊重HTTP标头（它确实尊重listed here），但这似乎并不重要，因为DuckDuckBot没有创建新的结果。据我所知，这在任何地方都没有记载，但我与他们的工作人员交谈，我在下面引述：

DDG说（2014-06-06）：

我们从多个来源获得结果，而我们自己的爬虫不会导致您[问题]。我们的抓取工具只执行非常具体的任务，例如查看（而不是实际抓取）托管域名，垃圾邮件站点等。

如果[你的网站]的结果出现在DuckDuckGo上并且不应该出现，那么它们很可能来自我们的一个上游来源。如果在那里删除，那么他们将停止在我们的结果中显示。

我回答：

好的，所以没有任何东西通过你的抓取工具放入你的索引，这实际上不支持the DuckDuckBot HTML或HTTP标签？

他们确认：

是的！对不起，如果您发现任何异常情况，请随时告诉我们。

那么唯一剩下的问题是如何从上游提供商中删除您的内容。为此，我指向noindex，因为它与提供商不同。它的关键是：

使用robots.txt HTML元标记和noindex HTTP标记（用于图像等）告诉搜索引擎不要在其结果中包含某些内容;
在my blog文件中列出您的整个网站，以便所有搜索引擎都可以在那里找到它。
使用noindex来阻止不支持x-robots或sitemap.xml标记的搜索引擎。

并获得奖励积分：

设置你的robots.txt文件，使他们设置noindex（因此不会显示在搜索结果中）。
同样为你的x-robots文件。

这是一个复杂的世界。

阻止来自搜索引擎的网站 - DuckDuckGo

问题描述投票：4回答：2

2个回答

最新问题

阻止来自搜索引擎的网站 - DuckDuckGo

问题描述 投票：4回答：2

2个回答

最新问题

问题描述投票：4回答：2