robots.txt 相关问题

Robots.txt(机器人排除协议)是放置在网站域根目录中的文本文件,用于向兼容的Web机器人(例如搜索引擎爬虫)提供有关要爬网和不爬网的页面的说明,以及其他信息例如Sitemap位置。在现代框架中,以编程方式生成文件可能很有用。有关搜索引擎优化的一般问题更适合Webmasters StackExchange站点。

禁止除一个用户代理之外的所有用户代理?

如何禁止除一个用户代理之外的所有用户代理? 例如,禁止所有用户代理,但仅允许 Googlebot?

回答 2 投票 0

使用Robots.txt阻止IP或用户代理

我的网站一遍又一遍地受到机器人攻击,它正在使用我服务器上的所有 SQL 资源。 66.249.**.** Mozilla/5.0+(兼容;+GoogleDocs;+apps-spreadsheets;++http://docs.google.com)- 200 0...

回答 1 投票 0

为什么我的 astrojs 网站被阻止索引?

我在 netlify 上托管一个 astrojs 网站。我的 SEO 灯塔得分一直很低,原因是该页面被阻止建立索引。该图片附在下面。 我正在关注

回答 1 投票 0

我可以编写一个robots.txt规则来禁止抓取带有锚点部分(使用井号字符#)的URL吗?

我的网站上有一个目录插件,其中一些网址以 # 开头。 例如: https://example.com/#how_to_do_something 链接到内容中该标题的部分。 就像我...

回答 1 投票 0

如何禁止包含特定字符的网址

我的网站上有一个目录插件,其中一些网址以 # 开头。 例如: www.aaaa.com/#how_to_do_something 链接到内容中该标题的部分。 就像它所做的那样

回答 1 投票 0

禁止 PHP 页面包含 robots.txt 中的所有 URL 参数

如何禁止 robots.txt 中的所有动态页面? 例如。 page.php?hello=那里 page.php?hello=大家 page.php?谢谢=你 我希望 page.php 和所有可能的动态版本都是

回答 1 投票 0

禁止多个目录的公共子页面,同时允许目录本身

我有以下结构 http://example.com/universities/UNIVERSITY_ID/review 我试图禁止评论页面,但保留动态的 UNIVERSITY_ID 页面。 我怎样才能完成...

回答 1 投票 0

Robots.txt 不允许重复的产品页面

我目前正在使用一个电子商务系统,该系统会抛出数百个潜在的重复页面 URL,并尝试找出如何通过 robots.txt 隐藏它们,直到开发人员能够...

回答 1 投票 0

为什么 espn.com 不允许某些年份被抓取?

我正在使用 scrapy 从 ESPN 抓取数据,并注意到在 2009 年及之前,我被阻止了,因为他们的 robots.txt 文件中包含 Disallow: */season/200 。 为什么E...

回答 1 投票 0

如果robots.txt指向子文件夹中的站点地图,站点地图可以指定根目录中的URL吗?

假设我的根目录 http://domain.com/robots.txt 中有一个 robots.txt 文件,它在子文件夹中指定一个站点地图,该子文件夹具有指向站点地图索引的单个声明: 机器人.txt 网站地图:

回答 1 投票 0

这个 Robots.txt 文件说什么?

我正在尝试阅读此 Robots.txt 文件,以确定项目提议阶段内的最佳行动方案。我是一家网站开发机构的所有者。 我的 SEMRush 报告是

回答 1 投票 0

为什么 robots.txt 文件应该阻止子文件夹,但也阻止一些随机文件

我通过将文件添加为文件夹,为我的网站索引了一些奇怪的 URL。这里有一个示例 URL https://www.plus2net.com/python/tkinter-scale.php/math.php 我有一个文件 tkinter-scale.php 但是...

回答 1 投票 0

HTTP 标头用于检测 Google Chrome 的预加载请求

Google Chrome 17 引入了一项新功能,可以预加载网页,以在实际发出请求(在多功能栏中按 Enter 键)时提高渲染速度。 两个问题: 有 HTTP 标头吗...

回答 3 投票 0

让PHP网络爬虫尊重任何网站的robots.txt文件

我开发了一个网络爬虫,现在我想尊重我正在爬行的网站的robots.txt文件。 我看到这是 robots.txt 文件结构: 用户代理: * 禁止:/~joe/垃圾。

回答 1 投票 0

Google 还是将我的域名编入索引了吗?

我有一个像下面这样的 robots.txt,但 Google 仍然为我的域名建立了索引。基本上他们已经索引了 mydomain.com 但没有索引 mydomain.com/any_page 用户代理: * 不允许: / 我的意思是我怎样才能回到更远的地方

回答 1 投票 0

如何在robot.txt文件中阻止此类URL?

这里有两组条件,我想用 /search/jobdescription 阻止所有网址?和搜索/职位描述/ http://<--sitename-->/search/jobdescription?id=0154613&css=a&act=a ...

回答 2 投票 0

301 重定向完整网址

如何创建重定向以便 http://fullurl/store 重定向到 https://fullurl/商店 我是在 htaccess 还是 robots 中执行此操作?

回答 1 投票 0

Robots.txt 中没有索引

我有一个wordpress网站,已在搜索引擎中建立索引。 我已编辑 Robots.txt 以禁止搜索索引中的某些目录和网页。 我只知道如何使用允许和禁止...

回答 3 投票 0

wordpress 机器人 [已关闭]

我的永久链接是这样的%postname%/ 然后我把它改成这样 /%post_id%/%postname%/ 现在的问题是谷歌机器人仍然索引帖子名称并将其报告为未找到,所以我想添加一个l...

回答 1 投票 0

mod_rewrite 所有 robots.txt 请求到服务器范围内的默认文件

所以,我有一个使用 apache 运行 OpenSuse 的开发服务器。该服务器上有大量项目,其中一些有在线/实时对应项目。 每个项目都有一个单独的子域。 怎么...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.