robots.txt 相关问题

Robots.txt（机器人排除协议）是放置在网站域根目录中的文本文件，用于向兼容的Web机器人（例如搜索引擎爬虫）提供有关要爬网和不爬网的页面的说明，以及其他信息例如Sitemap位置。在现代框架中，以编程方式生成文件可能很有用。有关搜索引擎优化的一般问题更适合Webmasters StackExchange站点。

禁止除一个用户代理之外的所有用户代理？

如何禁止除一个用户代理之外的所有用户代理？例如，禁止所有用户代理，但仅允许 Googlebot？

robots.txt

回答 2 投票 0

使用Robots.txt阻止IP或用户代理

我的网站一遍又一遍地受到机器人攻击，它正在使用我服务器上的所有 SQL 资源。 66.249.**.** Mozilla/5.0+（兼容；+GoogleDocs；+apps-spreadsheets；++http://docs.google.com）- 200 0...

bots robots.txt

回答 1 投票 0

为什么我的 astrojs 网站被阻止索引？

我在 netlify 上托管一个 astrojs 网站。我的 SEO 灯塔得分一直很低，原因是该页面被阻止建立索引。该图片附在下面。我正在关注

seo netlify robots.txt astrojs x-robots-tag

回答 1 投票 0

我可以编写一个robots.txt规则来禁止抓取带有锚点部分（使用井号字符#）的URL吗？

我的网站上有一个目录插件，其中一些网址以 # 开头。例如： https://example.com/#how_to_do_something 链接到内容中该标题的部分。就像我...

robots.txt

回答 1 投票 0

如何禁止包含特定字符的网址

我的网站上有一个目录插件，其中一些网址以 # 开头。例如： www.aaaa.com/#how_to_do_something 链接到内容中该标题的部分。就像它所做的那样

robots.txt

回答 1 投票 0

禁止 PHP 页面包含 robots.txt 中的所有 URL 参数

如何禁止 robots.txt 中的所有动态页面？例如。 page.php?hello=那里 page.php?hello=大家 page.php?谢谢=你我希望 page.php 和所有可能的动态版本都是

robots.txt

回答 1 投票 0

禁止多个目录的公共子页面，同时允许目录本身

我有以下结构 http://example.com/universities/UNIVERSITY_ID/review 我试图禁止评论页面，但保留动态的 UNIVERSITY_ID 页面。我怎样才能完成...

url robots.txt

回答 1 投票 0

Robots.txt 不允许重复的产品页面

我目前正在使用一个电子商务系统，该系统会抛出数百个潜在的重复页面 URL，并尝试找出如何通过 robots.txt 隐藏它们，直到开发人员能够...

robots.txt

回答 1 投票 0

为什么 espn.com 不允许某些年份被抓取？

我正在使用 scrapy 从 ESPN 抓取数据，并注意到在 2009 年及之前，我被阻止了，因为他们的 robots.txt 文件中包含 Disallow: */season/200 。为什么E...

web-scraping scrapy robots.txt

回答 1 投票 0

如果robots.txt指向子文件夹中的站点地图，站点地图可以指定根目录中的URL吗？

假设我的根目录 http://domain.com/robots.txt 中有一个 robots.txt 文件，它在子文件夹中指定一个站点地图，该子文件夹具有指向站点地图索引的单个声明：机器人.txt 网站地图：

html sitemap robots.txt

回答 1 投票 0

这个 Robots.txt 文件说什么？

我正在尝试阅读此 Robots.txt 文件，以确定项目提议阶段内的最佳行动方案。我是一家网站开发机构的所有者。我的 SEMRush 报告是

robots.txt

回答 1 投票 0

为什么 robots.txt 文件应该阻止子文件夹，但也阻止一些随机文件

我通过将文件添加为文件夹，为我的网站索引了一些奇怪的 URL。这里有一个示例 URL https://www.plus2net.com/python/tkinter-scale.php/math.php 我有一个文件 tkinter-scale.php 但是...

blocking robots.txt

回答 1 投票 0

HTTP 标头用于检测 Google Chrome 的预加载请求

Google Chrome 17 引入了一项新功能，可以预加载网页，以在实际发出请求（在多功能栏中按 Enter 键）时提高渲染速度。两个问题：有 HTTP 标头吗...

google-chrome http-headers meta-tags robots.txt

回答 3 投票 0

让PHP网络爬虫尊重任何网站的robots.txt文件

我开发了一个网络爬虫，现在我想尊重我正在爬行的网站的robots.txt文件。我看到这是 robots.txt 文件结构：用户代理： * 禁止：/~joe/垃圾。

robots.txt

回答 1 投票 0

Google 还是将我的域名编入索引了吗？

我有一个像下面这样的 robots.txt，但 Google 仍然为我的域名建立了索引。基本上他们已经索引了 mydomain.com 但没有索引 mydomain.com/any_page 用户代理： * 不允许： / 我的意思是我怎样才能回到更远的地方

search-engine robots.txt googlebot

回答 1 投票 0

如何在robot.txt文件中阻止此类URL？

这里有两组条件，我想用 /search/jobdescription 阻止所有网址？和搜索/职位描述/ http://<--sitename-->/search/jobdescription?id=0154613&css=a&act=a ...

php url robots.txt

回答 2 投票 0

301 重定向完整网址

如何创建重定向以便 http://fullurl/store 重定向到 https://fullurl/商店我是在 htaccess 还是 robots 中执行此操作？

.htaccess robots.txt http-redirect

回答 1 投票 0

Robots.txt 中没有索引

我有一个wordpress网站，已在搜索引擎中建立索引。我已编辑 Robots.txt 以禁止搜索索引中的某些目录和网页。我只知道如何使用允许和禁止...

seo search-engine robots.txt nofollow

回答 3 投票 0

wordpress 机器人 [已关闭]

我的永久链接是这样的%postname%/ 然后我把它改成这样 /%post_id%/%postname%/ 现在的问题是谷歌机器人仍然索引帖子名称并将其报告为未找到，所以我想添加一个l...

wordpress permalinks robots.txt

回答 1 投票 0

mod_rewrite 所有 robots.txt 请求到服务器范围内的默认文件

所以，我有一个使用 apache 运行 OpenSuse 的开发服务器。该服务器上有大量项目，其中一些有在线/实时对应项目。每个项目都有一个单独的子域。怎么...

.htaccess mod-rewrite apache2 robots.txt

回答 2 投票 0

robots.txt 相关问题

最新问题