robots.txt 相关问题

Robots.txt(机器人排除协议)是放置在网站域根目录中的文本文件,用于向兼容的Web机器人(例如搜索引擎爬虫)提供有关要爬网和不爬网的页面的说明,以及其他信息例如Sitemap位置。在现代框架中,以编程方式生成文件可能很有用。有关搜索引擎优化的一般问题更适合Webmasters StackExchange站点。

获取为Google - 仅在移动设备上暂时无法访问

我创建了一个新网站www.bucketshowers.com,我尝试使用谷歌网站管理员工具对其进行索引。谷歌为桌面提取工作得很好,但对移动设备做同样的事情显示错误“......

回答 1 投票 0

元标记与robots.txt

使用元标记*或robots.txt文件来通知蜘蛛/抓取工具包含或排除网页是否更好?使用meta标签和robots.txt时是否有任何问题? *例如:

回答 10 投票 23

关于robots.txt的问题,不带冒号的Disallow

我最近开始为我的工作开展一个小型网络搜索任务,并对robots.txt的问题有所了解。在这里,我最近发现了一个带有奇怪robots.txt文件的网站:User -...

回答 1 投票 1

机器人txt文件中的卷曲括号

我一直在进行网页抓取,并在一个robots.txt文件中遇到以下模式。禁止:/ * {{url}} *不允许:/ * {{imageURL}} *他们是否意味着我不允许废弃任何网址?

回答 1 投票 2

阻止搜索蜘蛛使用robots.txt访问Rails 3嵌套资源

我试图阻止谷歌,雅虎等人点击我/产品/ ID /购买页面,我不确定如何做到这一点。我目前阻止他们使用以下内容登录:User-agent:* ...

回答 2 投票 0

网站描述未在Google搜索引擎中显示

我的网站说明没有在Google搜索引擎中显示。我在header标签中写了描述元标记。和我的robots.txt文件如下用户代理:*不允许:/当我在搜索...

回答 1 投票 -3

由于Web.config文件,Robots.txt文件未显示

我正在尝试使用直接链接(https://www.example.com/robots.txt)访问我的robots.txt文件但是我一直收到404错误。我怀疑它与我的web.config文件有关,但我不是......

回答 1 投票 0

使用robots.txt从搜索引擎中隐藏文件夹和子文件夹的正确语法

我的网站上有一个文件夹/图片。它有许多子文件夹。每个子文件夹都包含文件。我希望隐藏/ pics及其子文件夹和来自搜索引擎的子文件夹的文件。哪一个 ...

回答 1 投票 1

如何阻止搜索引擎索引以origin.domainname.com开头的所有网址

我有www.domainname.com,origin.domainname.com指向相同的代码库。有没有办法,我可以阻止basename origin.domainname.com的所有网址被编入索引。是否有一些规则......

回答 2 投票 5

Robots.txt禁止具有特定单词的URL

我想禁止在网址中包含特定(种子)字词的网址,例如www.example.com/tags/seeds_123-of-plant www.example.com/tags/plant-have-seeds_124 www.example.com/tags/越来越-seeds_78出-...

回答 2 投票 0

当手动访问并通过Chlenium通过ChromeDriver和Chrome访问时,为什么robots.txt的内容会有所不同

我正在尝试尊重robots.txt文件,在网络浏览时,我遇到了一些奇怪的东西。我正在尝试访问的robots.txt网址是:https://podatki.gov.si/robots.txt如果我打开此链接...

回答 1 投票 0

robots.txt会阻止人类收集数据吗?

我知道robots.txt是一个用于“机器人”的文件,或者我应该说“自动爬虫”。但是,它是否会阻止人类输入“禁止”页面并手动收集数据?...

回答 2 投票 1

阻止来自搜索引擎的网站 - DuckDuckGo

我有一个开发网站https://text-domain.com。 (不是真实的网站)当我访问https://duckduckgo.com并搜索text-domain.com时,它会返回结果。到目前为止我尝试了什么:创造了......

回答 2 投票 4

Scrapy和尊重robots.txt

我昨天发现Scrapy默认尊重robots.txt文件(ROBOTSTXT_OBEY = True)。如果我请求带有scrapy shell url的URL,并且如果我有响应,那是否意味着url不是......

回答 1 投票 1

如何告诉搜索引擎使用我更新的robots.txt文件?

以前,我已阻止搜索引擎漫游器以防止使用robots.txt文件抓取我的网站,但现在我想取消阻止它们。我更新了robots.txt文件并允许搜索引擎...

回答 1 投票 2

Robots.txt文件[关闭]

我在我的robots.txt文件中使用此代码:User-agent:* Disallow:但是,我的一个竞争对手正在使用User-agent:* Disallow:/并且他的网站在Google和第一等级中表现良好。但是我......

回答 2 投票 1

禁止/lev1/*.html,但允许/lev1/lev2/*.html

必须被禁止:/lev1/*.html必须允许:/lev1/lev2/*.html它是否可以与robots.txt一起使用?

回答 1 投票 0

wordpress域映射子域noindex htaccess robots.txt

我有一个WP-Multisite和不同的网站......当然:P要在我的多站点注册一个新站点,我创建一个子域类型:siteNew1.mydominemultisite.com siteNew2.mydominemultisite.com siteNewN ....

回答 1 投票 0

Google正在使用ID'为我的目标标签网址编制索引

需要你的帮助。我有一个页面 - https://www.iservis.info/ - >在导航中,您有iPhone,iPad,Macbook,Mac,手表,这些手表通向此页面中的某些标签 - > https://iservis.info/opravy/ ...

回答 1 投票 0

角度通用启动器:无法匹配任何路由。网址细分:'robots.txt'

我下载了这个Angular通用启动器https://github.com/angular/universal-starter。从package.json安装所有依赖项并尝试启动项目。首先,我运行'ng build'命令...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.