我们有一个网站,其中许多应用程序都配置为子站点。目前,没有网站被google正确索引。我假设这是由于包含以下内容的robots.txt文件引起的:
User-Agent: *
Disallow: /
我可以通过将文件名添加到根站点的URL(example.com/robots.txt)中来查看robots.txt文件,但是当搜索实际的Web服务器目录时,没有robots.txt文件。我试图将新的robots.txt文件放在根目录中,但没有任何效果。当我尝试搜索此问题时,唯一出现的是我们尚未安装的IIS搜索引擎优化功能。是否有某种服务器设置或策略会自动生成文件?我们可以访问Web服务器,但是它是由其他部门设置并控制的。
VM server
Windows Server 2012 R2 Standard
IIS 8.5
事实证明,我们的网站是通过Azure AD应用程序代理定向的。根据此文档,网络爬虫通过上述默认的robots.txt答复阻止了机器人:https://docs.microsoft.com/en-us/azure/active-directory/manage-apps/application-proxy-security。