我正在寻求有关处理我管理的网站问题的指导。
我在共享我的网站 learnagentformula.com 和使用此模板的其他网站的页面时遇到问题。
使用LinkedIn检查员有以下反馈:
错误我们没有重新抓取 https://learnagentformula.com/videos,因为 URL 或其重定向之一被 URL 域的 robots.txt 文件中设置的规则或 http 响应中设置的 robots 元标记阻止。 .
我的 robots.txt 位于 https://learnagentformula.com/robots.txt
我的一些网站大约 2 周前开始,其他网站则 1 周前开始。我无法找到任何信息或更改。
尝试从我的网站发布不同的页面。它大部分时间都会影响页面,偶尔我工作得很好。
我检查了我的 robots.txt 文件并检查其他人是否遇到问题。 LinkedIn 引导我来到这里。
您的 robots.txt 文件中有以下行:
User-agent: *
Disallow: /*?
这针对所有网络爬虫,告诉他们不要抓取您的网站以查找任何带有查询字符串的页面;在此行下方还有更多您不允许的页面。这些是您希望 LinkedIn 访问的页面吗?您可以通过将此代码添加到您的文件中来专门为 LinkedIn 重写此函数:
User-agent: LinkedInBot
Disallow:
这将允许所有页面。您可以单独指定您想要禁止的任何页面,这将覆盖您的
User-agent: *
部分。