发件人:https://support.google.com/webmasters/answer/1061943?hl=en
下表显示了Google的各种产品和服务使用的搜寻器:
User Agent token来匹配抓取工具类型。某些抓取工具具有多个令牌,如下表所示;您只需要匹配一个搜寻器令牌即可应用规则。此列表并不完整,但涵盖了您可能会在网站上看到的大多数爬网程序。
完整用户代理字符串是搜寻器的完整描述,并出现在请求和Web日志中。
问题
从上面的摘录中我们可以看到,可以使用robots.txt文件中的User agent token进行匹配,从而检测到搜寻器。
我想在服务器上使用用户代理令牌来检测Googlebot搜寻器请求。因此,我不必对full user agent string。
进行硬编码。但是request headers
中是否存在用户代理令牌?可以使用它还是应该坚持完整的用户代理字符串?
如果比较“用户代理令牌”和“完整用户代理字符串”列上的值,则可以在“完整用户代理字符串”中看到“产品令牌”。因此,您可以检查“完全用户代理字符串”是否包含“用户代理令牌”。
[Full user agent string]上的数字将来会比“ produkt token”更频繁地更改。