我正在运行.Net Core中间件和AngularJS前端。在我的主页上,我具有Google Analytics(分析)脚本标签以及其他与第三方提供商进行验证所必需的脚本标签。 Prerender.io默认情况下会删除它们,但是有一个插件“ removeScriptTags”。有没有人有使用.Net Core中间件关闭此功能的经验?
一种更好的解决方案可能是将您不希望看到缓存内容的爬虫列入黑名单,尽管我不确定这是可配置的。就我而言,以下所有用户代理似乎都在访问Prerender.io缓存的内容。
这里是我的“ crawlerUserAgentPattern”,应该允许它们访问已缓存的内容。我没有在列表中看到上面的那些,所以我对为什么允许它们访问感到困惑。
“(SeobilityBot)|(Seobility)|(seobility)|(bingbot)|(googlebot)|(google)|(bing)|(Slurp)|(DuckDuckBot)|(YandexBot)|(baiduspider)|(Sogou) |(Exabot)|(ia_archiver)|(facebot)|(facebook)|(twitterbot)|(rogerbot)|(linkedinbot)|(嵌入式)|(quora)|(pinterest)|(slackbot)|(redditbot)|( Applebot)|(WhatsApp)|(flipboard)|(tumblr)|(bitlybot)|(Discordbot)“
看来您的正则表达式中有(google)
。您已经在其中googlebot
,所以如果您不想与仅包含单词“ google”的任何用户代理匹配,则建议您删除(google)
。