“Crawler”是用于通过跟踪从一个网页到另一个网页的链接自动发现和扫描网站的任何程序(例如机器人或蜘蛛)的通用术语。 Google的主要抓取工具称为Googlebot。
问题: 一个像 https://websiteurl/person/{person} 这样的页面,其中有一些与该人相关的内容(包括图像、描述),并且在该页面内有一个部分调用...
我正在尝试分析具有特定路径的网站的所有现有 URL。为了通过示例进行演示,URL 模式如下: https://www.example.com/users/john 我正在尝试...
如何在搜索引擎爬虫的页面加载之前执行javasript函数?
我的任务是从 API 中获取页面的标题。这些数据必须可供网络爬虫抓取。这就是我到目前为止所做的。 我的任务是从 API 中获取页面的标题。这些数据必须可供网络爬虫抓取。这就是我到目前为止所做的。 <!DOCTYPE html> <html lang="en"> <head> <meta name="description" content="Test description" /> <title>Test title</title> <script> document.addEventListener('DOMContentLoaded', function () { const endPoint = 'endpoint.com' fetch(apiEndpoint).then(function (response) { return response.json(); }) .then(function (data) { // change title with javascript logic }).catch(function() { // fallback title }) }) </script> </head> <body></body> </html> 您不需要延迟脚本的运行,因为它已经在创建标题标签之后了。 Google 和其他一些搜索引擎确实会渲染页面,并且只要不花太长时间就会看到您的更改。我发现 5 秒差不多是极限了。
仅禁止主页 ( / ) 并允许 robots.txt 的所有其他页面
我需要阻止 Google 网络爬虫仅爬行我的主页,位于 / 但我需要允许抓取所有其他页面。我怎样才能做到这一点? 我尝试这样做: 用户代理: * 迪萨洛...
我注意到我博客内容表中的所有哈希链接都已在谷歌上建立了索引,我不希望这样.. 我不希望这样的链接在谷歌上建立索引: example.com/blog/post/#
我正在 Ubuntu 上安装 Stormcrawler,一切正常,但无法注入 seeds.txt 文件。 当我使用此命令运行注入器“java -cp target/crawler-1.0-SNAPSHOT.jarcrawlerc...
我真的需要你的帮助, 我有一个使用 Mern Stack 开发的网站,我希望能够与 linkedin 共享。 我确实处理了 facebook 和 Whatsapp 爬虫的 ssr,它们都......
使用 javascript/google place 将评论动态加载到评论模式中(用于丰富的摘要)
我第一次将公司的评论硬编码到页面中,它通过使用以下代码在一天内被索引(用于评论丰富的片段): {...</desc> <question vote="0"> <p>我第一次将我公司的评论硬编码到页面中,它通过使用以下代码在一天内被索引(用于评论丰富的片段):</p> <p></p><div data-babel="false" data-lang="js" data-hide="false" data-console="true"> <div> <pre><code><script type="application/ld+json"> { "@context": "https://schema.org/", "@type": "CreativeWorkSeries", "name": "Review", "aggregateRating":{ "ratingValue": "0", "bestRating": "10", "worstRating": "1", "ratingCount": "0" } } </script></code></pre> </div> </div> <p></p> <p>我制作了一个脚本,基本上加载了我公司两个地点的评论。当我在开发工具元素中检查我的页面时,看起来一切正常,数字和评级都正确加载,但谷歌搜索结果中没有结果。这是我用来加载数据的完整代码:</p> <p></p><div data-babel="false" data-lang="js" data-hide="false" data-console="true"> <div> <pre><code><script> document.addEventListener('DOMContentLoaded', function() { var service = new google.maps.places.PlacesService(document.createElement('div')); let places = ['placeid1', 'placeid2'] var totalReviews = 0; var totalRating = 0; let numberOfPlaces = 0; getRecensies() async function getRecensies(){ let counter = 0; await new Promise(function(resolve) { places.forEach((place)=>{ service.getDetails({ placeId: place, },function(result, status) { console.log("result", result) if(result && result.rating && result.user_ratings_total){ totalRating = totalRating + result.rating; totalReviews = totalReviews + result.user_ratings_total; numberOfPlaces++ } counter++ if(counter==places.length){ resolve() } }); }) }) //totalRating = (totalRating / numberOfPlaces); // Get average rating var schemaElement = document.getElementById('review-schema-home'); var schema = JSON.parse(schemaElement.textContent); schema.aggregateRating.ratingValue = totalRating.toString(); schema.aggregateRating.ratingCount = totalReviews.toString(); schemaElement.textContent = JSON.stringify(schema, null, 2); } }); </script> <script type="application/ld+json" id="review-schema-home"> { "@context": "https://schema.org/", "@type": "CreativeWorkSeries", "name": "Review", "aggregateRating":{ "ratingValue": "0", "bestRating": "10", "worstRating": "1", "ratingCount": "0" } } </script></code></pre> </div> </div> <p></p> <p>下一个屏幕截图来自我的检查员,您可以看到数据正确加载。 我首先制作了脚本,因此我不必手动更新我的评论量。看来我这周必须硬编码了。</p> <p>我很好奇谷歌蜘蛛是否可以爬行并执行这样的脚本?或者其他解释为什么评论片段没有出现?</p> <p><a href="https://i.stack.imgur.com/Heqmv.png" target="_blank"><img src="https://cdn.txt58.com/i/AWkuc3RhY2suaW1ndXIuY29tL0hlcW12LnBuZw==" alt=""/></a></p> </question> <answer tick="false" vote="0"> <p>首先,虽然 Google 爬虫<a href="https://ipullrank.com/javascript-seo-how-google-crawls-and-indexes-javascript-websites" rel="nofollow noreferrer">可以读取 JavaScript</a> 并且还可以“稍等”一下,直到页面上的 JS 加载,但我不会依赖上面显示的脚本。</p> <p>无法保证 <pre><code>getRecensies</code></pre> 会在 Googlebot 完成解析您的页面时解析。</p> <p>最重要的是,您的脚本将在<strong>每次页面加载时运行</strong>,这可能会影响您的 Google Cloud 账单。此外,如果用于将 API 加载到页面上的 API 密钥未受到保护,不良行为者可能会滥用它来运行自己的 Places API 查询!</p> <p>总的来说,这不是一个好主意。</p> <hr/> <p>现在,来自 Google 自己的<a href="https://developers.google.com/search/docs/appearance/structured-data/review-snippet#troubleshooting" rel="nofollow noreferrer">故障排除网站</a>:</p> <blockquote> <p>Google <strong>不保证</strong>使用结构化数据的功能将显示在搜索结果中。有关 Google 可能无法以丰富的结果显示您的内容的常见原因列表,请参阅<a href="https://developers.google.com/search/docs/appearance/structured-data/sd-policies" rel="nofollow noreferrer">一般结构化数据指南</a>。</p> </blockquote> <p>只要标记结构正确,硬编码并定期更新评论片段就完全没问题。您可以使用<a href="https://developers.google.com/search/docs/appearance/structured-data" rel="nofollow noreferrer">这两个工具</a>测试您的标记。</p> <p>Googlebot 使用完您的标记后,您将在 <a href="https://search.google.com/search-console/about" rel="nofollow noreferrer">GSC</a> 中看到类似以下内容: <a href="https://i.stack.imgur.com/06Nud.png" target="_blank"><img src="https://cdn.txt58.com/i/AWkuc3RhY2suaW1ndXIuY29tLzA2TnVkLnBuZw==" alt=""/></a></p> <p>但是,据我所知,这仍然<strong>并不能保证</strong>增强功能将出现在 SERP 中。</p> </answer> </body></html>
我在“没有用户选择的规范的情况下重复”下发现了这个索引问题。从今年 10 月 21 日开始创建了 3 个新 URL。在您查看 URL 之前,这似乎是无害的。 我还没去过...
为了让用户体验更方便,我们实现了一项功能,允许用户在单击通过电子邮件收到的链接时自动登录。 过去他必须
Google 索引 IP 地址(SiteGround 专用 IP)尝试了之前针对 htaccess 的重定向推荐,但似乎没有解决问题
Google 搜索已对我网站的 IP 地址建立了索引,并且总体上似乎在索引方面遇到了困难(它被 robots.txt 指令阻止了一点)。 我研究了之前的解决方案并尝试了...
我们可以在robot.txt中告诉机器人抓取或不抓取我们的网站。另一方面,我们可以控制Google Webmasters中的抓取速度(Google bot抓取网站的速度)。我想知道我是否...
puppeteer / spatie/Browsershot 单击特定属性
我正在使用 spatie/Browsershot 来填写网络表单。我能够通过第一页: Browsershot::url('https://www.homedepotrebates11percent.com/#/home') ->newHeadless() ...
Scrapy-playwright scraper 不会在响应的元数据中返回“page”或“playwright_page”
我陷入了项目的抓取部分,我继续排除错误,我最新的方法至少没有崩溃和燃烧。然而,无论我得到什么,response.meta
我试图在我的网站上获取 google adsense,但每次 google 抓取我的网站时,它都会显示 ads.txt 状态为“未找到”。我可以通过 goi 查看许多帐户的 ads.txt 文件...
我们使用动态服务器渲染,这提供了更长的页面加载时间。有一个想法改用骷髅。 但有人担心这会干扰搜索引擎对页面的索引...
“实时 URL 测试”通过 Google Search Console 使用 GoogleBot 爬虫测试 URL 时显示我的 Bubble.io 网站的缓存版本
当抓取一个全新的 URL 时,googlebot 抓取工具总是会在第一次测试时抓取最新版本的页面, 在测试新 URL 的第一个实例之后,它继续...
如何使用带有 SEO 路径的 API 内容将 Google 爬虫重定向到 Nuxt.js 应用程序中的特定页面?
我有一个 API 端点,例如 api/v2/pages/custom_texts。实际上我想从来自 API 的 seo_path 创建页面路由。 这个 API 包括内容,& seo_path 这样的 “
PageSpeed Insights 问题、问号和“所需的跟踪收集器未运行”错误
我在使用 PageSpeed Insights 时遇到问题,当我运行审核时,我得到的是问号而不是分数,并且在每个指标下都有一个错误“Required traces gatherer did not run”。这里'...
目前我有一个客户端渲染网站,它将从 API 获取数据并将其设置为内容。对于 SEO,我计划实施此博客以使我的客户端 Web 能够设置 meta