推断缺失的站点地图链接

问题描述 投票:0回答:1

我们正在从几个网站的 robots.txt 中探索其站点地图。我们发现站点地图通常不包含网站的完整地图。在许多情况下,某些年份只存在几页,其他年份缺失,但是,如果这些缺失年份的现有页面的模式重复,则会发现这些缺失年份的页面实际上存在。

就像这个:https://www.republicworld.com/sitemap.xml。 在这里,每个页面都有一个过去 2 个月的站点地图链接,之前的链接丢失了。然而,在任何存在的 URL 中将 2023 替换为 2021 很容易表明 2021 年的数据也存在,只是它不存在于主站点地图页面中。人们可能会一直这样做到 2018 年,在此之前,该网站似乎至少在该模式的站点地图中没有更多数据。

或者这个 - https://zeenews.india.com/robots.txt。 它仅包含一个站点地图链接 - 2019 年,但替换为该年的其他年份(例如 2020 年或 2018 年)也可以正常工作。

这样,图案可以是无限的 - 有时它可能只包含最多

2020-Jan
,并且通过像
2019-Dec
2019-Nov
等替换,可以找到其他图案。

在网站的站点地图结束之前,是否有一些标准方法可以推断出这些模式来检查它们是否存在?一些 NLP 推断工具(模式实际上可以是任何东西),或者站点地图工具?

web-crawler sitemap robots.txt
1个回答
0
投票

您可以在所有页面中检查同一网站的链接。这是一个基本的伪代码示例。

getPage(hostname + "/html");
for links in page { 
    if link.contains(hostname) { 
        tosearch.append(link); 
    }
}
© www.soinside.com 2019 - 2024. All rights reserved.