推断缺失的站点地图链接

Question

我们正在从几个网站的 robots.txt 中探索其站点地图。我们发现站点地图通常不包含网站的完整地图。在许多情况下，某些年份只存在几页，其他年份缺失，但是，如果这些缺失年份的现有页面的模式重复，则会发现这些缺失年份的页面实际上存在。

就像这个：https://www.republicworld.com/sitemap.xml。在这里，每个页面都有一个过去 2 个月的站点地图链接，之前的链接丢失了。然而，在任何存在的 URL 中将 2023 替换为 2021 很容易表明 2021 年的数据也存在，只是它不存在于主站点地图页面中。人们可能会一直这样做到 2018 年，在此之前，该网站似乎至少在该模式的站点地图中没有更多数据。

或者这个 - https://zeenews.india.com/robots.txt。它仅包含一个站点地图链接 - 2019 年，但替换为该年的其他年份（例如 2020 年或 2018 年）也可以正常工作。

这样，图案可以是无限的 - 有时它可能只包含最多

2020-Jan

，并且通过像

2019-Dec

、

2019-Nov

等替换，可以找到其他图案。

在网站的站点地图结束之前，是否有一些标准方法可以推断出这些模式来检查它们是否存在？一些 NLP 推断工具（模式实际上可以是任何东西），或者站点地图工具？

Answer 1

您可以在所有页面中检查同一网站的链接。这是一个基本的伪代码示例。

getPage(hostname + "/html");
for links in page { 
    if link.contains(hostname) { 
        tosearch.append(link); 
    }
}

推断缺失的站点地图链接

问题描述投票：0回答：1

1个回答

最新问题

推断缺失的站点地图链接

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1