我有一个可测试网站/页面的搜寻器。下面是我将使用RDBMS进行的模型:
class Site{
Uri Uri {set;get;}
Collection<Test> Test{set;get;}
}
class Test{
Collection<Page> Pages {set;get;}
}
class Page{
// Page info
}
我的查询就像每个站点和整个站点有多少页面加载失败,有多少返回404等。
因此,我对沙发床的关注是20 MB的文档大小,我抓取的某些网站有1万页。如果我爬行几个,可以说10次,则Site对象将超过此限制,最终它将超过。
在这里进行建模的正确方法是什么?
正确对此建模的方式。我可以想出几种可能对您无效的方法,但这是我的第一个方法。