沙发床的数据建模

问题描述 投票:0回答:1

我有一个可测试网站/页面的搜寻器。下面是我将使用RDBMS进行的模型:

class Site{
   Uri Uri {set;get;}
   Collection<Test> Test{set;get;}
}

class Test{
   Collection<Page> Pages {set;get;}
}

class Page{
   // Page info
}

我的查询就像每个站点和整个站点有多少页面加载失败,有多少返回404等。

因此,我对沙发床的关注是20 MB的文档大小,我抓取的某些网站有1万页。如果我爬行几个,可以说10次,则Site对象将超过此限制,最终它将超过。

在这里进行建模的正确方法是什么?

database-design web-crawler couchbase couchbase-view
1个回答
1
投票
没有很多详细信息,没有

正确对此建模的方式。我可以想出几种可能对您无效的方法,但这是我的第一个方法。

    每个站点可以是其自己的10k对象。为每个站点使用一个计数器对象,并使用该计数器作为版本号,以基于该计数器作为每个文档上对象ID的一部分。因此,对象ID可能看起来像“ ::”,那么当您需要最新版本时,您只需获取计数器对象的值,然后获取所需的对象ID。非常简单而且非常快速。
© www.soinside.com 2019 - 2024. All rights reserved.