在queryset.annotate中检查object_id是否多次出现Case When参数

问题描述 投票:2回答:2

在我的情况下,文档字段查找并没有真正帮助

我的查询现在看起来像什么

date_delta = 2

queryset = TrendData.objects.filter(owner__trend_type__mnemonic='posts', 
 date_trend__date__range=[date_from, date_to]).values('owner_id', 'owner__name')

queryset.annotate(owner_name=F('owner_id__name')).values('owner_name', 'owner_id').annotate(
    views = Sum(Case(When(owner_id__gt=1, then=F('views') / date_delta)), default=('views')...,
                output_field=IntegerField() )
)

queryset输出如下所示:

{'owner_id': 1306, 'owner__name': 'Some name123'}, 
{'owner_id': 1307, 'owner__name': 'Somename as well'}, 
{'owner_id': 1308, 'owner__name': 'aand another name'}, 
{'owner_id': 1306, 'owner__name': 'Some name123'}

正如您所看到的那样,匹配的owner_id和queryset len()每天是100k,所以如果日期范围是5天,则queryset len()== 500k。我的models.py看起来像这样

class Owner(models.Model):
    class Meta:
        verbose_name_plural = 'Objects'

    TREND_OWNERS = Choices('group', 'user')

    link = models.CharField(max_length=255)
    name = models.CharField(max_length=255)
    owner_type = models.CharField(choices=TREND_OWNERS, max_length=50)
    trend_type = models.ForeignKey(TrendType, on_delete=models.CASCADE)

    def __str__(self):
        return f'{self.link}[{self.trend_type}]'


class TrendData(models.Model):
    class Meta:
        verbose_name_plural = 'Trends'

    owner = models.ForeignKey(Owner, on_delete=models.CASCADE)
    views = models.IntegerField()
    views_u = models.IntegerField()
    likes = models.IntegerField()
    shares = models.IntegerField()
    interaction_rate = models.DecimalField(max_digits=20, decimal_places=10)
    mean_age = models.IntegerField()
    date_trend = models.DateTimeField()

我意识到它会工作正常,但它会是错误的,因为如果owner_id很好,它将除以date_delta,在我的情况下我想要如果owner_id在queryset中出现不止一次。我试过owner_id__count__gt但不存在:(

我很想知道是否有办法在我的annotate Case(When())查询集中计算owner_id出现次数。这将解决我的问题。如果它大于1而不是我们除以date_delta,否则我们保持原样

更新:

为了清楚起见,这个注释做得很好,但是它也划分了一些我不想被分割的查询(在我的情况下,NON重复的owner_id查询集仍然将它的视图,共享等除以2)这就是为什么我使用上面提到的Case(When())

queryset.values('owner__name', 'owner_id').annotate(
    views=Sum('views') / 2, 
    views_u=Sum('views_u') / 2, 
    likes=Sum('likes') / 2,
    shares=Sum('shares') / 2, 
    interaction_rate=Sum('interaction_rate') / 2,
    mean_age=Sum('mean_age') / 2)

更新#2这是我的逻辑但是在python中

json_output = []
for item in (queryset
                .values('owner__name', 'owner_id')
                .annotate(owner_count=Count('owner_id'))
                .annotate(views=Sum('views'), views_u=Sum('views_u'),
                            likes=Sum('likes'),
                            shares=Sum('shares'),
                            interaction_rate=Sum('interaction_rate'),
                            mean_age=Sum('mean_age')):
    if item['owner_count'] > 1:
        item['views'] = item['views'] / date_delta
        item['views_u'] = item['views_u'] / date_delta
        item['likes'] = item['likes'] / date_delta
        item['shares'] = item['shares'] / date_delta
        item['interaction_rate'] = '{:.10f}'.format(
            Decimal(item['interaction_rate']) / date_delta)
        item['mean_age'] = item['mean_age'] / date_delta
        json_output.append(item)
    else:
        json_output.append(item)
python django django-1.11
2个回答
1
投票

更新:事实证明我毕竟没有完全测试过这个(我以为我有,道歉)。你需要让Case缠绕在Sum周围(Sum周围的Case)无论Django版本都无法使用:

(queryset
    .values('owner', owner_name=F('owner__name'))
    .annotate(owner_count=Count('owner'))
    .annotate(views = Case(
        When(owner_count__gt=1,
             then=Sum(F('views') / date_delta)),
        default=Sum('views'),
        output_field=IntegerField()
    ))
)

稍微变化就是使用子查询。 Raydel的子查询计算每个TrenddataOwner计数原则上是有效的,但是因为它对Trenddata中的每一行(不仅仅是对于独特的Owners)进行聚合,所以会非常慢。

不同的子查询提供了获得相同结果的更快方法。它只在Owner计算Trenddatas一次繁重,然后检查每个Trenddata对象,如果它的所有者在列表中。我认为这应该比我的第一个查询慢,但奇怪的是,它在我的短测试(大约3米行)中出现了。

(queryset
    .values('owner', owner_name=F('owner__name'))
    .annotate(multi=Case(
        When(owner__in=Subquery(TrendData.objects
                                    .values('owner')
                                    .annotate(cnt=Count('owner'))
                                    .filter(cnt__gt=0)
                                    .values('owner')), 
             then=1),
        default=0,
        output_field=IntegerField())
    ) 
    .annotate(views = Case(
        When(multi=1,
             then=Sum(F('views') / date_delta)),
        default=Sum('views'),
        output_field=IntegerField())
    )
)

您可以将两个注释包装在一个中,但如果您重复使用multi几个注释而不是我的示例中的一个注释,则将两个注释分开可以避免重复每个注释的子查询。


1
投票

首先,我认为这是错误的qazxsw poi它应该是qazxsw poi。

如果我理解,您希望使用拥有所有者的TrendData实例的数量来注释TrendData查询集。

您可以使用owner_name=F('owner_id__name'来实现:

owner_name=F('owner__name'

然后首先通过计算owner_id的出现次数进行注释:

Subquery

然后你可以在你的案例/建设时:

owner_td_count = Owner.objects.annotate(
    td_count=Count('trenddata_set')
).filter(
    id=OuterRef('owner_id')
).values('td_count')[:1]
© www.soinside.com 2019 - 2024. All rights reserved.