在卡桑德拉处理一对多

Question

鉴于以下简化的域模型：

火车旅行

id uuid
火车名称字符串（一天内唯一）
旅行日期
...

旅程站

站uuid
到达时间戳
出发时间戳
...

有了这个关系：

1次火车之旅有n个旅程站

有了这个查询要求：

在指定时间段内，特定车站的所有列车行程，包括所有行车站。

这个查询应该如何在Cassandra中建模？

我在考虑这样的事情：

CREATE TABLE departures_by_station (
    date_of_yourney date,
    train_name varchar,
    station uuid,
    arrival timestamp,
    departure timestamp,
    primary key((date_of_journey, station), train_name, departure)
);

SELECT * from departures_by_station 
WHERE date_of_journey = '2018-01-02' AND station = 'Paris' AND departure ...;

这不起作用，因为它会导致部分列车行程 - 除了请求的行程之外的所有行程站都缺失。更糟糕的是，到达和离开时间可能会经常变化。我无法使用新的启程时间更新此表，因为它是一个群集密钥。

任何想法或提示如何解决这个问题？我想我错过了一些基本的东西，但我对nosql世界很新。

Answer 1

首先，它可能不是最佳解决方案（需要对分区大小进行一些计算等）。如果你可以使用TTL使“旧”数据到期，那么我想到了这样的事情：

CREATE TABLE departures_by_station (
   station uuid,
   departure timestamp,
   train_name varchar,
   arrival timestamp,
   statitions list<uuid>
   primary key(station, departure, train_name)
);

在这种情况下，您将拥有所谓的“宽”分区 - 每个旅程一个分区，并且因为您有离开作为群集密钥，您可以对其进行范围搜索。但是如果你过期了很多数据，那么你需要经常对表进行“修复”以摆脱逻辑删除（删除标记），因为这可能会影响读取性能。

此外，为了避免进行多次查找，您需要将有关所有工作站的信息放入每一行 - 我将其写为list<uuid>，但它可以更好地建模为用户定义的类型，因此您可以包含工作站名称和其他信息。

您的代码也应为特定列车的每个车站生成一个条目。

附：我建议在DataStax Academy上学习DS220（数据建模）课程。

在卡桑德拉处理一对多

问题描述投票：3回答：1

1个回答

最新问题

在卡桑德拉处理一对多

问题描述 投票：3回答：1

1个回答

最新问题

问题描述投票：3回答：1