基于主键的Cassandra复制策略用于归档数据旧数据

问题描述 投票:0回答:1

我正在以讲述物联网遥测数据的方式思考。

我想优化我的存储空间。在这种情况下,让我们以物联网遥测为例。我希望保持最近的数据(例如过去 6 个月)的热门数据和高度重复的数据。对于较旧的数据,我想减少副本和/或完全卸载到性能较低的存档集群。

我知道基于键空间的复制策略。然而,这意味着我需要多个键空间。不过,我更愿意基于主键/分片键的解决方案进行复制。

是否可以根据数据年龄或任何其他属性定义复制策略?

如果是,如何实现?

提前非常感谢您的专业知识。

cassandra backup replication database-backups
1个回答
0
投票

一般来说Cassandra不提供这样的盒子功能。您是对的,复制策略适用于每个键空间,因此您需要实现一些外部作业来读取数据并将数据写入另一个键空间。此外,cassandra 并不是在磁盘上存储时间序列的有效数据库,因此最好将 parquet 文件之类的东西作为冷存储。通常这看起来像这样:

冷藏: (Cassandra)--read_data--(Spark 作业)--写入--(S3 parquet)

冷库恢复: (S3 parquet)--read_data--(Spark 作业)--写入--(Cassandra)

Cassandra 删除数据作业应该单独开发,因为它也不是微不足道的任务。数据删除后,您应该在每个节点上执行nodetool cleanup。

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.