DMP系统的技术堆栈选择

问题描述 投票:-2回答:1

我们的DMP系统有这样的需求:1.受众导出:基于标签的受众每天需要将新的人口统计结果导出到Redis或文件,再导出到DSP。因为标签数据每天都会刷新,所以我们有6亿用户。当我们有成千上万的人时,我们应该选择哪种技术堆栈来快速计算和导出?2.事件分析:我们还需要基于实时事件来创建受众,我们需要向受众添加合格的人员。与此同时,随着时间的流逝,需要将不符合要求的人员删除。有合适的技术堆栈建议可以满足其中之一或全部。

谢谢。

apache-spark hadoop apache-flink druid kylin
1个回答
0
投票

我们广泛处理来自DMP的受众数据,并且通常管理许多PB的数据和数百个受众。

由于以下原因,我建议使用Apache Spark进行处理:

  1. 编程模型的灵活性。
  2. DMP工作流程中批处理的流行。
  3. 对于普通观众来说性能很高(适合RAM)。>>
  4. 最丰富的集成集,包括与ML功能的集成,这对DMP而言变得越来越重要。
  5. 存储是一个更复杂的问题:

  • 对象存储(S3)是最简单但性能最好的。
  • HDFS样式的存储在许多情况下更快,但成本更高。
  • 由于受众群体是固定的,因此取决于受众更新的性能需求,您还可以考虑键值存储,例如Cassandra。
  • 希望这会有所帮助。

© www.soinside.com 2019 - 2024. All rights reserved.