我们的DMP系统有这样的需求:1.受众导出:基于标签的受众每天需要将新的人口统计结果导出到Redis或文件,再导出到DSP。因为标签数据每天都会刷新,所以我们有6亿用户。当我们有成千上万的人时,我们应该选择哪种技术堆栈来快速计算和导出?2.事件分析:我们还需要基于实时事件来创建受众,我们需要向受众添加合格的人员。与此同时,随着时间的流逝,需要将不符合要求的人员删除。有合适的技术堆栈建议可以满足其中之一或全部。
谢谢。
我们广泛处理来自DMP的受众数据,并且通常管理许多PB的数据和数百个受众。
由于以下原因,我建议使用Apache Spark进行处理:
存储是一个更复杂的问题:
希望这会有所帮助。