MarkLogic - 增量加载使用铝塑复合

问题描述 投票:3回答:2

MarkLogic版本:9.0-6.2

我们正在尝试使用铝塑复合加载到数据中心分期客户数据的日常变化,然后用和声流带来的变化为数据中心决赛。

据我了解,在“collector.sjs”用于返回一个需要协调这些URI。第1天的满负荷后,有没有办法收集器可以从上一交易日识别变化并协调只有那些行?

我有几个设计

  1. 每运行保存的批处理时间,并在收集逻辑返回具有较高的批处理时间的URI(每个文档保存批处理时间)
  2. 保存每个文档两个集合(客户和customer_currentDate),然后具有customer_currentDate收集收集回文件。然而,这将有如果摄取的问题,并协调在不同的时间运行
  3. 每个文档保存到两个集合(客户和customer_batchDateTime),然后创建一个标记(类似过程收集与PROCESS_IND为“否”的行)。然后收集器将横扫通过流程收集和寻找与PROCESS_IND为“N”的文件,并从customer_batchDateTime集合中返回的文档。最后,writer.sjs会变成PROCESS_IND为“Y”

之前与上述任何选项出发,我只是想检查是否有在摄取任何内置能力或协调过程可以轻松地识别增量/变更记录,使我不能过分工程中的过程。

marklogic marklogic-9 mlcp marklogic-dhf
2个回答
1
投票

我认为“内置”的能力是通过选项来收集器模块的能力。这使您可以选择限制集返回什么最好的办法。

为了您的使用情况下,这听起来像最好/最简单的方法是每天要插入的所有文件到一个名为例如集合“输入 - (当前日期)”,然后进料,作为一个选项,进入收集器模块,使得其可以应用的集合的查询。


0
投票

作为替代方案,你可以考虑加入一个名为processed例如收集触摸分期中的文件。作家运行后,你可以做到这一点从和声脚本主脚本。收集器可以不是简单地抑制已处理文档,只有在未经处理的文档永远运行。也许更简单,而且比用更具体的集合名称的工作更加稳健。

HTH!

© www.soinside.com 2019 - 2024. All rights reserved.