我有一个要求,我需要处理存储在目录/ GCP中的400多个CSV文件(每个100至500MB)。
对于每个文件,我需要从数据库获取有效的帐号并将其保留在内存中,针对内存中的数据验证文件的每一行,并将有效记录写入另一个CSV文件(列格式更改),并将生成的文件导出到AWS 。将来,希望支持来自MQ的请求,并且流程保持不变。
要求是在分布式系统中实现。
我打算为此目的使用Spring Batch,但是我找不到使用不同系统作为Manager-Worker的远程分区的好例子/代码。我想了解如何配置Manager,Worker,如何启动它们以及如何将文件元数据作为请求和响应传递。
我有在单个JVM上进行分区的示例,因此仅通过示例代码查找Manager-Worker示例。
任何建议/参考将不胜感激,并提前致谢。
我打算为此目的使用Spring Batch,但是我找不到使用不同系统作为Manager-Worker的远程分区的好例子/代码。
远程分区详细说明,代码示例和图表在这里:https://docs.spring.io/spring-batch/docs/4.2.x/reference/html/spring-batch-integration.html#remote-partitioning
您也可以找到:
我希望这会有所帮助。