使用 EMR 服务的 Python 和 Pyspark 代码可追溯性

问题描述投票：0回答：1

需要将我们的 EMR 与 AWS 的一项服务集成用于一个用例，即“使用 EMR，python/pyspark 代码每月运行大约 10 亿个事务并处理大约 20 万个文件”，现在这是导致数据可追溯性问题，例如成功处理了多少文件，失败了多少可以重新处理等。现在，需要将其与可以跟踪这些指标以及其他日志文件的服务集成。关于如何通过提供一些参考架构文档或设置文档来实现此解决方案的任何输入或指示都会真正有帮助。我在想，如果可以利用 DyanamoDB 的服务来实现这个目标，或者如果我能在这个问题陈述上获得更多的输入，那真的会有帮助。

amazon-web-services