使用 EMR 服务的 Python 和 Pyspark 代码可追溯性

问题描述 投票:0回答:1

需要将我们的 EMR 与 AWS 的一项服务集成用于一个用例,即“使用 EMR,python/pyspark 代码每月运行大约 10 亿个事务并处理大约 20 万个文件”,现在这是导致数据可追溯性问题,例如成功处理了多少文件,失败了多少可以重新处理等。 现在,需要将其与可以跟踪这些指标以及其他日志文件的服务集成。 关于如何通过提供一些参考架构文档或设置文档来实现此解决方案的任何输入或指示都会真正有帮助。我在想,如果可以利用 DyanamoDB 的服务来实现这个目标,或者如果我能在这个问题陈述上获得更多的输入,那真的会有帮助。

amazon-web-services amazon-dynamodb amazon-emr
1个回答
0
投票

我会为此使用 AWS CloudWatch。具体来说,我会按照 CloudWatch 代理指南将 CloudWatch 代理作为引导操作或 EMR 集群上的一个步骤进行安装: https://docs.aws.amazon.com/AmazonCloudWatch/latest/logs/AgentReference.html

然后,您可以查询来自 CloudWatch Insights 的日志事件以及其他日志流

© www.soinside.com 2019 - 2024. All rights reserved.