从S3到DynamoDB加载镶木地板文件

问题描述投票：0回答：1

我一直在寻找加载（基本上是空的和恢复）Parquet文件从S3到DynamoDB的选项。 Parquet文件本身是通过在EMR集群上运行的spark作业创建的。这里有几点要记住，

我无法使用AWS Data管道
文件将包含数百万行（比如1000万行），因此需要一个有效的解决方案。我相信boto API（即使是批量写入）可能效率不高？

还有其他选择吗？

amazon-web-services amazon-s3 amazon-dynamodb amazon-emr parquet

1个回答

0
投票

您是否可以参考Spark RDD中的Parquet文件并让工作人员将条目放入dynamoDB？忽略在每个worker中缓存DynamoDB客户端以便在不同的行中重用的挑战，有些scala需要连续，为dynamo和PUT构建一个应该足够的条目。

顺便说一句：在这里按需使用DynamoDB，因为它可以很好地处理峰值负载，而不必承诺一些SLA。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.