从S3到DynamoDB加载镶木地板文件

问题描述 投票:0回答:1

我一直在寻找加载(基本上是空的和恢复)Parquet文件从S3到DynamoDB的选项。 Parquet文件本身是通过在EMR集群上运行的spark作业创建的。这里有几点要记住,

  1. 我无法使用AWS Data管道
  2. 文件将包含数百万行(比如1000万行),因此需要一个有效的解决方案。我相信boto API(即使是批量写入)可能效率不高?

还有其他选择吗?

amazon-web-services amazon-s3 amazon-dynamodb amazon-emr parquet
1个回答
0
投票

您是否可以参考Spark RDD中的Parquet文件并让工作人员将条目放入dynamoDB?忽略在每个worker中缓存DynamoDB客户端以便在不同的行中重用的挑战,有些scala需要连续,为dynamo和PUT构建一个应该足够的条目。

顺便说一句:在这里按需使用DynamoDB,因为它可以很好地处理峰值负载,而不必承诺一些SLA。

© www.soinside.com 2019 - 2024. All rights reserved.