我正在使用distcp(批量数据)从S3获取数据。
distcp
但根据sqoop网站,我们可以从s3导入到hdfs。我试过,但每次connection build error我都会收到错误:
connection build error
https://sqoop.apache.org/docs/1.99.7/user/examples/S3Import.html
那么,是否有人可以告诉我如何完美地完成这项工作?
此外,我可以做什么来获得增量数据的自动同步。
你可能想看一下s3distcp。见https://aws.amazon.com/blogs/big-data/seven-tips-for-using-s3distcp-on-amazon-emr-to-move-data-efficiently-between-hdfs-and-amazon-s3/
s3distcp