sqoop如何避免从HDFS导出重复数据到RDBMS?

问题描述 投票:0回答:1

HDFS以复制的形式存储数据,当我们使用SQOOP将数据从HDFS转移到RDBMS时,sqoop如何避免将重复的数据从HDFS导出到RDBMS?

hdfs sqoop
1个回答
0
投票

在HDFS内部,HDFS负责处理复制。你通常使用HDFS协议HDFS API读取文件,然后hdfs内部管理这个,只返回一个数据副本。

Sqoop也使用HDFS APIprotocol来读取数据。

所以,sqoop端不需要额外的处理。

© www.soinside.com 2019 - 2024. All rights reserved.