HDFS以复制的形式存储数据,当我们使用SQOOP将数据从HDFS转移到RDBMS时,sqoop如何避免将重复的数据从HDFS导出到RDBMS?
在HDFS内部,HDFS负责处理复制。你通常使用HDFS协议HDFS API读取文件,然后hdfs内部管理这个,只返回一个数据副本。
Sqoop也使用HDFS APIprotocol来读取数据。
所以,sqoop端不需要额外的处理。