如果大数据导入作业之间的同步失败,将会发生什么情况。它会在作业失败发生之前将某些数据复制到hdfs上还是完全不复制任何内容?
[如果您在--num-mapper
大于1的情况下运行该作业,则当某些映射成功完成时,某个映射将在某个时间点失败,其余的RUNNING映射将被杀死。
假设您使用4个映射器运行:]
您将在--target-dir
中获得MAP-1和MAP-2的数据。
如果您的位置上方有一个配置单元表,并且您正在使用HCatalog
选项将数据导入HDFS。然后配置单元在表位置内创建HCatalog
目录。
在所有Maps成功之后,配置单元将登台目录重命名为实际目录。
在这种情况下,如果您的作业失败,HCatalog将删除登台目录。