我正在尝试打包我的多项目火花作业的sbt程序集中遇到重复数据删除错误。我查看了sbt汇编文档,它说
如果您尝试排除已经是容器一部分的JAR文件(如Spark),请考虑将依赖库的范围限定为“提供”配置:
但他们的意思是“已经是集装箱的一部分了吗?”我复制了下面的完整链接。
https://github.com/sbt/sbt-assembly#excluding-jars-and-files
这意味着特定目标节点(像Spark这样的容器)已经具有所有必需的jar,并且不需要在程序集中包含相同的jar。
这是提供范围的含义,即在运行环境中提供特定库,因此不在最终jar中包含它只是引用它。