解决Apache Spark中的依赖性问题

Question

构建和部署Spark应用程序时的常见问题是：

java.lang.ClassNotFoundException。
[object x is not a member of package y编译错误。
java.lang.NoSuchMethodError

如何解决这些问题？

Answer 1

构建和部署Spark应用程序时，所有依赖项都需要兼容的版本。

Scala版本

考虑以下（错误的）build.sbt：

Answer 2

除了user7337271已经给出的非常广泛的答案之外，如果问题是由于缺少外部依赖项而引起的，您可以使用例如maven assembly plugin

在这种情况下，请确保在构建系统中将所有核心Spark依赖项标记为“已提供”，并且如前所述，确保它们与您的运行时Spark版本相关。

Answer 3

您的应用程序的依赖关系类应在启动命令的

application-jar

Answer 4

我认为这个问题必须解决一个程序集插件。您需要建立一个胖子罐。例如在sbt：

$PROJECT_ROOT/project/assembly.sbt

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.14.0")

至build.sbtadded some librarieslibraryDependencies ++ = Seq（“ com.some.company” %%“ some-lib”％“ 1.0.0”）`
在sbt控制台中输入“程序集”，并部署程序集jar

Answer 5

从项目中的spark-2.4.0-bin-hadoop2.7 \ spark-2.4.0-bin-hadoop2.7 \ jars中添加所有jar文件。可以从https://spark.apache.org/downloads.html]下载spark-2.4.0-bin-hadoop2.7

我有以下build.sbt

lazy val root = (project in file(".")). settings( name := "spark-samples", version := "1.0", scalaVersion := "2.11.12", mainClass in Compile := Some("StreamingExample") ) libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "2.4.0", "org.apache.spark" %% "spark-streaming" % "2.4.0", "org.apache.spark" %% "spark-sql" % "2.4.0", "com.couchbase.client" %% "spark-connector" % "2.2.0" ) // META-INF discarding assemblyMergeStrategy in assembly := { case PathList("META-INF", xs @ _*) => MergeStrategy.discard case x => MergeStrategy.first }

我已经使用sbt程序集插件为我的应用创建了一个胖子，但是使用spark-submit运行时失败，并显示以下错误：

java.lang.NoClassDefFoundError: rx/Completable$OnSubscribe at com.couchbase.spark.connection.CouchbaseConnection.streamClient(CouchbaseConnection.scala:154)

我可以看到该类存在于我的胖子罐中：

Answer 6

我有以下build.sbt

lazy val root = (project in file(".")). settings( name := "spark-samples", version := "1.0", scalaVersion := "2.11.12", mainClass in Compile := Some("StreamingExample") ) libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "2.4.0", "org.apache.spark" %% "spark-streaming" % "2.4.0", "org.apache.spark" %% "spark-sql" % "2.4.0", "com.couchbase.client" %% "spark-connector" % "2.2.0" ) // META-INF discarding assemblyMergeStrategy in assembly := { case PathList("META-INF", xs @ _*) => MergeStrategy.discard case x => MergeStrategy.first }

Answer 7

我有以下build.sbt

lazy val root = (project in file(".")). settings( name := "spark-samples", version := "1.0", scalaVersion := "2.11.12", mainClass in Compile := Some("StreamingExample") ) libraryDependencies ++= Seq( "org.apache.spark" %% "spark-core" % "2.4.0", "org.apache.spark" %% "spark-streaming" % "2.4.0", "org.apache.spark" %% "spark-sql" % "2.4.0", "com.couchbase.client" %% "spark-connector" % "2.2.0" ) // META-INF discarding assemblyMergeStrategy in assembly := { case PathList("META-INF", xs @ _*) => MergeStrategy.discard case x => MergeStrategy.first }

解决Apache Spark中的依赖性问题

问题描述投票：32回答：7

7个回答

最新问题

解决Apache Spark中的依赖性问题

问题描述 投票：32回答：7

7个回答

最新问题

问题描述投票：32回答：7