我在没有安装Spark的情况下使用intellij项目加载Spark。
val spark = SparkSession.builder().config(sparkConf).getOrCreate()
我通过使用添加了com.spark.databricks.xml来激发火花
sparkConf.set("spark.driver.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setExecutorEnv("spark.driver.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.set("spark.executor.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setExecutorEnv("spark.executor.extraClassPath", "C:/.../spark-xml_2.11-0.4.1.jar")
sparkConf.setJars(Array("C:/.../spark-xml_2.11-0.4.1.jar" ))
与
spark.sparkContext.addJar("C:/.../spark-xml_2.10-0.2.0.jar")
但是当我尝试使用spark.read.format ("com.databricks.spark.xml")
时,我得到了异常“找不到数据源:com.databricks.spark.xml。请在http://spark.apache.org/third-party-projects.html找到包”。
我该如何解决?我知道建议使用spark-shell添加罐子,但我没有火花壳,因为我没有安装火花......
如果你有一个带有maven / sbt的项目,你可以添加spark-xml依赖项,如下所述:
<!-- https://mvnrepository.com/artifact/com.databricks/spark-xml -->
<dependency>
<groupId>com.databricks</groupId>
<artifactId>spark-xml_2.11</artifactId>
<version>0.4.1</version>
</dependency>
参考:https://mvnrepository.com/artifact/com.databricks/spark-xml_2.11/0.4.1