apache-spark-2.0 相关问题

用于Apache Spark 2.0特有的问题。有关Apache Spark的一般问题,请使用标签[apache-spark]。

Spark Web UI,即使我不保留数据也显示非零的内存存储号

即使我没有用户持久化或缓存,我的spark应用程序也会在内存存储中显示非零数量。即使我不使用persist / cache,spark也会缓存我的数据吗?

回答 1 投票 1

为什么有两个选项可以在PySpark中读取CSV文件?我应该使用哪一个?

Spark 2.4.4:我想导入CSV文件,但是有两个选项。这是为什么?哪个更好?我应该使用哪一个?从pyspark.sql导入SparkSession spark = SparkSession \ ....

回答 1 投票 1

Spark DataFrame:查找并设置子节点的主根

我有以下Apache Spark数据帧:父-子A1-A10 A1-A2 A2-A3 A3-A4 A5-A7 A7-A6 A8-A9此数据帧...

回答 1 投票 1

pyrpark dataframe in rlike如何从数据帧列之一逐行传递字符串值

“ rlike”函数中的pyspark数据帧如何从数据帧列之一逐行传递字符串值在此处输入代码在运行df.withColumn(“ match_str”,df.text1.rlike(...]时获得错误消息)

回答 1 投票 0

从多线程驱动程序启动Apache Spark SQL作业

我想用Spark从大约1500个远程Oracle表中提取数据,并且我想要一个多线程应用程序,该应用程序每个线程选择一个表,或者每个线程选择10个表并启动...

回答 4 投票 2

spark-submit集群模式不适用于python spark,但适用于scala spark

我有一个集群,我们有hadoop设置与spark集成。 spark版本是spark v2.0.0,当你在集群模式下部署scala spark时,它按预期工作。以下是命令:...

回答 1 投票 0

Spark Executor在将数据框写入镶木地板时表现不佳

Spark版本:2.3 hadoop dist:azure Hdinsight 2.6.5平台:Azure存储:群集中的BLOB节点:6个执行器实例:每个执行器6个核心:每个执行器3个内存:8gb尝试加载...

回答 1 投票 2

如何尾纱原木?

我使用下面的命令提交Spark Job。我想使用类似于Linux框中的tail命令操作的应用程序Id来拖尾纱线日志。导出SPARK_MAJOR_VERSION = 2 nohup spark-submit --...

回答 2 投票 0

表数据存储在Spark中的哪个位置?

嗨,我想找出SparkSQL在Spark中存储表元数据的位置?如果它默认不在Hive Metastore中,那么它存储在哪里?

回答 1 投票 2

Spark2无法将数据框写入镶木地板蜂巢表:HiveFileFormat`。它与指定的格式“ParquetFileFormat”不匹配

我正在尝试在table hive中保存数据帧。在Spark 1.6中它可以工作但是在迁移到2.2.0之后它不再起作用了。这是代码:blocs .toDF()。redpartition($“col1”,$“col2”,$“...

回答 1 投票 0

无法在Cloudera Quickstart VM(5.10)中安装spark 2.2

我在这里关注了博客(下面提到的)并下载了包裹并按要求放置。如果安装了任何人和步骤,请告诉我。 (HTTPS://www.cloudera.com/documentation / ...

回答 4 投票 3

从teradata获取查询到pyspark

我试图使用pyspark在teradata中运行查询,我可以使用此函数拉出整个表,但是当我尝试运行查询时出现错误。谁能检查并告诉我要去哪里......

回答 1 投票 0

为什么Apache Livy会话显示应用程序ID为NULL?

我已经实现了一个功能齐全的Spark 2.1.1独立集群,我使用Apache Livy 0.4通过curl命令POST作业批处理。在咨询Spark WEB UI时,我看到了我的工作......

回答 1 投票 2

将多行的同一列拾取到多列的一行中[重复]

我有两个DF MasterDF NumberDF(使用Hive加载创建)Desire输出:填充逻辑For Field1需要选择sch_id,其中CAT ='PAY'和SUB_CAT ='client'对于Field2需要选择sch_id ...

回答 3 投票 0

断开连接时Spark无法以本地模式启动[在Spark中处理IPv6的可能错误??]

问题与此处描述的相同在Mac上启动spark-shell local时出错......但我找不到解决方案。我也常常得到格式错误的URI错误,但现在我得到了预期......

回答 4 投票 8

无法将DF摄取到elasticsearch

我正在阅读spark-scala中的镶木地板文件并进行计算和过滤。我想将结果数据帧摄取到elasticsearch。我试过以下https://www.elastic.co/guide/en / ...

回答 1 投票 0

Oozie Spark2 Java动作:如何关机

我正在将现有的管道从spark 1.6.0迁移到spark 2.1.0(cdh 5.15.1)。我正在使用的oozie版本(4.1.0)不支持spark2操作,所以我们使用java运行spark2作业...

回答 1 投票 0

线程“main”中的异常java.lang.IllegalArgumentException:实例化'org.apache.spark.sql.hive.HiveSessionState'时出错:

我正试图通过Intelliji连接到Hive。我使用的是Scala版本2.11.4,spark-core,spark-hive,spark-sql的版本是2.1.1。这是我用来远程连接的代码snippt ...

回答 2 投票 0

Spark 2.0时间戳使用Scala以毫秒为单位的差异

我正在使用Spark 2.0并寻找在Scala中实现以下内容的方法:需要两个数据帧列值之间的时间戳差异(以毫秒为单位)。 Value_1 = 06/13/2017 16:44:20.044 ......

回答 2 投票 7

Spark中的各种连接类型有哪些?

我查看了文档,并说它支持以下连接类型:要执行的连接类型。默认内心。必须是以下之一:内部,十字架,外部,完整,full_outer,左,左,外,右......

回答 3 投票 24

© www.soinside.com 2019 - 2024. All rights reserved.