apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

跨越分区的SparkSQL DataFrame顺序

我正在使用spark sql对我的数据集运行查询。查询的结果非常小但仍然是分区的。我想合并生成的DataFrame并按列排序行。一世 ...

回答 2 投票 5

问题在Yarn Cluster上运行Spark Job

我想在Hadoop YARN集群模式下运行我的spark Job,我使用以下命令:spark-submit --master yarn-cluster --driver-memory 1g --executor-memory 1g ...

回答 5 投票 16

Apache Spark中的懒惰评估

我试图理解Apache spark中的懒惰评估。我的理解是:让我们说在硬盘中有文本文件。步骤:1)首先我将创建RDD1,这只是一个数据定义......

回答 1 投票 1

“有状态”和“无国籍”系统有什么区别?

Apache Spark认为其运营商(节点)是“无状态的”。这使得Spark的架构可以使用更简单的协议来处理恢复,负载平衡和处理落后者等问题。在...上

回答 1 投票 3

Kryo内存不足

无论我尝试什么,我在使用Kryo序列化程序时都使用Spark 1.3.1获取此OOME(如果我使用默认的Java,我没有任何问题)15/06/25 20:16:37 WARN TaskSetManager:丢失的任务47.0 in ...

回答 1 投票 1

如何根据表的大小来修改Spark读取jdbc中的属性?

我有一个火花工作,定期将数据从Postgres移动到Redshift。我'使用jdbc.read函数与lowerBound和upperBound params:df = spark.read.jdbc(url = jdbc_url,\ table ='...

回答 1 投票 0

Scala / Spark无法匹配功能

我正在尝试运行以下命令:df = df.withColumn(“DATATmp”,to_date($“DATA”,“yyyyMMdd”))并收到此错误: :34:错误:方法to_date的参数太多:(e:...

回答 1 投票 2

在文件与Hbase中存储Kafka偏移量

我正在开发一个Spark-Kafka Streaming程序,我需要捕获kafka分区偏移量,以便处理故障情况。大多数开发人员都使用Hbase作为抵消存储,......

回答 2 投票 1

在火花的rdd中找到最少的子集

任何人都可以帮助我,我有一个像DigS这样的BitS的RDD [scala.collection.mutable.BitSet] = Array(BitSet(1,2),BitSet(1,7),BitSet(8,9,10,11),BitSet (1,2,3,4),BitSet(8,9,10),BitSet(1,2,3))我......

回答 1 投票 0

使用spark处理地图结构

我有一个文件,其中包含需要处理的地图结构。我使用了下面的代码。我得到了RDD [ROW] .Data的中间结果如下所示。 val conf = new SparkConf()。setAppName(“student -...

回答 1 投票 0

当我将一个DataFrame写入Parquet文件时,不会显示任何错误,也不会创建任何文件

大家好,我在保存DataFrame时遇到了问题。我发现了一个类似的未回答的问题:将Spark dataFrames保存为镶木地板文件 - 没有错误,但没有保存数据。我的问题是......

回答 1 投票 1

如何使用Spark执行MySQL(JDBC)连接?

我想通过Spark从MySQL读取数据。我看到的API能够从特定表中读取数据。例如,val prop = new java.util.Properties prop.setProperty(“user”,“

回答 1 投票 1

在Spark 1.6.0 View中输入文件名

我不能在Spark 1.6.0视图中使用input_file_name()函数。它适用于select语句或df.withColumn(“path”,input_file_name()),但不在视图中。例如:CREATE VIEW v_test ...

回答 1 投票 1

如何在Spark中的每一行添加源文件名?

我是Spark的新手,我正在尝试使用它来自的文件名向每个输入行插入一列。我见过其他人问过类似的问题,但他们所有的答案都使用了整个文本文件,但我...

回答 2 投票 9

线程“main”中的异常java.lang.NoClassDefFoundError:org / apache / spark / streaming / StreamingContext

大家好,看起来像下面的代码中找不到类StreamingContext。 import org.apache.spark.streaming。{Seconds,StreamingContext} import org.apache.spark。{SparkConf,...

回答 1 投票 2

亚马逊EMR火花上的蜂巢

我在hive上尝试了以下命令:set hive.execution.engine = spark;但是在我在amazon EMR上设置执行引擎后运行任何查询时出现错误:线程“main”中的异常java.lang ....

回答 2 投票 2

这是在pyspark上进行乘法的正确方法吗?

pyspark新手。这是我的代码:def sparkApp():spark = SparkSession \ .builder \ .appName(“Python Spark SQL基本示例”)\。config(“spark.sql.catalogImplementation”,“...

回答 1 投票 0

运行独立的pyspark时出现Windows错误

我想在Anaconda中导入pyspark并运行示例代码。但是,每当我尝试在Anaconda中运行代码时,都会收到以下错误消息。错误:py4j.java_gateway:发生错误时......

回答 1 投票 1

使用Homebrew从Apache Spark安装复制bin /目录

通过Homebrew安装Apache Spark 2.2.1时,生成的安装位置似乎有两个略有不同的bin /目录,一个低于另一个。 (目录结构在......

回答 1 投票 0

如何在set_identity关闭时将Spark数据帧推送到Sql Server表?

所以,我在Sql Server中有一个带有Id列的表,它是一个标识列。我面临的问题是,当我尝试将数据框推入其中时,它会抱怨identity_insert设置为'off'....

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.