apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Spark scala flatmapvalues

在Spark-shell中执行少量转换后,我得到了如下输出。我是从REPL复制并粘贴的。 scala> s.collect res44:Array [(String,String)] = Array((45000,Pavan,Amit),(50000,...

回答 1 投票 -1

如何使用嵌套列表和字典加载JSON对象?

我正在使用以下形式的JSON对象:{“docId”:“1”,“links”:{“一个链接”:[“端点1”,“端点2”],“另一个链接”:[“端点3“]},”......

回答 1 投票 1

Spark - 创建表并插入常量值

使用spark shell创建一行的临时表的最简单方法是什么?我试过插入,但RDD只写一次,对吧?我尝试了以下几行,但火花非常......

回答 2 投票 0

在S3中将每个分区数据写入单个文件中

我们有一个用例,我们希望用列值对数据帧进行分区,然后将每个分区写入单个文件。我做了同样的事情:val df = spark.read.format(“csv”)....

回答 2 投票 0

SQLException上的sqlContext HiveDriver错误:不支持方法

我一直在尝试使用sqlContext.read.format(“jdbc”)。options(driver =“org.apache.hive.jdbc.HiveDriver”)将Hive表放入Spark而没有任何成功。我做过研究并阅读如下:如何......

回答 2 投票 21

Scala:使用try / catch重试异常处理

我正在尝试为JSON转换添加重试逻辑。将对象转换为json时,如果有任何异常,我将重试3次。我在做:var mapper = new ObjectMapper()with ...

回答 1 投票 0

如何使作业幂等于多次运行在S3中生成相同的结果文件

我使用spark df write将镶木地板文件保存到S3。场景:我运行Job1并将xyz.parquet保存到S3,我的Job2拿起xyz.parquet并将数据加载到DB。现在,我希望下次运行Job1时......

回答 1 投票 0

如何一起使用SparkSession和StreamingContext?

我正在尝试从本地计算机(OSX)上的文件夹中流式传输CSV文件。我像这样一起使用SparkSession和StreamingContext:val sc:SparkContext = createSparkContext(sparkContextName)val ...

回答 1 投票 1

SparkR Stage X包含一个非常大的任务

我在使用R数据框调用createOrReplaceTempView时收到此警告:createOrReplaceTempView(as.Data.Frame(products),“prod”)我应该忽略此警告吗?这效率低吗? ...

回答 1 投票 0

在Spark中,一个动作后坚持是好的做法吗?

鉴于这个例子; val someRDD = firstRDD.flatMap {case(x,y)=> SomeFunc(y)} val oneRDD = someRDD.reduceByKey(_ + _)oneRDD.saveAsNewAPIHadoopFile(“dir / to / write / to”,classOf [Text], ...

回答 1 投票 0

如何通过scala中的数据框获得统计信息?

我正在使用具有架构的数据帧df.printschema()root | - _id:long(nullable = true)| - d:array(nullable = true)| | - element:struct(containsNull ...

回答 1 投票 1

Spark数据框插入值(如果不存在)

假设我有这样的数据帧:但有时会丢失一些行我需要删除哪些行丢失然后插入这样的行。所有值都知道什么是在Spark中执行此操作的最佳方法(...

回答 1 投票 0

Apache zeppelin绑定模式

我对Zeppelin解释器的绑定模式有点困惑。我正在使用Zeppelin 0.7.2,据我了解,如果我配置一个具有“隔离”绑定模式的解释器,那么每个用户都会得到......

回答 1 投票 0

(Zeppelin + Livy)SparkUI.appUIAddress(),一定是错的

我正在尝试使用Zeppelin配置livy以下文档:https://zeppelin.apache.org/docs/0.7.3/interpreter/livy.html但是当我运行时:%livy.spark sc.version我得到了以下内容错误:......

回答 1 投票 0

火花中的共享状态?

我正在阅读防火墙日志数据,其中包括以下内容:(UniqueID,start_or_stop,timestamp)在某些时候,每个“start”后面都是stop,当它出现时我想输出(UniqueID,...

回答 1 投票 0

JSONLD:如何将json转换为JsonLD?

我有一个用例,我有一个Json数据,我必须将其转换为JSONLD格式。第一个问题:这可以轻松完成,就像一些API,可能是我遗漏了吗?第二......

回答 2 投票 1

使用配置单元时间戳不接受Spark时间戳类型

我有一个Spark数据帧,其中包含一个字段作为时间戳。我将数据帧存储到创建hive外部表的HDFS位置。 Hive表包含具有时间戳类型的字段。 ...

回答 1 投票 1

在双精度数组上的近似分位数 - Spark数据帧

我有一个spark数据帧定义为:+ ---------------- + -------------------- + --- -------- + | id | amt_list | ct_tran_amt | + ---------------- + -------------------- + ----------- + | 1 ...

回答 1 投票 1

仅在关闭应用程序后才能在套接字中发送DStream的rdds

我正在尝试Spark Streaming设置,其中应用程序接收文本(行),对其进行计数,然后将结果发送回服务器。这就是我现在正在尝试的:sc = ...

回答 1 投票 0

在Data Lake中创建Spark作业而不是U-SQL作业

是否可以在Data Lake中创建Spark作业而不是U-SQL作业?

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.