apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

Spark SQL中的数组交集

我有一个名为writer的数组类型列的表,其值为array [value1,value2],array [value2,value3] ....等。我正在进行自联接以获得具有共同值的结果...

回答 2 投票 2

为什么Apache Spark SQL中的列更改为可为空?

为什么在执行某些函数后使用nullable = true,即使DataFrame中没有NaN值也是如此。 val myDf = Seq((2,“A”),(2,“B”),(1,“C”))。toDF(“foo”,“bar”)....

回答 2 投票 7

高级连接两个数据帧spark scala

我必须加入两个Dataframes。示例:Dataframe1看起来像这样df1_col1 df1_col2 a ex1 b ex4 c ex2 d ex6 e ex3 ...

回答 3 投票 1

spark使用带有选项字段的case类将数据帧转换为数据集

我有以下case类:case类Person(name:String,lastname:Option [String] = None,age:BigInt){}以及以下json:{“name”:“bemjamin”,“age”:1}当我试图转变......

回答 2 投票 0

如何根据Java Spark 2.1.1中的字段名称对structType进行排序/排序

我有一个structType模式,我需要根据字段名称对模式进行排序/排序,下面我将共享StructType。 StructType schema = StructType(StructField(zzz,StringType,true),...

回答 1 投票 -1

为什么在将任何rdd转换为ds而不是常规导入之前嵌入了spark.implicits._? [重复]

我正在学习火花数据集并检查我们如何将rdd转换为数据集。为此,我得到了以下代码:val spark = SparkSession .builder .appName(“Spark SQL”)。master(“...

回答 2 投票 0

来自关系数据模型的Spark中的树/嵌套结构

如果我理解正确,我可以将spark数据集视为T类型对象的列表。如何以父父包含子列表的方式连接两个数据集?但是孩子也会......

回答 2 投票 2

Spark Accumulator值不递增[重复]

我最近一直在研究Spark数据集,我有一个场景,我必须为每一行生成行号并将其存储在名为“Ids”的列中。这个行号从1,2,3 ......开始......

回答 3 投票 0

如何在循环中生成Spark数据集聚合长专家?

我正在使用Java Spark来统计数据集。我需要通过许多expers聚合数据集,因此代码很长而且很难看。 expers有一些常见的逻辑,我可以用循环生成expers吗?这是 ...

回答 1 投票 0

如何将Seq [T]列添加到包含两个数据集元素的数据集中?

我有两个数据集AccountData和CustomerData,以及相应的案例类:案例类AccountData(customerId:String,forename:String,surname:String)customerId | accountId | balance | + ---...

回答 1 投票 0

使用spark sql在intelliJ上调用不相关的模糊方法错误

这个spark sql代码编译并运行但是intelliJ(idea-IU-172.4343.14)显示了“Ambigious方法调用”错误。 public static void main(String [] args){SparkSession session = SparkSession // ...

回答 3 投票 2

如何迭代数据帧而不转换为spark中的数据集?

我有一个数据帧,我想通过它迭代,但我不想将数据帧转换为数据集。我们必须将spark scala代码转换为pyspark,而pyspark不支持数据集。我试过了 ...

回答 1 投票 -2

如何将spark数据集转换为scala seq

我有以下case类案例类Station(id:Long,name:String)扩展Node和站顶点的Spark数据集:org.apache.spark.sql.Dataset [Station] = [id:bigint,name:string] ...

回答 1 投票 -3

如何最好地将SparkSQL Dataframe Array [String]列转换为新的[String]列

我是Spark的新手,我有一个包含4列的Apache SparkSQL DataFrame df,具有以下模式:root | - _id:string(nullable = false)| - _title:string(nullable = false)| - _published-at :...

回答 1 投票 0

从java中的时间戳开始按月分组数据集

我已经使用java中的spark会话将表中的所有行加载到Dataset中。我想得到每个月的行数。我尝试使用withColumn()创建一个月的新列,以便我可以......

回答 2 投票 0

Scala spark:如何使用数据集来创建具有snake_case架构的案例类?

我有以下case类:case类User(userId:String)和以下模式:+ -------------------- + -------- ---------- + | COL_NAME | DATA_TYPE | + -------------------- + -...

回答 1 投票 4

动态循环所有列名称的数据集

我正在进行项目,我有大约500个列名,但我需要在每个表名上应用coalesce函数。 df1 schema -id -col1 ... -col500 df2 schema -id -col1 ... -col500 Dataset&...

回答 3 投票 0

在运行时动态过滤火花柱

我需要创建一个spark过滤器语句,它过滤在运行时动态传递给它的列列表。我有一个SQL数据库表,其中有一列存储列列表...

回答 1 投票 0

在Dataframe中的列中添加缺少的类别

我有以下spark dataFrame。列国家/地区有10个不同的值。我想要在预期结果中给出的新数据帧。 DataFrame + ------------- + -------------- + ------------------ + ...

回答 1 投票 0

Spark DataFrame - 键列和值列的结构类型

样本数据集B7J; B7J Realty Corp; [街道#939 W El Camino,城市#芝加哥,州#IL] AGC; AGC公司成立; [街道#415 N Mary Ave,城市#Long Island,州#NY] KBB; KBB Minerals International Inc; [...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.