apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

将Java对象读取为Scala spark中的DataSet

我有一个HDFS路径,其中包含Java对象(例如Obj1)编写的数据,我想在我的Spark Scala代码中读取此路径,并将其作为Obj1的数据集读取。一种方法是读取HDFS ...

回答 1 投票 0

如何创建数据集或将其转换为数据集[行]

您好,我试图测试以下将Dataset [Row]作为参数的函数def getReducedSubsidiaries(dsSubsidiaries:Dataset [Row])(隐式spark:SparkSession):Dataset [...

回答 1 投票 0

处理Spark数据帧/数据集中的重复数据

我是Spark和Scala的新手,即使阅读了各种文档,我仍然找不到解决问题的最佳方法。我有一个相当大的数据集(〜TB),可以将其加载到数据帧中...

回答 1 投票 0

Spark DataFrame / Dataset查找每种键有效方式的最常用值

问题:我在使用Spark来映射Spark中键的最常见值时遇到问题。我已经用RDD完成了,但是不知道如何有效地处理DF / DS(sparksql)数据集,就像key1 = value_a ...

回答 1 投票 1

如何联接Spark数据集A和B并标记A中未联接的记录?

我有两个分别为TypeA和TypeB的数据集A和B。然后,我基于列(称为“键”)加入数据集,以获取数据集C。此后,我需要丢弃数据集A中的事件,......>

回答 1 投票 -1

为什么使用Spark Dataset.select替换列值

Dataset ds = ..... ds = ds.select(“ cola”,“ colb”); ds.show(); DS已正确加载。 DS包含多个列。我要选择“可乐”和“ colb”专栏。这些列确实存在,...

回答 1 投票 0

无法解析符号mapValue

我在哪里出错了这个错误。我是火花新手,请提供帮助。如何在RDD包com.udemyexamples import org.apache.spark.sql.SparkSession对象上使用mapValues ...

回答 1 投票 -2

无法将`ordId`从字符串转换为int,因为它可能会截断

我正在尝试读取一个小的文件作为数据集,但是它给出了错误“无法将ordId从字符串强制转换为int,因为它可能会被截断”。这是代码:object Main {case class Orders(ordId:...

回答 1 投票 -1

Spark:如何使用Avro模式创建数据集?

我有一组avro文件,它们以.avsc文件中定义的已知模式保存在aws S3中。有没有一种方法可以使用定义的模式在spark中创建对象的数据集?模式如下:{“ ...

回答 1 投票 0

将所有新行转换为带有Scala的Spark中的新列

我有一个数据框,其固定列为m1_amt到m4_amt,其中包含以下格式的数据:+ ------ + ---------- + --------- -+ ---------- + ----------- + |实体| m1_amt | m2_amt | m3_amt | ...

回答 2 投票 1

在spark数据集中检索列的特定行号数据

我有如下数据集+ --------- + |第1列| + --------- + | ABC | + --------- + | DEF | + --------- + | GHI | + --------- + | JKL | + --------- + | MNO | + --------- +现在,如果需要...

回答 1 投票 0


使用foldLeft和withColumn替代groupby / pivot / agg / collect_list的Spark SQL替代品,以提高性能

我有一个由三列组成的Spark DataFrame:id | col1 | col2 ----------------- x | p1 | a1 ----------------- x | p2 | b1 ----------------- y | p2 | b2 ----------------- ...

回答 1 投票 1

[使用foldLeft和withColumn使用groupby / pivot / agg / collect_list时如何提高Spark SQL的效率?

我有一个由三列组成的Spark DataFrame:id | col1 | col2 ----------------- x | p1 | a1 ----------------- x | p2 | b1 ----------------- y | p2 | b2 ----------------- ...

回答 1 投票 1

数据集过滤器工作异常

场景:我已经通过指定加载模式来读取两个XML文件。在模式中,标记之一是必需的。一种XML缺少该必需标记。现在,当我执行以下操作时,我期望...

回答 1 投票 1

火花无法爆炸列

对于给定的JSON响应:{“ id”:“ 1575972348068_1649088229”,“结果”:[{“ rows_count”:53,“ runtime_seconds”:0.004000000189989805,“ columns” ...

回答 1 投票 0

dataset.collectAsList()导致集群中的java.lang.ClassCastException

当我执行List 行=(List )数据集.collectAsList();在本地使用IntelliJ,我得到结果,但是在群集中运行时,出现以下错误。我在代码中使用UDF ... ] >>

回答 1 投票 0

dataset.collectAsList()导致spark 2.1.1中出现java.lang.ClassCastException

当我执行List 行=(List )数据集.collectAsList();在Spark 2.0.1中,我得到的结果很好,但在2.1.1中,我遇到了以下错误java.lang ....

回答 1 投票 0

在Spark Java中对两个数据集进行并集的必要条件是什么

什么是必要条件,例如没有列或相同列或不同列

回答 1 投票 -2

根据列的值在spark数据集中添加行号

我有一个样本数据集 如下,+ ---- + ---- + | col1 | col2 | + ---- + ---- + | a |一个| | a | b | | b | c | | c | d | + ---- + ---- +基于映射值Map sample = {“ key1” = 2,“ key2” = 4} I ...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.