apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

我有一个HDFS路径，其中包含Java对象（例如Obj1）编写的数据，我想在我的Spark Scala代码中读取此路径，并将其作为Obj1的数据集读取。一种方法是读取HDFS ...

scala apache-spark-dataset

回答 1 投票 0

您好，我试图测试以下将Dataset [Row]作为参数的函数def getReducedSubsidiaries（dsSubsidiaries：Dataset [Row]）（隐式spark：SparkSession）：Dataset [...

scala apache-spark apache-spark-sql dataset apache-spark-dataset

回答 1 投票 0

处理Spark数据帧/数据集中的重复数据

我是Spark和Scala的新手，即使阅读了各种文档，我仍然找不到解决问题的最佳方法。我有一个相当大的数据集（〜TB），可以将其加载到数据帧中...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

Spark DataFrame / Dataset查找每种键有效方式的最常用值

问题：我在使用Spark来映射Spark中键的最常见值时遇到问题。我已经用RDD完成了，但是不知道如何有效地处理DF / DS（sparksql）数据集，就像key1 = value_a ...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

如何联接Spark数据集A和B并标记A中未联接的记录？

我有两个分别为TypeA和TypeB的数据集A和B。然后，我基于列（称为“键”）加入数据集，以获取数据集C。此后，我需要丢弃数据集A中的事件，......>

apache-spark join apache-spark-dataset

回答 1 投票 -1

为什么使用Spark Dataset.select替换列值

Dataset ds = ..... ds = ds.select（“ cola”，“ colb”）; ds.show（）; DS已正确加载。 DS包含多个列。我要选择“可乐”和“ colb”专栏。这些列确实存在，...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

无法解析符号mapValue

我在哪里出错了这个错误。我是火花新手，请提供帮助。如何在RDD包com.udemyexamples import org.apache.spark.sql.SparkSession对象上使用mapValues ...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 -2

无法将`ordId`从字符串转换为int，因为它可能会截断

我正在尝试读取一个小的文件作为数据集，但是它给出了错误“无法将ordId从字符串强制转换为int，因为它可能会被截断”。这是代码：object Main {case class Orders（ordId：...

scala apache-spark apache-spark-dataset

回答 1 投票 -1

Spark：如何使用Avro模式创建数据集？

我有一组avro文件，它们以.avsc文件中定义的已知模式保存在aws S3中。有没有一种方法可以使用定义的模式在spark中创建对象的数据集？模式如下：{“ ...

apache-spark avro apache-spark-dataset avsc

回答 1 投票 0

将所有新行转换为带有Scala的Spark中的新列

scala apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 1

在spark数据集中检索列的特定行号数据

我有如下数据集+ --------- + |第1列| + --------- + | ABC | + --------- + | DEF | + --------- + | GHI | + --------- + | JKL | + --------- + | MNO | + --------- +现在，如果需要...

apache-spark apache-spark-dataset

回答 1 投票 0

在Spark数据集中添加ADT列？

<<< [

scala apache-spark apache-spark-dataset algebraic-data-types apache-spark-encoders

回答 1 投票 0

使用foldLeft和withColumn替代groupby / pivot / agg / collect_list的Spark SQL替代品，以提高性能

我有一个由三列组成的Spark DataFrame：id | col1 | col2 ----------------- x | p1 | a1 ----------------- x | p2 | b1 ----------------- y | p2 | b2 ----------------- ...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

[使用foldLeft和withColumn使用groupby / pivot / agg / collect_list时如何提高Spark SQL的效率？

我有一个由三列组成的Spark DataFrame：id | col1 | col2 ----------------- x | p1 | a1 ----------------- x | p2 | b1 ----------------- y | p2 | b2 ----------------- ...

apache-spark-sql apache-spark-dataset

回答 1 投票 1

数据集过滤器工作异常

场景：我已经通过指定加载模式来读取两个XML文件。在模式中，标记之一是必需的。一种XML缺少该必需标记。现在，当我执行以下操作时，我期望...

java xml apache-spark apache-spark-dataset apache-spark-xml

回答 1 投票 1

火花无法爆炸列

对于给定的JSON响应：{“ id”：“ 1575972348068_1649088229”，“结果”：[{“ rows_count”：53，“ runtime_seconds”：0.004000000189989805，“ columns” ...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

dataset.collectAsList（）导致集群中的java.lang.ClassCastException

当我执行List 行=（List ）数据集.collectAsList（）;在本地使用IntelliJ，我得到结果，但是在群集中运行时，出现以下错误。我在代码中使用UDF ... ] >>

apache-spark user-defined-functions apache-spark-dataset

回答 1 投票 0

dataset.collectAsList（）导致spark 2.1.1中出现java.lang.ClassCastException

当我执行List 行=（List ）数据集.collectAsList（）;在Spark 2.0.1中，我得到的结果很好，但在2.1.1中，我遇到了以下错误java.lang ....

apache-spark user-defined-functions apache-spark-dataset

回答 1 投票 0

在Spark Java中对两个数据集进行并集的必要条件是什么

什么是必要条件，例如没有列或相同列或不同列

java apache-spark union apache-spark-dataset

回答 1 投票 -2

根据列的值在spark数据集中添加行号

我有一个样本数据集如下，+ ---- + ---- + | col1 | col2 | + ---- + ---- + | a |一个| | a | b | | b | c | | c | d | + ---- + ---- +基于映射值Map sample = {“ key1” = 2，“ key2” = 4} I ...

java apache-spark row-number apache-spark-dataset

回答 1 投票 -1

apache-spark-dataset 相关问题

最新问题