apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

地图功能里面调用SQL SPARK

在我的代码我有,我需要调用SQL火花为每一个数据集的行的要求。现在,火花SQL需要地图功能,这是不可能通过一个内部SparkSession ...

回答 1 投票 -1

如何解释火花列的类型减少

我有以下表DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME指望美国罗马尼亚15美国1克罗地亚美国爱尔兰...

回答 2 投票 -2

星火斯卡拉数据集类型层次

试图强制执行W延伸有一个返回WR的子类的数据集的方法获取类。抽象类WR案例类TGWR(A:字符串B:字符串)...

回答 1 投票 0

列类型推断为带有类型UDAF的二进制

我正在尝试实现一个返回复杂类型的类型化UDAF。不知何故,Spark无法推断结果列的类型,并使二进制文件将序列化数据放在那里。这是一个最小的例子......

回答 1 投票 2

Spark Java edit data in column

我想遍历spark DataFrame中一列的内容,并在满足特定条件的情况下更正单元格中的数据+ ------------- + | column_title | + ------------- + + ----- + ...

回答 2 投票 1

Spark中的数据帧和数据集

我是Spark的新手,正在经历Dataframes和Dataset。我试着理解它们之间的区别,但我很困惑。我从这里开始发现RDD的抽象发生了......

回答 1 投票 0

如何加速一个复杂数据集的处理/写入

我有一个函数抛出大量数据(数十亿行)并返回元组数据集[(Seq [Data1],Seq [Data2],Seq [Data3])]这个结果数据集包含更多行...

回答 1 投票 1

连接数据集并重命名一列

我知道如何实现它,但我想(或者至少我希望)有一种更简单,更少样板的方法来做同样的事情。场景:员工+ ------- + --- + ------------ + |名称| AGE | ...

回答 3 投票 -1

Java-Spark:如何获取数据集 在循环中迭代时的列值,并在when()中使用它。否则()?

我有一个数据集 具有值“null”的列(空写文本)。我试图将“null”文本替换为text:\ N.为此,我使用一个逻辑,我将添加一个名为的新列...

回答 1 投票 0

如何将sql转换为spark数据集?

我有一个Val test = sql(“select * from table1”),它返回一个数据帧。我想将它转换为无效的数据集.test.toDS抛出错误。

回答 1 投票 -2

使用数据集交叉加入Apache Spark非常慢

我已经在spark用户论坛上发布了这个问题,但没有收到任何回复,所以再次在这里询问。我们有一个用例,我们需要进行笛卡尔连接,由于某种原因我们无法得到它...

回答 1 投票 0

如何将Id添加到spark中的所有数据帧行

嗨我的csv文件结构就像File-1 id col1 col2 a_1 sd fd ds emd sf jhk File-2 id col1 col2 b_2 sd fd ds emd sf jhk现在我想...

回答 1 投票 1

使用Spark Connector for CosmosDB时不兼容的Jackson版本

当我尝试使用Scala中的cosmosdb连接器从SparkSql数据集读取时出现异常。我在本地模式下运行Spark。我的sbt依赖关系看起来像:libraryDependencies ++ = Seq(“...

回答 1 投票 0

Spark:scala中数据集的动态过滤器

我有一个数据集(ds),看起来像scala> ds.show()+ ---- + --- + ----- + ---- + ----- + ------ -------- + | name | age | field | optr | value |治| + ---- + --- + ----- + ---- + ----- + -------------- + | A | 75 | ...

回答 2 投票 0

小文件是否会分布在JavaPairRDD中的分区上?

这可能是一个愚蠢的问题,但我无法理解文件如何跨分区分割。我的要求是从Hdfs位置读取10000个二进制文件(Bloom过滤器持久文件)并...

回答 1 投票 0

将scala数据帧转换为数组类型列的数据集

我有一个scala数据框,如下所示:+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2174,4.246965E ... | | 41345063 | [[2174,0 ...

回答 1 投票 0

将列表过滤到scala数据集中每个参数值的前2个案例类

我有一个像这样的火花数据集:+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2133,red] ... | | 41345063 | [[11353,红色... | | 41346177 | [...

回答 1 投票 0

将scala数据帧列合并为单个案例类

我有一个如下所示的数据框:+ -------- + ----- + -------------------- + | UID | IID |色| + -------- + ----- + -------------------- + | 41344966 | 1305 |红| | ...

回答 1 投票 -2

将spark scala数据集转换为特定的RDD格式

我有一个如下所示的数据框:+ -------------------- + ----------------- + |推荐| relevant_products | + -------------------- + ----------------- + | [12949,12499,71 ... | [...

回答 1 投票 0

星期几的单词的星号计数

我有一个数据集+ ---------- + -------- + ------------ + | ID |日期|错误| + ---------- + -------- + ------------ + | 1 | 20170319 | ERROR1 | | 1 | 20170319 |误差2 | | 1 ...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.