apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

地图功能里面调用SQL SPARK

在我的代码我有，我需要调用SQL火花为每一个数据集的行的要求。现在，火花SQL需要地图功能，这是不可能通过一个内部SparkSession ...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 -1

如何解释火花列的类型减少

我有以下表DEST_COUNTRY_NAME ORIGIN_COUNTRY_NAME指望美国罗马尼亚15美国1克罗地亚美国爱尔兰...

scala apache-spark fold apache-spark-dataset

回答 2 投票 -2

星火斯卡拉数据集类型层次

试图强制执行W延伸有一个返回WR的子类的数据集的方法获取类。抽象类WR案例类TGWR（A：字符串B：字符串）...

scala apache-spark apache-spark-dataset apache-spark-encoders

回答 1 投票 0

列类型推断为带有类型UDAF的二进制

我正在尝试实现一个返回复杂类型的类型化UDAF。不知何故，Spark无法推断结果列的类型，并使二进制文件将序列化数据放在那里。这是一个最小的例子......

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders

回答 1 投票 2

Spark Java edit data in column

我想遍历spark DataFrame中一列的内容，并在满足特定条件的情况下更正单元格中的数据+ ------------- + | column_title | + ------------- + + ----- + ...

java apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 1

Spark中的数据帧和数据集

我是Spark的新手，正在经历Dataframes和Dataset。我试着理解它们之间的区别，但我很困惑。我从这里开始发现RDD的抽象发生了......

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

如何加速一个复杂数据集的处理/写入

我有一个函数抛出大量数据（数十亿行）并返回元组数据集[（Seq [Data1]，Seq [Data2]，Seq [Data3]）]这个结果数据集包含更多行...

apache-spark apache-spark-dataset

回答 1 投票 1

连接数据集并重命名一列

我知道如何实现它，但我想（或者至少我希望）有一种更简单，更少样板的方法来做同样的事情。场景：员工+ ------- + --- + ------------ + |名称| AGE | ...

java apache-spark apache-spark-sql apache-spark-dataset

回答 3 投票 -1

Java-Spark：如何获取数据集在循环中迭代时的列值，并在when（）中使用它。否则（）？

我有一个数据集具有值“null”的列（空写文本）。我试图将“null”文本替换为text：\ N.为此，我使用一个逻辑，我将添加一个名为的新列...

java apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

如何将sql转换为spark数据集？

我有一个Val test = sql（“select * from table1”），它返回一个数据帧。我想将它转换为无效的数据集.test.toDS抛出错误。

apache-spark apache-spark-dataset

回答 1 投票 -2

使用数据集交叉加入Apache Spark非常慢

我已经在spark用户论坛上发布了这个问题，但没有收到任何回复，所以再次在这里询问。我们有一个用例，我们需要进行笛卡尔连接，由于某种原因我们无法得到它...

apache-spark join apache-spark-dataset cross-join

回答 1 投票 0

如何将Id添加到spark中的所有数据帧行

嗨我的csv文件结构就像File-1 id col1 col2 a_1 sd fd ds emd sf jhk File-2 id col1 col2 b_2 sd fd ds emd sf jhk现在我想...

apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 1

使用Spark Connector for CosmosDB时不兼容的Jackson版本

当我尝试使用Scala中的cosmosdb连接器从SparkSql数据集读取时出现异常。我在本地模式下运行Spark。我的sbt依赖关系看起来像：libraryDependencies ++ = Seq（“...

scala apache-spark apache-spark-sql azure-cosmosdb apache-spark-dataset

回答 1 投票 0

Spark：scala中数据集的动态过滤器

我有一个数据集（ds），看起来像scala> ds.show（）+ ---- + --- + ----- + ---- + ----- + ------ -------- + | name | age | field | optr | value |治| + ---- + --- + ----- + ---- + ----- + -------------- + | A | 75 | ...

apache-spark apache-spark-dataset

回答 2 投票 0

小文件是否会分布在JavaPairRDD中的分区上？

这可能是一个愚蠢的问题，但我无法理解文件如何跨分区分割。我的要求是从Hdfs位置读取10000个二进制文件（Bloom过滤器持久文件）并...

apache-spark apache-spark-sql rdd apache-spark-dataset

回答 1 投票 0

将scala数据帧转换为数组类型列的数据集

我有一个scala数据框，如下所示：+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2174,4.246965E ... | | 41345063 | [[2174,0 ...

scala apache-spark apache-spark-dataset

回答 1 投票 0

将列表过滤到scala数据集中每个参数值的前2个案例类

我有一个像这样的火花数据集：+ -------- + -------------------- + | UID |推荐| + -------- + -------------------- + | 41344966 | [[2133，red] ... | | 41345063 | [[11353，红色... | | 41346177 | [...

scala apache-spark-dataset

回答 1 投票 0

将scala数据帧列合并为单个案例类

我有一个如下所示的数据框：+ -------- + ----- + -------------------- + | UID | IID |色| + -------- + ----- + -------------------- + | 41344966 | 1305 |红| | ...

scala apache-spark apache-spark-dataset

回答 1 投票 -2

将spark scala数据集转换为特定的RDD格式

我有一个如下所示的数据框：+ -------------------- + ----------------- + |推荐| relevant_products | + -------------------- + ----------------- + | [12949,12499,71 ... | [...

scala rdd apache-spark-dataset

回答 1 投票 0

星期几的单词的星号计数

我有一个数据集+ ---------- + -------- + ------------ + | ID |日期|错误| + ---------- + -------- + ------------ + | 1 | 20170319 | ERROR1 | | 1 | 20170319 |误差2 | | 1 ...

sql scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 2

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.