apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化,同时提供类型安全的编程接口。

如何根据由user_id划分的其他列值来计算行的差异

我有类似以下的JSON原始数据{“ event”:“ login”,“ time”:“ 2019-11-20 00:14:46”,“ user_id”:978699} {“ event”:“ logout”, “ time”:“ 2019-11-20 00:14:46”,“ user_id”:992210} {“ event”:“ login”,“ time”:...

回答 2 投票 0

如何根据由user_id划分的其他列值来计算行的差异

我有类似以下的JSON原始数据{“ event”:“ login”,“ time”:“ 2019-11-20 00:14:46”,“ user_id”:978699} {“ event”:“ logout”, “ time”:“ 2019-11-20 00:14:46”,“ user_id”:992210} {“ event”:“ login”,“ time”:...

回答 2 投票 0

如何分割数据帧-Scala Spark

我有以下数据框。我想使用spark的数据集api将其拆分为列。如何执行此操作?数据框中的数据是典型的组合apache日志中的一行。导入...

回答 3 投票 0

使用正则表达式解析Apache登录数据帧并进行拆分?

您将如何使用正则表达式将Apache日志拆分为装入数据框的列?我正在尝试尽可能多地使用spark数据集api。 Apache日志示例:127.0.0.1-坦率[10 / Oct / 2000:13:...

回答 1 投票 0

仅使用spark数据集api解析apache日志

我正在尝试使用spark数据集API将Apache日志解析为可以查询的表。我可以先创建一个RDD,然后转换为数据帧以注册一个临时表,但这是...

回答 1 投票 0

读取镶木地板文件时刷新数据帧的元数据

我正在尝试将实木复合地板文件作为数据帧读取,并将定期更新(路径为/ folder_name。只要有新数据,旧的实木复合地板文件路径(/ folder_name)就会重命名为临时...

回答 2 投票 1

如何将具有十进制的spark数据帧转换为具有相同精度的BigDecimal的数据集?

如何以给定的精度创建具有BigDecimal的spark数据集?请参见spark外壳中的以下示例。您将看到我可以使用所需的BigDecimal精度创建一个DataFrame,但是...

回答 2 投票 0

在Java Spark中尝试zipWithIndex时出错

我尝试使用zipWithIndex添加具有行号的列,如下所示:spark val df = sc.parallelize(Seq((1.0,2.0),(0.0,-1.0),(3.0,4.0),(6.0,-2.3 )))。toDF(“ x”,“ y”)val rddzip = df.rdd ....

回答 1 投票 1

使用限制时如何保持火花数据集的顺序,但>>

我有一个超过40万行的数据集。我需要从35万到370 000的2万行数据。我要做的是第一个dataset.limit(370000).except(dataset.limit(350000),但是当我需要顺序时...

回答 1 投票 0

使用Java将函数应用于Apache Spark中数据集的单个列上

说我有一个数据集:数据集 sqlDF = this.spark.sql(“ SELECT first_name,last_name,age of person”;这将返回一个包含三列的数据集:first_name,last_name,age。我想要...

回答 1 投票 0

要从Spark DataFrame列出的所有列的区别

我有一个如下所示的数据框,我想转换为期望的格式,作为列表中的不同值。 + --------------------- + --------------- + | col1 | col2 | + ----------------...

回答 1 投票 0

将数据框数据集 转换为特定列的字符串数据类型的JSON格式,并将JSON字符串转换回数据框

我正在使用Spark Java读取数据集格式的消息。我需要调用Rest API方法(仅传递几个选定的列-PID,ACCOUNTNUM)。该方法期望记录列表出现在...

回答 1 投票 0

java.lang.RuntimeException:编码时出错:java.lang.ArrayIndexOutOfBoundsException:1

当我尝试合并来自数据库和csv文件的两个数据集时出现错误,错误消息是这样的:org.apache.spark.SparkException:作业由于阶段失败而中止:任务0在...中] >

回答 1 投票 1

将CSV文件作为PySpark数据集导入(不包含数据框)

如何将CSV文件作为数据集导入PySpark?请注意,我并不是在问如何将它们导入数据框。从Databricks阅读此页时,我了解了数据集的一些优点...

回答 1 投票 0

在Spark SQL数据框中压缩并分解多列

我具有以下结构的数据框:A:Array [String] | B:数组[String] | [...多其他列...] ======================================== ================================== [A,...

回答 2 投票 1

时间序列/刻度数据集的火花转换

我们在配置单元中有一个表,该表存储每个交易日结束时的交易订单数据作为order_date。其他重要列是产品,合同,价格(所下订单的价格),ttime(交易时间)状态...

回答 1 投票 1

Spark DataFrame:查找并设置子节点的主根

我有以下Apache Spark数据帧:父-子A1-A10 A1-A2 A2-A3 A3-A4 A5-A7 A7-A6 A8-A9此数据帧...

回答 1 投票 1

将数据集中具有键值对的列转换为不同的行

我在dataframe中有数据,该数据是从azure eventhub获得的。然后,我将此数据转换为json对象,并将所需的数据存储到数据集中,如下所示。用于从...

回答 2 投票 0

将数据集中具有键值对数组的列转换为不同的行

我在dataframe中有数据,该数据是从azure eventhub获得的。然后,我将此数据转换为json对象,并将所需的数据存储到数据集中,如下所示。用于从...

回答 1 投票 0

使用星火数据帧多列一排的变化值

我得到这个格式的数据帧(DF)。 df.show()********* X1 | X2 | X3 | ..... | XN | ID_1 | ID_2 | .... id_23 1 | OK |好|约翰|空|空| |零2 |里克|良好| ...

回答 1 投票 -4

© www.soinside.com 2019 - 2024. All rights reserved.