apache-spark-dataset 相关问题

Spark Dataset是映射到关系模式的强类型对象集合。它支持Spark DataFrames的类似优化，同时提供类型安全的编程接口。

我有类似以下的JSON原始数据{“ event”：“ login”，“ time”：“ 2019-11-20 00:14:46”，“ user_id”：978699} {“ event”：“ logout”， “ time”：“ 2019-11-20 00:14:46”，“ user_id”：992210} {“ event”：“ login”，“ time”：...

scala dataframe apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

如何根据由user_id划分的其他列值来计算行的差异

scala dataframe apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

如何分割数据帧-Scala Spark

我有以下数据框。我想使用spark的数据集api将其拆分为列。如何执行此操作？数据框中的数据是典型的组合apache日志中的一行。导入...

regex scala apache-spark parsing apache-spark-dataset

回答 3 投票 0

使用正则表达式解析Apache登录数据帧并进行拆分？

您将如何使用正则表达式将Apache日志拆分为装入数据框的列？我正在尝试尽可能多地使用spark数据集api。 Apache日志示例：127.0.0.1-坦率[10 / Oct / 2000：13：...

regex scala apache-spark parsing apache-spark-dataset

回答 1 投票 0

仅使用spark数据集api解析apache日志

我正在尝试使用spark数据集API将Apache日志解析为可以查询的表。我可以先创建一个RDD，然后转换为数据帧以注册一个临时表，但这是...

scala apache-spark parsing apache-spark-dataset

回答 1 投票 0

读取镶木地板文件时刷新数据帧的元数据

我正在尝试将实木复合地板文件作为数据帧读取，并将定期更新（路径为/ folder_name。只要有新数据，旧的实木复合地板文件路径（/ folder_name）就会重命名为临时...

apache-spark apache-spark-sql parquet apache-spark-dataset

回答 2 投票 1

如何将具有十进制的spark数据帧转换为具有相同精度的BigDecimal的数据集？

如何以给定的精度创建具有BigDecimal的spark数据集？请参见spark外壳中的以下示例。您将看到我可以使用所需的BigDecimal精度创建一个DataFrame，但是...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

在Java Spark中尝试zipWithIndex时出错

我尝试使用zipWithIndex添加具有行号的列，如下所示：spark val df = sc.parallelize（Seq（（1.0，2.0），（0.0，-1.0），（3.0，4.0），（6.0，-2.3 ）））。toDF（“ x”，“ y”）val rddzip = df.rdd ....

java apache-spark rdd apache-spark-dataset

回答 1 投票 1

使用限制时如何保持火花数据集的顺序，但>>

我有一个超过40万行的数据集。我需要从35万到370 000的2万行数据。我要做的是第一个dataset.limit（370000）.except（dataset.limit（350000），但是当我需要顺序时...

apache-spark apache-spark-dataset hadoop-partitioning

回答 1 投票 0

使用Java将函数应用于Apache Spark中数据集的单个列上

说我有一个数据集：数据集 sqlDF = this.spark.sql（“ SELECT first_name，last_name，age of person”；这将返回一个包含三列的数据集：first_name，last_name，age。我想要...

java apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

要从Spark DataFrame列出的所有列的区别

我有一个如下所示的数据框，我想转换为期望的格式，作为列表中的不同值。 + --------------------- + --------------- + | col1 | col2 | + ----------------...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

将数据框数据集转换为特定列的字符串数据类型的JSON格式，并将JSON字符串转换回数据框

我正在使用Spark Java读取数据集格式的消息。我需要调用Rest API方法（仅传递几个选定的列-PID，ACCOUNTNUM）。该方法期望记录列表出现在...

java json apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

java.lang.RuntimeException：编码时出错：java.lang.ArrayIndexOutOfBoundsException：1

当我尝试合并来自数据库和csv文件的两个数据集时出现错误，错误消息是这样的：org.apache.spark.SparkException：作业由于阶段失败而中止：任务0在...中] >

java apache-spark apache-spark-dataset

回答 1 投票 1

将CSV文件作为PySpark数据集导入（不包含数据框）

如何将CSV文件作为数据集导入PySpark？请注意，我并不是在问如何将它们导入数据框。从Databricks阅读此页时，我了解了数据集的一些优点...

python apache-spark pyspark apache-spark-dataset

回答 1 投票 0

在Spark SQL数据框中压缩并分解多列

我具有以下结构的数据框：A：Array [String] | B：数组[String] | [...多其他列...] ======================================== ================================== [A，...

apache-spark apache-spark-sql user-defined-functions apache-spark-dataset array-explode

回答 2 投票 1

时间序列/刻度数据集的火花转换

我们在配置单元中有一个表，该表存储每个交易日结束时的交易订单数据作为order_date。其他重要列是产品，合同，价格（所下订单的价格），ttime（交易时间）状态...

dataframe apache-spark apache-spark-sql time-series apache-spark-dataset

回答 1 投票 1

Spark DataFrame：查找并设置子节点的主根

我有以下Apache Spark数据帧：父-子A1-A10 A1-A2 A2-A3 A3-A4 A5-A7 A7-A6 A8-A9此数据帧...

apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

回答 1 投票 1

将数据集中具有键值对的列转换为不同的行

我在dataframe中有数据，该数据是从azure eventhub获得的。然后，我将此数据转换为json对象，并将所需的数据存储到数据集中，如下所示。用于从...

dataframe apache-spark apache-spark-sql apache-spark-dataset

回答 2 投票 0

将数据集中具有键值对数组的列转换为不同的行

我在dataframe中有数据，该数据是从azure eventhub获得的。然后，我将此数据转换为json对象，并将所需的数据存储到数据集中，如下所示。用于从...

dataframe apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 0

使用星火数据帧多列一排的变化值

我得到这个格式的数据帧（DF）。 df.show（）********* X1 | X2 | X3 | ..... | XN | ID_1 | ID_2 | .... id_23 1 | OK |好|约翰|空|空| |零2 |里克|良好| ...

scala apache-spark apache-spark-sql apache-spark-dataset

回答 1 投票 -4

apache-spark-dataset 相关问题

最新问题