apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

使用spark-sql进行临时表缓存

使用registerTempTable(spark 2.+的createOrReplaceTempView)注册的表是否被缓存? 使用 Zeppelin,我在 scala 代码中注册一个 DataFrame,经过大量计算,然后在 %py 内...

回答 3 投票 0

Pyspark。 Spark.SparkException:作业因阶段失败而中止:阶段 15.0 中的任务 0 失败 1 次,java.net.SocketException:连接重置

我是 pyspark 的新手,我正在尝试使用 pyspark 在 Prophet 中运行多个时间序列(作为分布式计算,因为我有 100 个时间序列需要预测),但我有如下错误。 进口...

回答 5 投票 0

如何从pyspark中的数据框列获取第一个值和最后一个值?

我有Dataframe,我想从DataFrame列中获取第一个值和最后一个值。 +----+-----+--------------------+ |测试|计数| 支持| +----+-----+--------------------+ | 一个| 5| 0.

回答 4 投票 0

在 Pyspark 中以正确的数据类型读取 CSV

当我尝试使用 Spark 导入本地 CSV 时,默认情况下每一列都会作为字符串读入。但是,我的列仅包含整数和时间戳类型。更具体地说,CSV 看起来...

回答 3 投票 0

如何通过spark-sql复制表

实际上,我想将一个表移动到另一个数据库。 但 Spark 不允许这样做。 那么,如何通过spark-sql来复制表呢? 我已经尝试过了。 选择 * INTO table1 IN new_database 中 来自旧数据...

回答 4 投票 0

在 Spark SQL 中编写 SQL 与使用 Dataframe API

我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码,其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC(更改数据捕获),

回答 4 投票 0

适用于 Hibernate/Springboot 的 Hive/SparkSQL 方言

我有一个 Springboot Web 应用程序,当前连接到 MySQL 数据库。我想使用 Databrick 的 JDBC 驱动程序将此连接更改为 SparkSQL 连接。 更改连接详细信息后...

回答 1 投票 0

在 Pyspark SQL 查询中使用列名作为参数

在一个特定的 DataFrame 上,我有一个 SQL 查询,我想使用它两次,一次生成每日结果,一次获取每月结果。 我不能只是汇总每日信息,因为我没有-

回答 1 投票 0

使用 Spark Listener 获取 Spark 作业中进行的所有读/写 SQL 查询

我想获取当前 Spark 作业中已进行的所有读/写查询(使用数据集 API)的列表。例如, 数据集 readDataFrame = Spark.read() .format("...

回答 2 投票 0

从元组列表创建 Spark DataFrame

我正在使用 CIFAR10 数据,并创建了包含以下数据的元组列表: (6.0, [0.23137255, 0.24313726, 0.24705882, 0.16862746, 0.18039216, 0.1764706, 0.19607843, .....

回答 1 投票 0

可以查看 JSON 格式的 Spark 历史服务器日志吗?

有什么方法可以查看JSON格式的Spark历史服务器日志吗?我正在使用 REST API curl http://localhost:8080/api/v1/applications 中的命令,但它始终以 HTML 形式返回数据。这...

回答 1 投票 0

在 Java 应用程序中使用 Spark REST HTTP 服务器时读取 Spark-defaults.conf

我正在使用 Spark 休息服务器来提交作业。提交 pyspark 应用程序时,文档将 mainClass 设置为 org.apache.spark.deploy.SparkSubmit,然后将 python 脚本作为 a...

回答 1 投票 0

为什么我的 Spark sql 无法到达 Oracle 数据库中的表?

我正在开发一个项目,需要使用 PySpark 更新 Oracle 数据库中现有表中的记录。然而,我正在使用的方法面临一些挑战。 这是一个总结...

回答 1 投票 0

SparkSQL 中如果有多个连接,查询的执行顺序是什么?

假设我在 c 列上有一个分区的镶木地板文件 p1。我已经在 p1 上创建了数据帧,并在更适合的条件下使用此列 c 与其他一些数据帧连接。 这有帮助吗

回答 1 投票 0

Pyspark:使用参数动态准备 pyspark-sql 查询

动态绑定参数和准备pyspark-sql语句有哪些不同的方法。 例子: 动态查询 查询='''选择列1,列2 FROM ${db_name}.${table_name} ...

回答 2 投票 0

保存DataFrame时如何避免生成crc文件和SUCCESS文件?

我使用以下代码将 Spark DataFrame 保存到 JSON 文件 unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json") 输出结果为: 部分-r-0...

回答 4 投票 0

使用 Spark Listener 获取 Spark 作业中进行的所有读/写查询

我想获取当前 Spark 作业中已进行的所有读/写查询(使用数据集 API)的列表。例如, 数据集 readDataFrame = Spark.read() .format("...

回答 2 投票 0

PIVOT 如何将 Dataframe api 转换为 Spark SQL

在将 dataframe api 转换为 Spark SQL 时,我得到了不同的输出。指出我错过了 sql 逻辑的地方。 我有一个名为演示的表,有两列值和标记。值列是 seq

回答 1 投票 0

如何在 PySpark 中使用正则表达式从 UDF 中获取最后一个特定字符?

我正在尝试使用正则表达式(regex)从 PySpark DataFrame 中提取最后一个字符,以便执行一些数据清理和解析为列。 目前,我正在使用 UDF (U...

回答 1 投票 0

Pyspark 找不到数据源:kafka

我正在研究 Kafka 流并尝试将其与 Apache Spark 集成。然而,在跑步时我遇到了问题。我收到以下错误。 这是我正在使用的命令。 df_TR =

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.