Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。
使用registerTempTable(spark 2.+的createOrReplaceTempView)注册的表是否被缓存? 使用 Zeppelin,我在 scala 代码中注册一个 DataFrame,经过大量计算,然后在 %py 内...
Pyspark。 Spark.SparkException:作业因阶段失败而中止:阶段 15.0 中的任务 0 失败 1 次,java.net.SocketException:连接重置
我是 pyspark 的新手,我正在尝试使用 pyspark 在 Prophet 中运行多个时间序列(作为分布式计算,因为我有 100 个时间序列需要预测),但我有如下错误。 进口...
我有Dataframe,我想从DataFrame列中获取第一个值和最后一个值。 +----+-----+--------------------+ |测试|计数| 支持| +----+-----+--------------------+ | 一个| 5| 0.
当我尝试使用 Spark 导入本地 CSV 时,默认情况下每一列都会作为字符串读入。但是,我的列仅包含整数和时间戳类型。更具体地说,CSV 看起来...
实际上,我想将一个表移动到另一个数据库。 但 Spark 不允许这样做。 那么,如何通过spark-sql来复制表呢? 我已经尝试过了。 选择 * INTO table1 IN new_database 中 来自旧数据...
在 Spark SQL 中编写 SQL 与使用 Dataframe API
我是 Spark SQL 世界的新手。我目前正在迁移应用程序的摄取代码,其中包括阶段摄取数据、HDFS 中的原始层和应用程序层以及进行 CDC(更改数据捕获),
适用于 Hibernate/Springboot 的 Hive/SparkSQL 方言
我有一个 Springboot Web 应用程序,当前连接到 MySQL 数据库。我想使用 Databrick 的 JDBC 驱动程序将此连接更改为 SparkSQL 连接。 更改连接详细信息后...
在一个特定的 DataFrame 上,我有一个 SQL 查询,我想使用它两次,一次生成每日结果,一次获取每月结果。 我不能只是汇总每日信息,因为我没有-
使用 Spark Listener 获取 Spark 作业中进行的所有读/写 SQL 查询
我想获取当前 Spark 作业中已进行的所有读/写查询(使用数据集 API)的列表。例如, 数据集 readDataFrame = Spark.read() .format("...
我正在使用 CIFAR10 数据,并创建了包含以下数据的元组列表: (6.0, [0.23137255, 0.24313726, 0.24705882, 0.16862746, 0.18039216, 0.1764706, 0.19607843, .....
有什么方法可以查看JSON格式的Spark历史服务器日志吗?我正在使用 REST API curl http://localhost:8080/api/v1/applications 中的命令,但它始终以 HTML 形式返回数据。这...
在 Java 应用程序中使用 Spark REST HTTP 服务器时读取 Spark-defaults.conf
我正在使用 Spark 休息服务器来提交作业。提交 pyspark 应用程序时,文档将 mainClass 设置为 org.apache.spark.deploy.SparkSubmit,然后将 python 脚本作为 a...
为什么我的 Spark sql 无法到达 Oracle 数据库中的表?
我正在开发一个项目,需要使用 PySpark 更新 Oracle 数据库中现有表中的记录。然而,我正在使用的方法面临一些挑战。 这是一个总结...
假设我在 c 列上有一个分区的镶木地板文件 p1。我已经在 p1 上创建了数据帧,并在更适合的条件下使用此列 c 与其他一些数据帧连接。 这有帮助吗
Pyspark:使用参数动态准备 pyspark-sql 查询
动态绑定参数和准备pyspark-sql语句有哪些不同的方法。 例子: 动态查询 查询='''选择列1,列2 FROM ${db_name}.${table_name} ...
保存DataFrame时如何避免生成crc文件和SUCCESS文件?
我使用以下代码将 Spark DataFrame 保存到 JSON 文件 unzipJSON.write.mode("append").json("/home/eranw/Workspace/JSON/output/unCompressedJson.json") 输出结果为: 部分-r-0...
使用 Spark Listener 获取 Spark 作业中进行的所有读/写查询
我想获取当前 Spark 作业中已进行的所有读/写查询(使用数据集 API)的列表。例如, 数据集 readDataFrame = Spark.read() .format("...
PIVOT 如何将 Dataframe api 转换为 Spark SQL
在将 dataframe api 转换为 Spark SQL 时,我得到了不同的输出。指出我错过了 sql 逻辑的地方。 我有一个名为演示的表,有两列值和标记。值列是 seq
如何在 PySpark 中使用正则表达式从 UDF 中获取最后一个特定字符?
我正在尝试使用正则表达式(regex)从 PySpark DataFrame 中提取最后一个字符,以便执行一些数据清理和解析为列。 目前,我正在使用 UDF (U...
我正在研究 Kafka 流并尝试将其与 Apache Spark 集成。然而,在跑步时我遇到了问题。我收到以下错误。 这是我正在使用的命令。 df_TR =