apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Spark jdbc 覆盖模式未按预期工作

我想使用spark执行更新和插入操作 请查找现有表格的图像参考 在这里,我更新 id :101 位置和插入时间并插入另外 2 条记录: ...

回答 6 投票 0

Spark-Hive 应用程序:集群上的 SASL 与 Kerberos 协商失败

我在 Kerberos 集群上运行的 Spark-Hive 应用程序遇到问题。我收到 javax.security.sasl.SaslException:GSS 启动失败错误,这似乎是由于未找到 ...

回答 1 投票 0

如何使用 pyspark 将不同的值放在一列中

我想将不同的值放在一列中 例如, 内华达州 问 值1 值2 值3 值4 234 1 10 0 0 0 234 2 0 15 0 0 234 3 0 0 20 0 234 4 0 0 0 25 根据 Q,值 1-4

回答 1 投票 0

pyspark.errors.exceptions.captured.IllegalArgumentException:输出列功能已存在

这是我下面的代码,我收到此错误“pyspark.errors.exceptions.captured.IllegalArgumentException:输出列功能已存在”我检查了其他帖子,但我不...

回答 1 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里,我尝试模拟 Hudi 数据集的更新和删除,并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。 尝试使用

回答 1 投票 0

如何在Python函数内更新pyspark数据框

我有一个Python函数,它接收pyspark数据帧并检查它是否具有脚本中使用的其他函数所需的所有列。特别是,如果缺少“体重”列,我想...

回答 1 投票 0

如何使用apache Spark和python创建嵌套对象

我在使用 apache Spark 和 python 创建嵌套对象时遇到问题。 我有以下数据框: GPS数据 根 |--vehicle_id:字符串(可空 = true) |-- Organization_id: 字符串 (

回答 1 投票 0

Spark sql 创建并引用映射/查找表,如 Qlik 的 applymap 函数

我正在 Azure Synapse Spark sql 笔记本中工作,我有一个查找表,其中包含主表中 15 个代码字段的显示值。我想避免将查找表加入...

回答 1 投票 0

pyspark - 这两个完整外连接有什么区别?

完整示例在这里。 我看到两种不同的输出,这两种方法在 pyspark 中的两个数据帧上进行完整的外部连接: 用户1_df。 \ 加入(users2_df,users1_df.email == users2_df.email,'

回答 1 投票 0

如何迭代 scala 数据帧行并将列名称存储在可用于 for 循环内的某些操作的变量中?

需要了解,如何使用for循环迭代scala数据帧并在for循环内执行一些操作。我可以使用下面的代码进行迭代,但我无法执行任何其他操作,例如 storin...

回答 2 投票 0

Spark 中如何从外部数据源并行读取数据?

我是 Spark 新手,正在阅读学习 Spark 日志。对数据获取/读取的概念有疑问。 如果我有一个外部数据源(未分区)并且我想...

回答 1 投票 0

Airflow 未获取 Spark 作业的 FAILED 状态

我正在使用此 Helm 图表在 Kubernetes 上运行 Airflow:https://github.com/apache/airflow/tree/1.5.0 我编写了一个非常简单的 DAG 只是为了测试一些东西。它看起来像这样: 默认参数={ '

回答 2 投票 0

与空数据框联合问题

我想在循环中将一个数据帧附加到另一个空数据帧,最后写入一个位置。 我的代码 - val myMap = Map(1001 -> "rollNo='12'",1002 -> "rollNo='13'")...

回答 2 投票 0

如何在scala数据框中分解两个数组列?

如果我只是执行下面的操作,我会得到每个主题重复的 4 行标记。任何人都可以在这里指点一下来解决这个问题。 df.withColumn("subject",explode($"subject")).withColumn(&...

回答 1 投票 0

Apache hive:如何获取表达式的数据类型?是否有一些 Spark typeof 或 PostgresSQL pg_typeof 函数的类似函数?

Apache Spark 中的 typeof 和 PostgreSQL 中的 pg_typeof 函数可以获取任何值或表达式的数据类型,例如 选择类型(1=1) ╭────────────────────╮ │ typeof((1 = 1)) │ ├────────────……

回答 1 投票 0

“hoodie.parquet.max.file.size”和“hoodie.parquet.small.file.limit”属性被忽略

我希望我的连帽衫文件大小在小 = 50MB 和最大 = 100MB 之间。 以下配置用作更新插入的地图选项: val hudiOptions = Map[字符串, 字符串]( HoodieWriteConfig.TBL...

回答 1 投票 0

如何读取apache Spark中最新的分区

我使用了包含查询的数据框 df : Dataframe =spark.sql(s"显示分区 $yourtablename") 现在分区的数量每天都在变化,因为它每天都在运行。 主要...

回答 3 投票 0

Pyspark 如何避免顶部和嵌套结构中的组爆炸(代码优化)

问题 我想根据请求数据计算一些统计数据,这些数据按顶层中的值和嵌套层中的值分组。 explode-join和3x groupby的主要问题是大数据的代码(100G...

回答 1 投票 0

执行器内的内核共享内存

假设我们有 5 台工作机器。每个工作节点配置为 16 核和 64 GB 内存。总共 80 个核心和 320 GB 内存。 现在我们可以配置如下属性: 选项 1:设置...

回答 1 投票 0

如何使用 PySpark 将另一列中包含的列名称替换为该列的值?

我有一个 PySpark 数据框,如下所示: ID 第 1 列 列2 可乐 科尔B id_1 %可乐 < %colA int1 int3 Id_2 %colB t < %colB int2 int4 I want to replace strings starting with % with it's corresponding

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.