pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

Pyspark 将 MapType 列转换为重复键

我有一个要转换的数据框 原始数据框: 从 pyspark.sql 导入行 Spark.createDataFrame([ Row(规则={1: [7408,4586], 2: [9670,2474] }), ])。展示() 规则 地图...

回答 1 投票 0

从 Azure Synapse 笔记本将数据写入 kusto 时出现异常

使用以下 pyspark 代码从 Azure Synapse 笔记本写入 Kusto 时。如果表已经存在,我会得到一个异常。 df.write \ .format("com.microsoft.kusto.spark.synapse.datas...

回答 1 投票 0

使用 pyspark 从 RDS MySQL 数据库提取数据

我第一次使用pyspark。我正在尝试使用以下代码从 RDS MySQL 数据库中提取数据。我参考了以下链接 pyspark mysql jdbc load 调用o23时发生错误...

回答 1 投票 0

PySpark 中 select() 和 .withColumn()/.withColumns() 的性能比较

我正在寻求优化 PySpark 中的数据转换,并注意到文档建议在多个 .withColumn() 调用上使用 .select() 以获得更好的性能。这提出了两个问题……

回答 1 投票 0

检查 Pyspark 生成的 SQL 查询

有没有办法将 pyspark 命令翻译成 SQL 并检查它?例如,转动 Spark.table("this_table").filter(F.col("first_col")>100).select("第二...

回答 1 投票 0

从 Azure 容器读取输入 CSV 文件时,如何在 Databricks 中使用 PySpark 动态传递列名称

我有一个输入文件employee.csv,存储在包含“Empid”、“Ename”、“Esalary”列的容器中,并且我使用这3个列在databicks delta Lake中创建了一个目标表

回答 1 投票 0

临时视图并合并到语句中

是否支持将临时视图作为源传递到合并语句中? 我正在创建临时视图 df.createOrReplaceTempView("dim_user") 然后我想用它作为

回答 1 投票 0

并行优化 API 调用

我们有下面的Python代码。它有 2 个 API a) 获取所有客户 - get_all_customers () b) 获取特定客户详细信息 - get_specifc_customer_details() 目前 (b) get_specifc_customer_d...

回答 1 投票 0

如何处理pyspark中的转义字符。当数据框中的列值为 ' ' 时,尝试用 NULL 替换转义字符

如何处理pyspark中的转义字符。尝试用 NULL 替换转义字符 ' ' 随机分布在所有列中,我已在所有列中用 NULL 替换为 ' '...

回答 1 投票 0

在架构中使用特定类型时,加载保存的 df 后 Databricks 值为空

我在使用databricks时遇到一个问题,当我在模式中设置特定类型并读取json时,它的值很好,但是在保存我的df并再次加载后,该值消失了。 我有这个...

回答 1 投票 0

在spark sql中分割包含嵌套括号的字符串

我有一个场景,我有一个包含嵌套括号的字符串列,我需要以递归方式从该字符串中提取字符串。 例如 A1 和(A4 或(A2 和 A3))和(B1 或 B2)...

回答 1 投票 0

如何在GCS中的增量表之上创建BQ外部表并仅显示最新快照

我正在尝试在 delta 表之上创建一个外部 BQ 外部表,该表使用 google storage 作为存储层。在增量表上,我们执行 DML,其中包括删除。 我可以创建一个 BQ

回答 4 投票 0

MongoDB 中的数据类型未通过 databricks Pyspark 更改(从字符串到日期)

我正在尝试使用 databricks pyspark 将多个文档加载到 MongoDb 集合中,在加载时我也使用 updateDate 归档,但加载后我可以看到 updateDate 字段数据

回答 1 投票 0

如何将spark中的json字符串插入到postgres中jsonb类型的列中

我必须将 Spark (Scala) 中的 json 字符串插入 Postgres 中 JSONB 类型的列中。我必须单独计算这个字符串,然后将该值作为新列添加到数据框中。所以用了df。

回答 1 投票 0

Spark:如何打印时间戳列和时区?

有一个场景,我们从Teradata(SRC)获取输入数据并将其加载到spark hive仓库中。我们有一个时间戳列和时区,如下所示,并且希望看到相同的...

回答 1 投票 0

将 .so 文件与 pyspark 一起使用

我正在尝试通过 pyspark 提交并使用 python 模块,但我遇到了导入错误。一切在本地工作都完美,但将作业提交给远程工作人员时问题就出现了。 ...

回答 1 投票 0

使用python将数据从kafka发送到s3

对于我当前的项目,我正在使用 Kafka (python),想知道是否有任何方法可以将流式 Kafka 数据发送到 AWS S3 存储桶(不使用 Confluence)。我是...

回答 1 投票 0

pyspark 支持 Spark-salesforce 吗?

我正在尝试使用 Spark 来处理我们在 salesforce 实例中保存的数据。我知道 simple-salesforce python 库的存在,但前几天我遇到了 Spark-salesforce 并且......

回答 1 投票 0

如何在本地PySpark上从S3读取

我正在尝试读取存储在 S3 存储桶中的 CSV。我已经随 Homebrew 安装了 Apache Spark 3.5.1。我已经下载了 Hadoop AWS 连接器并将其复制到 /opt/homebrew/Cellar/apache-spark/3.5.1/

回答 1 投票 0

PySpark 应用多个转换需要太长时间

我有一个场景,S3 存储桶中会有多个 json 文件,我的 Pyspark 脚本会将其加载到数据帧中。 每个 json 将具有以下结构 - [ { “RECORDS_HEA...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.