Spark Python API(PySpark)将apache-spark编程模型暴露给Python。
我有一个要转换的数据框 原始数据框: 从 pyspark.sql 导入行 Spark.createDataFrame([ Row(规则={1: [7408,4586], 2: [9670,2474] }), ])。展示() 规则 地图...
从 Azure Synapse 笔记本将数据写入 kusto 时出现异常
使用以下 pyspark 代码从 Azure Synapse 笔记本写入 Kusto 时。如果表已经存在,我会得到一个异常。 df.write \ .format("com.microsoft.kusto.spark.synapse.datas...
使用 pyspark 从 RDS MySQL 数据库提取数据
我第一次使用pyspark。我正在尝试使用以下代码从 RDS MySQL 数据库中提取数据。我参考了以下链接 pyspark mysql jdbc load 调用o23时发生错误...
PySpark 中 select() 和 .withColumn()/.withColumns() 的性能比较
我正在寻求优化 PySpark 中的数据转换,并注意到文档建议在多个 .withColumn() 调用上使用 .select() 以获得更好的性能。这提出了两个问题……
有没有办法将 pyspark 命令翻译成 SQL 并检查它?例如,转动 Spark.table("this_table").filter(F.col("first_col")>100).select("第二...
从 Azure 容器读取输入 CSV 文件时,如何在 Databricks 中使用 PySpark 动态传递列名称
我有一个输入文件employee.csv,存储在包含“Empid”、“Ename”、“Esalary”列的容器中,并且我使用这3个列在databicks delta Lake中创建了一个目标表
是否支持将临时视图作为源传递到合并语句中? 我正在创建临时视图 df.createOrReplaceTempView("dim_user") 然后我想用它作为
我们有下面的Python代码。它有 2 个 API a) 获取所有客户 - get_all_customers () b) 获取特定客户详细信息 - get_specifc_customer_details() 目前 (b) get_specifc_customer_d...
如何处理pyspark中的转义字符。当数据框中的列值为 ' ' 时,尝试用 NULL 替换转义字符
如何处理pyspark中的转义字符。尝试用 NULL 替换转义字符 ' ' 随机分布在所有列中,我已在所有列中用 NULL 替换为 ' '...
在架构中使用特定类型时,加载保存的 df 后 Databricks 值为空
我在使用databricks时遇到一个问题,当我在模式中设置特定类型并读取json时,它的值很好,但是在保存我的df并再次加载后,该值消失了。 我有这个...
我有一个场景,我有一个包含嵌套括号的字符串列,我需要以递归方式从该字符串中提取字符串。 例如 A1 和(A4 或(A2 和 A3))和(B1 或 B2)...
我正在尝试在 delta 表之上创建一个外部 BQ 外部表,该表使用 google storage 作为存储层。在增量表上,我们执行 DML,其中包括删除。 我可以创建一个 BQ
MongoDB 中的数据类型未通过 databricks Pyspark 更改(从字符串到日期)
我正在尝试使用 databricks pyspark 将多个文档加载到 MongoDb 集合中,在加载时我也使用 updateDate 归档,但加载后我可以看到 updateDate 字段数据
如何将spark中的json字符串插入到postgres中jsonb类型的列中
我必须将 Spark (Scala) 中的 json 字符串插入 Postgres 中 JSONB 类型的列中。我必须单独计算这个字符串,然后将该值作为新列添加到数据框中。所以用了df。
有一个场景,我们从Teradata(SRC)获取输入数据并将其加载到spark hive仓库中。我们有一个时间戳列和时区,如下所示,并且希望看到相同的...
我正在尝试通过 pyspark 提交并使用 python 模块,但我遇到了导入错误。一切在本地工作都完美,但将作业提交给远程工作人员时问题就出现了。 ...
对于我当前的项目,我正在使用 Kafka (python),想知道是否有任何方法可以将流式 Kafka 数据发送到 AWS S3 存储桶(不使用 Confluence)。我是...
pyspark 支持 Spark-salesforce 吗?
我正在尝试使用 Spark 来处理我们在 salesforce 实例中保存的数据。我知道 simple-salesforce python 库的存在,但前几天我遇到了 Spark-salesforce 并且......
我正在尝试读取存储在 S3 存储桶中的 CSV。我已经随 Homebrew 安装了 Apache Spark 3.5.1。我已经下载了 Hadoop AWS 连接器并将其复制到 /opt/homebrew/Cellar/apache-spark/3.5.1/
我有一个场景,S3 存储桶中会有多个 json 文件,我的 Pyspark 脚本会将其加载到数据帧中。 每个 json 将具有以下结构 - [ { “RECORDS_HEA...