pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

Databricks 和 Pylint 集成

有没有办法集成Databricks和pylint来liniting pyspark/python代码?如果没有,是否有其他替代方案?

回答 1 投票 0

pyspark.pandas独特的功能不起作用

我在 pyspark 中有一个简短的代码,我试图运行它然后转换为 pyspark.pandas,但由于某种原因我不断收到错误: Spark = create_spark_session() Spark.sparkContext.setLogLevel(&q...

回答 1 投票 0

使用 AWS GLue 发送电子邮件

我有一份用 GLue 制作 ETL 的工作,我需要在这个脚本的最后发送一封包含一些“数据质量”的电子邮件,将 DataFrame Spark 转换为 pandas 并使用 matplotlib 来绘制...

回答 1 投票 0

使用 pyspark dataframe 从嵌套 json 中提取数据

我在名为 json_col 的列中有以下数据,用于 databricks 中的数据框产品,该产品也具有其他列。 json_col 的数据有如下数据 html:null ,语言:null ,m...

回答 1 投票 0

“LogisticRegressionTrainingSummary”对象没有属性“fMeasureByThreshold”

我是 Pyspark 和 Databricks 的新手,正在尝试创建 Logistic 回归模型(通过 Databrticks 本身提供的 Spark_DS&ML_exercise)。将模型适合我的训练后...

回答 1 投票 0

对托管实例使用“com.microsoft.sqlserver.jdbc.spark”时,SQL 查询会给出意外的 NULL 结果

这是查询: 选择 * 来自 my_db.sys.sql_modules WHERE object_id = OBJECT_ID('my_db.dbo.view_name') 在 Azure Data Studio 中执行时,查询将返回正确的视图定义 但是当...

回答 1 投票 0

分解并解析pyspark字符串列数据帧的json数组

我有 PySpark DataFrame,其中列映射结果具有字符串格式,并且其中包含两个 json 数组 Spark.createDataFrame(pd.DataFrame({'服务器': {0: '3456gj', 1: '56ujdn98', 2:'56v95...

回答 1 投票 0

致命错误 Python 内核无响应 Databricks

最近我在 pyspark 中遇到了一个问题,比如致命错误:python 内核无响应。是内存错误还是其他类型的错误?有人可以解释一下吗?

回答 1 投票 0

使用PySpark在AWS环境中解码二进制文件

是否可以在AWS环境中使用Netezza备份文件并将其加载到Redshift。 文件是使用以下查询创建的压缩二进制文件。该文件也可以使用 NZ_B 生成...

回答 1 投票 0

使用来自多个目录的镶木地板创建增量表

我们正在从大型仓库中提取数据并保存,如下所示 表格1 2024-01-01_2024-03-31 ├── _成功 ├──_commited_1849751916443920415 ├──_开始_1849751916443920415 ├── p...

回答 1 投票 0

在 Pyspark 数据帧写入中使用 noop 格式

有人可以告诉我该命令的用途/工作原理吗 data.write.format("noop").mode("overwrite").save() in Pyspark 3.0?

回答 2 投票 0

agg(count) 不起作用

尝试使用聚合在 Apache Spark (PySpark) 中执行聚合我的数据帧。 +----+---+---+ |姓名|年龄|编号| +----+---+---+ |标记| 4| 1| |标记| 4| 2| |标记| 5| 3| |标记| 5| 4| |马克...

回答 1 投票 0

Pyspark 中两个数据帧(具有值的年份)之间的插值

如何在表示不同年份(例如 2020 年和 2030 年)数据的两个 PySpark DataFrame 之间实现线性插值,以生成中间年份(例如 2)的新 PySpark DataFrame...

回答 1 投票 0

Pyspark:如何根据 PySpark 中员工数据的存在情况分配组级标志”

假设有 10 条记录: DepartmentA 中有 5 名员工:depA 中的一名员工没有 net_venue 信息(因此其中有一个 null),其他 4 名员工确实有。 5 在 DepB:在 DepB 每...

回答 1 投票 0

AWS Glue BigDecimal 类型的错误值:NaN

我正在尝试将从 postgres(rds) 数据库爬取的表导出到glue中。有一个字段的类型为decimal(10, 2)。现在我有几个问题。 从glue中导出表格(使用spark...

回答 1 投票 0

对象的长度 (3) 与字段的长度 (1) Pyspark

我遇到以下代码问题。我想创建一个单列数据框。 我可以知道我在这里做错了什么吗? 从 pyspark.sql 导入函数为 F 从 pyspark.sql.types 导入 Integer...

回答 2 投票 0

将 Spark 数据帧写入 Azure Sql Server 会间歇性地导致重复记录

我们使用 JDBC 选项将 Spark DataFrame 中转换后的数据插入到 Azure SQL Server 中的表中。以下是我们用于此插入的代码片段。然而,我们有几次注意到......

回答 1 投票 0

在 Databricks 中的 Delta Live 表作业中在 Pyspark 中创建表

我正在运行一个 DLT(Delta Live Table)作业,该作业为两个单独的表创建青铜表 > 银表。所以最后,我有两个独立的金表,我想将它们合并成一个......

回答 2 投票 0

使用 Pyspark 更改字符串类型顺序并删除特定字符

假设我有一个如下所示的专栏 日期 03/2024 07/2024 12/2024 06/2024 01/2024 但我想更改字符串顺序并删除中间的特定字符 日期 202403 202407

回答 1 投票 0

当 Spark 中的数据帧转换为新的数据帧时,会发生什么?

我是 Apache Spark 的初学者。我在学习 Spark 时遇到了困难。据我所知,Spark基于惰性求值工作,并且Spark中的数据帧是不可变的。 我有一个数据框 df 为 3

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.