pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

更改 Iceberg 中的分区字段时出错,来自 Spark

我们正在使用spark写入iceberg,并且在重命名分区字段名称时,我们收到验证错误: org.apache.iceberg.exceptions.ValidationException:找不到

回答 1 投票 0

RDD.aggregate() 如何处理分区?

我是 Spark 的新手,并试图了解像reduce、aggregate 等函数是如何工作的。 在执行 RDD.aggregate() 时,我尝试将 ZeroValue 更改为身份以外的其他内容(0 表示

回答 1 投票 0

合并(插入/更新)

我需要在 PySpark 上创建逻辑来更新包含数百万条记录的表。 这些表从 BigQuery 获取数据。 当插入新流时,它应该比较现有的记录...

回答 1 投票 0

PySpark 错误:java.lang.NoSuchMethodError:'scala.collection.immutable.Seq org.apache.spark.sql.types.StructType.toAttributes()'

我正在尝试从 PySpark 连接到我的 MongoDB 数据库。 $ pyspark --packages org.mongodb.spark:mongo-spark-connector_2.13:10.1.1 我安装的版本: Python 3.9 斯卡拉:2.12.15 火花:3.3.2 在

回答 2 投票 0

PySpark 与 SQLalchemy,哪个更适合处理大数据?

我有一个包含大量数据(200Gb+)的三角洲湖,我需要使用可以在 Python 中运行 SQL 的东西来清除它。我不想直接清除.parquet文件,我想直接工作...

回答 2 投票 0

是否可以从 PySpark 中的数组中获取任意数量的元素?

我的数据框有两个数组列。我想从第一列中获取索引位于第二列中的元素。例如,我有以下数据集 df = Spark.createDataFrame( [ ...

回答 1 投票 0

将 JSON 嵌套到 Azure DataBricks 上的 Flat PySpark Dataframe

我有以下 PySpark 数据框: 结构类型([ StructField('数据', ArrayType(StructType([ StructField('awayPlayers', ArrayType(StructType([ StructField('数字', StringType(), Tru...

回答 2 投票 0

如何为行子组 pyspark 随机化不同的数字

我有一个 pyspark 数据框。我需要在给定条件下随机化从列表中获取的所有行的值。我做了: df = df.withColumn('rand_col', f.when(f.col('condition_col') == 条件,随机....

回答 1 投票 0

错误 MicroBatchExecution - PySpark:将数据帧写入 Elasticsearch

我正在尝试使用 PySpark 将流写入 Elasticsearch。我有两个从 Kafka 读取的数据帧并加入到 df_joined 中。将 df_joined 打印到终端会显示正确的列和 v...

回答 1 投票 0

spark.read.parquet 和spark.read.format.load 之间的速度差异

我试图了解是什么导致了阅读速度的巨大差异。我有一个包含 3000 万行和 38 列的数据框。 Final_df=spark.read.parquet("/dbfs/FileStore/path/to/file.

回答 1 投票 0

在 pyspark 数据帧的列值中查找列表的平均值和众数

我有一个 pyspark 数据框,如下所示: +--------------------------+--------------+ |评分|评论| +--------------------------+--------------+ |[83.52, 81.79, ...

回答 2 投票 0

将 MLtable 对象转换为 pyspark 数据框

我在 Azure 机器学习中拥有数据资产。 我想将其转换为 Pyspark 数据框。 在数据资产的“使用”选项卡中,我获得了将其转换为 Pandas 数据框的代码。 然而这...

回答 1 投票 0


两种join语法的区别(pyspark)

我有一个关于 PySpark 中 join 的两种语法差异的问题, 例如,我有这两个数据框 DF1 ID 姓名 1 奥利弗 2 迈克尔 3 贾斯汀 DF2 ID 地址 1 巴西 1 法国 2

回答 1 投票 0

两个 join 语法的区别(pyspark)

我有一个关于 pyspark 中 join 的两种语法差异的问题, 例如,我有这两个 df DF1 身份证件名称 1 奥利弗 2 迈克尔 3 贾斯汀 DF2 身份证地址 1 巴西 1 法国 2

回答 1 投票 0

Spark 中列名后面的#<number>是什么

我没有什么特定的目的去了解这些奇怪名字的含义,我只是对此感兴趣。 这是一个简单的代码。 从 pyspark.sql 导入 SparkSession 火花 = SparkSes...

回答 1 投票 0

使用 pyspark 对大文件进行 MD5 哈希

我正在使用 hashlib 库(hashlib.md5() 函数),它在 pySpark 中的小文件大小下工作正常。问题是 - 我有大约 2 TB 的巨大文件,我需要计算这个文件的 md5 哈希值...

回答 1 投票 0

如何正确优化Spark和Milvus来处理大数据?

我有一个包含 2 列的 Spark 数据框:id 和向量。 向量列是一个包含 20,000 个元素长的浮点数的列表。 Dataframe 本身有 2,500,000 行长。 我使用 Spark-Milvus 连接器插入...

回答 1 投票 0

使用 python 将空列添加到 Spark 中的数据框

我有一个数据框,我想将其与另一个数据框创建 unionAll。问题是第二个数据框比第一个数据框多了三列。有没有办法让我添加三个列...

回答 3 投票 0

在 Spark SQL 中提取键值对,其中键是 URL,值是字符串

我有一个 JSON 对象,如下所示 “数据”: [ { “密钥ID”:, “关键上下文”: “keyContextValue”: “https://

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.