apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Databricks pyspark pandas 与 numpy 发生错误

我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '

回答 1 投票 0

使用spark获取均匀的数据样本

这是我的数据集架构: 请求类型 |请求正文 1 体 A 2 身体 B 3 ... 4 5 6 .. 32 身体 XXX 我总共需要获取 500 条记录。 有 32

回答 1 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 2 投票 0

将每个键值对转换为pyspark中的dataframe的列

我有以下地图数组,我想将其转换为结构数组,以将所有键值对转换为数据帧的列 -- DurationPeriod: 数组 (nullable = true) | |-- 元素:m...

回答 1 投票 0

使用pyspark连接到MSSQL Server数据库

我是 pyspark 新手,正在尝试连接到 mssql 服务器数据库。详细信息如下: 当我运行我的脚本时,会打印出来。 ('处理表:', u'POL_ACTION_AMEND') ('表架构:'...

回答 1 投票 0

Spark 基于多个分区(即 DATE_KEY 和 BASE_FEED)读取镶木地板文件

我正在使用 PySpark 从按 DATE_KEY 分区的 HDFS 位置读取镶木地板文件。以下代码始终从 MAX(DATE_KEY) 分区读取文件并转换为 Polars 数据帧。 定义

回答 1 投票 0

每个分区文件是否包含 Spark DataFrameWriter.partitionBy 之后的所有行?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 1 投票 0

Scala Spark Sample 和 SampleBy 具有相同的行为

我正在尝试在 Spark Dataframe 中执行分层采样,但 SampleBy 函数的行为(奇怪)与样本类似。 火花版本3.0.1 导入spark.implicits._ val 数据 = 序列...

回答 2 投票 0

Azure 数据工厂触发 Databricks 集群终止

我有一个场景,我必须从 ADF 管道触发 Databricks 通用集群的终止。 实现这一目标的最佳方法是什么?我尝试使用链接服务...

回答 1 投票 0

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api,但找不到任何接近它的东西。基本上我想检查目录是否...

回答 3 投票 0

将 zip 文件读入 Apache Spark 数据帧

使用 Apache Spark(或 pyspark),我可以将文本文件读取/加载到 Spark 数据帧中,并将该数据帧加载到 sql 数据库中,如下所示: df = Spark.read.csv("MyFilePath/MyDataFile.txt", sep=...

回答 2 投票 0

缓存和持久化何时执行(因为它们看起来不像操作)?

我正在实现一个spark应用程序,下面是一个示例片段(不完全相同的代码): val rdd1 = sc.textfile(HDFS_PATH) val rdd2 = rdd1.map(func) rdd2.persist(StorageLevel.MEMORY_AND...

回答 2 投票 0

Pyspark Azure Synapse - kryoserializer 缓冲区溢出

我在使用 Azure Synapse Notebook 时遇到问题。我有一个大的 python 脚本,其中使用 Pandas Dataframe,我可以加载“parquet”文件,但我无法使用 toPandas() 转换为 pandas,

回答 1 投票 0

如何在Databricks和DLT管道上正确设置Spark?

我在 Azure 门户的 Databricks 中有一个 DLT 管道。我想增加流消息的最大大小,默认情况下为 10 MB。 有人可以告诉我如何正确配置吗

回答 1 投票 0

pyspark - 使用 OR 条件连接

如果至少满足两个条件之一,我想加入两个 pyspark 数据帧。 玩具数据: df1 = Spark.createDataFrame([ (10, 1, 666), (20, 2, 777), (30, 1, 888), (40, 3,...

回答 2 投票 0

Apache Arrow 与 Apache Spark - UnsupportedOperationException:sun.misc.Unsafe 或 java.nio.DirectByteBuffer 不可用

我正在尝试在 PySpark 应用程序中将 Apache Arrow 与 Apache Spark 集成,但在执行过程中遇到与 sun.misc.Unsafe 或 java.nio.DirectByteBuffer 相关的问题。 导入...

回答 1 投票 0

网站文件未显示在本地主机上,而是显示仪表板

我目前正在开发一个网站,使用 Sublime 作为我的 IDE,并使用 PHP、CSS、JS 和 HTML 作为编程语言。我已经在 Windows 11 上使用 XAMPP 设置了本地开发环境。 我的网站...

回答 0 投票 0

Spark Streaming 和集中式日志记录:将 executorId 添加到日志中

我正在尝试为 Spark 流应用程序设置集中式日志记录。我的具体用例是将驱动程序和执行程序日志导出到 AWS CloudWatch 日志,但我认为我的部分问题是

回答 1 投票 0

如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件,我想将其转换为 Spark 中的数据帧。 我正在使用 Spark 上下文加载文件,然后尝试从该文件生成各个列。 val myFile...

回答 9 投票 0

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。 数据框...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.