apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

Databricks pyspark pandas 与 numpy 发生错误

我在使用 pyspark pandas 时收到以下错误： PandasNotImplementedError：方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组，请使用 '

apache-spark pyspark databricks pyspark-pandas

回答 1 投票 0

使用spark获取均匀的数据样本

这是我的数据集架构：请求类型 |请求正文 1 体 A 2 身体 B 3 ... 4 5 6 .. 32 身体 XXX 我总共需要获取 500 条记录。有 32

apache-spark sampling

回答 1 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列？

在Spark数据管道中，我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。是否保证e...

apache-spark pyspark parquet

回答 2 投票 0

将每个键值对转换为pyspark中的dataframe的列

我有以下地图数组，我想将其转换为结构数组，以将所有键值对转换为数据帧的列 -- DurationPeriod: 数组 (nullable = true) | |-- 元素：m...

python apache-spark pyspark apache-spark-sql pyspark-schema

回答 1 投票 0

使用pyspark连接到MSSQL Server数据库

我是 pyspark 新手，正在尝试连接到 mssql 服务器数据库。详细信息如下：当我运行我的脚本时，会打印出来。 ('处理表：', u'POL_ACTION_AMEND') （'表架构：'...

python apache-spark pyspark jdbc mssql-jdbc

回答 1 投票 0

Spark 基于多个分区（即 DATE_KEY 和 BASE_FEED）读取镶木地板文件

我正在使用 PySpark 从按 DATE_KEY 分区的 HDFS 位置读取镶木地板文件。以下代码始终从 MAX(DATE_KEY) 分区读取文件并转换为 Polars 数据帧。定义

apache-spark pyspark hdfs python-polars pyarrow

回答 1 投票 0

每个分区文件是否包含 Spark DataFrameWriter.partitionBy 之后的所有行？

在Spark数据管道中，我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。是否保证e...

apache-spark pyspark parquet

回答 1 投票 0

Scala Spark Sample 和 SampleBy 具有相同的行为

我正在尝试在 Spark Dataframe 中执行分层采样，但 SampleBy 函数的行为（奇怪）与样本类似。火花版本3.0.1 导入spark.implicits._ val 数据 = 序列...

scala dataframe apache-spark sampling

回答 2 投票 0

Azure 数据工厂触发 Databricks 集群终止

我有一个场景，我必须从 ADF 管道触发 Databricks 通用集群的终止。实现这一目标的最佳方法是什么？我尝试使用链接服务...

apache-spark azure-data-factory databricks cluster-computing azure-databricks

回答 1 投票 0

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api，但找不到任何接近它的东西。基本上我想检查目录是否...

api apache-spark hadoop hdfs

回答 3 投票 0

将 zip 文件读入 Apache Spark 数据帧

使用 Apache Spark（或 pyspark），我可以将文本文件读取/加载到 Spark 数据帧中，并将该数据帧加载到 sql 数据库中，如下所示： df = Spark.read.csv("MyFilePath/MyDataFile.txt", sep=...

python python-3.x apache-spark pyspark apache-spark-sql

回答 2 投票 0

缓存和持久化何时执行（因为它们看起来不像操作）？

我正在实现一个spark应用程序，下面是一个示例片段（不完全相同的代码）： val rdd1 = sc.textfile(HDFS_PATH) val rdd2 = rdd1.map(func) rdd2.persist(StorageLevel.MEMORY_AND...

scala apache-spark lazy-evaluation

回答 2 投票 0

Pyspark Azure Synapse - kryoserializer 缓冲区溢出

我在使用 Azure Synapse Notebook 时遇到问题。我有一个大的 python 脚本，其中使用 Pandas Dataframe，我可以加载“parquet”文件，但我无法使用 toPandas() 转换为 pandas，

python-3.x pandas dataframe apache-spark azure-synapse

回答 1 投票 0

如何在Databricks和DLT管道上正确设置Spark？

我在 Azure 门户的 Databricks 中有一个 DLT 管道。我想增加流消息的最大大小，默认情况下为 10 MB。有人可以告诉我如何正确配置吗

apache-spark spark-streaming azure-databricks delta-live-tables

回答 1 投票 0

pyspark - 使用 OR 条件连接

如果至少满足两个条件之一，我想加入两个 pyspark 数据帧。玩具数据： df1 = Spark.createDataFrame([ (10, 1, 666), (20, 2, 777), (30, 1, 888), (40, 3,...

python dataframe apache-spark join pyspark

回答 2 投票 0

Apache Arrow 与 Apache Spark - UnsupportedOperationException：sun.misc.Unsafe 或 java.nio.DirectByteBuffer 不可用

我正在尝试在 PySpark 应用程序中将 Apache Arrow 与 Apache Spark 集成，但在执行过程中遇到与 sun.misc.Unsafe 或 java.nio.DirectByteBuffer 相关的问题。导入...

python apache-spark pyspark pyarrow

回答 1 投票 0

网站文件未显示在本地主机上，而是显示仪表板

我目前正在开发一个网站，使用 Sublime 作为我的 IDE，并使用 PHP、CSS、JS 和 HTML 作为编程语言。我已经在 Windows 11 上使用 XAMPP 设置了本地开发环境。我的网站...

apache apache-spark xampp localhost web-development-server

回答 0 投票 0

Spark Streaming 和集中式日志记录：将 executorId 添加到日志中

我正在尝试为 Spark 流应用程序设置集中式日志记录。我的具体用例是将驱动程序和执行程序日志导出到 AWS CloudWatch 日志，但我认为我的部分问题是

apache-spark hadoop-yarn amazon-emr log4j

回答 1 投票 0

如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件，我想将其转换为 Spark 中的数据帧。我正在使用 Spark 上下文加载文件，然后尝试从该文件生成各个列。 val myFile...

scala apache-spark dataframe apache-spark-sql rdd

回答 9 投票 0

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。数据框...

python amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

apache-spark 相关问题

最新问题