apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

我在 Bitnami Helm Chart 9.0.1 (https://artifacthub.io/packages/helm/bitnami/spark) 的 K8s 集群上安装了 Spark 独立集群（主集群和 2 个工作集群）。我正在从 java 应用程序提交作业...

java apache-spark kubernetes

回答 1 投票 0

如何在scala数据帧中将Array[Long]转换为Vector类型？

我有这样的数据框： +------+-----+--------------------+---------------- ----+ | ID|标签|时间戳|信号列表| +------+-----+--------------------+---------------- ----+ |

scala apache-spark dataframe vector apache-spark-sql

回答 2 投票 0

线程“main”中出现异常 java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$POSIX.stat(Ljava/lang/String;)

现在我想加载保存在路径中的spark管道模型（C:\Users\ASUS\Desktop\kaggl

apache-spark hadoop

回答 0 投票 0

Databricks Spark 抛出 [GC（分配失败）] 消息

我使用此代码来更新 new_df。想法是获取 date_updated 和停止时间之间的所有记录，并为它们分配一个数字，我将在后续步骤中在分组中使用该数字。所以基本上分配 s...

python apache-spark pyspark databricks

回答 1 投票 0

读取文件夹中的增量表特定文件

我正在尝试从包含多个增量文件的文件夹中读取特定文件，请参阅随附的屏幕截图我希望根据架构版本读取增量文件的原因。下面...

apache-spark pyspark apache-spark-sql delta-lake

回答 2 投票 0

如何组合两个数据集来创建嵌套 JSON 对象列表

我是 Apache Spark (Java) 的新手，正在尝试创建一个由多个 json 对象组成的文本文件，这些对象表示这两个数据集的组合。第一代到第二代很长...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

hive 映射 mysql 表：在连接条件中选择不同的 mysql 数据源时无法成功

我使用jdbc存储处理程序将hive中的多个mysql数据源映射为https://cwiki.apache.org/confluence/display/Hive/JDBC+Storage+Handler；第一个表是：如果外部表不存在，则创建

mysql apache-spark hadoop hive

回答 1 投票 0

Spark：如何将行分组到固定大小的数组中？

我有一个如下所示的数据集： +---+ |col| +---+ |一个| |乙| | c| | d| |电子| | f| |克| +---+ 我想重新格式化这个数据集，以便将行聚合到固定长度的数组中，...

scala apache-spark apache-spark-sql partitioning

回答 2 投票 0

连接两个 PySpark 数据帧而不重复行

我有以下两个 PySpark 数据框： df1: 第1列列2 第3栏第4栏一些价值一些价值一些价值一些值1 df2: 第1列列2 第3栏第5栏一些价值一些价值一些v...

apache-spark pyspark apache-spark-sql outer-join

回答 2 投票 0

Pyspark 在数组元素上应用正则表达式模式

我有下面的 Pyspark 代码来验证嵌套 json 中的字段 - “当 array_contains(transform(RECORDS_003.DATA.TOTAL_CHARGE, x -> trim(x)), '') 或存在时(RECORDS_003.DATA.TOTAL_CHARG...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

使用spark2-shell，无法访问S3路径来拥有ORC文件来创建数据帧

我有 S3 access_key_id、secret_access_key 和端点 URL。我尝试打开 spar2-shell 导入 org.apache.spark.sql.SparkSession val Spark = SparkSession.builder() .appName("从 S3 读取 ORC&...

apache-spark pyspark

回答 1 投票 0

为什么减少分区数量可以防止由于序列化结果尺寸过大而导致 StageFailure？

我正在尝试在数据块上生成大型数据框的随机排序版本。我的首选代码是在数据帧上使用 .orderBy(rand()) 。然而，这似乎会触发 SparkException...

apache-spark databricks distributed-computing

回答 1 投票 0

pyspark UDF 引发“无名为模块”错误

我有一个带有英文国家描述符 ds_pais 的数据框。我想使用 GoogleTranslator 通过 .withColumn 添加一列，将该国家/地区描述符从英语翻译为西班牙语。来自

apache-spark pyspark microsoft-fabric

回答 1 投票 0

Pyspark -- 过滤包含空值的 ArrayType 行

我是 PySpark 的初学者。假设我有一个像这样的 Spark 数据框： test_df = Spark.createDataFrame(pd.DataFrame({"a":[[1,2,3], [无,2,3], [无,无,无]]})) 现在我希望过滤...

apache-spark pyspark apache-spark-sql

回答 4 投票 0

如何从 K8s 集群上运行的 Java 应用程序提交 Spark 作业？

我有一个本地 Kubernetes 集群（Rancher 桌面），上面从 Bitnami Helm Chart 安装了 Spark（1 个主节点和 2 个工作节点）。在同一个 Kubernetes 集群上，我有一个 Java 应用程序（Quark...

java apache-spark kubernetes

回答 1 投票 0

根据 PySpark 中的重复列行创建两个数组

我正在使用 PySpark 并有一个数据帧，它有两列 a 和 b，数据帧中的每列/行只有一个值。 b 中可能（但并不总是）存在重复值...

python dataframe apache-spark pyspark data-manipulation

回答 2 投票 0

如何在Pyspark中读取Avro文件？

如何在 Jupyter Notebook 上读取 Pyspark 中的 Avro 文件？！从 Spark 2.4 开始，Avro 是内置但外部的数据源模块。请按照“Apach...

apache-spark pyspark jupyter-notebook avro spark-avro

回答 1 投票 0

如何读取Pyspark Jupiter笔记本中的Avro文件？

如何在 Jupyter Notebook 上读取 Pyspark 中的 Avro 文件？！从 Spark 2.4 开始，Avro 是内置但外部的数据源模块。请按照“Apach...

apache-spark pyspark jupyter-notebook avro spark-avro

回答 1 投票 0

使用本地文件进行 Spark 流式处理（Python）

有没有办法扫描本地文件系统以查找特定文件夹中的更改，就像使用 HDFS （GitHub 示例）一样？使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作，但是使用...

python hadoop apache-spark hdfs pyspark

回答 1 投票 0

使用python从spark读取singlestore数据

我对 Spark 和 singlestore 完全陌生。我正在尝试使用 Spark 从 singlestore 读取数据，这是我编写的代码 - 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builde...

python apache-spark singlestore

回答 1 投票 0

apache-spark 相关问题

最新问题