apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Spark:如何将行分组到固定大小的数组中?

我有一个如下所示的数据集: +---+ |col| +---+ |一个| |乙| | c| | d| |电子| | f| |克| +---+ 我想重新格式化这个数据集,以便将行聚合到固定长度的数组中,...

回答 2 投票 0

连接两个 PySpark 数据帧而不重复行

我有以下两个 PySpark 数据框: df1: 第1列 列2 第3栏 第4栏 一些价值 一些价值 一些价值 一些值1 df2: 第1列 列2 第3栏 第5栏 一些价值 一些价值 一些v...

回答 2 投票 0

Pyspark 在数组元素上应用正则表达式模式

我有下面的 Pyspark 代码来验证嵌套 json 中的字段 - “当 array_contains(transform(RECORDS_003.DATA.TOTAL_CHARGE, x -> trim(x)), '') 或存在时(RECORDS_003.DATA.TOTAL_CHARG...

回答 1 投票 0

使用spark2-shell,无法访问S3路径来拥有ORC文件来创建数据帧

我有 S3 access_key_id、secret_access_key 和端点 URL。 我尝试打开 spar2-shell 导入 org.apache.spark.sql.SparkSession val Spark = SparkSession.builder() .appName("从 S3 读取 ORC&...

回答 1 投票 0

为什么减少分区数量可以防止由于序列化结果尺寸过大而导致 StageFailure?

我正在尝试在数据块上生成大型数据框的随机排序版本。 我的首选代码是在数据帧上使用 .orderBy(rand()) 。 然而,这似乎会触发 SparkException...

回答 1 投票 0

pyspark UDF 引发“无名为模块”错误

我有一个带有英文国家描述符 ds_pais 的数据框。我想使用 GoogleTranslator 通过 .withColumn 添加一列,将该国家/地区描述符从英语翻译为西班牙语。 来自

回答 1 投票 0

Pyspark -- 过滤包含空值的 ArrayType 行

我是 PySpark 的初学者。假设我有一个像这样的 Spark 数据框: test_df = Spark.createDataFrame(pd.DataFrame({"a":[[1,2,3], [无,2,3], [无,无,无]]})) 现在我希望过滤...

回答 4 投票 0

如何从 K8s 集群上运行的 Java 应用程序提交 Spark 作业?

我有一个本地 Kubernetes 集群(Rancher 桌面),上面从 Bitnami Helm Chart 安装了 Spark(1 个主节点和 2 个工作节点)。 在同一个 Kubernetes 集群上,我有一个 Java 应用程序(Quark...

回答 1 投票 0

根据 PySpark 中的重复列行创建两个数组

我正在使用 PySpark 并有一个数据帧,它有两列 a 和 b,数据帧中的每列/行只有一个值。 b 中可能(但并不总是)存在重复值...

回答 2 投票 0

如何在Pyspark中读取Avro文件?

如何在 Jupyter Notebook 上读取 Pyspark 中的 Avro 文件?! 从 Spark 2.4 开始,Avro 是内置但外部的数据源模块。请按照“Apach...

回答 1 投票 0

如何读取Pyspark Jupiter笔记本中的Avro文件?

如何在 Jupyter Notebook 上读取 Pyspark 中的 Avro 文件?! 从 Spark 2.4 开始,Avro 是内置但外部的数据源模块。请按照“Apach...

回答 1 投票 0

使用本地文件进行 Spark 流式处理(Python)

有没有办法扫描本地文件系统以查找特定文件夹中的更改,就像使用 HDFS (GitHub 示例)一样?使用常规路径或带有 hdfs:// 的 URI 运行它似乎可以工作,但是使用...

回答 1 投票 0

使用python从spark读取singlestore数据

我对 Spark 和 singlestore 完全陌生。我正在尝试使用 Spark 从 singlestore 读取数据,这是我编写的代码 - 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builde...

回答 1 投票 0

AWS EMR PySpark UDF 失败并显示“无法运行命令 /usr/bin/virtualenv (...)”

我有一个 emr 版本为 6.10.0 的 emr 集群,我尝试在代码中使用 pyspark udf,但它始终失败并出现相同的错误。 数据 = [("AAA",), ("BBB",)...

回答 2 投票 0

spark 中排序是如何在幕后发生的

考虑一下,我有一个 100 GB 的 csv 文件,我需要创建一个排名列,让我们说基于“customer_spends_in_dollar”列的“排名”。 df = Spark.read.csv('文件.csv') ( df .withColumn( ...

回答 1 投票 0

spark 结构化流作业如何处理流 - 静态 DataFrame 连接?

我有一个 Spark 结构化流作业,它从 cassandra 和 deltalake 读取映射表并与流 df 连接。我想了解这里的确切机制。火花会击中这些吗

回答 1 投票 0

Spark 看不到 Hive 表,具体取决于您的运行方式

问题是,根据您运行 Spark 的方式,您是否可以看到 Hive 数据库。我接下来会采取三项行动: 使用蜂巢 hive> 显示数据库; 好的 默认 数据库 火花数据库 花费时间:0.041秒...

回答 2 投票 0

groupby 列上的 Spark scala 隔离森林

我有一个数据集,例如: 我想按 Col1、Col2、Col3 对数据进行分组,并希望应用隔离林 按结果对该组进行排序。 如果 col3 值只是 sin,我可以应用隔离森林...

回答 1 投票 0

运行 Spark-shell 时出现错误:SparkContext:初始化 SparkContext 时出错

我在三个节点上成功安装了spark。我可以访问 Spark Web UI 并发现每个工作节点和主节点都处于活动状态。 我可以成功运行 SparkPi 示例。 我的集群信息: 10.45.10.33(

回答 2 投票 0

如何确定 Apache Spark 和 scala 中的无效 XML 字符串

我有一个用户定义的函数,如下所示 案例类主体结果(文本:字符串,代码:字符串) val bodyudf = udf{ (body: 字符串) => //将 body 标签显式附加到

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.