apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何将spark中的json字符串插入到postgres中jsonb类型的列中

我必须将 Spark (Scala) 中的 json 字符串插入 Postgres 中 JSONB 类型的列中。我必须单独计算这个字符串,然后将该值作为新列添加到数据框中。所以用了df。

回答 1 投票 0

如何使用scala将Map保存到Spark中的Json?

我需要使用 Spark 将 Map(键值对)保存在一列中。需求是其他人可能会使用PIG等其他工具的数据,所以最好用通用格式保存Map

回答 3 投票 0

Spark 异常:没有凭证范围

我是 Databricks 新手,正在尝试从我的通用计算集群连接到 Rstudio Server。 以下是集群配置: 政策:个人电脑 访问模式:单用户 数据块...

回答 1 投票 0

如何使用 JDBC 目录在 Iceberg 上测试 Apache Spark?

过去,我曾使用 J-Meter 中的 Hive 驱动程序测试过 Apache Spark。我现在正在尝试针对 Trino 运行一些基准测试,并且我正在使用 J-Meter。使用他们的 JDBC 驱动器测试 Trino 很容易...

回答 1 投票 0

使用 Apache Spark 配置 apache Iceberg

我正在尝试使用 Apache Iceberg 配置 Apache Spark。 但得到这个错误: 线程“main”中的异常java.lang.NoSuchMethodError: 'org.apache.hadoop.hive.metastore.IMetaStoreClient 组织。

回答 1 投票 0

将 .so 文件与 pyspark 一起使用

我正在尝试通过 pyspark 提交并使用 python 模块,但我遇到了导入错误。一切在本地工作都完美,但将作业提交给远程工作人员时问题就出现了。 ...

回答 1 投票 0

pyspark 支持 Spark-salesforce 吗?

我正在尝试使用 Spark 来处理我们在 salesforce 实例中保存的数据。我知道 simple-salesforce python 库的存在,但前几天我遇到了 Spark-salesforce 并且......

回答 1 投票 0

配置Apache Spark的MemoryStream来模拟Kafka流

我被要求研究使用 Apache Spark 的 MemoryStream 在 Java Spring Boot 服务中模拟 Kafka 流。文档/在线社区在这个主题上有点小,所以我...

回答 1 投票 0

如何在本地PySpark上从S3读取

我正在尝试读取存储在 S3 存储桶中的 CSV。我已经随 Homebrew 安装了 Apache Spark 3.5.1。我已经下载了 Hadoop AWS 连接器并将其复制到 /opt/homebrew/Cellar/apache-spark/3.5.1/

回答 1 投票 0

Spark AQE Post-Shuffle 分区合并无法按预期工作,甚至会导致某些分区中的数据倾斜。为什么?

我在 Spark DF 上使用全局排序,当我启用 AQE 和后洗牌合并时,排序操作后的分区分布比以前更差。 “spark.sql.adaptive.enabled...

回答 2 投票 0

使用 Scala Spark 合并特定的数据帧

假设我在 Scala Spark 中有以下 2 个数据帧: 保存所有已处理记录的数据框: ID 姓名 颜色 处理时间戳 另一个时间戳 1 鲍勃 蓝色的 171057948 171057948 2 爱丽丝 奥拉...

回答 1 投票 0

如何使用正则表达式在 sc.textFile 中包含/排除某些输入文件?

我尝试使用文件内的 Apache Spark 过滤出特定文件的日期到 RDD 函数 sc.textFile()。 我尝试执行以下操作: sc.textFile(“/用户/订单/201507(2[...

回答 2 投票 0

避免广播嵌套循环连接

当我使用左连接连接两个数据帧时,如下所示: df1.join(广播(df2), $"id" === $"id1" || $"id2" === $"id3", "左") 没有 $"id2&qu...

回答 2 投票 0

PySpark 应用多个转换需要太长时间

我有一个场景,S3 存储桶中会有多个 json 文件,我的 Pyspark 脚本会将其加载到数据帧中。 每个 json 将具有以下结构 - [ { “RECORDS_HEA...

回答 1 投票 0

如何读取包含相同数据但其中几个在 Spark 上具有不同数据类型的 parquet 文件

我有多个 parquet 文件,它们具有相同的列数,但其中一些文件的数据类型不一致。 例如,其中一个文件 file1.parquet 有一个名为 Cost 的列,其中包含 da...

回答 1 投票 0

如何使用 parquet 在 Spark 中读取和写入同一文件?

我试图从spark中的parquet文件中读取数据,与另一个rdd进行联合,然后将结果写入我读取的同一个文件中(基本上是覆盖),这会引发以下错误:

回答 6 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时,我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

回答 1 投票 0

如何组织 Apache Spark 项目

我是 Spark 新手,我想了解如何最好地设置项目。我将使用 Maven 进行构建(包括测试)。 我编写了第一个 Spark 应用程序,但要在开发期间启动它,...

回答 3 投票 0

spark 二进制(字节数组)以字符串形式获取字节

我有一个案例,我有以下数据框 `scala> res1.printSchema 根 |-- REC:二进制(可空 = true) scala> res1.show(1,false) +----------------------+ |记录...

回答 1 投票 0

includeExistingFiles: false 在 Databricks Autoloader 中不起作用

使用自动加载器从 adls gen2 获取文件。但是,我只想摄取新文件。使用以下配置仍然无法阻止现有文件被摄取。还有人吗...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.