apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何将spark中的json字符串插入到postgres中jsonb类型的列中

我必须将 Spark (Scala) 中的 json 字符串插入 Postgres 中 JSONB 类型的列中。我必须单独计算这个字符串，然后将该值作为新列添加到数据框中。所以用了df。

postgresql scala apache-spark pyspark apache-spark-sql

回答 1 投票 0

如何使用scala将Map保存到Spark中的Json？

我需要使用 Spark 将 Map（键值对）保存在一列中。需求是其他人可能会使用PIG等其他工具的数据，所以最好用通用格式保存Map

java sql json scala apache-spark

回答 3 投票 0

Spark 异常：没有凭证范围

我是 Databricks 新手，正在尝试从我的通用计算集群连接到 Rstudio Server。以下是集群配置：政策：个人电脑访问模式：单用户数据块...

apache-spark databricks spark-ar-studio databricks-unity-catalog

回答 1 投票 0

如何使用 JDBC 目录在 Iceberg 上测试 Apache Spark？

过去，我曾使用 J-Meter 中的 Hive 驱动程序测试过 Apache Spark。我现在正在尝试针对 Trino 运行一些基准测试，并且我正在使用 J-Meter。使用他们的 JDBC 驱动器测试 Trino 很容易...

apache-spark jmeter apache-iceberg

回答 1 投票 0

使用 Apache Spark 配置 apache Iceberg

我正在尝试使用 Apache Iceberg 配置 Apache Spark。但得到这个错误：线程“main”中的异常java.lang.NoSuchMethodError： 'org.apache.hadoop.hive.metastore.IMetaStoreClient 组织。

scala apache-spark hive apache-iceberg

回答 1 投票 0

将 .so 文件与 pyspark 一起使用

我正在尝试通过 pyspark 提交并使用 python 模块，但我遇到了导入错误。一切在本地工作都完美，但将作业提交给远程工作人员时问题就出现了。 ...

python apache-spark pyspark .so

回答 1 投票 0

pyspark 支持 Spark-salesforce 吗？

我正在尝试使用 Spark 来处理我们在 salesforce 实例中保存的数据。我知道 simple-salesforce python 库的存在，但前几天我遇到了 Spark-salesforce 并且......

apache-spark pyspark salesforce

回答 1 投票 0

配置Apache Spark的MemoryStream来模拟Kafka流

我被要求研究使用 Apache Spark 的 MemoryStream 在 Java Spring Boot 服务中模拟 Kafka 流。文档/在线社区在这个主题上有点小，所以我...

apache-spark apache-kafka spark-structured-streaming memorystream spark-java

回答 1 投票 0

如何在本地PySpark上从S3读取

我正在尝试读取存储在 S3 存储桶中的 CSV。我已经随 Homebrew 安装了 Apache Spark 3.5.1。我已经下载了 Hadoop AWS 连接器并将其复制到 /opt/homebrew/Cellar/apache-spark/3.5.1/

apache-spark amazon-s3 pyspark

回答 1 投票 0

Spark AQE Post-Shuffle 分区合并无法按预期工作，甚至会导致某些分区中的数据倾斜。为什么？

我在 Spark DF 上使用全局排序，当我启用 AQE 和后洗牌合并时，排序操作后的分区分布比以前更差。 “spark.sql.adaptive.enabled...

apache-spark apache-spark-sql spark-kafka-integration spark3

回答 2 投票 0

使用 Scala Spark 合并特定的数据帧

假设我在 Scala Spark 中有以下 2 个数据帧：保存所有已处理记录的数据框： ID 姓名颜色处理时间戳另一个时间戳 1 鲍勃蓝色的 171057948 171057948 2 爱丽丝奥拉...

scala apache-spark

回答 1 投票 0

如何使用正则表达式在 sc.textFile 中包含/排除某些输入文件？

我尝试使用文件内的 Apache Spark 过滤出特定文件的日期到 RDD 函数 sc.textFile()。我尝试执行以下操作： sc.textFile(“/用户/订单/201507(2[...

scala apache-spark

回答 2 投票 0

避免广播嵌套循环连接

当我使用左连接连接两个数据帧时，如下所示： df1.join(广播(df2), $"id" === $"id1" || $"id2" === $"id3", "左") 没有 $"id2&qu...

apache-spark join

回答 2 投票 0

PySpark 应用多个转换需要太长时间

我有一个场景，S3 存储桶中会有多个 json 文件，我的 Pyspark 脚本会将其加载到数据帧中。每个 json 将具有以下结构 - [ { “RECORDS_HEA...

python apache-spark pyspark

回答 1 投票 0

如何读取包含相同数据但其中几个在 Spark 上具有不同数据类型的 parquet 文件

我有多个 parquet 文件，它们具有相同的列数，但其中一些文件的数据类型不一致。例如，其中一个文件 file1.parquet 有一个名为 Cost 的列，其中包含 da...

python apache-spark

回答 1 投票 0

如何使用 parquet 在 Spark 中读取和写入同一文件？

我试图从spark中的parquet文件中读取数据，与另一个rdd进行联合，然后将结果写入我读取的同一个文件中（基本上是覆盖），这会引发以下错误：

apache-spark overwrite parquet

回答 6 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时，我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

python apache-spark pyspark apache-spark-sql bigdata

回答 1 投票 0

如何组织 Apache Spark 项目

我是 Spark 新手，我想了解如何最好地设置项目。我将使用 Maven 进行构建（包括测试）。我编写了第一个 Spark 应用程序，但要在开发期间启动它，...

java apache-spark apache-spark-sql

回答 3 投票 0

spark 二进制（字节数组）以字符串形式获取字节

我有一个案例，我有以下数据框 `scala> res1.printSchema 根 |-- REC：二进制（可空 = true） scala> res1.show(1,false) +----------------------+ |记录...

scala apache-spark binary hex

回答 1 投票 0

includeExistingFiles: false 在 Databricks Autoloader 中不起作用

使用自动加载器从 adls gen2 获取文件。但是，我只想摄取新文件。使用以下配置仍然无法阻止现有文件被摄取。还有人吗...

apache-spark pyspark azure-databricks spark-structured-streaming

回答 2 投票 0

apache-spark 相关问题

最新问题