apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何在没有 AWS 服务的情况下使用 Apache Spark 将数据从 Apache Iceberg 加载到 AWS Neptune？它可扩展吗？

我目前正在开发一个项目，需要将数据从 Apache Iceberg 表加载到 AWS Neptune 图形数据库中。我想使用 Apache Spark 执行此任务，但我不想...

amazon-web-services apache-spark graph-databases amazon-neptune

回答 1 投票 0

根据条件向Array[String]类型的数据帧添加新列，spark scala

我有以下数据框 - 可乐科尔B A1 B1 A2 B2 A3 B3 colA：字符串，colB：字符串另外，我有一个 Map[String, Array[String]] 我想添加一个包含 Map 值的新列 'colC'

scala apache-spark apache-spark-sql

回答 1 投票 0

在 Flink 或 Spark 中订购批次的最佳方式是什么？

我正在 flink 中以批处理模式构建一个进程。我有一张包含 1 亿行的表，我需要按一个字段对所有表进行排序，所以我想知道什么是更好的技术来订购巨大的...

apache-spark apache-flink streaming flink-batch

回答 1 投票 0

Spark中coalesce + orderBy可交换吗？

我想运行以下代码： df = df.coalesce(1).orderBy(["my_col"]) 但它的执行显然会在执行所有排序工作的单个任务上遇到瓶颈。我知道有可能...

apache-spark pyspark palantir-foundry commutativity

回答 2 投票 0

无法使用 getOrCreate 函数创建 Spark 会话

虽然我编写了一个简单的 PySpark 代码，但它在构建 Spark 会话时仍然失败。这是代码：从 pyspark.sql 导入 * 从 pyspark 导入 SparkConf 从 lib.logger 导入 Log4j

python apache-spark pyspark

回答 2 投票 0

在 Flink 或 Spark 中排序批量的最佳方法是什么？

apache-spark apache-flink streaming flink-batch

回答 1 投票 0

为什么要使用Spark结构化流AvailableNow而不仅仅是普通的批处理数据帧？

我正在学习 Spark 结构化流，事情还有点模糊......我没有得到的一件事是使用批处理模式（AvailableNow = True）相对于普通模式的优势......

apache-spark pyspark databricks spark-streaming spark-structured-streaming

回答 1 投票 0

无法在 Jupyter Notebook 中启动 Spark 会话

当我尝试在 python 中构建 Spark 会话时，它花费了很多时间并且没有任何反应，也没有抛出错误。我已经等了快一个小时了，事情还在进行中。来自 pysp...

python apache-spark pyspark

回答 1 投票 0

为什么.count()方法返回错误的项目数？

我正在使用 pySpark 并在 dataFrame 上使用 count() 我似乎得到了不正确的结果；我制作了一个 csv，我想过滤类型不正确的行。一切正常（我使用 .show() 来检查），

python apache-spark pyspark count

回答 1 投票 0

使用函数过滤读取关键列时分区有帮助吗？

我有这个数据框： +------+ |我的_col| +------+ |202101| |202209| +------+ 当写入镶木地板文件时，我根据“my_col”列对其进行分区，因此我应该得到两个分区（两个镶木地板文件...

apache-spark optimization filter parquet partitioning

回答 1 投票 0

由于无法识别的配置单元类型而无法删除视图

我正在使用 Databricks（14.3 LTS、Apache Spark 3.5.0、Scala 2.12）我创建了一个视图，然后我注意到我需要更改其列，然后我无法使用新架构重新创建它。此外...

apache-spark pyspark databricks azure-databricks databricks-sql

回答 1 投票 0

java.lang.UnsatisfiedLinkError：org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V

2024-05-31 22:47:36.939[0;39m [32m 信息[0;39m [35m10452[0;39m [2m---[0;39m [2m[ 主]][0;39m [36ms .s.e.d.SQLHadoopMapReduceCommitProtocol[0;39m [2m:[0;39m 使用输出提交者类组织....

spring-boot apache-spark hadoop apache-spark-sql

回答 1 投票 0

如何在 Apache Airflow 中将 Spark Submit Operator 与 Cassandra 远程服务器结合使用

我正在将气流引入 WindowsPC 上的 Docker 容器。我对 apache airflow Spark 提交操作符有一些问题。我想将数据写入远程 Cassandra 服务器。当我使用 df.wr 时...

docker apache-spark cassandra airflow spark-cassandra-connector

回答 1 投票 0

使用函数读取过滤后的键列时分区有帮助吗？

apache-spark optimization filter parquet partitioning

回答 1 投票 0

使用 Spark/Python Glue 作业将数据提取到 hudi 表时出现无法解释的 s3 速度下降

我正在使用 AWS Glue Spark/python 作业将数据提取到 s3 存储桶中的 hudi 表中。我遇到了主要的 s3 速度下降问题，其方式超出了合理范围，但无法确定根本原因......

apache-spark amazon-s3 aws-glue apache-hudi

回答 1 投票 0

spark UI 中执行器页面的存储内存是如何计算的？

我需要知道spark UI中executors页面的存储内存是如何计算的？我在 Spark 会话中将执行器内存保持为 3GB，但在 Spark UI 中执行器页面的存储内存中仅显示 1GB。 ...

apache-spark

回答 1 投票 0

Spark 和 Iceberg - 如何使用分区的 Iceberg 表避免 GroupBy 期间的随机播放

我正在尝试将 Glue/S3 上的 Apache Iceberg 与 Apache Spark 结合使用，使用 Spark 版本 3.5。作为一个小型 POC，我创建了一个 Iceberg 表来存储一些事件，其中有一个 UID 和一个...

scala apache-spark apache-iceberg

回答 1 投票 0

如何在 Spark 中动态对数组列进行切片？

Spark 2.4引入了新的SQL函数slice，它可以用于从数组列中提取一定范围的元素。我想根据整数列动态定义每行的范围...

python apache-spark pyspark apache-spark-sql

回答 2 投票 0

如何计算分组 Spark 数据框中的布尔值

我想计算分组 Spark 数据框中的列中有多少条记录是真实的，但我不知道如何在 python 中执行此操作。例如，我有一个数据，其中包含地区、工资和 IsUnowned ...

python sql apache-spark pyspark apache-spark-sql

回答 2 投票 0

使用 SQL 从 2 个表创建连续的日期范围

我想从两个表中识别相关时期并在两者之间创建一个序列组合。每次发生变化时，我都希望做出新的记录。第一张表： 81080，“

sql scala apache-spark

回答 1 投票 0

apache-spark 相关问题

最新问题