apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何在 Scala Spark 中从 Excel（xls、xlsx）文件构造 Dataframe？

我有一个包含多个工作表的大型 Excel（xlsx 和 xls）文件，我需要将其转换为 RDD 或 Dataframe，以便稍后可以将其连接到其他数据框。我正在考虑使用 Apache POI 并保存...

excel scala apache-spark pyspark spark-excel

回答 5 投票 0

spark中select和filter的顺序有什么偏好吗？

我们有两种方法从 Spark 数据帧 df 中选择和过滤数据。第一的： df = df.filter("过滤器定义").select('col1', 'col2', 'col3') 第二： df = df.select('col...

apache-spark pyspark

回答 2 投票 0

使用 Google Data Fusion 中的 Spark 工具重命名输出文件

我在 Google Data Fusion 中有一个管道，它在 Google Cloud 存储桶的目标目录中生成一个名为“part-00000-XXXXXX”的 CSV 文件（以及一个名为“_SUCCESS”的文件）...

scala csv apache-spark file-rename google-cloud-data-fusion

回答 2 投票 0

错误SparkContext：无法添加spark-streaming-kafka-0-10_2.13-3.5.2.jar

错误 SparkContext：无法将 home/areaapache/software/spark-3.5.2-bin-hadoop3/jars/spark-streaming-kafka-0-10_2.13-3.5.2.jar 添加到 Spark 环境导入日志记录从 pyspark.sql 导入

python apache-spark pyspark spark-structured-streaming spark-kafka-integration

回答 1 投票 0

需要帮助将 Spark 历史日志存储到 s3 存储桶

我想将 Spark 历史执行日志存储在 s3 存储桶中，以便我可以对我的 Spark 应用程序进行一些分析。我的 Spark 应用程序在 EMR（emr-6.15.0）上运行并使用纱线部署。之后...

apache-spark amazon-s3 hadoop-yarn amazon-emr

回答 1 投票 0

遇到 pyspark.sql.utils.AnalysisException：UDF 类未实现任何 UDF 接口

我正在尝试利用 pyspark 中的 Scala udfs 并遇到“pyspark.sql.utils.AnalysisException：UDF 类未实现任何 UDF 接口”错误我的 scala 代码看起来像这样爸...

scala apache-spark pyspark user-defined-functions

回答 1 投票 0

Spark 会话线程安全

我读到 Spark 会话上下文是线程安全的，但并非在所有情况下都是如此。我有多线程应用程序，其组织方式如下： N - 工作人员服务事件总线并发送一些简单的 Spark 任务。 ...

scala apache-spark

回答 1 投票 0

Pyspark HASH() 能否安全地将 UUID/GUID 转换为 BIGINT 并保持 Databricks 中的唯一性？

背景我正在开发 Databricks Lakehouse 实现，并且我们正在为多个表创建一些代理键，以促进标准化下游连接。我们的数据来自...

python database apache-spark pyspark databricks

回答 1 投票 0

由于spark.rpc.message.maxSize错误，无法通过胶水作业写入csv

我正在尝试通过 pandas 读取 xlsx 文件，转换一些列并将其转换为 Spark 数据帧，然后尝试通过 Glue 作业将其写入 CSV。使用 Spark 背后的原因是......

python amazon-web-services apache-spark pyspark

回答 1 投票 0

Spark 不支持解串器：需要一个“ARRAY”字段，但得到“MAP<STRING, STRING>”

最近我们已迁移到dataproc image 2.2版本，并支持scala 2.12.18和spark 3.5版本。封装测试导入 org.apache.spark.sql.SparkSession 导入测试.模型._ 哦...

scala apache-spark google-bigquery google-cloud-dataproc

回答 1 投票 0

如何用Spark高效读取多个parquet小文件？有CombineParquetInputFormat吗？

Spark 生成了多个小 parquet 文件。如何在生产者和消费者 Spark 作业上有效处理少量 parquet 文件。

apache-spark spark-streaming apache-spark-sql parquet

回答 2 投票 0

有没有办法限制MapReduce程序的节点数量？

在我的 Spark 程序中，我可以通过调整 --num-executors 参数来限制程序运行的节点数量。现在我想将我的程序的可扩展性与

java scala hadoop apache-spark bigdata

回答 1 投票 0

Spark 中ReduceByKey 和CombineByKey 的区别[已关闭]

在Spark中，ReduceByKey和CombineByKey的性能有什么区别吗？对此的任何帮助表示赞赏。

scala apache-spark

回答 1 投票 0

如何使用spark将json文件转换为dataframe？

我今天的任务之一是读取一个简单的 json 文件，将其转换为数据帧，并对数据帧进行循环并进行一些验证等... 这是我的代码的一部分： Bucket_name = 'julio-s3' json_so...

python dataframe apache-spark pyspark aws-glue

回答 1 投票 0

从 Databricks 工作区读取 json 文件

我在这里使用 Databricks 官方文档中的第二个示例：使用工作区文件。但我收到以下错误：问题：导致该错误的原因可能是什么，我们该如何解决？ ...

apache-spark pyspark databricks databricks-sql

回答 1 投票 0

.gz 文件是不可分割的。但如果我将它们放在 HDFS 中，它们会根据块大小创建多个块

我们都知道.gz是不可分割的，这意味着只有单核可以读取它。这意味着，当我将一个巨大的 .gz 文件放在 HDFS 上时，它实际上应该作为单个块存在。我看到它正在变得 sp...

apache-spark hadoop split hdfs

回答 1 投票 0

将 json 转换为数据框的最佳方法是什么？

我有一个关于将此 JSON 转换为 Dataframe 的最佳方法的问题： Json数据： { “我的模式”：{ “账户”：{ "load_type": "每日&quo...

python json dataframe apache-spark pyspark

回答 1 投票 0

pandas.spark 中的系列等效项

我有一个用pandas编写的脚本，我需要将其移植到apche Spark（pyspark）中。我已经完成了所有其他的事情，但我似乎找不到一种方法将 pandas 系列转换为 Spark。例如，

pandas apache-spark pyspark

回答 1 投票 0

是否可以将 PySpark ETL 管道的每个步骤分配给 Airflow DAG 的单独任务？

据我所知，我需要使用 SparkSubmitOperator 来提交我的 PySpark 脚本。但是，如果我想将 Spark 作业的提取、转换和加载部分分配给 Ai 中的不同任务该怎么办...

apache-spark airflow directed-acyclic-graphs spark-submit

回答 1 投票 0

如何使用 PySpark 处理单列中的多种日期格式？

我正在 PySpark 中使用一个 DataFrame，其中包含一个名为 datdoc 的列，该列具有多种日期格式，如下所示：数据文档 24 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 2024 年 9 月 7 日 24 年 9 月 7 日 2 月 7 日...

python apache-spark date pyspark apache-spark-sql

回答 1 投票 0

apache-spark 相关问题

最新问题