apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何读取包含相同数据但其中几个在 Spark 上具有不同数据类型的 parquet 文件

我有多个 parquet 文件,它们具有相同的列数,但其中一些文件的数据类型不一致。 例如,其中一个文件 file1.parquet 有一个名为 Cost 的列,其中包含 da...

回答 1 投票 0

如何使用 parquet 在 Spark 中读取和写入同一文件?

我试图从spark中的parquet文件中读取数据,与另一个rdd进行联合,然后将结果写入我读取的同一个文件中(基本上是覆盖),这会引发以下错误:

回答 6 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时,我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

回答 1 投票 0

如何组织 Apache Spark 项目

我是 Spark 新手,我想了解如何最好地设置项目。我将使用 Maven 进行构建(包括测试)。 我编写了第一个 Spark 应用程序,但要在开发期间启动它,...

回答 3 投票 0

spark 二进制(字节数组)以字符串形式获取字节

我有一个案例,我有以下数据框 `scala> res1.printSchema 根 |-- REC:二进制(可空 = true) scala> res1.show(1,false) +----------------------+ |记录...

回答 1 投票 0

includeExistingFiles: false 在 Databricks Autoloader 中不起作用

使用自动加载器从 adls gen2 获取文件。但是,我只想摄取新文件。使用以下配置仍然无法阻止现有文件被摄取。还有人吗...

回答 2 投票 0

如何克服spark java.lang.OutOfMemoryError:Java堆空间和java.lang.OutOfMemoryError:GC开销限制超出问题?

我正在尝试联接操作,这里表1有3GB的数据,表2有120GB的数据。为了避免随机播放表 1。 执行时我收到这些错误: 原因是:...

回答 1 投票 0

阿帕奇气流sparksubmit

我在不同的主机上有气流和火花。我正在尝试提交它,但出现以下错误: {standard_task_runner.py:107} 错误 - 无法执行任务 Spark_job 的作业 223(无法执行...

回答 1 投票 0

报告有关未找到源“mongodb”的错误,尽管 sbt 程序集 jar 具有 mongo-spark-connector v10

我想使用spark dataframe连接到mongodb,并制作镶木地板文件。我在 sbt 文件中配置 mongo-spark-connector v10.2.2,它在本地工作。然而,在生产上...

回答 1 投票 0

从 Spark 到 MySQL 的 JDBC 写入速度较低

我需要从 Spark DataFrame 向 MySQL 写入大约 100 万行,但插入速度太慢。我该如何改进它? 代码如下: df = sqlContext.createDataFrame(rdd, 架构) df.write.jdbc(url='x...

回答 2 投票 0

在 zeppelin 0.8 + Spark 中读取 csv 文件

我正在尝试使用这样的spark来读取zeppelin笔记中的csv文件(我还尝试了使用\或//的路径的多种语法): 这是我的代码: %火花 值按钮2 = 我正在尝试使用这样的 Spark 读取飞艇注释中的 csv 文件(我还尝试了使用 \ 或 // 的路径的多种语法): 这是我的代码: %spark val button2 = <div class="btn btn-success btn-sm">READ CSV</div>.onClick{() => try { //val df = spark.read.option("header", "true").csv("C://Users/ut00xzh7/Documents/TEST_CSV_AC_CREATION/ac_lst.csv") val df = spark.read.format("com.databricks.spark.csv").option("header", "true").load("C://Users/ut00xzh7/Documents/TEST_CSV_AC_CREATION/ac_lst.csv") val res= df.collectAsList() AngularModel("result", res) } 我收到此错误: java.io.IOException: No FileSystem for scheme: C 经过一些研究后,我发现我可以使用 %dep 添加库,但我没有任何权利这样做,所以我有点坚持这个。 您需要将路径指定为file:///C:/Users/...,在 URI 中强制执行本地文件方案。否则,磁盘 C 被视为 URI 方案(scheme:authority/path 的一般表示) 我在尝试加载文本文件时在 Zeppelin 中遇到错误。错误消息为 org.apache.spark.sql.AnalysisException: 路径不存在: file:/C:/doc/mytext.txt

回答 2 投票 0

在我的系统上运行spark-shell 时出现错误; pyspark 运行良好

我最近在我的系统上安装了spark,但我无法运行spark-shell 这些是我所做的步骤: Spark-3.5.1-bin-hadoop3-scala2.13 :安装了这个 删除旧版本的jdk和

回答 1 投票 0

如何在sparksql中按名称应用union,而不是union或union all

当我在旧的 Sparksql 版本中运行查询时,例如 从中选择 * (选择 10 作为学生类型,“亨利”作为学生姓名 联盟 选择 'tom' 作为学生姓名,90 作为学生类型, ); 然后我...

回答 1 投票 0

Apache Sedona 版本问题

所以我正在尝试设置 Apache Sedona,但遇到了奇怪的问题,表明版本兼容性已关闭。对于上下文,我有 Apache 版本 1.5.1、PySpark 版本 3.2.1 和 Sca...

回答 1 投票 0

Spark 选项:inferSchema vs header = true

参考pyspark:spark.read.format("csv") 与spark.read.csv 的性能差异 我想我需要 .options("inferSchema" , "true") 和 .option("header", "true") 来打印我的

回答 2 投票 0

使用 Spark 连接器时如何覆盖 Snowflake 中的单个分区

Spark 有没有办法从 Snowflake 表中读取单个日期分区,更新它,然后覆盖这个单个日期分区。应支持并发写入。目前 Spark...

回答 1 投票 0

在集群部署模式下运行 Spark 提交作业失败,但通过客户端

EDITI:通过删除应用程序中“setMaster”的conf设置,我能够成功运行yarn-cluster - 如果有人可以帮助spark master作为集群部署 - 那会很棒 我正在努力...

回答 0 投票 0

PySpark 中数组列值的配对组合

与这个问题(Scala)类似,但我需要PySpark中的组合(数组列的配对组合)。 输入示例: df = Spark.createDataFrame( [([0, 1],), ([2,3,4],), ([5, 6, ...

回答 2 投票 0

如何使用 Spark 数据框获取每周和每小时发生的行数?

我想返回一周中每个小时发生事件的次数(按天和小时分组)。使用 Spark DataFrame,我可以获得带有“dateOccurred”字符串的返回行列表

回答 1 投票 0

Databricks 在我从 Databricks 笔记本运行时安装的轮子内找不到 csv 文件

我正在学习 Spark,因此作为一项任务,我们必须在本地创建一个轮子,然后将其安装在 Databricks 中(我正在使用 Azure Databricks),并测试它从 Databrick Notebook 运行它。这个节目

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.