apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何读取包含相同数据但其中几个在 Spark 上具有不同数据类型的 parquet 文件

我有多个 parquet 文件，它们具有相同的列数，但其中一些文件的数据类型不一致。例如，其中一个文件 file1.parquet 有一个名为 Cost 的列，其中包含 da...

python apache-spark

回答 1 投票 0

如何使用 parquet 在 Spark 中读取和写入同一文件？

我试图从spark中的parquet文件中读取数据，与另一个rdd进行联合，然后将结果写入我读取的同一个文件中（基本上是覆盖），这会引发以下错误：

apache-spark overwrite parquet

回答 6 投票 0

澄清 Spark 物理计划交换哈希分区中“[id=#]”的含义

在查看 Spark 物理计划以查找代码中的任何瓶颈时，我偶然发现了一个出现在分区阶段的 ID。 +- *(2) 排序 [Column#46 ASC NULLS FIRST], true, 0 +-

python apache-spark pyspark apache-spark-sql bigdata

回答 1 投票 0

如何组织 Apache Spark 项目

我是 Spark 新手，我想了解如何最好地设置项目。我将使用 Maven 进行构建（包括测试）。我编写了第一个 Spark 应用程序，但要在开发期间启动它，...

java apache-spark apache-spark-sql

回答 3 投票 0

spark 二进制（字节数组）以字符串形式获取字节

我有一个案例，我有以下数据框 `scala> res1.printSchema 根 |-- REC：二进制（可空 = true） scala> res1.show(1,false) +----------------------+ |记录...

scala apache-spark binary hex

回答 1 投票 0

includeExistingFiles: false 在 Databricks Autoloader 中不起作用

使用自动加载器从 adls gen2 获取文件。但是，我只想摄取新文件。使用以下配置仍然无法阻止现有文件被摄取。还有人吗...

apache-spark pyspark azure-databricks spark-structured-streaming

回答 2 投票 0

如何克服spark java.lang.OutOfMemoryError：Java堆空间和java.lang.OutOfMemoryError：GC开销限制超出问题？

我正在尝试联接操作，这里表1有3GB的数据，表2有120GB的数据。为了避免随机播放表 1。执行时我收到这些错误：原因是：...

apache-spark pyspark apache-spark-sql hive spark-streaming

回答 1 投票 0

阿帕奇气流sparksubmit

我在不同的主机上有气流和火花。我正在尝试提交它，但出现以下错误： {standard_task_runner.py:107} 错误 - 无法执行任务 Spark_job 的作业 223（无法执行...

apache-spark pyspark airflow spark-submit

回答 1 投票 0

报告有关未找到源“mongodb”的错误，尽管 sbt 程序集 jar 具有 mongo-spark-connector v10

我想使用spark dataframe连接到mongodb，并制作镶木地板文件。我在 sbt 文件中配置 mongo-spark-connector v10.2.2，它在本地工作。然而，在生产上...

scala apache-spark jvm sbt sbt-assembly

回答 1 投票 0

从 Spark 到 MySQL 的 JDBC 写入速度较低

我需要从 Spark DataFrame 向 MySQL 写入大约 100 万行，但插入速度太慢。我该如何改进它？代码如下： df = sqlContext.createDataFrame(rdd, 架构) df.write.jdbc(url='x...

apache-spark pyspark

回答 2 投票 0

在 zeppelin 0.8 + Spark 中读取 csv 文件

我正在尝试使用这样的spark来读取zeppelin笔记中的csv文件（我还尝试了使用\或//的路径的多种语法）：这是我的代码：％火花值按钮2 = 我正在尝试使用这样的 Spark 读取飞艇注释中的 csv 文件（我还尝试了使用 \ 或 // 的路径的多种语法）：这是我的代码： %spark val button2 = <div class="btn btn-success btn-sm">READ CSV</div>.onClick{() => try { //val df = spark.read.option("header", "true").csv("C://Users/ut00xzh7/Documents/TEST_CSV_AC_CREATION/ac_lst.csv") val df = spark.read.format("com.databricks.spark.csv").option("header", "true").load("C://Users/ut00xzh7/Documents/TEST_CSV_AC_CREATION/ac_lst.csv") val res= df.collectAsList() AngularModel("result", res) } 我收到此错误： java.io.IOException: No FileSystem for scheme: C 经过一些研究后，我发现我可以使用 %dep 添加库，但我没有任何权利这样做，所以我有点坚持这个。您需要将路径指定为file:///C:/Users/...，在 URI 中强制执行本地文件方案。否则，磁盘 C 被视为 URI 方案（scheme:authority/path 的一般表示）我在尝试加载文本文件时在 Zeppelin 中遇到错误。错误消息为 org.apache.spark.sql.AnalysisException: 路径不存在: file:/C:/doc/mytext.txt

csv apache-spark apache-zeppelin

回答 2 投票 0

在我的系统上运行spark-shell 时出现错误； pyspark 运行良好

我最近在我的系统上安装了spark，但我无法运行spark-shell 这些是我所做的步骤： Spark-3.5.1-bin-hadoop3-scala2.13 ：安装了这个删除旧版本的jdk和

windows apache-spark

回答 1 投票 0

如何在sparksql中按名称应用union，而不是union或union all

当我在旧的 Sparksql 版本中运行查询时，例如从中选择 * （选择 10 作为学生类型，“亨利”作为学生姓名联盟选择 'tom' 作为学生姓名，90 作为学生类型，）；然后我...

apache-spark apache-spark-sql

回答 1 投票 0

Apache Sedona 版本问题

所以我正在尝试设置 Apache Sedona，但遇到了奇怪的问题，表明版本兼容性已关闭。对于上下文，我有 Apache 版本 1.5.1、PySpark 版本 3.2.1 和 Sca...

apache-spark pyspark geospatial apache-sedona

回答 1 投票 0

Spark 选项：inferSchema vs header = true

参考pyspark：spark.read.format("csv") 与spark.read.csv 的性能差异我想我需要 .options("inferSchema" , "true") 和 .option("header", "true") 来打印我的

csv apache-spark header apache-spark-sql schema

回答 2 投票 0

使用 Spark 连接器时如何覆盖 Snowflake 中的单个分区

Spark 有没有办法从 Snowflake 表中读取单个日期分区，更新它，然后覆盖这个单个日期分区。应支持并发写入。目前 Spark...

apache-spark pyspark snowflake-cloud-data-platform

回答 1 投票 0

在集群部署模式下运行 Spark 提交作业失败，但通过客户端

EDITI：通过删除应用程序中“setMaster”的conf设置，我能够成功运行yarn-cluster - 如果有人可以帮助spark master作为集群部署 - 那会很棒我正在努力...

hadoop amazon-web-services amazon-s3 apache-spark

回答 0 投票 0

PySpark 中数组列值的配对组合

与这个问题（Scala）类似，但我需要PySpark中的组合（数组列的配对组合）。输入示例： df = Spark.createDataFrame( [([0, 1],), ([2,3,4],), ([5, 6, ...

python arrays apache-spark pyspark combinations

回答 2 投票 0

如何使用 Spark 数据框获取每周和每小时发生的行数？

我想返回一周中每个小时发生事件的次数（按天和小时分组）。使用 Spark DataFrame，我可以获得带有“dateOccurred”字符串的返回行列表

apache-spark pyspark apache-spark-sql

回答 1 投票 0

Databricks 在我从 Databricks 笔记本运行时安装的轮子内找不到 csv 文件

我正在学习 Spark，因此作为一项任务，我们必须在本地创建一个轮子，然后将其安装在 Databricks 中（我正在使用 Azure Databricks），并测试它从 Databrick Notebook 运行它。这个节目

python csv apache-spark pyspark databricks

回答 1 投票 0

apache-spark 相关问题

最新问题