apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

py4j.Py4JException:方法 sql([class java.lang.String, class [Ljava.lang.Object;]) 不存在

我是火花新手。当我尝试通过我的 hadoop 主节点上的 jupyter 笔记本运行 pyspark 时,出现此错误。 使用 阿帕奇火花= 3.4.0 蟒蛇3.11 请检查下面给出的代码 来自

回答 1 投票 0

如何在 Spark Streaming 作业中查找数据帧的大小

我正在尝试查找每个批次中 Spark 流作业中数据帧的大小。我能够成功地找到批处理作业的大小,但是当涉及到流式传输时,我无法做到......

回答 2 投票 0

如何在Databricks中实现像ADF一样的列映射

如您所见,这是 ADF 中复制活动中数据类型的常规列映射,我们可以在其中将数据类型、列名称等从源更改为目标。 如果我想在数据库中进行相同的设置...

回答 1 投票 0

Python Databricks Dataframe 连接过滤记录意外

在Azure Databricks中我有以下表格: [文件处理历史记录] ID bigint 客户端 varchar(255) 文件名 varchar(255) 文件类型 varchar(3) 事件类型 varchar(100) EventContext v...

回答 1 投票 0

将 ADT/密封特征层次结构编码到 Spark DataSet 列中

如果我想在 Spark DataSet 列中存储代数数据类型 (ADT)(即 Scala 密封特征层次结构),最佳编码策略是什么? 例如,如果我有一个 ADT,其中叶子...

回答 3 投票 0

Cassandra 的双写入代理可帮助数据迁移

我们计划将数据从一个 Cassandra 集群 (Apache Cassandra) 迁移到另一个 cassandra 集群 (Apache Cassandra)。正在寻找 Cassandra 的双写入代理以帮助从...

回答 1 投票 0

不满足使用 HTTP 条件标头指定的条件。 Azure databricks 无法从 blob 存储读取 json 文件

使用的资源 Azure 日志分析 Blob 存储 v2 Azure Databricks 作业 日志分析正在使用导出规则将数据写入容器中的 blob 存储帐户。 Databricks 有相同的容器

回答 1 投票 0

对托管实例使用“com.microsoft.sqlserver.jdbc.spark”时,SQL 查询会给出意外的 NULL 结果

这是查询: 选择 * 来自 my_db.sys.sql_modules WHERE object_id = OBJECT_ID('my_db.dbo.view_name') 在 Azure Data Studio 中执行时,查询将返回正确的视图定义 但是当...

回答 1 投票 0

合并包含值数组的两列并在 scala 中创建一列?

我有一个具有两个数组列的数据框。我正在尝试通过将每个值 sep by 合并来将这两列合并为一列。例如,在下面的示例中,主题和标记应该合并并...

回答 1 投票 0

如何生成一个包含随机内容和N行的DataFrame?

如何在 Scala 中创建一个包含 100 行和 3 列且随机整数值在 (1, 100) 范围内的 Spark DataFrame? 我知道如何手动创建 DataFrame,但无法自动化它: 瓦尔...

回答 6 投票 0

Spark 结构化流的分组和排序

我有一个用例,其中有流数据集,例如手机号码、开始时间和通话持续时间。 我需要对手机号码进行分组,并根据开始时间对组进行排序并过滤掉呼叫

回答 1 投票 0

agg(count) 不起作用

尝试使用聚合在 Apache Spark (PySpark) 中执行聚合我的数据帧。 +----+---+---+ |姓名|年龄|编号| +----+---+---+ |标记| 4| 1| |标记| 4| 2| |标记| 5| 3| |标记| 5| 4| |马克...

回答 1 投票 0

Pyspark 中两个数据帧(具有值的年份)之间的插值

如何在表示不同年份(例如 2020 年和 2030 年)数据的两个 PySpark DataFrame 之间实现线性插值,以生成中间年份(例如 2)的新 PySpark DataFrame...

回答 1 投票 0

使用 JDBC 创建与 Oracle DB 的 apache Spark 连接

我正在尝试使用 Apache Spark 和 scala 创建到我公司的 Oracle 测试服务器的连接。以下是我在 Spark-Shell 中运行的语句。我正在使用 JDK 8 并安装了适当的

回答 1 投票 0

从案例类的完全限定名称中获取案例类的引用,用于将数据帧转换为数据集

我有案例类的完全限定名称。对于运行时的用例,我需要获取用于将数据帧转换为数据集的案例类的引用。 例如。 我的 FQN 为:com.org.common。

回答 1 投票 0

AWS Glue BigDecimal 类型的错误值:NaN

我正在尝试将从 postgres(rds) 数据库爬取的表导出到glue中。有一个字段的类型为decimal(10, 2)。现在我有几个问题。 从glue中导出表格(使用spark...

回答 1 投票 0

对象的长度 (3) 与字段的长度 (1) Pyspark

我遇到以下代码问题。我想创建一个单列数据框。 我可以知道我在这里做错了什么吗? 从 pyspark.sql 导入函数为 F 从 pyspark.sql.types 导入 Integer...

回答 2 投票 0

将 Spark 数据帧写入 Azure Sql Server 会间歇性地导致重复记录

我们使用 JDBC 选项将 Spark DataFrame 中转换后的数据插入到 Azure SQL Server 中的表中。以下是我们用于此插入的代码片段。然而,我们有几次注意到......

回答 1 投票 0

如何在spark中将Avro Schema对象转换为StructType

我有一个 Row 类型的 RDD,即 RDD[Row] 和 avro 模式对象。我需要使用此信息创建一个数据框。 我需要将 avro 架构对象转换为 StructType 以创建 DataFrame。 你能...

回答 6 投票 0

在spark中获取hudi表属性

我已使用 EMR 在 AWS Glue 中创建了一个 HUDI 表。 我想验证 HUDI 表中的索引类型和其他属性。我尝试检查架构,但它不可用。 有没有办法可以...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.