Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。
py4j.Py4JException:方法 sql([class java.lang.String, class [Ljava.lang.Object;]) 不存在
我是火花新手。当我尝试通过我的 hadoop 主节点上的 jupyter 笔记本运行 pyspark 时,出现此错误。 使用 阿帕奇火花= 3.4.0 蟒蛇3.11 请检查下面给出的代码 来自
如何在 Spark Streaming 作业中查找数据帧的大小
我正在尝试查找每个批次中 Spark 流作业中数据帧的大小。我能够成功地找到批处理作业的大小,但是当涉及到流式传输时,我无法做到......
如您所见,这是 ADF 中复制活动中数据类型的常规列映射,我们可以在其中将数据类型、列名称等从源更改为目标。 如果我想在数据库中进行相同的设置...
Python Databricks Dataframe 连接过滤记录意外
在Azure Databricks中我有以下表格: [文件处理历史记录] ID bigint 客户端 varchar(255) 文件名 varchar(255) 文件类型 varchar(3) 事件类型 varchar(100) EventContext v...
将 ADT/密封特征层次结构编码到 Spark DataSet 列中
如果我想在 Spark DataSet 列中存储代数数据类型 (ADT)(即 Scala 密封特征层次结构),最佳编码策略是什么? 例如,如果我有一个 ADT,其中叶子...
我们计划将数据从一个 Cassandra 集群 (Apache Cassandra) 迁移到另一个 cassandra 集群 (Apache Cassandra)。正在寻找 Cassandra 的双写入代理以帮助从...
不满足使用 HTTP 条件标头指定的条件。 Azure databricks 无法从 blob 存储读取 json 文件
使用的资源 Azure 日志分析 Blob 存储 v2 Azure Databricks 作业 日志分析正在使用导出规则将数据写入容器中的 blob 存储帐户。 Databricks 有相同的容器
对托管实例使用“com.microsoft.sqlserver.jdbc.spark”时,SQL 查询会给出意外的 NULL 结果
这是查询: 选择 * 来自 my_db.sys.sql_modules WHERE object_id = OBJECT_ID('my_db.dbo.view_name') 在 Azure Data Studio 中执行时,查询将返回正确的视图定义 但是当...
我有一个具有两个数组列的数据框。我正在尝试通过将每个值 sep by 合并来将这两列合并为一列。例如,在下面的示例中,主题和标记应该合并并...
如何在 Scala 中创建一个包含 100 行和 3 列且随机整数值在 (1, 100) 范围内的 Spark DataFrame? 我知道如何手动创建 DataFrame,但无法自动化它: 瓦尔...
我有一个用例,其中有流数据集,例如手机号码、开始时间和通话持续时间。 我需要对手机号码进行分组,并根据开始时间对组进行排序并过滤掉呼叫
尝试使用聚合在 Apache Spark (PySpark) 中执行聚合我的数据帧。 +----+---+---+ |姓名|年龄|编号| +----+---+---+ |标记| 4| 1| |标记| 4| 2| |标记| 5| 3| |标记| 5| 4| |马克...
如何在表示不同年份(例如 2020 年和 2030 年)数据的两个 PySpark DataFrame 之间实现线性插值,以生成中间年份(例如 2)的新 PySpark DataFrame...
使用 JDBC 创建与 Oracle DB 的 apache Spark 连接
我正在尝试使用 Apache Spark 和 scala 创建到我公司的 Oracle 测试服务器的连接。以下是我在 Spark-Shell 中运行的语句。我正在使用 JDK 8 并安装了适当的
从案例类的完全限定名称中获取案例类的引用,用于将数据帧转换为数据集
我有案例类的完全限定名称。对于运行时的用例,我需要获取用于将数据帧转换为数据集的案例类的引用。 例如。 我的 FQN 为:com.org.common。
AWS Glue BigDecimal 类型的错误值:NaN
我正在尝试将从 postgres(rds) 数据库爬取的表导出到glue中。有一个字段的类型为decimal(10, 2)。现在我有几个问题。 从glue中导出表格(使用spark...
我遇到以下代码问题。我想创建一个单列数据框。 我可以知道我在这里做错了什么吗? 从 pyspark.sql 导入函数为 F 从 pyspark.sql.types 导入 Integer...
将 Spark 数据帧写入 Azure Sql Server 会间歇性地导致重复记录
我们使用 JDBC 选项将 Spark DataFrame 中转换后的数据插入到 Azure SQL Server 中的表中。以下是我们用于此插入的代码片段。然而,我们有几次注意到......
如何在spark中将Avro Schema对象转换为StructType
我有一个 Row 类型的 RDD,即 RDD[Row] 和 avro 模式对象。我需要使用此信息创建一个数据框。 我需要将 avro 架构对象转换为 StructType 以创建 DataFrame。 你能...
我已使用 EMR 在 AWS Glue 中创建了一个 HUDI 表。 我想验证 HUDI 表中的索引类型和其他属性。我尝试检查架构,但它不可用。 有没有办法可以...