apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

py4j.Py4JException：方法 sql([class java.lang.String, class [Ljava.lang.Object;]) 不存在

我是火花新手。当我尝试通过我的 hadoop 主节点上的 jupyter 笔记本运行 pyspark 时，出现此错误。使用阿帕奇火花= 3.4.0 蟒蛇3.11 请检查下面给出的代码来自

python apache-spark pyspark

回答 1 投票 0

如何在 Spark Streaming 作业中查找数据帧的大小

我正在尝试查找每个批次中 Spark 流作业中数据帧的大小。我能够成功地找到批处理作业的大小，但是当涉及到流式传输时，我无法做到......

python scala apache-spark spark-structured-streaming

回答 2 投票 0

如何在Databricks中实现像ADF一样的列映射

如您所见，这是 ADF 中复制活动中数据类型的常规列映射，我们可以在其中将数据类型、列名称等从源更改为目标。如果我想在数据库中进行相同的设置...

apache-spark pyspark azure-data-factory databricks azure-databricks

回答 1 投票 0

Python Databricks Dataframe 连接过滤记录意外

在Azure Databricks中我有以下表格： [文件处理历史记录] ID bigint 客户端 varchar(255) 文件名 varchar(255) 文件类型 varchar(3) 事件类型 varchar(100) EventContext v...

python apache-spark databricks azure-databricks

回答 1 投票 0

将 ADT/密封特征层次结构编码到 Spark DataSet 列中

如果我想在 Spark DataSet 列中存储代数数据类型 (ADT)（即 Scala 密封特征层次结构），最佳编码策略是什么？例如，如果我有一个 ADT，其中叶子...

scala apache-spark apache-spark-dataset apache-spark-encoders

回答 3 投票 0

Cassandra 的双写入代理可帮助数据迁移

我们计划将数据从一个 Cassandra 集群 (Apache Cassandra) 迁移到另一个 cassandra 集群 (Apache Cassandra)。正在寻找 Cassandra 的双写入代理以帮助从...

apache-spark cassandra database-migration

回答 1 投票 0

不满足使用 HTTP 条件标头指定的条件。 Azure databricks 无法从 blob 存储读取 json 文件

使用的资源 Azure 日志分析 Blob 存储 v2 Azure Databricks 作业日志分析正在使用导出规则将数据写入容器中的 blob 存储帐户。 Databricks 有相同的容器

azure apache-spark azure-blob-storage azure-databricks azure-log-analytics

回答 1 投票 0

对托管实例使用“com.microsoft.sqlserver.jdbc.spark”时，SQL 查询会给出意外的 NULL 结果

这是查询：选择 * 来自 my_db.sys.sql_modules WHERE object_id = OBJECT_ID('my_db.dbo.view_name') 在 Azure Data Studio 中执行时，查询将返回正确的视图定义但是当...

sql-server apache-spark pyspark jdbc

回答 1 投票 0

合并包含值数组的两列并在 scala 中创建一列？

我有一个具有两个数组列的数据框。我正在尝试通过将每个值 sep by 合并来将这两列合并为一列。例如，在下面的示例中，主题和标记应该合并并...

scala apache-spark

回答 1 投票 0

如何生成一个包含随机内容和N行的DataFrame？

如何在 Scala 中创建一个包含 100 行和 3 列且随机整数值在 (1, 100) 范围内的 Spark DataFrame？我知道如何手动创建 DataFrame，但无法自动化它：瓦尔...

scala apache-spark apache-spark-sql

回答 6 投票 0

Spark 结构化流的分组和排序

我有一个用例，其中有流数据集，例如手机号码、开始时间和通话持续时间。我需要对手机号码进行分组，并根据开始时间对组进行排序并过滤掉呼叫

apache-spark spark-structured-streaming spark-java

回答 1 投票 0

agg(count) 不起作用

尝试使用聚合在 Apache Spark (PySpark) 中执行聚合我的数据帧。 +----+---+---+ |姓名|年龄|编号| +----+---+---+ |标记| 4| 1| |标记| 4| 2| |标记| 5| 3| |标记| 5| 4| |马克...

apache-spark pyspark

回答 1 投票 0

Pyspark 中两个数据帧（具有值的年份）之间的插值

如何在表示不同年份（例如 2020 年和 2030 年）数据的两个 PySpark DataFrame 之间实现线性插值，以生成中间年份（例如 2）的新 PySpark DataFrame...

python dataframe apache-spark pyspark interpolation

回答 1 投票 0

使用 JDBC 创建与 Oracle DB 的 apache Spark 连接

我正在尝试使用 Apache Spark 和 scala 创建到我公司的 Oracle 测试服务器的连接。以下是我在 Spark-Shell 中运行的语句。我正在使用 JDK 8 并安装了适当的

java oracle scala apache-spark jdbc

回答 1 投票 0

从案例类的完全限定名称中获取案例类的引用，用于将数据帧转换为数据集

我有案例类的完全限定名称。对于运行时的用例，我需要获取用于将数据帧转换为数据集的案例类的引用。例如。我的 FQN 为：com.org.common。

dataframe scala apache-spark reflection dataset

回答 1 投票 0

AWS Glue BigDecimal 类型的错误值：NaN

我正在尝试将从 postgres(rds) 数据库爬取的表导出到glue中。有一个字段的类型为decimal(10, 2)。现在我有几个问题。从glue中导出表格（使用spark...

apache-spark pyspark aws-glue aws-glue-data-catalog aws-glue-spark

回答 1 投票 0

对象的长度 (3) 与字段的长度 (1) Pyspark

我遇到以下代码问题。我想创建一个单列数据框。我可以知道我在这里做错了什么吗？从 pyspark.sql 导入函数为 F 从 pyspark.sql.types 导入 Integer...

python apache-spark pyspark apache-spark-sql

回答 2 投票 0

将 Spark 数据帧写入 Azure Sql Server 会间歇性地导致重复记录

我们使用 JDBC 选项将 Spark DataFrame 中转换后的数据插入到 Azure SQL Server 中的表中。以下是我们用于此插入的代码片段。然而，我们有几次注意到......

apache-spark pyspark azure-databricks

回答 1 投票 0

如何在spark中将Avro Schema对象转换为StructType

我有一个 Row 类型的 RDD，即 RDD[Row] 和 avro 模式对象。我需要使用此信息创建一个数据框。我需要将 avro 架构对象转换为 StructType 以创建 DataFrame。你能...

apache-spark schema rdd avro

回答 6 投票 0

在spark中获取hudi表属性

我已使用 EMR 在 AWS Glue 中创建了一个 HUDI 表。我想验证 HUDI 表中的索引类型和其他属性。我尝试检查架构，但它不可用。有没有办法可以...

apache-spark apache-hudi

回答 1 投票 0

apache-spark 相关问题

最新问题