apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

从 Pyspark 中的数据帧插入或更新增量表

我当前有一个 pyspark 数据框,我最初使用以下代码创建了一个增量表 - df.write.format("delta").saveAsTable("事件") 现在,由于上面的数据框

回答 3 投票 0

Pyspark:用最后一个值向前填充空值

我有一个与此类似的数据框: 值 = [ (“2019-10-01”,“004”,1.0), (“2019-10-02”,“005”,无), (“2019-10-03”、“004”、...

回答 2 投票 0

Spark Cassandra 连接器:错误 AppendDataExec:数据源写入支持 CassandraBulkWrite

我有一个简单的 Cassandra 表,例如: 创建表 my_keyspace.my_table ( my_composite_pk_a bigint, my_composite_pk_b ascii, 价值斑点, 主键((my_composite_pk_a,

回答 1 投票 0

通过基于另一个变量保留顺序来收集列表

我正在尝试在现有的一组列上使用 groupby 聚合在 Pyspark 中创建一个新的列表列。下面提供了一个示例输入数据帧: ------------------------ 编号 |日期...

回答 10 投票 0

如何在pyspark dataframe中使用窗口函数

我有一个 pyspark 数据框,如下所示: 邮件 sno mail_date date1 存在 [email protected] 790 2024-01-01 2024-02-06 是 [email protected] 790 2023-12-23 2023...

回答 1 投票 0

在 Microsoft Fabric 中不允许使用 Apache Spark 为 Fabric_lakehouse 创建数据库

我遵循了在 Apache Spark 中使用增量表的说明 但是当我尝试将表格保存到 Lakehouse 时,我收到以下消息。当我关注“Lakehouse tut...

回答 4 投票 0

创建 SparkSession 时如何修复 java.lang.InknownClassChangeError?

我在 IntelliJ 中运行项目时遇到此错误: “C:\Program Files\Java\jdk1.8.0_212 in\java.exe”... 连接到目标VM,地址:'127.0.0.1:57229',传输:'socket'

回答 1 投票 0

如何根据主键从表中删除重复行?

我在 Dataframe 中加载了一个表,并且尝试将 groupBy 与 PK 一起使用。 df_remitInsert = Spark.sql("""从 trac_analytics.mainremitdata 中选择 *""") df_remitInsert_fil...

回答 1 投票 0


如何将时间戳字符串转换为时间戳格式?

我正在尝试将时间戳字符串转换为时间戳。我正在使用下面的方法,但它返回 2024-03-18T00:00 但我想要这种 yyyy-MM-dd HH:mm:ss 的格式 导入java.time._ 导入 java.time.f...

回答 1 投票 0

PySpark 窗口函数:rangeBetween/rowsBetween 上的 orderBy 中的多个条件

是否可以创建一个窗口函数,它可以在 orderBy 中为 rangeBetween 或 rowsBetween 有多个条件。假设我有一个如下所示的数据框。 user_id 时间戳...

回答 2 投票 0

模糊逻辑来匹配数据框中的记录

我有 200 万个巨大的数据集,我想根据模糊逻辑匹配记录,我有我的原始数据框,例如 +--------+----------------+ |姓名|地址| +--------+---...

回答 1 投票 0

spark中的Driver和Application manager有什么区别

我无法弄清楚Spark driver和application master之间有什么区别。基本上是运行应用程序的职责,谁做什么? 在客户端模式下,客户端机器有...

回答 2 投票 0

使用 Spark 引擎的 AWS Glue 批量处理

这是我的场景。 我有一个源数据库,它是带有 Postgresql 引擎的 aurora 数据库。我有一个名为付款的表。该表由数百万条记录组成,因此在每个 d 结束时...

回答 1 投票 0

Spark UnsupportedOperationException:空集合

有谁知道在尝试使用 Databricks 提供的动手实验室执行 Spark mllib ALS 时导致此错误的可能原因吗? 14/11/20 23:33:38 警告实用程序:如果您需要 b...

回答 4 投票 0

Aws Athena SQL 查询在 Apache Spark 中不起作用

我的查询在 Athena 中工作,但在 Spark SQL 中不起作用。 询问- 将 cte 作为 ( 选择年份(日期)作为年份,计数(*)作为总计,计数(col1)作为 col1_not_null,计数(col2)作为 col2_not_null 来自

回答 1 投票 0

如何在scala中从JSON生成合并的值列表?

在json文件中输入数据: [{ “命令”: { “订单号”:{ “路径”:“订单id”, “类型”:“字符”, &

回答 1 投票 0

在apache Spark中创建增量表时出现问题

我正在apache Spark中创建一个增量表, 这是我的代码 导入pyspark 从 pyspark.sql 导入 SparkSession 从达美进口* 从 pyspark.sql.types 导入 StructType、StructField、StringType、

回答 1 投票 0

如何在 scala 中从 JSON 生成连接的值列表?

在json文件中输入数据: [{ “命令”: { "orderid": "order_id", "customerId": "客户.customerId" }, “产品...

回答 1 投票 0

如何选择其中包含特殊字符的scala数据框列?

我正在读取一个json文件,其中的键是特殊字符。例如 [{ "ABB/aws:1.0/CustomerId:2.0": [{ “id”:20, “namehash”:...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.