apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

spark中的Driver和Application manager有什么区别

我无法弄清楚Spark driver和application master之间有什么区别。基本上是运行应用程序的职责,谁做什么? 在客户端模式下,客户端机器有...

回答 2 投票 0

使用 Spark 引擎的 AWS Glue 批量处理

这是我的场景。 我有一个源数据库,它是带有 Postgresql 引擎的 aurora 数据库。我有一个名为付款的表。该表由数百万条记录组成,因此在每个 d 结束时...

回答 1 投票 0

Spark UnsupportedOperationException:空集合

有谁知道在尝试使用 Databricks 提供的动手实验室执行 Spark mllib ALS 时导致此错误的可能原因吗? 14/11/20 23:33:38 警告实用程序:如果您需要 b...

回答 4 投票 0

Aws Athena SQL 查询在 Apache Spark 中不起作用

我的查询在 Athena 中工作,但在 Spark SQL 中不起作用。 询问- 将 cte 作为 ( 选择年份(日期)作为年份,计数(*)作为总计,计数(col1)作为 col1_not_null,计数(col2)作为 col2_not_null 来自

回答 1 投票 0

如何在scala中从JSON生成合并的值列表?

在json文件中输入数据: [{ “命令”: { “订单号”:{ “路径”:“订单id”, “类型”:“字符”, &

回答 1 投票 0

在apache Spark中创建增量表时出现问题

我正在apache Spark中创建一个增量表, 这是我的代码 导入pyspark 从 pyspark.sql 导入 SparkSession 从达美进口* 从 pyspark.sql.types 导入 StructType、StructField、StringType、

回答 1 投票 0

如何在 scala 中从 JSON 生成连接的值列表?

在json文件中输入数据: [{ “命令”: { "orderid": "order_id", "customerId": "客户.customerId" }, “产品...

回答 1 投票 0

如何选择其中包含特殊字符的scala数据框列?

我正在读取一个json文件,其中的键是特殊字符。例如 [{ "ABB/aws:1.0/CustomerId:2.0": [{ “id”:20, “namehash”:...

回答 1 投票 0

如何加载 json 文件的特定键并使用该键下的值列表创建字符串?

我正在解析一个主json,其中包含scala中的完整数据。然后我需要加载另一个 json,它具有用于过滤每个对象的必需属性,例如 Orders 就是其中之一。我需要阅读...

回答 1 投票 0

如何在scala中解析和读取json数据并通过迭代值形成字符串?

我正在尝试解析此 json 数据,然后读取 Orders 元素下的值。我的最终目标是读取 order 元素下的所有可用键,然后通过连接值创建一个字符串...

回答 1 投票 0

为什么在Spark 布隆过滤器中观察到的误报率高于预期?

在 Spark 中使用大量元素(>4 亿左右)创建一个 ffp(误报率)为 1% 的布隆过滤器时,观察到的误报率似乎要高得多,如

回答 1 投票 0

相似表的连接时间差异很大

我有下面描述的两张表。我通常将此表与另一个较小的表连接(内部连接)。然而,根据检查执行时间,表 2 大约需要 9 分钟,而......

回答 1 投票 0

在Scala中,如何在迭代每个Map键时执行精确的比较匹配?

最终,我的目标是迭代包含数千条记录的 Map,并将每个匹配键与具有数百列的 Dataframe 中的列名称进行比较。 我有一个数据...

回答 1 投票 0

无法在spark本地生成badrecord文件

我需要将输入csv文件中的所有不良记录写入spark本地的badrecordfile中。我正在使用 eclipse 来实现同样的目的。 代码: inputDFRdd = Spark.read.format("com.databricks.spark.csv&q...

回答 1 投票 0

执行 Group By - 单次迭代与两次迭代

当我们在 Spark 中执行 groupBy 时,它是否会将整个分组数据带到单个分区/执行器中,或者无论数据存在于哪个分区,它都会执行初始分组并最终带来所有唯一的

回答 1 投票 0

Spark 驱动程序进程未在 Kubernetes 上终止

问题:在 main 方法完成执行并且 Spark 上下文已停止后,Kubernetes 上的 Spark 驱动程序进程不会终止。我正在尝试将我们当前的 Spark 作业迁移到你身上...

回答 1 投票 0

如何在 Spark/Scala 中使用另一列的分隔符来拆分列

我还有一个与 split 函数相关的问题。 我是 Spark/Scala 新手。 下面是示例数据框 - +--------------------+---------+ |值|分隔符| +----------...

回答 5 投票 0

Pyspark - 没有名为coverage_daemon 的模块

我正在尝试在我的数据框中执行这个简单的代码: 导入 ast rddAlertsRdd = df.rdd.map(lambda 消息: ast.literal_eval(message['value'])) rddAlerts= rddAlertsRdd.collect() 但我得到了

回答 2 投票 0

如何使用 log4j 自定义附加程序在 HDFS 上创建日志?

概述 我们希望使用 log4j 记录 Spark 作业活动,并将日志文件写入 HDFS。 Java 8、Spark 2.4.6、Scala 2.1.2、Hadoop 3.2.1 我们无法找到本地 apache log4j 附加程序来写入...

回答 1 投票 0

在pyspark中向多级嵌套结构添加一列

我有一个具有以下结构的 pyspark 数据框。 当前架构: 根 |-- 身份证号 |-- 资讯 | |-- 姓名 | |-- 年龄 | |-- 性别 |-- 描述 我想添加名字和姓氏...

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.