apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何在scala中从JSON生成合并的值列表?

在json文件中输入数据: [{ “命令”: { “订单号”:{ “路径”:“订单id”, “类型”:“字符”, &

回答 1 投票 0

在apache Spark中创建增量表时出现问题

我正在apache Spark中创建一个增量表, 这是我的代码 导入pyspark 从 pyspark.sql 导入 SparkSession 从达美进口* 从 pyspark.sql.types 导入 StructType、StructField、StringType、

回答 1 投票 0

如何在 scala 中从 JSON 生成连接的值列表?

在json文件中输入数据: [{ “命令”: { "orderid": "order_id", "customerId": "客户.customerId" }, “产品...

回答 1 投票 0

如何选择其中包含特殊字符的scala数据框列?

我正在读取一个json文件,其中的键是特殊字符。例如 [{ "ABB/aws:1.0/CustomerId:2.0": [{ “id”:20, “namehash”:...

回答 1 投票 0

如何加载 json 文件的特定键并使用该键下的值列表创建字符串?

我正在解析一个主json,其中包含scala中的完整数据。然后我需要加载另一个 json,它具有用于过滤每个对象的必需属性,例如 Orders 就是其中之一。我需要阅读...

回答 1 投票 0

如何在scala中解析和读取json数据并通过迭代值形成字符串?

我正在尝试解析此 json 数据,然后读取 Orders 元素下的值。我的最终目标是读取 order 元素下的所有可用键,然后通过连接值创建一个字符串...

回答 1 投票 0

为什么在Spark 布隆过滤器中观察到的误报率高于预期?

在 Spark 中使用大量元素(>4 亿左右)创建一个 ffp(误报率)为 1% 的布隆过滤器时,观察到的误报率似乎要高得多,如

回答 1 投票 0

相似表的连接时间差异很大

我有下面描述的两张表。我通常将此表与另一个较小的表连接(内部连接)。然而,根据检查执行时间,表 2 大约需要 9 分钟,而......

回答 1 投票 0

在Scala中,如何在迭代每个Map键时执行精确的比较匹配?

最终,我的目标是迭代包含数千条记录的 Map,并将每个匹配键与具有数百列的 Dataframe 中的列名称进行比较。 我有一个数据...

回答 1 投票 0

无法在spark本地生成badrecord文件

我需要将输入csv文件中的所有不良记录写入spark本地的badrecordfile中。我正在使用 eclipse 来实现同样的目的。 代码: inputDFRdd = Spark.read.format("com.databricks.spark.csv&q...

回答 1 投票 0

执行 Group By - 单次迭代与两次迭代

当我们在 Spark 中执行 groupBy 时,它是否会将整个分组数据带到单个分区/执行器中,或者无论数据存在于哪个分区,它都会执行初始分组并最终带来所有唯一的

回答 1 投票 0

Spark 驱动程序进程未在 Kubernetes 上终止

问题:在 main 方法完成执行并且 Spark 上下文已停止后,Kubernetes 上的 Spark 驱动程序进程不会终止。我正在尝试将我们当前的 Spark 作业迁移到你身上...

回答 1 投票 0

如何在 Spark/Scala 中使用另一列的分隔符来拆分列

我还有一个与 split 函数相关的问题。 我是 Spark/Scala 新手。 下面是示例数据框 - +--------------------+---------+ |值|分隔符| +----------...

回答 5 投票 0

Pyspark - 没有名为coverage_daemon 的模块

我正在尝试在我的数据框中执行这个简单的代码: 导入 ast rddAlertsRdd = df.rdd.map(lambda 消息: ast.literal_eval(message['value'])) rddAlerts= rddAlertsRdd.collect() 但我得到了

回答 2 投票 0

如何使用 log4j 自定义附加程序在 HDFS 上创建日志?

概述 我们希望使用 log4j 记录 Spark 作业活动,并将日志文件写入 HDFS。 Java 8、Spark 2.4.6、Scala 2.1.2、Hadoop 3.2.1 我们无法找到本地 apache log4j 附加程序来写入...

回答 1 投票 0

在pyspark中向多级嵌套结构添加一列

我有一个具有以下结构的 pyspark 数据框。 当前架构: 根 |-- 身份证号 |-- 资讯 | |-- 姓名 | |-- 年龄 | |-- 性别 |-- 描述 我想添加名字和姓氏...

回答 3 投票 0

对大数据执行Distinct操作

当我们在Spark中对delta表或s3/gcs数据文件执行distinct操作时,它是否会像group by一样将整个数据拉到单个执行器中? 如果一个表的数据量很大,我们怎么办...

回答 1 投票 0

无法从 Databricks 社区版安装 Azure ADLS Gen 2:com.databricks.rpc.UnknownRemoteException:发生远程异常

我正在尝试从我的databricks社区版安装ADLS Gen 2,但是当我运行以下代码时: 测试 = Spark.read.csv("/mnt/lake/RAW/csds.csv", inferSchema=True, header=True) 我...

回答 1 投票 0

PySpark:如何最有效地读取具有不同列位置的多个 CSV 文件

我正在尝试使用 Spark 以最有效的方式读取目录中的多个 CSV 文件。不幸的是,除了单独读取每个文件之外,我还没有找到更好的方法来做到这一点,

回答 1 投票 0

PySpark 函数处理性能较差的空值 - 需要优化建议

我有一个名为 fillnulls 的 PySpark 函数,它通过根据列类型填充适当的值来处理数据集中的空值。但是,我注意到该函数的执行...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.