apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何在scala中解析和读取json数据并通过迭代值形成字符串?

我正在尝试解析此 json 数据,然后读取 Orders 元素下的值。我的最终目标是读取 order 元素下的所有可用键,然后通过连接值创建一个字符串...

回答 1 投票 0

为什么在Spark 布隆过滤器中观察到的误报率高于预期?

在 Spark 中使用大量元素(>4 亿左右)创建一个 ffp(误报率)为 1% 的布隆过滤器时,观察到的误报率似乎要高得多,如

回答 1 投票 0

相似表的连接时间差异很大

我有下面描述的两张表。我通常将此表与另一个较小的表连接(内部连接)。然而,根据检查执行时间,表 2 大约需要 9 分钟,而......

回答 1 投票 0

在Scala中,如何在迭代每个Map键时执行精确的比较匹配?

最终,我的目标是迭代包含数千条记录的 Map,并将每个匹配键与具有数百列的 Dataframe 中的列名称进行比较。 我有一个数据...

回答 1 投票 0

无法在spark本地生成badrecord文件

我需要将输入csv文件中的所有不良记录写入spark本地的badrecordfile中。我正在使用 eclipse 来实现同样的目的。 代码: inputDFRdd = Spark.read.format("com.databricks.spark.csv&q...

回答 1 投票 0

执行 Group By - 单次迭代与两次迭代

当我们在 Spark 中执行 groupBy 时,它是否会将整个分组数据带到单个分区/执行器中,或者无论数据存在于哪个分区,它都会执行初始分组并最终带来所有唯一的

回答 1 投票 0

Spark 驱动程序进程未在 Kubernetes 上终止

问题:在 main 方法完成执行并且 Spark 上下文已停止后,Kubernetes 上的 Spark 驱动程序进程不会终止。我正在尝试将我们当前的 Spark 作业迁移到你身上...

回答 1 投票 0

如何在 Spark/Scala 中使用另一列的分隔符来拆分列

我还有一个与 split 函数相关的问题。 我是 Spark/Scala 新手。 下面是示例数据框 - +--------------------+---------+ |值|分隔符| +----------...

回答 5 投票 0

Pyspark - 没有名为coverage_daemon 的模块

我正在尝试在我的数据框中执行这个简单的代码: 导入 ast rddAlertsRdd = df.rdd.map(lambda 消息: ast.literal_eval(message['value'])) rddAlerts= rddAlertsRdd.collect() 但我得到了

回答 2 投票 0

如何使用 log4j 自定义附加程序在 HDFS 上创建日志?

概述 我们希望使用 log4j 记录 Spark 作业活动,并将日志文件写入 HDFS。 Java 8、Spark 2.4.6、Scala 2.1.2、Hadoop 3.2.1 我们无法找到本地 apache log4j 附加程序来写入...

回答 1 投票 0

在pyspark中向多级嵌套结构添加一列

我有一个具有以下结构的 pyspark 数据框。 当前架构: 根 |-- 身份证号 |-- 资讯 | |-- 姓名 | |-- 年龄 | |-- 性别 |-- 描述 我想添加名字和姓氏...

回答 3 投票 0

对大数据执行Distinct操作

当我们在Spark中对delta表或s3/gcs数据文件执行distinct操作时,它是否会像group by一样将整个数据拉到单个执行器中? 如果一个表的数据量很大,我们怎么办...

回答 1 投票 0

无法从 Databricks 社区版安装 Azure ADLS Gen 2:com.databricks.rpc.UnknownRemoteException:发生远程异常

我正在尝试从我的databricks社区版安装ADLS Gen 2,但是当我运行以下代码时: 测试 = Spark.read.csv("/mnt/lake/RAW/csds.csv", inferSchema=True, header=True) 我...

回答 1 投票 0

PySpark:如何最有效地读取具有不同列位置的多个 CSV 文件

我正在尝试使用 Spark 以最有效的方式读取目录中的多个 CSV 文件。不幸的是,除了单独读取每个文件之外,我还没有找到更好的方法来做到这一点,

回答 1 投票 0

PySpark 函数处理性能较差的空值 - 需要优化建议

我有一个名为 fillnulls 的 PySpark 函数,它通过根据列类型填充适当的值来处理数据集中的空值。但是,我注意到该函数的执行...

回答 1 投票 0

Spark jdbc 覆盖模式未按预期工作

我想使用spark执行更新和插入操作 请查找现有表格的图像参考 在这里,我更新 id :101 位置和插入时间并插入另外 2 条记录: ...

回答 6 投票 0

Spark-Hive 应用程序:集群上的 SASL 与 Kerberos 协商失败

我在 Kerberos 集群上运行的 Spark-Hive 应用程序遇到问题。我收到 javax.security.sasl.SaslException:GSS 启动失败错误,这似乎是由于未找到 ...

回答 1 投票 0

如何使用 pyspark 将不同的值放在一列中

我想将不同的值放在一列中 例如, 内华达州 问 值1 值2 值3 值4 234 1 10 0 0 0 234 2 0 15 0 0 234 3 0 0 20 0 234 4 0 0 0 25 根据 Q,值 1-4

回答 1 投票 0

pyspark.errors.exceptions.captured.IllegalArgumentException:输出列功能已存在

这是我下面的代码,我收到此错误“pyspark.errors.exceptions.captured.IllegalArgumentException:输出列功能已存在”我检查了其他帖子,但我不...

回答 1 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里,我尝试模拟 Hudi 数据集的更新和删除,并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。 尝试使用

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.