apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

如何在scala中解析和读取json数据并通过迭代值形成字符串？

我正在尝试解析此 json 数据，然后读取 Orders 元素下的值。我的最终目标是读取 order 元素下的所有可用键，然后通过连接值创建一个字符串...

scala apache-spark

回答 1 投票 0

为什么在Spark 布隆过滤器中观察到的误报率高于预期？

在 Spark 中使用大量元素（>4 亿左右）创建一个 ffp（误报率）为 1% 的布隆过滤器时，观察到的误报率似乎要高得多，如

scala apache-spark bloom-filter

回答 1 投票 0

相似表的连接时间差异很大

我有下面描述的两张表。我通常将此表与另一个较小的表连接（内部连接）。然而，根据检查执行时间，表 2 大约需要 9 分钟，而......

apache-spark pyspark databricks

回答 1 投票 0

在Scala中，如何在迭代每个Map键时执行精确的比较匹配？

最终，我的目标是迭代包含数千条记录的 Map，并将每个匹配键与具有数百列的 Dataframe 中的列名称进行比较。我有一个数据...

dataframe scala dictionary apache-spark pyspark

回答 1 投票 0

无法在spark本地生成badrecord文件

我需要将输入csv文件中的所有不良记录写入spark本地的badrecordfile中。我正在使用 eclipse 来实现同样的目的。代码： inputDFRdd = Spark.read.format("com.databricks.spark.csv&q...

eclipse apache-spark

回答 1 投票 0

执行 Group By - 单次迭代与两次迭代

当我们在 Spark 中执行 groupBy 时，它是否会将整个分组数据带到单个分区/执行器中，或者无论数据存在于哪个分区，它都会执行初始分组并最终带来所有唯一的

scala apache-spark pyspark

回答 1 投票 0

Spark 驱动程序进程未在 Kubernetes 上终止

问题：在 main 方法完成执行并且 Spark 上下文已停止后，Kubernetes 上的 Spark 驱动程序进程不会终止。我正在尝试将我们当前的 Spark 作业迁移到你身上...

apache-spark kubernetes hadoop-yarn

回答 1 投票 0

如何在 Spark/Scala 中使用另一列的分隔符来拆分列

我还有一个与 split 函数相关的问题。我是 Spark/Scala 新手。下面是示例数据框 - +--------------------+---------+ |值|分隔符| +----------...

scala apache-spark apache-spark-sql

回答 5 投票 0

Pyspark - 没有名为coverage_daemon 的模块

我正在尝试在我的数据框中执行这个简单的代码：导入 ast rddAlertsRdd = df.rdd.map(lambda 消息: ast.literal_eval(message['value'])) rddAlerts= rddAlertsRdd.collect() 但我得到了

apache-spark pyspark

回答 2 投票 0

如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

概述我们希望使用 log4j 记录 Spark 作业活动，并将日志文件写入 HDFS。 Java 8、Spark 2.4.6、Scala 2.1.2、Hadoop 3.2.1 我们无法找到本地 apache log4j 附加程序来写入...

java scala apache-spark hadoop log4j

回答 1 投票 0

在pyspark中向多级嵌套结构添加一列

我有一个具有以下结构的 pyspark 数据框。当前架构：根 |-- 身份证号 |-- 资讯 | |-- 姓名 | |-- 年龄 | |-- 性别 |-- 描述我想添加名字和姓氏...

apache-spark pyspark apache-spark-sql

回答 3 投票 0

对大数据执行Distinct操作

当我们在Spark中对delta表或s3/gcs数据文件执行distinct操作时，它是否会像group by一样将整个数据拉到单个执行器中？如果一个表的数据量很大，我们怎么办...

scala apache-spark pyspark

回答 1 投票 0

无法从 Databricks 社区版安装 Azure ADLS Gen 2：com.databricks.rpc.UnknownRemoteException：发生远程异常

我正在尝试从我的databricks社区版安装ADLS Gen 2，但是当我运行以下代码时：测试 = Spark.read.csv("/mnt/lake/RAW/csds.csv", inferSchema=True, header=True) 我...

apache-spark pyspark databricks azure-data-lake-gen2 databricks-community-edition

回答 1 投票 0

PySpark：如何最有效地读取具有不同列位置的多个 CSV 文件

我正在尝试使用 Spark 以最有效的方式读取目录中的多个 CSV 文件。不幸的是，除了单独读取每个文件之外，我还没有找到更好的方法来做到这一点，

python csv apache-spark pyspark apache-spark-sql

回答 1 投票 0

PySpark 函数处理性能较差的空值 - 需要优化建议

我有一个名为 fillnulls 的 PySpark 函数，它通过根据列类型填充适当的值来处理数据集中的空值。但是，我注意到该函数的执行...

python apache-spark pyspark

回答 1 投票 0

Spark jdbc 覆盖模式未按预期工作

我想使用spark执行更新和插入操作请查找现有表格的图像参考在这里，我更新 id :101 位置和插入时间并插入另外 2 条记录： ...

apache-spark pyspark apache-spark-sql aws-glue

回答 6 投票 0

Spark-Hive 应用程序：集群上的 SASL 与 Kerberos 协商失败

我在 Kerberos 集群上运行的 Spark-Hive 应用程序遇到问题。我收到 javax.security.sasl.SaslException：GSS 启动失败错误，这似乎是由于未找到 ...

apache-spark hadoop hive kerberos apache-spark-2.0

回答 1 投票 0

如何使用 pyspark 将不同的值放在一列中

我想将不同的值放在一列中例如，内华达州问值1 值2 值3 值4 234 1 10 0 0 0 234 2 0 15 0 0 234 3 0 0 20 0 234 4 0 0 0 25 根据 Q，值 1-4

apache-spark pyspark

回答 1 投票 0

pyspark.errors.exceptions.captured.IllegalArgumentException：输出列功能已存在

这是我下面的代码，我收到此错误“pyspark.errors.exceptions.captured.IllegalArgumentException：输出列功能已存在”我检查了其他帖子，但我不...

python apache-spark pyspark

回答 1 投票 0

Parquet S3 文件上的 Apache Hudi 更新和删除操作问题

在这里，我尝试模拟 Hudi 数据集的更新和删除，并希望看到 Athena 表中反映的状态。我们使用AWS的EMR、S3和Athena服务。尝试使用

apache-spark spark-streaming amazon-emr apache-hudi apache-iceberg

回答 1 投票 0

apache-spark 相关问题

最新问题