apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

如何使用Spark进行键可以具有多个粒度的左连接?

我有这个样本表,代表公司所有员工的工资: 植物 德普托 姓名 薪资 1 MG 凯文 1.100 2 SP 伊森 1.200 3 DF 胡安 1.200 4 SP 贝思 110 5 SP 约翰 1.000 还有...

回答 1 投票 0

如何在不扫描数据的情况下覆盖pyspark DataFrame架构?

这个问题与https://stackoverflow.com/a/37090151/1661491有关。假设我有一个具有特定模式的 pyspark DataFrame,并且我想用新模式覆盖该模式...

回答 3 投票 0

(为什么)Spark Structured Streaming 会重新编译每个小批量的代码

我有一个 Spark 结构化流作业,从 Kafka 读取数据,解析 avro,分解列,计算一些额外的列作为现有列的简单组合(总和/乘积/除法),然后写...

回答 1 投票 0

使用 Spark RDD 与 DF 读取文件

我有一个2MB的文件,当我使用它读取它时 df = Spark.read.option("inferSchema", "true").csv("hdfs:///data/ml-100k/u.data", sep=" ") df.rdd.getNumPartitions() #

回答 1 投票 0

java.lang.NoClassDefFoundError: org/apache/hadoop/fs/impl/prefetch/PrefetchingStatistics 运行 pyspark 时

我正在尝试使用连接到 s3 和 athena 的 pyspark 运行简单的代码。 我收到以下错误: 回溯(最近一次调用最后一次): 文件“/hood/bennys/git/sbr-thomas/thomas/spark_ma...

回答 1 投票 0

我应该将 nullable 设置为 false 还是 true?

我在spark中有一个数据框,我不明白可为空属性的含义,我应该将其设置为 false 还是保持 true : 例如: 根 |-- user_id: long (nullable = true) |-- event_id:...

回答 1 投票 0

Spark SQL 可以利用之前的结果吗

我很好奇Spark是否可以利用之前的结果来帮助执行,例如下面的例子: 在同一会话中,我首先创建一个包含一些内容的 view1。因为没有行动,就什么都不是

回答 1 投票 0

Spark-ThriftServer 阻止 Spark SQL 运行

问题发生在我的本地环境中,我使用 docker compose 来编排 hadoop、hive、spark 和 airflow 在不同的服务/容器中运行。我已经简化了这里的设置所以...

回答 1 投票 0

Spark - 如何高效读取大型 zstandard 文件

我正在尝试使用 Spark 读取 Databricks 中的大型 zstandard 文件(压缩后约 30GB)。它是以下 PGN 格式 (.pgn.zst) 的国际象棋游戏集合 [活动“额定子弹锦标赛...

回答 1 投票 0

Spark 分桶蜂巢 Metasore

我有两个分桶表,它们分桶在同一列名称上。 Spark 执行器如何将具有相同 id 分布的文件挑选到同一台机器中?Metastore 有什么帮助?

回答 1 投票 0

如何比较两个共享相同内容的StructType?

看起来 StructType 保留了顺序,因此两个包含相同 StructField 的 StructType 不被认为是等效的。 例如: val st1 = 结构类型( StructField("ii",StringType,true) ::

回答 3 投票 0

Spark 传入 JSON 流处理

我一直在尝试完成一个项目,其中我需要使用kafka将数据流发送到本地Spark来处理传入的数据。但是我无法显示和使用右侧的数据框...

回答 1 投票 0

Pyspark - 无法在 Windows 11 上使用 df.show() 显示 DataFrame 内容

我已按照官方文档在本地 Windows 11 计算机上设置 Apache Spark。 此设置包括: 正确安装 Apache Spark、设置环境变量等。 创造...

回答 1 投票 0

spark 流可视化

我正在使用 Spark Streaming 从 kafka 代理流式传输数据。我正在使用 Spark Streaming 对数据执行转换。有人可以推荐一个可视化工具,我可以用它来展示真实的......

回答 5 投票 0

为什么 SparkUI 在“作业”选项卡下仅显示 DAG 中的操作,而不显示任何转换?

我有一个简单的程序 - lines = sc.parallelize(['a','b','c','d']) lines.map(myfunct1).flatMap(flatmapfunc).map(myfunct2).collect() 当我在 Spark 中提交这个程序并查看 ...

回答 1 投票 0

PySpark 应用程序返回“NoClassDefFoundError:com/datastax/spark/connector/util/Logging”

我遇到了这个错误: py4j.protocol.Py4JJavaError:调用 o59.start 时发生错误。 :java.lang.NoClassDefFoundError:com/datastax/spark/connector/util/Logging 在 java.base/java.lang.

回答 1 投票 0

如何从 Spark Dataframe 插入、更新数据库中的行

我在Spark中制作了Dataframe。 数据框具有新行以及数据库表具有的关键列的相同行。 我需要插入新行并更新现有行。 例如: 数据框: 钥匙1 按键2

回答 3 投票 0

Databricks pyspark pandas 与 numpy 发生错误

我在使用 pyspark pandas 时收到以下错误: PandasNotImplementedError:方法 pd.Series.__iter__() 未实现。如果您想将数据收集为 NumPy 数组,请使用 '

回答 1 投票 0

使用spark获取均匀的数据样本

这是我的数据集架构: 请求类型 |请求正文 1 体 A 2 身体 B 3 ... 4 5 6 .. 32 身体 XXX 我总共需要获取 500 条记录。 有 32

回答 1 投票 0

每个分区文件是否包含Spark DataFrameWriter.partitionBy之后的所有列?

在Spark数据管道中,我想依赖mapPartitions来运行一些计算。我准备一些数据并希望使用 DataFrameWriter.partitionBy 将其存储在分区中。 是否保证e...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.