apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

使用相同数据帧名称时的缓存位置

我有一个名为 source_dataframe 的数据帧,它被 pyspark 代码中的多个位置引用。因此,我计划缓存数据帧source_dataframe,以便缓存的引用将...

回答 1 投票 0

访问 Spark 中的嵌套数据

我有一个嵌套案例类的集合。我的工作是使用这些案例类生成数据集,并将输出写入镶木地板。 我很恼火地发现我必须手动...

回答 1 投票 0

使用 pyspark 展平动态 json 有效负载字符串

我有一个场景,我想将字符串有效负载 JSON 数据完全展平到单独的列中,并将其加载到 pyspark 数据帧中以进行进一步处理。原始数据的结构不固定,

回答 1 投票 0

Dataframe 不会保存为任何内容 - 表、全局临时视图或临时视图

数据框不会保存为表格,无论是永久的还是临时的 - 不会给出错误消息。 我努力了 : df.createOrReplaceTempView("tmp_table") # 或者 df.createGlobalTempView("tmp_ta...

回答 1 投票 0

从 Spark 数据帧中过滤并记录空值

我有这个数据框: +------+--------------------+------------+ |品牌 |original_timestamp |重量 | +------+--------------------+------------+ |BR1 |1632899456 |4.0 | |BR2 |

回答 1 投票 0

如何解决 scala 中的无效外部类型错误

我刚刚开始在 scala 中工作,我编写了下面的代码来断言,但它无法架构不匹配。我无法弄清楚其背后的原因。 下面是我写的代码 - 对象 xyzz {...

回答 1 投票 0

内存警告中没有足够的空间来缓存rdd

我正在运行 Spark 作业,并且收到“内存警告中没有足够的空间来缓存 rdd_128_17000”。然而,在附件中,显然说只使用了 719.3 G 中的 90.8 G。这是为什么?那个...

回答 4 投票 0

在 PySpark 中使用来自 GitHub 的 csv

通常,要读取本地 .csv 文件,我使用以下命令: 从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builder \ .appName("github_csv") \ .getOrCreate() df = Spark.read.csv(...

回答 2 投票 0

物理内存超出限制

下面是我的火花提交 Spark2-submit --class my.class \ --主纱\ --部署模式集群\ --queue 队列名称\ --执行器内存10G \ --驱动内存20G \ --num-executors 60 \ --conf 火花。

回答 2 投票 0

python Spark 应用程序无法与 Spark-submit 一起使用

但是运行 C: 时它可以工作。

回答 0 投票 0

Pyspark 在加载到文件时将数组字符串转换为数组

我有一个数据框,其截断版本如下所示 +--------------------+--------------------+-------- ------------+-----------------+------------+----- --------------+--------------...

回答 1 投票 0

Microsoft Fabric 入门 - 培训模块中出现错误

我正在参加“Microsoft Fabric 入门”培训课程,但遇到了一个问题,无法继续练习。想知道其他人有没有

回答 2 投票 0

从kafka主题读取数据引发错误

我正在尝试从kafka主题读取数据到spark。我正在 docker 桌面上运行 kafka。 这是我的pom- com.戴尔 sparkdemo2 <

回答 1 投票 0

Py4JJavaError 调用 javalangNoSuchMethodError 时发生错误 org.apache.spark.sql.AnalysisException org.apache.spark.sql.kafka.KafkaWriter

我无法从 Spark 写入 Kafka,Spark 正在读取但未写入,如果我写入控制台,它不会给出错误 回溯(最近一次调用最后一次): 文件“f:\Sistema de Informação\TCC\Pr...

回答 1 投票 0

如何将列表分解为列并使用另一个列表作为列名称?

我有一个表格,其中包含如下数据, 名字 价值观 [一、二、三] [1,2,3] [一、二、三] [4,5,6] 如何使用 Spark sql (SELECT) 将其转换为下表,无需硬编码索引且无需硬...

回答 1 投票 0

Pyspark:将列中的 json 分解为多列

数据看起来像这样 - +------------+------------+------------------------ ----+ |编号|点|数据| +------------------------------------------------ ----+ ...

回答 7 投票 0

Pyspark 将 MapType 列转换为重复键

我有一个要转换的数据框 原始数据框: 从 pyspark.sql 导入行 Spark.createDataFrame([ Row(规则={1: [7408,4586], 2: [9670,2474] }), ])。展示() 规则 地图...

回答 1 投票 0

使用spark_read_parquet读取列的子集

我尝试使用spark_read_parquet从“表”中读取列的子集, 温度 <- spark_read_parquet(sc, name='mytable',columns=c("Col1","Col2"), path="/my/p...

回答 1 投票 0

PySpark 中 select() 和 .withColumn()/.withColumns() 的性能比较

我正在寻求优化 PySpark 中的数据转换,并注意到文档建议在多个 .withColumn() 调用上使用 .select() 以获得更好的性能。这提出了两个问题……

回答 1 投票 0

检查 Pyspark 生成的 SQL 查询

有没有办法将 pyspark 命令翻译成 SQL 并检查它?例如,转动 Spark.table("this_table").filter(F.col("first_col")>100).select("第二...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.