apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

从 Pyspark Dataframe 中选择唯一对

假设我有一个 PySpark 数据框： XY 1 个 1b 1℃ 2b 2个 2c 3个 3c 3b 4点我必须选择任何可能的 X 和 Y 对，但相同的 X 和 Y 不应在结果中重复。可能的...

python apache-spark pyspark apache-spark-sql data-analysis

回答 1 投票 0

如何从 pyspark 数据帧创建持久视图

我有一个 pyspark 数据帧 df，想将其保存为持久视图。那可能吗？我尝试执行以下操作： df.createOrReplaceTempView("temp_view") Spark.sql('创建视图 my_vi...

python apache-spark pyspark

回答 1 投票 0

Cassandra 上的数据分析

我们使用 Apache Cassandra 来保存数据。除了 Spark 之外，从 cassandra 读取数据后执行数据分析的工具/技术是什么。 Spark 很好，但需要一个程序...

cassandra apache-spark data-analysis

回答 2 投票 0

未找到 S3AFileSystem：使用笔记本访问 EC2 上的 s3 文件

围绕这个问题有多种答案，例如这样和这样。我经历了两者，但无法解决问题。这是总结：我有一个使用此 AMI 克隆的 EC2：“Deep

apache-spark amazon-s3 hadoop pyspark

回答 1 投票 0

‘save’目前不支持bucketBy和sortBy

当使用下面的命令将数据帧保存在 HDFS 上时，我尝试在数据帧上应用分桶。 df.写入 .format("镶木地板") .bucketBy(200,"groupIdProjection") .sortBy("

apache-spark hdfs bucketing

回答 1 投票 0

使用相同数据帧名称时的缓存位置

我有一个名为 source_dataframe 的数据帧，它被 pyspark 代码中的多个位置引用。因此，我计划缓存数据帧source_dataframe，以便缓存的引用将...

apache-spark pyspark

回答 1 投票 0

访问 Spark 中的嵌套数据

我有一个嵌套案例类的集合。我的工作是使用这些案例类生成数据集，并将输出写入镶木地板。我很恼火地发现我必须手动...

apache-spark dataframe apache-spark-sql

回答 1 投票 0

使用 pyspark 展平动态 json 有效负载字符串

我有一个场景，我想将字符串有效负载 JSON 数据完全展平到单独的列中，并将其加载到 pyspark 数据帧中以进行进一步处理。原始数据的结构不固定，

apache-spark pyspark

回答 1 投票 0

Dataframe 不会保存为任何内容 - 表、全局临时视图或临时视图

数据框不会保存为表格，无论是永久的还是临时的 - 不会给出错误消息。我努力了： df.createOrReplaceTempView("tmp_table") ＃或者 df.createGlobalTempView("tmp_ta...

apache-spark apache-spark-sql spark-streaming

回答 1 投票 0

从 Spark 数据帧中过滤并记录空值

我有这个数据框： +------+--------------------+------------+ |品牌 |original_timestamp |重量 | +------+--------------------+------------+ |BR1 |1632899456 |4.0 | |BR2 |

dataframe scala apache-spark apache-spark-sql nullpointerexception

回答 1 投票 0

如何解决 scala 中的无效外部类型错误

我刚刚开始在 scala 中工作，我编写了下面的代码来断言，但它无法架构不匹配。我无法弄清楚其背后的原因。下面是我写的代码 - 对象 xyzz {...

scala apache-spark apache-spark-sql

回答 1 投票 0

内存警告中没有足够的空间来缓存rdd

我正在运行 Spark 作业，并且收到“内存警告中没有足够的空间来缓存 rdd_128_17000”。然而，在附件中，显然说只使用了 719.3 G 中的 90.8 G。这是为什么？那个...

amazon-web-services amazon-s3 apache-spark rdd

回答 4 投票 0

在 PySpark 中使用来自 GitHub 的 csv

通常，要读取本地 .csv 文件，我使用以下命令：从 pyspark.sql 导入 SparkSession 火花 = SparkSession.builder \ .appName("github_csv") \ .getOrCreate() df = Spark.read.csv(...

python apache-spark pyspark

回答 2 投票 0

物理内存超出限制

下面是我的火花提交 Spark2-submit --class my.class \ --主纱\ --部署模式集群\ --queue 队列名称\ --执行器内存10G \ --驱动内存20G \ --num-executors 60 \ --conf 火花。

apache-spark

回答 2 投票 0

python Spark 应用程序无法与 Spark-submit 一起使用

但是运行 C: 时它可以工作。

apache-spark spark-submit

回答 0 投票 0

Pyspark 在加载到文件时将数组字符串转换为数组

我有一个数据框，其截断版本如下所示 +--------------------+--------------------+-------- ------------+-----------------+------------+----- --------------+--------------...

python apache-spark pyspark aws-glue

回答 1 投票 0

Microsoft Fabric 入门 - 培训模块中出现错误

我正在参加“Microsoft Fabric 入门”培训课程，但遇到了一个问题，无法继续练习。想知道其他人有没有

apache-spark microsoft-fabric

回答 2 投票 0

从kafka主题读取数据引发错误

我正在尝试从kafka主题读取数据到spark。我正在 docker 桌面上运行 kafka。这是我的pom- com.戴尔 sparkdemo2 <

java apache-spark apache-kafka

回答 1 投票 0

Py4JJavaError 调用 javalangNoSuchMethodError 时发生错误 org.apache.spark.sql.AnalysisException org.apache.spark.sql.kafka.KafkaWriter

我无法从 Spark 写入 Kafka，Spark 正在读取但未写入，如果我写入控制台，它不会给出错误回溯（最近一次调用最后一次）：文件“f:\Sistema de Informação\TCC\Pr...