apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎,为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习,图形处理有关。

Scala Spark Sample 和 SampleBy 具有相同的行为

我正在尝试在 Spark Dataframe 中执行分层采样,但 SampleBy 函数的行为(奇怪)与样本类似。 火花版本3.0.1 导入spark.implicits._ val 数据 = 序列...

回答 2 投票 0

Azure 数据工厂触发 Databricks 集群终止

我有一个场景,我必须从 ADF 管道触发 Databricks 通用集群的终止。 实现这一目标的最佳方法是什么?我尝试使用链接服务...

回答 1 投票 0

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api,但找不到任何接近它的东西。基本上我想检查目录是否...

回答 3 投票 0

将 zip 文件读入 Apache Spark 数据帧

使用 Apache Spark(或 pyspark),我可以将文本文件读取/加载到 Spark 数据帧中,并将该数据帧加载到 sql 数据库中,如下所示: df = Spark.read.csv("MyFilePath/MyDataFile.txt", sep=...

回答 2 投票 0

缓存和持久化何时执行(因为它们看起来不像操作)?

我正在实现一个spark应用程序,下面是一个示例片段(不完全相同的代码): val rdd1 = sc.textfile(HDFS_PATH) val rdd2 = rdd1.map(func) rdd2.persist(StorageLevel.MEMORY_AND...

回答 2 投票 0

Pyspark Azure Synapse - kryoserializer 缓冲区溢出

我在使用 Azure Synapse Notebook 时遇到问题。我有一个大的 python 脚本,其中使用 Pandas Dataframe,我可以加载“parquet”文件,但我无法使用 toPandas() 转换为 pandas,

回答 1 投票 0

如何在Databricks和DLT管道上正确设置Spark?

我在 Azure 门户的 Databricks 中有一个 DLT 管道。我想增加流消息的最大大小,默认情况下为 10 MB。 有人可以告诉我如何正确配置吗

回答 1 投票 0

pyspark - 使用 OR 条件连接

如果至少满足两个条件之一,我想加入两个 pyspark 数据帧。 玩具数据: df1 = Spark.createDataFrame([ (10, 1, 666), (20, 2, 777), (30, 1, 888), (40, 3,...

回答 2 投票 0

Apache Arrow 与 Apache Spark - UnsupportedOperationException:sun.misc.Unsafe 或 java.nio.DirectByteBuffer 不可用

我正在尝试在 PySpark 应用程序中将 Apache Arrow 与 Apache Spark 集成,但在执行过程中遇到与 sun.misc.Unsafe 或 java.nio.DirectByteBuffer 相关的问题。 导入...

回答 1 投票 0

网站文件未显示在本地主机上,而是显示仪表板

我目前正在开发一个网站,使用 Sublime 作为我的 IDE,并使用 PHP、CSS、JS 和 HTML 作为编程语言。我已经在 Windows 11 上使用 XAMPP 设置了本地开发环境。 我的网站...

回答 0 投票 0

Spark Streaming 和集中式日志记录:将 executorId 添加到日志中

我正在尝试为 Spark 流应用程序设置集中式日志记录。我的具体用例是将驱动程序和执行程序日志导出到 AWS CloudWatch 日志,但我认为我的部分问题是

回答 1 投票 0

如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件,我想将其转换为 Spark 中的数据帧。 我正在使用 Spark 上下文加载文件,然后尝试从该文件生成各个列。 val myFile...

回答 9 投票 0

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。 数据框...

回答 1 投票 0

使用 Spark 将 DataFrame 写入 Cassandra 时出错:java.lang.NoClassDefFoundError: com/datastax/spark/connector/util/Logging

我在尝试将 DataFrame 从 Apache Spark 写入 Cassandra 时遇到问题。这是设置: 我正在本地计算机上以独立模式运行 Apache Spark 版本 3.3.3(bigdatapc...

回答 1 投票 0

ClassNotFoundException。不同 Scala 版本有问题吗?

当我尝试运行这个.py时: 导入日志记录 从 cassandra.cluster 导入集群 从 pyspark.sql 导入 SparkSession 从 pyspark.sql.functions 导入 from_json, col 从 pyspark.sql.types 导入

回答 1 投票 0

在 columnSimilarties() Spark scala 之后获取列名称

我正在尝试使用spark中的columnSimilarities()构建基于项目的协同过滤模型。使用 columnsSimilarities() 后,我想将原始列名称分配回结果......

回答 1 投票 0

从 databricks jdbc 连接读取数据到 redshift 时出错

我们使用 databricks 集群,在 30 分钟不活动后关闭(13.3 LTS(包括 Apache Spark 3.4.1、Scala 2.12))。 我的目标是读取红移表并将其写入雪花,我是

回答 1 投票 0

异常:在 Python 中创建 Spark 会话时,Java 网关进程在向驱动程序发送其端口号之前退出

所以,我尝试使用以下命令在 Python 2.7 中创建 Spark 会话: #初始化SparkSession和SparkContext 从 pyspark.sql 导入 SparkSession 从 pyspark 导入 SparkContext #Cre...

回答 6 投票 0

Spark 熔化/将列转置为值

我正在尝试将表的列转置为行 我有一个看起来像这样的表: +-----+-----+-----+-----+ |日期 |col_1|col_2|col_...| +----------------+--------------------+ | 1 | 0.0| 0.6| ...

回答 1 投票 0

如何在 Spark SQL 中聚合

我有一个像这样的数据集 用户 ID |价值 第1111章 1111 活跃 2222 活跃 我想分组并获取每个用户的第一个可用值,所以我这样做 选择 用户身份,

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.