apache-spark 相关问题

Apache Spark是一个用Scala编写的开源分布式数据处理引擎，为用户提供统一的API和分布式数据集。 Apache Spark的用例通常与机器/深度学习，图形处理有关。

Scala Spark Sample 和 SampleBy 具有相同的行为

我正在尝试在 Spark Dataframe 中执行分层采样，但 SampleBy 函数的行为（奇怪）与样本类似。火花版本3.0.1 导入spark.implicits._ val 数据 = 序列...

scala dataframe apache-spark sampling

回答 2 投票 0

Azure 数据工厂触发 Databricks 集群终止

我有一个场景，我必须从 ADF 管道触发 Databricks 通用集群的终止。实现这一目标的最佳方法是什么？我尝试使用链接服务...

apache-spark azure-data-factory databricks cluster-computing azure-databricks

回答 1 投票 0

如何在Spark中检查HDFS目录是否为空

我正在使用org.apache.hadoop.fs来检查HDFS中的目录是否为空。我查找了 FileSystem api，但找不到任何接近它的东西。基本上我想检查目录是否...

api apache-spark hadoop hdfs

回答 3 投票 0

将 zip 文件读入 Apache Spark 数据帧

使用 Apache Spark（或 pyspark），我可以将文本文件读取/加载到 Spark 数据帧中，并将该数据帧加载到 sql 数据库中，如下所示： df = Spark.read.csv("MyFilePath/MyDataFile.txt", sep=...

python python-3.x apache-spark pyspark apache-spark-sql

回答 2 投票 0

缓存和持久化何时执行（因为它们看起来不像操作）？

我正在实现一个spark应用程序，下面是一个示例片段（不完全相同的代码）： val rdd1 = sc.textfile(HDFS_PATH) val rdd2 = rdd1.map(func) rdd2.persist(StorageLevel.MEMORY_AND...

scala apache-spark lazy-evaluation

回答 2 投票 0

Pyspark Azure Synapse - kryoserializer 缓冲区溢出

我在使用 Azure Synapse Notebook 时遇到问题。我有一个大的 python 脚本，其中使用 Pandas Dataframe，我可以加载“parquet”文件，但我无法使用 toPandas() 转换为 pandas，

python-3.x pandas dataframe apache-spark azure-synapse

回答 1 投票 0

如何在Databricks和DLT管道上正确设置Spark？

我在 Azure 门户的 Databricks 中有一个 DLT 管道。我想增加流消息的最大大小，默认情况下为 10 MB。有人可以告诉我如何正确配置吗

apache-spark spark-streaming azure-databricks delta-live-tables

回答 1 投票 0

pyspark - 使用 OR 条件连接

如果至少满足两个条件之一，我想加入两个 pyspark 数据帧。玩具数据： df1 = Spark.createDataFrame([ (10, 1, 666), (20, 2, 777), (30, 1, 888), (40, 3,...

python dataframe apache-spark join pyspark

回答 2 投票 0

Apache Arrow 与 Apache Spark - UnsupportedOperationException：sun.misc.Unsafe 或 java.nio.DirectByteBuffer 不可用

我正在尝试在 PySpark 应用程序中将 Apache Arrow 与 Apache Spark 集成，但在执行过程中遇到与 sun.misc.Unsafe 或 java.nio.DirectByteBuffer 相关的问题。导入...

python apache-spark pyspark pyarrow

回答 1 投票 0

网站文件未显示在本地主机上，而是显示仪表板

我目前正在开发一个网站，使用 Sublime 作为我的 IDE，并使用 PHP、CSS、JS 和 HTML 作为编程语言。我已经在 Windows 11 上使用 XAMPP 设置了本地开发环境。我的网站...

apache apache-spark xampp localhost web-development-server

回答 0 投票 0

Spark Streaming 和集中式日志记录：将 executorId 添加到日志中

我正在尝试为 Spark 流应用程序设置集中式日志记录。我的具体用例是将驱动程序和执行程序日志导出到 AWS CloudWatch 日志，但我认为我的部分问题是

apache-spark hadoop-yarn amazon-emr log4j

回答 1 投票 0

如何在 Spark 中从文本文件创建 DataFrame

我在 HDFS 上有一个文本文件，我想将其转换为 Spark 中的数据帧。我正在使用 Spark 上下文加载文件，然后尝试从该文件生成各个列。 val myFile...

scala apache-spark dataframe apache-spark-sql rdd

回答 9 投票 0

如何在pyspark数据框中分解字符串类型列并在表中创建单独的列

我从 pyspark 中的表加载的数据帧中获取以下值作为字符串。它是嵌套字典列表。我想使用 pyspark 进行爆炸并将它们作为表中的单独列。数据框...

python amazon-web-services apache-spark pyspark aws-glue

回答 1 投票 0

使用 Spark 将 DataFrame 写入 Cassandra 时出错：java.lang.NoClassDefFoundError: com/datastax/spark/connector/util/Logging

我在尝试将 DataFrame 从 Apache Spark 写入 Cassandra 时遇到问题。这是设置：我正在本地计算机上以独立模式运行 Apache Spark 版本 3.3.3（bigdatapc...

apache-spark cassandra

回答 1 投票 0

ClassNotFoundException。不同 Scala 版本有问题吗？

当我尝试运行这个.py时：导入日志记录从 cassandra.cluster 导入集群从 pyspark.sql 导入 SparkSession 从 pyspark.sql.functions 导入 from_json, col 从 pyspark.sql.types 导入

scala apache-spark apache-kafka

回答 1 投票 0

我正在尝试使用spark中的columnSimilarities()构建基于项目的协同过滤模型。使用 columnsSimilarities() 后，我想将原始列名称分配回结果......

scala apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml

回答 1 投票 0

从 databricks jdbc 连接读取数据到 redshift 时出错

我们使用 databricks 集群，在 30 分钟不活动后关闭（13.3 LTS（包括 Apache Spark 3.4.1、Scala 2.12））。我的目标是读取红移表并将其写入雪花，我是

apache-spark pyspark amazon-redshift databricks azure-databricks

回答 1 投票 0

异常：在 Python 中创建 Spark 会话时，Java 网关进程在向驱动程序发送其端口号之前退出

所以，我尝试使用以下命令在 Python 2.7 中创建 Spark 会话： #初始化SparkSession和SparkContext 从 pyspark.sql 导入 SparkSession 从 pyspark 导入 SparkContext #Cre...

java python python-2.7 apache-spark pyspark

回答 6 投票 0

Spark 熔化/将列转置为值

我正在尝试将表的列转置为行我有一个看起来像这样的表： +-----+-----+-----+-----+ |日期 |col_1|col_2|col_...| +----------------+--------------------+ | 1 | 0.0| 0.6| ...

python pandas apache-spark pyspark azure-databricks

回答 1 投票 0

如何在 Spark SQL 中聚合

我有一个像这样的数据集用户 ID |价值第1111章 1111 活跃 2222 活跃我想分组并获取每个用户的第一个可用值，所以我这样做选择用户身份，

sql apache-spark pyspark apache-spark-sql

回答 1 投票 0

apache-spark 相关问题

最新问题