apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具,Spark是一种快速通用的集群计算系统。

无法实例化 [...SparkSession]:工厂方法“sparkSession”-无法调用“java.util.Map.get(Object)”,因为“currentValues”为 null

使用 Java (v17) Springboot (v3.2.5) 应用程序尝试 Apache Spark 4.0.0-preview1 时出现此错误。一个 SparkConfig 示例,我在创建“javaSparkCon...”时收到上述错误...

回答 1 投票 0

如何在 Databricks 配置或 PySpark 配置中添加“additionallyAllowedTenants”?

我有一个多租户Azure应用程序。我正在使用此应用程序的凭据使用 PySpark 数据帧从 Databricks 集群读取 ADLS 容器文件。 我需要设置这个“additionallyAllowedTenants”标志...

回答 1 投票 0

如何计算 PySpark 数据框中每个键的百分位数?

我有一个 PySpark 数据框,由三列 x、y、z 组成。 X 在此数据框中可能有多行。如何分别计算 x 中每个键的百分位数? +------+---------+------+ | ...

回答 3 投票 0

用于从 S3 读取数据并写入 S3 的 AWS Glue Pyspark 脚本需要几个小时才能完成

`我正在 AWS Glue 上使用 pyspark 来运行 ETL 脚本,如下所示: ```` `选择 日期作为日期, 一个小时一个小时, trip_id 作为 trip_id, 首先(user_id)作为user_id, 第一个(vehicle_id)作为车辆...

回答 1 投票 0

如何在Spark中合并时间间隔

我正在尝试在 Spark 的数据框中提取连续的时间范围。 我的输入数据框如下所示: ID 开始日期 结束日期 1 1993年1月1日 2018年12月31日 1 2015年1月6日 2023年12月31日 1 2024年1月1日 31/1...

回答 1 投票 0

Spark SQL 确定性“样本”表行为

我正在使用 Apache Spark 3.5.0,并使用 Spark SQL 从大型表中采样数据。但是,我需要确保采样行为是确定性的,这意味着...的相同子集...

回答 1 投票 0

在 PySpark 数据帧的 where/filter 子句中动态设置运算符

我有这个数据框: 结果=数据帧\ .withColumn(f'{self.constraint_colname}_count', F.count(self.constraint_colname).over(w))\ .withColumn(f'{self.constraint_colname}_occurrences', F...

回答 1 投票 0

Pyspark 在每次运行时都会给出不同的 df.count() 结果

我正在使用 AWS EMR(v 6.11.1)、PySpark(v 3.3.2)。经过一些转换(主要是在 groupBy、dropDuplicates 之后),数据在 ev 上的 pyspark.sql.DataFrame.count() 输出中获得不同的值...

回答 1 投票 0

Spark 3.5 中的 RowEncoder.apply(schema).resolveAndBind() 和 Row/InternalRow 序列化器/反序列化器等效项

我们在 Spark 3.1 中使用 RowEncoder.apply(schema).resolveAndBind() 来创建 ExpressionEncoder[row] 并从中创建序列化器和反序列化器。 val 编码器 = Encoders.row(schema).resolveAndBind() ...

回答 1 投票 0

在 PySpark 中按降序排序

我正在使用 PySpark (Python 2.7.9/Spark 1.3.1)并有一个数据框 GroupObject,我需要对其进行过滤并按降序排序。试图通过这段代码来实现它。 group_by_datafr...

回答 8 投票 0

将 Spark DataFrame 转换为 Pandas DF

有没有办法将 Spark DF(不是 RDD)转换为 Pandas DF? 我尝试了以下方法: var some_df = 序列( (“A”,“否”), (“B”,“是”), (“B”,“...

回答 3 投票 0

如何返回 PySpark 数据框中每行的数组平均值?

假设我有如下数据: 从 pyspark.sql 导入 SparkSession 从 pyspark.sql.types 导入 ArrayType、DoubleType、StructField、StructType、LongType Spark = SparkSession.builder.appName...

回答 1 投票 0

文件修剪仅适用于过滤器而不适用于加入

我正在努力优化我们在公司的工作方式。 想象一下,我们有一个非常大的表,有数十亿行。 这个大表有一个高基数列,比方说“id”。 我有很多

回答 1 投票 0

spark如何从本地文件系统或云存储读取文件

我对其中一些问题感到好奇和困惑。如果有人可以帮助解释并分享有助于理解的参考资料,我会很高兴。 Spark 是怎么读的...

回答 1 投票 0

InfluxDB如何用作Spark Source

如何将 InfluxDB 数据库(有流数据传入)用作 Spark Streaming 的源? 另外,是否可以使用 InfluxDB 而不是 SparkSQL 对数据执行计算...

回答 1 投票 0

Spark Executor 在集群独立模式下无法连接到驱动程序:“连接被拒绝:主机名/ip:随机端口”

我正在使用 ZooKeeper 设置 Spark 集群(独立模式)以实现高可用性。我有 2 个主节点(s1、s2)和 3 个工作节点(s3、s4、s5)。当我尝试运行 Spark 作业时(即使是一个简单的作业)...

回答 1 投票 0

仅在字符串 Hive 类型的分区键上支持过滤

我们最近开始面临 Spark 2.4.4 和 hive 1.2.1 版本的问题。 当我们尝试从按字符串类型列分区的表中读取数据时 Spark.sql("从

回答 2 投票 0

PySpark 数据帧聚合

我正在使用spark 3.4版本,创建了下面的数据框 df.show() ID --> 字符串 输出 ---> 布尔值 身份证输出 AA 真 AA假 BB真 BB真 抄送真 抄送发...

回答 1 投票 0

将列表作为参数传递给spark sql语句

我希望将列表作为参数传递给sparksql语句。 处理日期 = '2020-01-01' df1 = Spark.sql("""选择 '{0}', * from table1""".format(process_date)) T...

回答 2 投票 0

Spark 作业失败并出现“Python 工作程序意外退出(崩溃)”错误

我在运行使用 Python 处理数据的 Spark 作业时遇到问题。作业失败并显示以下错误消息: org.apache.spark.SparkException:Python工作人员意外退出...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.