apache-spark-sql 相关问题

Apache Spark SQL是Spark上的“SQL和结构化数据处理”工具，Spark是一种快速通用的集群计算系统。

无法实例化 [...SparkSession]：工厂方法“sparkSession”-无法调用“java.util.Map.get(Object)”，因为“currentValues”为 null

使用 Java (v17) Springboot (v3.2.5) 应用程序尝试 Apache Spark 4.0.0-preview1 时出现此错误。一个 SparkConfig 示例，我在创建“javaSparkCon...”时收到上述错误...

java spring spring-boot apache-spark apache-spark-sql

回答 1 投票 0

如何在 Databricks 配置或 PySpark 配置中添加“additionallyAllowedTenants”？

我有一个多租户Azure应用程序。我正在使用此应用程序的凭据使用 PySpark 数据帧从 Databricks 集群读取 ADLS 容器文件。我需要设置这个“additionallyAllowedTenants”标志...

pyspark apache-spark-sql databricks azure-databricks gcp-databricks

回答 1 投票 0

如何计算 PySpark 数据框中每个键的百分位数？

我有一个 PySpark 数据框，由三列 x、y、z 组成。 X 在此数据框中可能有多行。如何分别计算 x 中每个键的百分位数？ +------+---------+------+ | ...

python apache-spark pyspark apache-spark-sql percentile

回答 3 投票 0

用于从 S3 读取数据并写入 S3 的 AWS Glue Pyspark 脚本需要几个小时才能完成

`我正在 AWS Glue 上使用 pyspark 来运行 ETL 脚本，如下所示： ```` `选择日期作为日期，一个小时一个小时， trip_id 作为 trip_id，首先（user_id）作为user_id，第一个（vehicle_id）作为车辆...

amazon-web-services apache-spark-sql query-optimization aws-glue

回答 1 投票 0

如何在Spark中合并时间间隔

我正在尝试在 Spark 的数据框中提取连续的时间范围。我的输入数据框如下所示： ID 开始日期结束日期 1 1993年1月1日 2018年12月31日 1 2015年1月6日 2023年12月31日 1 2024年1月1日 31/1...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

Spark SQL 确定性“样本”表行为

我正在使用 Apache Spark 3.5.0，并使用 Spark SQL 从大型表中采样数据。但是，我需要确保采样行为是确定性的，这意味着...的相同子集...

apache-spark pyspark apache-spark-sql

回答 1 投票 0

在 PySpark 数据帧的 where/filter 子句中动态设置运算符

我有这个数据框：结果=数据帧\ .withColumn(f'{self.constraint_colname}_count', F.count(self.constraint_colname).over(w))\ .withColumn(f'{self.constraint_colname}_occurrences', F...

pyspark apache-spark-sql

回答 1 投票 0

Pyspark 在每次运行时都会给出不同的 df.count() 结果

我正在使用 AWS EMR（v 6.11.1）、PySpark（v 3.3.2）。经过一些转换（主要是在 groupBy、dropDuplicates 之后），数据在 ev 上的 pyspark.sql.DataFrame.count() 输出中获得不同的值...

amazon-web-services apache-spark pyspark apache-spark-sql amazon-emr

回答 1 投票 0

Spark 3.5 中的 RowEncoder.apply(schema).resolveAndBind() 和 Row/InternalRow 序列化器/反序列化器等效项

我们在 Spark 3.1 中使用 RowEncoder.apply(schema).resolveAndBind() 来创建 ExpressionEncoder[row] 并从中创建序列化器和反序列化器。 val 编码器 = Encoders.row(schema).resolveAndBind() ...

scala apache-spark apache-spark-sql apache-spark-dataset apache-spark-encoders

回答 1 投票 0

在 PySpark 中按降序排序

我正在使用 PySpark （Python 2.7.9/Spark 1.3.1）并有一个数据框 GroupObject，我需要对其进行过滤并按降序排序。试图通过这段代码来实现它。 group_by_datafr...

python apache-spark dataframe pyspark apache-spark-sql

回答 8 投票 0

将 Spark DataFrame 转换为 Pandas DF

有没有办法将 Spark DF（不是 RDD）转换为 Pandas DF？我尝试了以下方法： var some_df = 序列（（“A”，“否”），（“B”，“是”），（“B”，“...

pandas apache-spark apache-spark-sql

回答 3 投票 0

如何返回 PySpark 数据框中每行的数组平均值？

假设我有如下数据：从 pyspark.sql 导入 SparkSession 从 pyspark.sql.types 导入 ArrayType、DoubleType、StructField、StructType、LongType Spark = SparkSession.builder.appName...

python arrays pyspark apache-spark-sql average

回答 1 投票 0

文件修剪仅适用于过滤器而不适用于加入

我正在努力优化我们在公司的工作方式。想象一下，我们有一个非常大的表，有数十亿行。这个大表有一个高基数列，比方说“id”。我有很多

apache-spark pyspark apache-spark-sql databricks delta-lake

回答 1 投票 0

spark如何从本地文件系统或云存储读取文件

我对其中一些问题感到好奇和困惑。如果有人可以帮助解释并分享有助于理解的参考资料，我会很高兴。 Spark 是怎么读的...

python apache-spark pyspark apache-spark-sql aws-glue

回答 1 投票 0

InfluxDB如何用作Spark Source

如何将 InfluxDB 数据库（有流数据传入）用作 Spark Streaming 的源？另外，是否可以使用 InfluxDB 而不是 SparkSQL 对数据执行计算...