pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

在一个火花数据帧中一次执行多个聚合,而不是多个慢速连接

目前,我有9个功能可对数据框进行特定的计算-包括每月的平均余额,滚动损益,期初余额,比率计算。每个...

回答 1 投票 0

在一个火花数据帧中一次执行多个聚合功能,而不是多个慢速联接

目前,我有9个功能可对数据框进行特定的计算-包括每月的平均余额,滚动损益,期初余额,比率计算。每个...

回答 1 投票 1

从CSV读取输入并将其用于不同功能

我有一个csv文件,其中包含来自用户的输入。第一列是STATISTIC,这是我的Python代码中的函数,其后各列是每个...

回答 1 投票 0

为Pyspark中的1和N之间的行分配随机数

我正在尝试找出最好的方法,将1到N之间的数字随机分配给一行,以使每一行都是不同的。 (N是数据集中的行数)。行数可以是10M ...

回答 1 投票 0

Pyspark:获取列的最常用值?

我需要能够使用Pyspark获得列的最通用值。在“日期”列的此示例中,我想要得到的结果是星期一,因为它的出现时间比星期二和星期三还多。 ...

回答 1 投票 0

Pyspark:获取两列之间不同组合的数量

我需要能够在两个单独的列中获得不同组合的数量。在此示例中,“动物”和“颜色”列中,由于三个不同的...

回答 2 投票 0

如何配置Spark驱动程序以将给定的内存参数用于内存(RAM)和磁盘?

[仅在内存(RAM)中使用spark时,由于内存较少而发生Java堆错误。我想同时使用RAM和磁盘。

回答 1 投票 0

ImportError:无法从'pyspark.sql'导入名称'HiveContext'

我正在PC(Windows 10)中运行pyspark,但无法导入HiveContext:从pyspark.sql导入HiveContext ------------------------ -------------------------------------------------- -...

回答 1 投票 0

在pyspark UDF中使用类方法

您好,数据工程师!我正在尝试使用名为Astral的类中的方法编写pyspark udf。这是udf:def time_from_solar_noon(d,y):中午= astral.Astral()。solar_noon_utc ...

回答 1 投票 0

spark 2.4 Parquet列无法在文件中转换,列:[印象数],应为:bigint,找到的为:BINARY

我面临着一个我无法理解的怪异问题。我有带有“印象”列的源数据,该列有时是bigint /有时是字符串(当我手动浏览数据时)。 HIVE模式...

回答 1 投票 -1

pyspark-在Spark会话中获取一致的随机值

我想将一列随机值添加到数据帧(每行都有一个ID)以进行我正在测试的内容。我正在努力在Spark会话中获得可重复的结果-相同的随机值...

回答 1 投票 -1


在Spark DataBrick上创建表架构

我想创建表结构,就像在云上Spark DataBricks平台上的其他sql引擎中一样。我有几个与此相关的问题,如何创建具有默认值的列? ...

回答 1 投票 -1

Pyspark无法获取自定义架构

我正在测试此代码。从pyspark.sql.functions导入从pyspark.sql导入input_file_name从pyspark.sql.types导入SQLContext import * sqlContext = SQLContext(sc)customSchema = StructType([\ ...

回答 1 投票 0

如何使用group by子句在pyspark中对列进行排名

我有一个看起来像这样的数据帧:ABC --------------- A1 B1 C1 A1 B1 C2 A1 B1 C3 A2 B1 C1 A2 B1 C2 A2 B1 C3 A3 B2 C1 A3 B2 C2 A3 B2 C3 ...

回答 1 投票 0

为什么spark显示文件数量和分区数量不同?

当我查询表并检查可用于该df的分区数为14时。数据大小超过10 GB。但是,当我看到表格位置时,有400个可用的零件文件...

回答 1 投票 0

PySpark中的数据帧求和

我的数据框看起来像-id产品数量1 a 100 2 b 300 3 c 400 4 d 100我的最终...

回答 2 投票 0

用spark数据框中的所有行的自动递增的唯一值替换null,并且所有重复的行都应具有相同的unique_id值

我是pyspark的新手,在以下情况下需要帮助。对于数据帧:i)我想为unique_id列生成唯一值,其范围应从3000000开始。ii)unique_id值应......>

回答 1 投票 0

Pyspark小时分割功能

代码根的屏幕快照|-地址:字符串(nullable = true)|-属性:map(nullable = true)| |-键:字符串| |-值:字符串(valueContainsNull = true)|-...

回答 2 投票 0

在指定存储级别时,在pyspark2中保留数据帧不起作用。我在做什么错?

我试图在执行联接以解决“ java.util.concurrent.TimeoutException:期货超时...”问题之前坚持两个非常大的数据帧(请参阅:为什么联接失败并带有“ ...”>

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.