将此标记用于与PySpark中的SQL模块相关的问题。
目前,我有9个功能可对数据框进行特定的计算-包括每月的平均余额,滚动损益,期初余额,比率计算。每个...
目前,我有9个功能可对数据框进行特定的计算-包括每月的平均余额,滚动损益,期初余额,比率计算。每个...
我有一个csv文件,其中包含来自用户的输入。第一列是STATISTIC,这是我的Python代码中的函数,其后各列是每个...
我正在尝试找出最好的方法,将1到N之间的数字随机分配给一行,以使每一行都是不同的。 (N是数据集中的行数)。行数可以是10M ...
我需要能够使用Pyspark获得列的最通用值。在“日期”列的此示例中,我想要得到的结果是星期一,因为它的出现时间比星期二和星期三还多。 ...
我需要能够在两个单独的列中获得不同组合的数量。在此示例中,“动物”和“颜色”列中,由于三个不同的...
如何配置Spark驱动程序以将给定的内存参数用于内存(RAM)和磁盘?
[仅在内存(RAM)中使用spark时,由于内存较少而发生Java堆错误。我想同时使用RAM和磁盘。
ImportError:无法从'pyspark.sql'导入名称'HiveContext'
我正在PC(Windows 10)中运行pyspark,但无法导入HiveContext:从pyspark.sql导入HiveContext ------------------------ -------------------------------------------------- -...
您好,数据工程师!我正在尝试使用名为Astral的类中的方法编写pyspark udf。这是udf:def time_from_solar_noon(d,y):中午= astral.Astral()。solar_noon_utc ...
spark 2.4 Parquet列无法在文件中转换,列:[印象数],应为:bigint,找到的为:BINARY
我面临着一个我无法理解的怪异问题。我有带有“印象”列的源数据,该列有时是bigint /有时是字符串(当我手动浏览数据时)。 HIVE模式...
我想将一列随机值添加到数据帧(每行都有一个ID)以进行我正在测试的内容。我正在努力在Spark会话中获得可重复的结果-相同的随机值...
我想创建表结构,就像在云上Spark DataBricks平台上的其他sql引擎中一样。我有几个与此相关的问题,如何创建具有默认值的列? ...
我正在测试此代码。从pyspark.sql.functions导入从pyspark.sql导入input_file_name从pyspark.sql.types导入SQLContext import * sqlContext = SQLContext(sc)customSchema = StructType([\ ...
我有一个看起来像这样的数据帧:ABC --------------- A1 B1 C1 A1 B1 C2 A1 B1 C3 A2 B1 C1 A2 B1 C2 A2 B1 C3 A3 B2 C1 A3 B2 C2 A3 B2 C3 ...
当我查询表并检查可用于该df的分区数为14时。数据大小超过10 GB。但是,当我看到表格位置时,有400个可用的零件文件...
我的数据框看起来像-id产品数量1 a 100 2 b 300 3 c 400 4 d 100我的最终...
用spark数据框中的所有行的自动递增的唯一值替换null,并且所有重复的行都应具有相同的unique_id值
我是pyspark的新手,在以下情况下需要帮助。对于数据帧:i)我想为unique_id列生成唯一值,其范围应从3000000开始。ii)unique_id值应......>
代码根的屏幕快照|-地址:字符串(nullable = true)|-属性:map(nullable = true)| |-键:字符串| |-值:字符串(valueContainsNull = true)|-...
在指定存储级别时,在pyspark2中保留数据帧不起作用。我在做什么错?
我试图在执行联接以解决“ java.util.concurrent.TimeoutException:期货超时...”问题之前坚持两个非常大的数据帧(请参阅:为什么联接失败并带有“ ...”>