pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

SQL多对多连接,当存在匹配项时排除不匹配的行

我有两个表,每个季度都有一个数据。每个刻钟可以有多个观察结果。我想做的是将这些表连接在一起,并在其中所有行都有观察结果...

回答 1 投票 0

当我尝试查找分区字段的最大值时,读取所有记录的火花

我想我不了解火花。我有一个按'partition_date'分区的表,可能有大约10个分区,但每个分区中都有很多记录。当我尝试找到最大的...

回答 1 投票 0

以标头作为拼花形式编写pyspark数据帧

因此,如果我执行df = sql_context.read.csv(“ test_data_2019-01-01.csv”,header = False,然后df.write.parquet(“ test_data_2019-01-01.parquet”)一切正常,但是如果我在read.csv中设置header = True,然后...

回答 1 投票 0

pysaprk中的Dropna给出0个结果

我在spark中有一个缺少值的数据框。我正在尝试删除缺失值超过50%的列,请参见以下代码:frac = fil_data.count()* .50 print(frac)t_data = ...

回答 1 投票 0

为什么exp函数不能在pyspark中工作?

我正在尝试从逻辑回归的系数计算比值比,但是我遇到的一个问题可以用以下代码最好地概括:import pyspark.sql.functions as F F.exp(1.2)This ...] >

回答 1 投票 0

在PySpark数据框中创建的二进制列不能用作过滤器?

我正在使用PySpark在我的数据框中创建一个附加的BinaryColumn,然后使用它来过滤该数据框。此过程显示错误。数据:单击此处以查看数据创建了...

回答 1 投票 0

Scala Dataframe / SQL:用于报告的动态列选择

上下文:我们有一个包含5个流的模型。 Flow-1:来自不同源的输入数据,这些数据输入到Flow-2,Flow-2,Flow-3和Flow-4:是ML模型,每个模型都将少量字段倾倒到s3。Flow-...

回答 1 投票 -1

[使用main进行pyspark编程

我想使用函数来执行我的pyspark程序。我已经完成了main函数下的所有操作,然后尝试调用该main函数。但这不起作用。我有两个数据框。 + ---- + ---- + ---- + | ...

回答 1 投票 0

pyspark中的爆炸功能

我的数据框看起来像-+ ---- + ---- + ------------- + | col1 | col2 | col3 | + ---- + ---- + ------------- + | 1 | A | [[[[1,2,3]]] | | 2 | B | [[[3,5]]] | + ---- + ---- + ------------- +我想要数据...

回答 1 投票 0

pyspark用与最后一个非空值相关的某种计算替换空值

hi,我的问题与此有关(用pyspark以null填充,具有先前已知的良好值),但是我的问题的要求有一点变化,即:data:...

回答 1 投票 2

根据序列填充缺失值,并根据pyspark中的上一行或下一行填充第二行

我有一个包含4列的csv。该文件包含基于系列的某些缺失行。输入:-No A B C 1 10 50 12 3 40 50 12 4 20 60 15 6 80 80 18输出:-No A B C 1 1 ...

回答 1 投票 0

Pyspark F.X不在Y时

大家好,我有一个问题。我必须设置一个负面条件,但是我不确定该怎么做。 Df.withColumn(“ X”,F.when(F.col(ABC).isn(['A']),F.lit(['B'])。otherwise(F.lit(““))是如果我...

回答 1 投票 0

将StructType传递给架构的Pyspark错误

Geting Error:TypeError:'StructType'对象是不可调用的,同时将StructType传递给架构方法。下面是代码:final_schema = StructType([StructField(“ id”,StringType(),True)])...

回答 1 投票 0

按组从agg函数创建新列

我使用以下代码将大数据集汇总为汇总级别,以便绘制图形。 a = b.groupBy(“ year”,“ month”)。agg(sum(“ dollar”)/ sum(“ value”)。alias(“ pct”))但是,当调用a的...

回答 1 投票 0

pyspark.sql.functions.col如何调用已删除的代码

在火花中,我尝试了下面的代码,但是在这里尝试输入图像描述,但是当我在下面的代码中尝试时,它不起作用df = df.select('ID','SALE')df = df.filter(df.COUNTRY == 'US')追溯(最新...

回答 1 投票 0

合并两个配置单元表(不同的列大小)-pyspark

我有一个配置名称为模式,联系人,地址,主题名称的配置单元表联系人地址主题abc 1111孟买数学egf 2222 nashik science pqr 3333 delhi history ...

回答 1 投票 0

Pyspark;在数据框上迭代以基于日期过滤器求和组

我有一个如下所示的数据框。并非所有客户都按每年和每月的组合记录购买。我想遍历并总结过去3个月,6个月内的购买金额...

回答 1 投票 1

Pyspark从数组列表转换为字符串列表

给出一个带有数组列表的数据框Schema |-items:array(nullable = true)| |-元素:struct(containsNull = true)| | |-名称:字符串(nullable = true)| | |-...

回答 2 投票 1

使用提供为JSON文件的模式创建数据框

如何使用2个JSON文件创建pyspark数据框? file1:此文件具有完整的数据file2:此文件仅具有file1数据的架构。 file1 {“ RESIDENCY”:“ AUS”,“ EFFDT”:“ 01-01-1900”,“ ...

回答 2 投票 1

在不加入PySpark的情况下将组的方法添加回大数据框

我有这段代码:shifted_pd = account_level_pd_shifts.filter(account_level_pd_shifts ['WITHIN_PD_EXCLUSION'] == True).groupBy(['FORWARD_LOOK_MODEL','FOR_PD_TYPE'])。agg(f.avg('PD_SHIFT') ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.