将此标记用于与PySpark中的SQL模块相关的问题。
如何避免一次又一次地对pyspark数据帧进行每次转换的重新评估
我有一个火花数据框。我正在对数据框进行多次转换。我的代码如下所示:df = df.withColumn ........ df2 = df.filter ...... df = df.join(df1 ... df = df.join(df2 ... ...
我有一个PySpark数据框,其一小部分如下:+ ------ + ----- + ------------------- + ----- + |名称|类型|时间戳|得分| + ------ + ----- + ------------------- + ----- + | name1 | ...
[Spark分区发现不是基于文件夹结构对数据进行分区,我在其中有一个名为list的目录,我在每个国家/地区都有一个文件夹,其标签类似COUNTRY = US等,...
我的数据如下:>>> df1.show()+ ----------------- + --------------- ----- + | destroyNames | standardNames | + ----------------- + -------------------- + | Sid是(好孩子)| Sid是...
如何使用SparkSQL根据多个条件在Spark DF中选择行
我对pyspark还是比较陌生,我有一个带有日期列“ Issue_Date”的spark数据框。 “ Issue_Date”列包含从1970-20119开始的几个日期。从spark数据框中,我创建了一个...
我的数据如下所示:Employee_ID创建日期日期时间Time_in_Seconds 1 2019-11-02 1 50 1 2019-11-02 2 10 1 2019-11-01 ...
从另一个数据帧中的一个数据帧中查找所有出现的值的最佳方法是什么?
我正在研究一个Spark集群,并且我有两个数据框。一个包含文本。另一个是查询表。两个表都很大(M和N都可以轻易超过100,000个条目)。什么是最好的...
用0替换PySpark DataFrame列中的负值的最有效方法是什么?
我的目标是将PySpark.DataFrame的列中的所有否定元素替换为零。输入数据+ ------ + | col1 | + ------ + | -2 | | 1 | | 3 | | 0 | | 2 | | -7 | | -14 | | 3 ...
在pyspark.sql版本2.3.4的concat功能期间,是否有任何有效的方法来处理空值?
正如您在SS中看到的,如果表中任何属性的值为空,则连接结果为空,但是在SQL中,结果为nonullcol + nullcol = nonullcol,而在火花中,它给我的结果是null,...
我使用下面的代码在Delta处创建了一个空的数据框表:deltaResultPath =“ / ml / streaming-analysis / delta / Result”#创建Delta Lake表sqlq =“ CREATE TABLE ...
如何创建一个列,其所有值都在PySpark中的另一列给定的范围内
我在使用PySpark 2.0版的以下场景中遇到问题,我有一个DataFrame,其中的一列包含一个具有开始和结束值的数组,例如[1000,1010]我想知道如何...
如何创建一个列,其所有值都在pyspark中的anothe列指定的范围内
我在使用pySpark 2.0版的以下方案中遇到问题,我有一个DataFrame,其中的一列包含一个具有开始和结束值的数组,例如[1000,1010]想知道如何...
我在上一个查询中创建了一个称为v1的字段。然后,我尝试从中创建一个新的派生字段。一种方法有效,另一种无效。我不明白,我希望他们是等效的。这有效:...
如何在pyspark中执行多个array_union和array_intersection
假设我有一个pyspark数据框,其中包含以下列:数组类型的c1,c2,c3,c4和c5。现在,如果我想做:(c1)交集(c2联合c3)交集(c2联合c4联合c5)...
我正在编写2个数据帧的联接查询。我必须在两个数据帧中具有相同名称的列上执行连接。如何在查询中编写? var df1 = Seq((1,“ har”),(2,“ ron”),(3,“ fred”))。toDF(“ ...
我有一个如下所示的数据框df = pd.DataFrame({'date':['11/12/2001','11/12/2002','11/12/2003','11/12 / 2004','11/12/2005','11/12/2006'],'readings':['READ_1','READ_2','READ_1','READ_3','...
我有一个火花数据帧,如下所示df = pd.DataFrame({'subject_id':[1,1,1,1,2,2,2,2,3,3,4,4,4,4,4, 4],“读数”:['READ_1','READ_2','READ_1','READ_3',np.nan,'READ_5',np.nan,'READ_8','READ_10','...
Spark安装VS Pyspark python软件包中的Pyspark
我刚开始学习spark,对此概念有些困惑,因此从spark安装中,我们将pyspark放在spark安装子文件夹下,我知道它是外壳,然后...
为什么我无法使用pyspark连接到kafka? Kafka_2.12-2.3.0和Spark_2.4.4或2.3.0或2.3.4]]
我无法使用下面的python代码从spark_2.4.4结构化流连接到kafka_2.12-2.3.0。我的scala版本是2.11.12,而pyspark.sql import SparkSession的OpenJDK是1.8.0_222 ...
我正在尝试在pyspark数据框中的“ dateclosed”列中查找最小日期。然后,我想在原始数据框中添加一列,以便每个记录的最小日期为“ Open_Date”。 ...