将此标记用于与PySpark中的SQL模块相关的问题。
将字符串作为嵌套JSON存储在列中到JSON文件-Pyspark
我有一个pyspark数据框,这看起来像+ ----------------------------------- -+ ------------------- + ------------- + -------------- ------------------ + --------- + | member_uuid ...
Databricks-使用PySpark从SQL列中爆炸JSON
Databricks的新手。有一个我要从中创建数据框的SQL数据库表。列之一是JSON字符串。我需要将嵌套的JSON分解为多列。用过这篇文章和...
我有一个pyspark数据框,其中包含我要从中提取信息的列。举个例子,该列是4个外键的组合,看起来像这样:例1:12345-123 -...
第一次使用Spark SQL。我有一个带有以下列的DF:“ tweet_date”,“ user_screen_name”,“ user_id_str”。我的目标是选择在5上发布的所有user_id_str和user_screen_name ...
我正在将SQL与pyspark和hive一起使用,而我对这一切都是新手。我有一个配置单元表,其列类型为字符串,例如:id |值1 | '2; 4; 4'2 | '5; 1'3 | '8; 0; 4'我想创建一个...
我正在尝试实现collect_list函数的是Spark.SQL。通过数据帧在PySpark中执行此操作的方法可用,我正在尝试通过SQL查询执行相同的操作。
pyspark的lit()中的聚合函数以及withColumn
我在数据框中有列数。我想为此数据帧添加一个新列,每个记录都具有min(“ Quantity”)。我试图在pyspark中使用lit()。在df.withColumn(“ ...
我正在将SQL与pyspark和hive一起使用,而我对这一切都是新手。我有一个我不知道如何解决的问题。如果我有一个表格“ People”,例如:id |名称| other_names 1 | ...
我正在尝试从雇员数据帧Employee days_present Alex 1,2,11,23,John 21,23,25,28的数据帧列中查找确切的字符串匹配,需要找到...上有哪些雇员]]] >
我有一个如下表:+ -------------------- + ---------------- --- + ----- + | ID |时间|计数| + -------------------- + ------------------- + ----- + |。 ..
我有一个类似于以下时间戳记的表,名称,值1577862435,Tom,0.25 1577915618,Tom,0.50 1577839734,John,0.34 1577839734,John,0.34 1577839734,...
我已经在连接到我的Blob存储的数据块中创建了一个安装座,并且能够使用笔记本将文件从Blob读取到数据块。然后,我使用pyspark和。
如何在pyspark中仅选择某些列具有NaN值的行?将import numpy设置为np,将pandas设置为pd#pyspark从pyspark.sql导入pyspark。
如何仅在pyspark中选择特定列具有NULL值的行。安装程序导入numpy作为np导入熊猫作为pd#pyspark从pyspark.sql导入pyspark导入功能,从...开始为F ...]]
有没有办法控制从soark数据帧创建的hdfs中的零件文件数量? [重复]
当我将Sparksql查询产生的DataFrame保存到HDFS中时,它将生成大量零件文件,每个零件文件的大小为1.4 KB。有没有一种方法可以增加文件的大小,因为每个零件文件都包含...
我有两个几乎完全相同的Pyspark数据帧:相同的行数和row_id,相同的架构,但是每一行的某些列上的值不同。我想确定每个...的那些列是什么...
我正在尝试从表Warehouses和Boxes中选择所有WarehouseCodes,以使Warehouse.capacity小于Boxes.count_of_boxes。在PostgreSQL中工作的SQL查询选择w ....
“确定DBIO文件片段的位置是什么意思……,我该如何加快它的速度?
[在Databricks中运行简单的SQL命令时,有时会收到消息:确定DBIO文件片段的位置。此操作可能需要一些时间。这是什么意思,我该如何...
我正在使用spark 2.3.2,并使用pyspark从配置单元中读取。这是我的代码;从pyspark.py中导入SparkContext从pyspark.sql中导入SparkContext sql_sc = SQLContext(sc)SparkContext ....