pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

将字符串作为嵌套JSON存储在列中到JSON文件-Pyspark

我有一个pyspark数据框,这看起来像+ ----------------------------------- -+ ------------------- + ------------- + -------------- ------------------ + --------- + | member_uuid ...

回答 1 投票 2

Databricks-使用PySpark从SQL列中爆炸JSON

Databricks的新手。有一个我要从中创建数据框的SQL数据库表。列之一是JSON字符串。我需要将嵌套的JSON分解为多列。用过这篇文章和...

回答 1 投票 1

如何在pyspark中最后一个下划线后提取所有元素?

我有一个pyspark数据框,其中包含我要从中提取信息的列。举个例子,该列是4个外键的组合,看起来像这样:例1:12345-123 -...

回答 2 投票 0

Spark SQL选择在至少5个不同日期发推文的人

第一次使用Spark SQL。我有一个带有以下列的DF:“ tweet_date”,“ user_screen_name”,“ user_id_str”。我的目标是选择在5上发布的所有user_id_str和user_screen_name ...

回答 1 投票 -1

SQL-如何求和数组元素?

我正在将SQL与pyspark和hive一起使用,而我对这一切都是新手。我有一个配置单元表,其列类型为字符串,例如:id |值1 | '2; 4; 4'2 | '5; 1'3 | '8; 0; 4'我想创建一个...

回答 1 投票 0

通过Spark SQL实现`collect_list`

我正在尝试实现collect_list函数的是Spark.SQL。通过数据帧在PySpark中执行此操作的方法可用,我正在尝试通过SQL查询执行相同的操作。

回答 1 投票 -1

pyspark的lit()中的聚合函数以及withColumn

我在数据框中有列数。我想为此数据帧添加一个新列,每个记录都具有min(“ Quantity”)。我试图在pyspark中使用lit()。在df.withColumn(“ ...

回答 1 投票 0

SQL-如何克隆行,仅更改一个字段?

我正在将SQL与pyspark和hive一起使用,而我对这一切都是新手。我有一个我不知道如何解决的问题。如果我有一个表格“ People”,例如:id |名称| other_names 1 | ...

回答 1 投票 2

在spark sql--pyspark中查找特定的字符串

我正在尝试从雇员数据帧Employee days_present Alex 1,2,11,23,John 21,23,25,28的数据帧列中查找确切的字符串匹配,需要找到...上有哪些雇员]]] >

回答 1 投票 -1

Pyspark:如何从表格中提取统计信息?

我有一个如下表:+ -------------------- + ---------------- --- + ----- + | ID |时间|计数| + -------------------- + ------------------- + ----- + |。 ..

回答 2 投票 0

Pyspark:如何进行查询,仅返回条目大于一个的ID?

我有一个类似于以下时间戳记的表,名称,值1577862435,Tom,0.25 1577915618,Tom,0.50 1577839734,John,0.34 1577839734,John,0.34 1577839734,...

回答 2 投票 0

将json文件从数据块移动到Blob存储中

我已经在连接到我的Blob存储的数据块中创建了一个安装座,并且能够使用笔记本将文件从Blob读取到数据块。然后,我使用pyspark和。

回答 1 投票 0


Pyspark SQL选择数据,其中列为NaN [重复]

如何在pyspark中仅选择某些列具有NaN值的行?将import numpy设置为np,将pandas设置为pd#pyspark从pyspark.sql导入pyspark。

回答 1 投票 0

Pyspark SQL选择数据,其中列为空[重复]

如何仅在pyspark中选择特定列具有NULL值的行。安装程序导入numpy作为np导入熊猫作为pd#pyspark从pyspark.sql导入pyspark导入功能,从...开始为F ...]]

回答 1 投票 0

有没有办法控制从soark数据帧创建的hdfs中的零件文件数量? [重复]

当我将Sparksql查询产生的DataFrame保存到HDFS中时,它将生成大量零件文件,每个零件文件的大小为1.4 KB。有没有一种方法可以增加文件的大小,因为每个零件文件都包含...

回答 1 投票 1

从值不同的两个数据框中获取列

我有两个几乎完全相同的Pyspark数据帧:相同的行数和row_id,相同的架构,但是每一行的某些列上的值不同。我想确定每个...的那些列是什么...

回答 1 投票 1

具有计数的pyspark sql

我正在尝试从表Warehouses和Boxes中选择所有WarehouseCodes,以使Warehouse.capacity小于Boxes.count_of_boxes。在PostgreSQL中工作的SQL查询选择w ....

回答 2 投票 1

“确定DBIO文件片段的位置是什么意思……,我该如何加快它的速度?

[在Databricks中运行简单的SQL命令时,有时会收到消息:确定DBIO文件片段的位置。此操作可能需要一些时间。这是什么意思,我该如何...

回答 1 投票 5

Pyspark数据框在显示数据框内容时显示错误

我正在使用spark 2.3.2,并使用pyspark从配置单元中读取。这是我的代码;从pyspark.py中导入SparkContext从pyspark.sql中导入SparkContext sql_sc = SQLContext(sc)SparkContext ....

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.