pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

无法在pyspark中使用.show()显示数据框

代码如下:来自pyspark import *来自pyspark.sql import * spark = SparkContext()sc = SQLContext(spark)valuesA = [('Pirate',1),('Monkey',2),('Ninja', 3),('Spaghetti',4)] TableA = sc ....

回答 1 投票 -1

Spark DF pivot错误:方法pivot([类java.lang.String,类java.lang.String])不存在

我是使用Spark数据帧的新手。我试图使用与Spark(Spark版本2.x)的pivot方法并运行到以下错误:Py4JError:调用o387时发生错误....

回答 1 投票 2

pyspark:如何在数据框中选择两个查询

我在pyspark中构建了一个数据框,现在我想选择两列的值。我怎样才能做到这一点?我试过这个:df.where((df ['E'] == 0).where(df ['C'] =='non'))谢谢

回答 3 投票 -2

PySpark:合并数据帧,其中一个值(来自第一个数据帧)介于两个其他值之间(来自第二个数据帧)

我需要在一个标识符和条件上合并两个数据帧,其中一个数据帧中的日期在另一个数据帧中的两个日期之间,另一个数据帧A的groupby(计算总和)...

回答 1 投票 1

使用/ Headers修复宽度文件

解析固定宽度的文件并遇到了一些问题。想想,我只是删除包含列名的第一行,然后在为每个列设置长度的同时构建我自己的模式...

回答 1 投票 0

Pyspark:每个唯一ID的用户定义弹性

我正在研究价格弹性问题,我需要计算每个唯一ID的弹性我的数据框看起来像| id |价格|物品| | 101 | 5 | 10 | | 101 | 10 ......

回答 2 投票 0

阿帕奇的'哪里'火花

df:----------- + |字| + ----------- + | 1609 | | | |该| |十四行诗| | | |通过| |威廉| |莎士比亚| | | | FG |这是我的 ...

回答 2 投票 2

PySpark:Dataframe:Numeric + Null列值导致NULL而不是数值

我在从CSV文件加载的PySpark Dataframe中遇到问题,其中我的数字列有空值,如下面的那样+ ------------- + ----------- - + ----------- + ----------- + | PLAYER_NAME | ...

回答 1 投票 0

使用PySpark连接速度很慢

我正在使用以下代码来玩PySpark:来自pyspark.sql import SparkSession spark = SparkSession.builder.appName(“Scoring System”)。getOrCreate()df = spark.read.csv('output.csv').. 。

回答 1 投票 0

创建唯一ID,用于组合spark数据框中两列的一对值

我有一个六列的火花数据框说(col1,col2,... col6)。我想为“col1”和“col2”的每个值组合创建一个唯一的id,并将其添加到数据帧。有人能帮我吗 ...

回答 2 投票 -2

在Pyspark Dataframe中选择列

我正在寻找一种方法来在pyspark中选择我的数据帧的列。对于第一行,我知道我可以使用df.first()但不确定列,因为它们没有列名。我有5 ...

回答 5 投票 11

根据pyspark中另一列的值拆分一列[复制]

我有以下数据框+ ---- + ------- + | item |路径| + ---- + ------- + | A | A / B / C | | C | E / B / F | | d | E / B / d / H | | ç| G / H / C | + ---- + ------- +我想找到一个相对路径...

回答 2 投票 0

Pyspark使用.filter()过滤掉空列表

我有一个pyspark数据框,其中一列填充列表,包含条目或只是空列表。我想有效地过滤掉包含空列表的所有行。导入pyspark.sql ....

回答 2 投票 2

使用pyspark.sql函数计算平均值的正确方法是什么?

在pyspark数据框中,我有不同事件的时间序列,我想按月计算事件的平均数。使用pyspark.sql函数执行此操作的正确方法是什么?我有 ...

回答 1 投票 0

MySQL用PySpark读取

我有以下测试代码:来自pyspark导入SparkContext,SQLContext sc = SparkContext('local')sqlContext = SQLContext(sc)print('Created spark context!')if __name__ =='__ main__':df = ...

回答 3 投票 2

无法从pyspark连接到Mysql数据库,导致jdbc错误

我正在学习pyspark,并尝试连接到mysql数据库。但是我在运行代码时遇到了java.lang.ClassNotFoundException:com.mysql.jdbc.Driver异常。我花了一整天......

回答 2 投票 1

连续行之间的日期差异 - Pyspark Dataframe

我有一个具有以下结构的表USER_ID Tweet_ID Date 1 1001 Thu Aug 05 19:11:39 +0000 2010 1 6022 Mon Aug 09 17:51:19 +0000 2010 1 ...

回答 3 投票 7

Spark:并行化创建多个DataFrame

我目前正在基于ID列表生成DataFrames - 每个基于一个ID的查询都会返回一个非常大的PostgreSQL表的可管理子集。然后我根据文件分区输出...

回答 1 投票 1

如何在Pyspark spark.sql数据帧中同步数据

我下载了一个包含AirBnB数据的1.9 GB csv文件。虽然所有列都有一个“字符串”的数据类型,但我有一些不是“同质”的列,就像“设施”列中的一些......

回答 2 投票 0

我有一个表't'有两列'col24'和'col23'我想创建一个数据帧'r'

想象一下有两列的表t - col24和col18I想要创建一个数据帧'r'。所以结果数据帧只有一列col24,称为first_name。我试过以下......

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.