pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

为什么Spark不会自动检测我的Parquet文件中的新字段?

在Databricks博客下面的摘录中,声称作为Spark 1.3,如果随着时间的推移将新字段添加到镶木地板模式中,它们将被自动检测并处理(我假设......

回答 1 投票 1

PySpark DataFrame:标记某些列值发生变化的行

我有一个PySpark DataFrame,列有'people'和'timestamp'(加上与问题无关的其他列)。解释是用户当时做了一些事情。我会 ...

回答 1 投票 0

pyspark:从地图类型列中选择包含特殊字符的列

在查询中从数据框中选择一些列,我有一个列类型:map,它有多个属性。我试图从这个专栏中只选择几个属性,但这又回到了我...

回答 1 投票 1

Pyspark - 在pyspark中创建等效的业务当前视图

我需要在pyspark中创建一个等效的业务当前视图,我有一个历史文件和一个增量文件(包含id和日期)。我需要创建最终的数据帧,它将具有单个...

回答 1 投票 0

PYSPARK SQL中的数据透视表

我需要在下表中使用pivot。 id,周,分数102,1,96 101,1,138 102,1,37 101,1,59 101,2,282 102,2,212 102,2,78 101,2,97 102,3,60 102,3,123 101,3,220 101,3,87输出1 ...

回答 2 投票 0

pyspark intersection()函数用于比较数据帧

下面是我编写的用于比较两个数据帧并对它们施加交集功能的代码。从pyspark导入os导入来自pyspark的SparkContext sc = SparkContext(“local”,“Simple App”)....

回答 1 投票 -3

pyspark.sql.utils.ParseException:PYSPARKSQL中的“\ nmismatched input”

我有一个要求使用pivot转换表。我已经在pyspark sql中尝试过,但面临问题。商店周xCount ------- ---- ------ 102 1 96 101 1 ...

回答 1 投票 2

在PySpark数据帧中修剪字符串列

我是Python和Spark的初学者。从CSV文件创建DataFrame后,我想知道如何修剪列。我试过:df = df.withColumn(“Product”,df.Product.strip())df是我的数据......

回答 4 投票 11

pyspark作业参数中--archives,--files,py-files之间的区别是什么

--archives, - files, - py-files和sc.addFile以及sc.addPyFile都很混乱,有人可以清楚地解释这些吗?

回答 1 投票 8

为什么Window函数失败并且“Window function X不采用帧规范”?

我正在尝试在pyspark 1.4.1中使用Spark 1.4窗口函数,但主要是出错或意外结果。这是一个非常简单的例子,我认为应该可以工作:从pyspark.sql.window import ...

回答 1 投票 6

如何在不使用for循环的情况下从pyspark中的列表创建数据框?

我有如下列表:rrr = [[(1,(3,1)),(2,(3,2)),(3,(3,2)),(1,(4,1)), (2,(4,2))]] df_input = []然后我定义了如下所示的标题:df_header = ['sid','tid','srank']使用for循环...

回答 2 投票 -4

将数据帧的每一行转换为字符串

我正在尝试使用pyspark中的hashlib.md5为数据帧生成哈希码。它只接受一个字符串来生成哈希码。我需要将数据帧的每一行转换为字符串。我试过concat_ws ......

回答 1 投票 0

如何比较pyspark中两个不同数据帧中的两列

我想比较一个dataframe1中的“pitid”和另一个dataframe2的“pitid”,并想要提取dataframe1中缺少的行。 dataframe1:| ID |标记|名称| pitid | + --- + ----- + ---- + -...

回答 1 投票 0

pyspark中的哈希码生成

我正在尝试为我的数据帧中的每一行生成哈希码,并且需要将哈希码附加为数据帧的新列“pitid”。我试过下面的代码,但在这里得到错误h = hashlib.md5(c)...

回答 1 投票 -1

pyspark在lambda中使用正则表达式拆分字符串

我正在尝试基于lambda函数内的正则表达式拆分字符串,字符串不会被拆分。我确定正则表达式工作正常。检查正则表达式测试链接https:// ...

回答 1 投票 1

Pyspark - 将mmddyy转换为YYYY-MM-DD

我正在处理一个大文件,其中有一个mmddyy格式的字段,其字符串为数据类型,我需要将其转换为YYYY-MM-DD。我确实试过创建UDF并转换为引用其中一个...

回答 2 投票 2

pyspark中的Rdd乘法?

我有两个数据框,如下:数据帧1:(df1)+ --- + ---------- + | id | features | + --- + ---------- + | 8 | [5,4,5] | | 9 | [4,5,2] | + --- + ---------- +数据框2:(df2)+ --- + ---------- + | id | ...

回答 1 投票 -1

获取分组PySpark数据框的第一行(或最后一行)[重复]

数据只是一组id及其登录日期,如下所示:data = pd.DataFrame({'id':['a','b','c','b','c'],'date ':['2017/12/10','2017/12/10','2017/12/11','...

回答 2 投票 2

时间戳在Spark中原生缩写日期格式

我正在使用sql.functions.unix_timestamp成功转换为spark中的日期(y-m-d,yyyyMMdd等)的数字格式的时间戳。问题是当日期使用缩写名称...

回答 1 投票 0

Pyspark - 根据语言过滤行

这个问题与Pyspark有关。我正在读一个列数很少的TSV文件。一个特定的列是注释列。我的任务是根据语言过滤掉行。例如,如果......

回答 2 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.