pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

使用PySpark计算没有组的计数和不同计数

我有一个数据框(testdf),并希望得到一个列(memid)的计数和不同的计数,其中另一列(预订/租赁)不为空或不为空(即“”“)testdf:memid预订租赁...

回答 1 投票 0

2个数据帧与PySpark DataBricks中的计数的交集

我希望unique_ID匹配上的2个数据帧(列)的交集值,并且new_column-1中的存储交集值也获取new_column_3中的交集数据的计数。我给出的数据帧......

回答 2 投票 0

Apache Spark使用包含重要信息的标头流式传输大量csv文本文件

我需要将大量csv文件作为源流式传输,每个文件都包含一个包含重要信息的标头,用于对随后的其余数据进行分类。建立一个......的最佳方式是什么?

回答 1 投票 0

从spark数据框中选择或删除重复列

给定一个火花数据帧,有一个重复的列名称(例如A),我无法修改上游或源,我如何选择,删除或重命名其中一列,以便我可以检索...

回答 1 投票 0

在dataframe的selectExpr中使用包含表达式的字符串变量

我在尝试在数据帧的selectExpr中使用包含my表达式的变量时遇到问题。所以我的变量为:expression ='“substr(value,1,1)as qffffffffbf3ef0cf”,“substr(value,...

回答 1 投票 1

如何使用pysparkSQL将字符串传输到dict

在pysparkSQL中,我有一个名为bmd2的DataFrame,如下所示:DataFrame [genres:string,id:int,tagline:string,title:string,vote_average:double,vote_count:int]数据bmd2 ['genres']去... 。

回答 2 投票 0

从pySpark获取新的行id SQL写入远程mysql db(JDBC)

我正在使用pyspark-sql使用JDBC在远程mysql数据库中创建行。我有两个表,parent_table(id,value)和child_table(id,value,parent_id),所以parent_id的每一行可能有多个......

回答 1 投票 0

PySpark数据帧:在自联接后使用重复的列名

我有一个像这样的数据框(灵感来自这个问题略有不同的设置):df3 = hive_context.createDataFrame([Row(a = 107831,f = 3),Row(a = 107531,f = 2),Row(a = 125231,f = 2)])...

回答 1 投票 1

Spark从PostgreSQL表读取单列

问题有没有办法从(PostgreSQL)数据库表中加载特定列作为Spark DataFrame?以下是我尝试过的。预期的行为:下面的代码应该只导致......

回答 1 投票 1

使用逗号的PySpark值不包含逗号? (试图转换为ArrayType(StringType()))

我正在运行PySpark v1.6.0,我有一列字符串值(根据.printSchema),但是当我尝试根据列值以“[”开头的情况过滤行时...

回答 1 投票 1

将PySpark Dataframe作为批处理写入SQL DB

我在PySpark中有一个数据框(使用Databricks),我想将这个数据帧写入SQL DB(在我的例子中是Azure SQL数据库)。这工作正常,但似乎这会逐行触发......

回答 1 投票 3

Pyspark(Dataframes)按行读取文件(将行转换为字符串)

我需要明确地读取文件并将每行分成单词并对单词执行操作。我怎么做?我写了下面的代码:logFile =“/ home / hadoop / spark2.3.1-bin-hadoop2.7 / README.md”...

回答 1 投票 0

在pyspark数据帧中删除连续的重复项

有一个数据框,如:## + --- + --- + ## | ID |数字| ## + --- + --- + ## | 2 | 3.0 | ## | 3 | 6.0 | ## | 3 | 2.0 | ## | 3 | 1.0 | ## | 2 | 9.0 | ## | 4 | 7.0 | ## + --- + --- +我希望删除连续...

回答 1 投票 2

通过`pyspark.sql.functions.greatest`函数对缺失数据进行不同的处理

我正在使用Spark 2.2.0,并希望了解最大功能如何处理丢失的数据。然而,我有两个矛盾的情况。导入pandas为pd导入pyspark.sql.functions为F ...

回答 1 投票 0

具有混合值类型的MapType的PySpark UDF

我有一个JSON输入,如{“1”:{“id”:1,“value”:5},“2”:{“id”:2,“list”:{“10”:{“id” :10},......

回答 2 投票 1

sql使用spark sql dataframe查询分区

我有这样的SQL查询:WITH cte AS(SELECT *,ROW_NUMBER()OVER(PARTITION BY [date] ORDER BY TradedVolumSum DESC)AS rn FROM tempTrades)SELECT * FROM cte WHERE rn = 1 and I ...

回答 1 投票 1

pyspark选择具有更多匹配列字段的特定行

我有下面的示例表(我有100万个这样的行),我需要根据以下条件选择新数据帧的行,我必须选择参加更多课程的前1000名学生...

回答 1 投票 0

PySpark sql每天比较记录并报告差异

所以我遇到的问题是我有这个数据集:它表明企业在特定的日子里开展业务。我想要实现的是报告在哪一天添加了哪些商家。也许 ...

回答 1 投票 1

Pyspark圆形功能的麻烦

在pyspark中使用round函数时遇到一些麻烦 - 我有下面的代码块,我试图将new_bid列舍入到2个小数位,并将列重命名为bid ...

回答 1 投票 7

:你在PySpark中超过了你的限速津贴错误/

我无法找到RDD的总和。我是这个领域的新手请帮忙。使用Python 2.7 Sith spark 2.1我目前正在使用SQL查询来获取数据帧然后将其转换为RDD ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.