将此标记用于与PySpark中的SQL模块相关的问题。
我有一个数据框(testdf),并希望得到一个列(memid)的计数和不同的计数,其中另一列(预订/租赁)不为空或不为空(即“”“)testdf:memid预订租赁...
2个数据帧与PySpark DataBricks中的计数的交集
我希望unique_ID匹配上的2个数据帧(列)的交集值,并且new_column-1中的存储交集值也获取new_column_3中的交集数据的计数。我给出的数据帧......
Apache Spark使用包含重要信息的标头流式传输大量csv文本文件
我需要将大量csv文件作为源流式传输,每个文件都包含一个包含重要信息的标头,用于对随后的其余数据进行分类。建立一个......的最佳方式是什么?
给定一个火花数据帧,有一个重复的列名称(例如A),我无法修改上游或源,我如何选择,删除或重命名其中一列,以便我可以检索...
在dataframe的selectExpr中使用包含表达式的字符串变量
我在尝试在数据帧的selectExpr中使用包含my表达式的变量时遇到问题。所以我的变量为:expression ='“substr(value,1,1)as qffffffffbf3ef0cf”,“substr(value,...
在pysparkSQL中,我有一个名为bmd2的DataFrame,如下所示:DataFrame [genres:string,id:int,tagline:string,title:string,vote_average:double,vote_count:int]数据bmd2 ['genres']去... 。
从pySpark获取新的行id SQL写入远程mysql db(JDBC)
我正在使用pyspark-sql使用JDBC在远程mysql数据库中创建行。我有两个表,parent_table(id,value)和child_table(id,value,parent_id),所以parent_id的每一行可能有多个......
我有一个像这样的数据框(灵感来自这个问题略有不同的设置):df3 = hive_context.createDataFrame([Row(a = 107831,f = 3),Row(a = 107531,f = 2),Row(a = 125231,f = 2)])...
问题有没有办法从(PostgreSQL)数据库表中加载特定列作为Spark DataFrame?以下是我尝试过的。预期的行为:下面的代码应该只导致......
使用逗号的PySpark值不包含逗号? (试图转换为ArrayType(StringType()))
我正在运行PySpark v1.6.0,我有一列字符串值(根据.printSchema),但是当我尝试根据列值以“[”开头的情况过滤行时...
将PySpark Dataframe作为批处理写入SQL DB
我在PySpark中有一个数据框(使用Databricks),我想将这个数据帧写入SQL DB(在我的例子中是Azure SQL数据库)。这工作正常,但似乎这会逐行触发......
Pyspark(Dataframes)按行读取文件(将行转换为字符串)
我需要明确地读取文件并将每行分成单词并对单词执行操作。我怎么做?我写了下面的代码:logFile =“/ home / hadoop / spark2.3.1-bin-hadoop2.7 / README.md”...
有一个数据框,如:## + --- + --- + ## | ID |数字| ## + --- + --- + ## | 2 | 3.0 | ## | 3 | 6.0 | ## | 3 | 2.0 | ## | 3 | 1.0 | ## | 2 | 9.0 | ## | 4 | 7.0 | ## + --- + --- +我希望删除连续...
通过`pyspark.sql.functions.greatest`函数对缺失数据进行不同的处理
我正在使用Spark 2.2.0,并希望了解最大功能如何处理丢失的数据。然而,我有两个矛盾的情况。导入pandas为pd导入pyspark.sql.functions为F ...
我有一个JSON输入,如{“1”:{“id”:1,“value”:5},“2”:{“id”:2,“list”:{“10”:{“id” :10},......
我有这样的SQL查询:WITH cte AS(SELECT *,ROW_NUMBER()OVER(PARTITION BY [date] ORDER BY TradedVolumSum DESC)AS rn FROM tempTrades)SELECT * FROM cte WHERE rn = 1 and I ...
我有下面的示例表(我有100万个这样的行),我需要根据以下条件选择新数据帧的行,我必须选择参加更多课程的前1000名学生...
所以我遇到的问题是我有这个数据集:它表明企业在特定的日子里开展业务。我想要实现的是报告在哪一天添加了哪些商家。也许 ...
在pyspark中使用round函数时遇到一些麻烦 - 我有下面的代码块,我试图将new_bid列舍入到2个小数位,并将列重命名为bid ...
我无法找到RDD的总和。我是这个领域的新手请帮忙。使用Python 2.7 Sith spark 2.1我目前正在使用SQL查询来获取数据帧然后将其转换为RDD ...