pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

从日期范围中删除一些日期

从datetime导入timedelta,date def daterange(date1,date2):范围内的n(int((date2-date1).days)+1):产生date1 + timedelta(n)start_dt = date(2015,12, 20)end_dt = date(...

回答 1 投票 1

为什么我的简单PySpark代码需要这么长时间才能运行?

我的输入数据是3000万行* 113列各种类型的数据。我只是想使用PySpark来增加数据中一列的值,但是它要花很多时间才能运行(有时会因OOM崩溃...

回答 1 投票 0

如何在pyspark中读取二进制数据

我正在使用pyspark阅读二进制文件http://snap.stanford.edu/data/amazon/productGraph/image_features/image_features.b。从io导入数组导入StringIO img_embedding_file = sc.binaryRecords(“ ...

回答 1 投票 0

是否有一种方法可以使胶粘作业始终以字符串形式从xml读取数据?

我有这个xml,我可以通过AWS Glue读取并插入到RDS。下面是示例xml。 [[[123456D

回答 1 投票 0

从pyspark数据框中获取空计数,多(100+)列的最小值和最大值的最佳方法

说我有一个列名列表,它们都存在于数据框中Cols = ['A','B','C','D'],我正在寻找一种获取表/数据框的快速方法像NA_counts最小最大A 5 ...

回答 1 投票 0

具有数据库大小的SQL插入和降低性能的时间复杂度-通过pandas`to_sql()`将pyspark实木复合地板文件转换为sql

使用pandas to_sql()功能迭代地追加到SQLite数据库似乎在每次迭代中性能下降。我要在每个...中附加的数据框...

回答 1 投票 0

Pyspark转换:列名到行

我正在使用pyspark,并希望转换此Spark数据框:+ ---- + --------------------------- ---- + ------------------------------- + ------------- ------------------ + ------------------------...

回答 2 投票 -1

明智地使用从列映射以填充pyspark数据帧中另一列的值

我有一个包含多列的数据框:+ ----------- + ----------- + ----------- + | col1 | col2 | col3 | + ----------- + ----------- + ----------- + | s1 | c1 | p3 | | ...

回答 1 投票 0

运行总和/带有上下限Py Spark的累计总和

我是火花新手,我正在尝试计算以0为底,以8为上限的窗口运行总和。下面给出一个玩具示例(请注意,实际数据更接近数百万行): 。

回答 2 投票 2

如何在PySpark中查找数组的平均值

我有一个PySpark数据框,其中的一列(例如B)是一个数组数组。以下是PySpark数据框:+ --- + --------------------------------------------- + --- + | A | B。 ..

回答 2 投票 0

确保PySpark数组中相邻元素之间的差异大于给定的最小值

我有一个带有三列的PySpark数据框(df)。 1. category:一些字符串2. startTimeArray:它是一个包含时间戳升序的数组。 3. endTimeArray:这是一个数组...

回答 1 投票 2

在符合选择条件的行前选择n行

我有一张来自生产线的大型过程数据表,其中包含产品在Hadoop数据湖中创建过程中要经历的许多步骤。在某些时候,我有兴趣找出...

回答 1 投票 0

如何通过pyspark sql或Mysql中的键求和

我不知道如何通过索引添加值,这可以帮助我:根据键值的索引添加值输入CSV:Country,Values Canada,47; 97; 33; 94; 6加拿大,59; 98; 24; 83; 3 ...

回答 1 投票 2

Spark SQL:为什么Spark不会一直播放广播

我在aws s3和emr上使用Spark 2.4开发一个项目,而我左手连接了两个很大部分的数据。火花执行不稳定,它经常因内存问题而失败。集群有10个...

回答 1 投票 0

向PySpark数据框中的数组内的元素添加天数

我有一个三列的PySpark数据框。前两列以数组为元素,而最后一列给出最后一列的数组长度。以下是PySpark ...

回答 1 投票 1

在PySpark中将最大值时间戳放入数组中

我有一个PySpark数据框(例如df1),其中包含以下各列1.>类别-包含唯一的类别类型2.> start_time_array-时间戳数组按升序排列3.> end_time_array-...

回答 1 投票 1

如何为多个内部联接编写SQL查询?

示例记录:行(user_id ='KxGeqg5ccByhaZfQRI4Nnw',性别='男性',年='2015',月='9月',日= '20',小时= '16',工作日='星期日, reviewClass ='放回爱地',business_id ='S75Lf -...

回答 1 投票 0

查看字符串是否包含不同数据帧中的子字符串

我有2个数据帧:df_1,列ID仅包含标准化的字符和数字==>,并且id_no_normalized示例:id_normalized | id_no_normalized ------------- | ------------------- ...

回答 1 投票 1

如何在AWS Glue的Spark数据帧或Spark SQL临时表中包括分区列的值?

我正在为此代码使用python 3,Glue 1.0。我已经在S3中对数据进行了分区。数据按年,月,日,extra_field_name列进行分区。当我将数据加载到数据帧中时,我得到...

回答 1 投票 0

如何通过控制台访问和争论到pyspark作业提交?

目前,我们在Google存储上有sample.py文件,我们需要从控制台将论点传递给此脚本。来自pyspark.sql的#sample.py导入来自pyspark.sql的SparkSession的导入功能为F ...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.