pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

我可以使用Pyspark更新远程Mysql DB中表中的值吗?

我正在使用kafka从远程mysql数据库中读取数据,并将其传递到Pyspark流以应用情感分析,然后使用该值更新mysql数据库中的列。就是...

回答 2 投票 0

将各种日期格式转换为pyspark中的通用日期格式

Spark SQL-2.3和2.2。 PySpark。一个日期是2019-11-19,另一个日期是2019-11-19T17:19:39.214841000000。需要将它们都转换为yyyy-MM-ddThh:mm:ss.SSSSSSSS需要在spark.sql(select ......)...

回答 1 投票 0

带有EMR SparkException上的spark 2.4的pyspark:无法广播大于8GB的表

我已经检查了与此错误相关的其他帖子,但我发现没有任何作用。我想做的是:df = spark.sql(“”“ SELECT DISTINCT action.AccountId ...,to_date(date)as ...

回答 1 投票 0

有没有一种方法可以使用Spark使用TLS使用FTP加载FTP文件

我正在将python进程移至Spark。在python中,我们使用ftplib连接并下载文件到EC2实例。下载文件后,我们将上传到S3。我们是...

回答 1 投票 2

使用PySpark读取时过滤实木复合地板文件

我在AWS s3中存储了庞大的分区镶木地板文件数据集,我只想使用AWS EMR从每个月的数据中读取一个样本。我必须按值“ user_id”过滤每个月的数据...

回答 1 投票 1

pyspark中的调用函数,以数据帧中的值作为字符串

我必须调用一个函数func_test(spark,a,b),该函数接受两个字符串值并从中创建一个df。 spark是SparkSession变量。这两个字符串值是另一个数据帧的两列...

回答 1 投票 0

从PySpark中的日期列计算一年中的星期

我的数据框看起来像-id日期1 2018-08-12 2 2019-01-23 3 2019-04-03我希望我的数据框看起来像-id日期1周2018 -...

回答 1 投票 0

如何在基于数据框的两个不同列表中包含的值中创建新列?

我有一个像这样的pyspark数据框:+ -------------------- + ---------------- ---- + |标签|句子| + -------------------- + -------------------- + | [事物,我们,饮食... |

回答 2 投票 0

在pyspark数据帧中添加将两列合并的新列

我有一个带有两个日期列和几个其他列的pyspark数据框。 + ------- + ----------- + ---------- + ---------- +-| ID | date1 | date2 |其他| | 1 | 2019-04-01 | 2019-05-01 | ...

回答 1 投票 0

如何仅将几列加载到数据框中?

我正在将文件加载到df中。 df = spark.read.csv(“ path”)如果我以上述方式尝试,它将加载整个CSV文件,该文件有20列,但我只想读取其中的5列。有办法吗?

回答 1 投票 0

按降序排列pyspark数据帧

我有一个数据帧,看起来像-id商品销售1 a 100 2 b 300 3 c 200 4 d 800 5 e 400我想要对数据帧进行排序...

回答 1 投票 0

AWS胶水:如何将嵌套的Hive结构扩展为Dict?

我正在尝试将AWS Glue搜寻器映射到的表中的字段映射扩展为Python中的嵌套字典。但是,我找不到任何Spark / Hive解析器来反序列化var_type ='struct ] >>>

回答 1 投票 0

是否可以将在for循环期间创建的变量写入pyspark中的数据帧?

我正在for循环中创建四个变量,我试图将这些变量写入pyspark的数据帧中。然后,我想将此数据帧写入镶木地板和csv文件中。有没有一种有效的方法...

回答 1 投票 0

Pyspark中时间戳的滚动平均值和天数之和

我有一个PySpark数据框,其中时间戳以天为单位。以下是数据框的示例(我们称其为df):+ ----- + ----- + ---------- + ----- + |名称|类型|时间戳|得分| + ----- + --...

回答 1 投票 0

Spark SQL更新/删除

[当前,我正在使用pySpark进行一个项目,该项目读取一些Hive表,并将它们存储为数据帧,并且我必须对它们执行一些更新/过滤。我避免在...

回答 1 投票 -1

在PySpark日期列中获取每年的最新日期

我有一个这样的表:+ ---------- + ------------- + |日期| BALANCE_DRAWN | + ---------- + ------------- + | 2017-01-10 | 2.21496454E7 | | 2018-01-01 | 4.21496454E7 | | 2018-01-04 | 1.21496454E7 | | 2018-01-07 | ...

回答 1 投票 1

加入不等行数的PySpark数据帧

我有两个PySpark数据框,如下所示,第一个是df1,如下所示:+ ----- + ----- + --------- + ----- + |名称|类型|时间戳1 |得分| + ----- + ----- + ---------- + ----- + | name1 | ...

回答 1 投票 0

Pyspark order在多列上排序时给出错误的结果

概述:我正在尝试按多列对spark DF进行排序,结果DF仅按一列进行排序。玩具DF:l = [('Alice',1,'funcompany'),('Bob',5,'funcompany'),('Jane',30,'...

回答 1 投票 0

如何在pyspark中拆除CLOB?

我从Oracle压缩了数据,并且该表的列包含CLOB DataType,我将其设置为String以获取HDFS中的数据。现在,我必须拆除CLOB数据,并在Hive中为此创建一个单独的表。 ...

回答 1 投票 0

如何在Pyspark UDF中返回双精度列表?

从pyspark.sql导入功能作为函数,我有一个Pyspark数据框,称为df。它具有以下架构:id:字符串项目:字符串数据:double我对其应用以下操作:...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.