pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

Apache Spark:按条件分组

我有一个像这样的表:+ ----- + ----- + |名称|值| + ----- + ----- + |爱丽丝| 1.2 | |丽莎| 3.4 | |尼克| 0.8 | |杰克| 10.1 | | Cici | 4.4 | + ----- + ----- +我想按以下条件对数据进行分组...

回答 1 投票 0

逐行重复值直到找到更改

我有这张表:日期ID值12/20/19 123 0 12/21/19 123 0 12/22/19 123 1 12/23/19 123 0 12/24/19 123 0 12/25/19 123 0 12/26/19 123 0 12/27/19 123 ...

回答 1 投票 0

如何在pyspark中将行转换为Dictionary?

我通过从配置单元表中读取在pyspark中有一个DataFrame(df):df = spark.sql('select * from ')+++++++++++++++++++ ++++++++++++++++++++++++++ | |姓名|访问的URL ...

回答 4 投票 6

sparksql-将带时区的字符串转换为UTC

val someDF = Seq((8,“ 2019-12-11T00:00:00.451086451 + 09”),(64,“ 2017-08-09T13:12:35.283018201-04”),(-27,“ 2019- 12-01T23:00:00.484072842Z“)).toDF(” number“,” tt“)someDF ....

回答 1 投票 0

创建结构PySpark的DataFrame

请在此处输入图片描述如何创建一个空结构的数据框。?谢谢 。 dataxx = []模式= StructType([StructField('Info1',StructType([StructField(...

回答 1 投票 0

collect()vs select()。取spark数据框的值

我是pyspark的新手。我正在尝试使用可能具有数百万甚至更多行的spark数据框来获取价值。 df = spark.sql(“从产品中选择count(*)作为项目,其中date(create_date)&...

回答 2 投票 0

如何在pyspark中过滤一个数据帧(例如,“从X中选择*,其中X.colx在(从Y中选择余数)”)?

[尝试根据另一个数据框的列过滤pyspark数据框,例如我有一些tsv文件,例如... test11.txt.gz名称id a 1234 b 5678 c 7890 test12.txt.gz名称...

回答 1 投票 1

TypeError:'Column'对象在连接两个表时不可调用Pysarpk

所以我试图2连接2个数据帧,而这样做时出现以下错误。 TypeError:“列”对象不可调用我正在将数据作为简单的csv文件加载,以下是架构...

回答 2 投票 0

基于分组的另一列中的重叠条目查找一列中的公共对

我需要查询方面的帮助。说我有一个像这样的数据框:+ ------ + ------ + | userid | songid | + ------ + ------ + | 1 | a | | 1 | b | | 1 | c | | 2 | a | | 2 | d | | ...

回答 1 投票 -1

如何将名称分成不同的列

如何将全名拆分为pyspark中的不同列。输入CSV:名称,标记Sam Kumar Timberlake,83 Theo Kumar Biber,82 Tom Kumar Perry,86 Xavier Kumar Cruse,87输出Csv应该是:...

回答 2 投票 2

PySpark将名称分配给列值'withcolumn'

我是PySaprk的新手,但是有一些R的经验。问题:我想为ONE列中列出的高度(数字)分配一个名称。我开始编写如下代码:w = Window.partitionBy(“ ...

回答 1 投票 0

通过时差过滤pyspark

我在pyspark中有一个数据框,看起来像这样:+ ---------- + ------------------- + ----- -+ ----------------------- + ----------------------- + -------- + |会话ID |实例ID |操作| ...

回答 1 投票 -1

pyspark中列的规范化或缩放

我想缩放pyspark中的特定列。在这种情况下,我想在结果列中进行缩放。我的数据框看起来像-id年龄结果1 28 98 2 27 12 ...

回答 2 投票 0

Pyspark数据帧写入拼写而不删除/ _temporary文件夹

df.write.mode(“ append”)。parquet(path)我正在使用它来将实木复合地板文件写入S3位置。为了写文件,它似乎也在创建/ _temporary目录并删除它...

回答 1 投票 0

如何解码在pyspark数据帧中具有十六进制编码的特殊UTF-8字符的字符串

我有一个像下面这样的pyspark DataFrame,其中特殊字符已进行十六进制编码。 + -------------------- + | item_name | + -------------------- + | Jogador n \ xBA 10 | | Camisa ...

回答 1 投票 0

在pyspark中使用foreach()

我有一个pyspark DataFrame,其中包含一个名为primary_use的列。这是第一行:创建一个布尔向量,该向量将指示特定行中的primary_use是Education还是...

回答 1 投票 1

在pyspark中关闭强制UTF8编码

我有如下所示的python代码,可以使用pyspark从Oracle读取数据。 tableDF = spark.read \ .format(“ jdbc”)\ .option(“ driver”,“ oracle.jdbc.driver.OracleDriver”)\ ...

回答 1 投票 2

如何将df中的每一列除以pyspark中的其他列?

我正在尝试将数据帧中的每一列除以每一列df = spark.createDataFrame([(1,2,3),(2,4,6),(3,6,9),(4, 8,12),(5,10,15)],[“ A”,“ B”,“ C”])):A列应为...

回答 2 投票 0

在Python中使用JDBC从Spark连接到远程Hive时找不到远程数据库吗?

我正在使用pyspark脚本通过JDBC驱动程序从远程Hive读取数据。我尝试了使用enableHiveSupport,Hive-site.xml的其他方法。但是由于某些...

回答 1 投票 -2

如何使用无列名的pyspark写入JDBC

我的问题真的很简单。我正在使用pyspark将配置单元表导出到SQL Server。我发现我在SQL Server中将列名导出为行。我只想在没有列名称的情况下执行此操作。我...

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.