将此标记用于与PySpark中的SQL模块相关的问题。
我有一个像这样的表:+ ----- + ----- + |名称|值| + ----- + ----- + |爱丽丝| 1.2 | |丽莎| 3.4 | |尼克| 0.8 | |杰克| 10.1 | | Cici | 4.4 | + ----- + ----- +我想按以下条件对数据进行分组...
我有这张表:日期ID值12/20/19 123 0 12/21/19 123 0 12/22/19 123 1 12/23/19 123 0 12/24/19 123 0 12/25/19 123 0 12/26/19 123 0 12/27/19 123 ...
我通过从配置单元表中读取在pyspark中有一个DataFrame(df):df = spark.sql('select * from ')+++++++++++++++++++ ++++++++++++++++++++++++++ | |姓名|访问的URL ...
val someDF = Seq((8,“ 2019-12-11T00:00:00.451086451 + 09”),(64,“ 2017-08-09T13:12:35.283018201-04”),(-27,“ 2019- 12-01T23:00:00.484072842Z“)).toDF(” number“,” tt“)someDF ....
请在此处输入图片描述如何创建一个空结构的数据框。?谢谢 。 dataxx = []模式= StructType([StructField('Info1',StructType([StructField(...
collect()vs select()。取spark数据框的值
我是pyspark的新手。我正在尝试使用可能具有数百万甚至更多行的spark数据框来获取价值。 df = spark.sql(“从产品中选择count(*)作为项目,其中date(create_date)&...
如何在pyspark中过滤一个数据帧(例如,“从X中选择*,其中X.colx在(从Y中选择余数)”)?
[尝试根据另一个数据框的列过滤pyspark数据框,例如我有一些tsv文件,例如... test11.txt.gz名称id a 1234 b 5678 c 7890 test12.txt.gz名称...
TypeError:'Column'对象在连接两个表时不可调用Pysarpk
所以我试图2连接2个数据帧,而这样做时出现以下错误。 TypeError:“列”对象不可调用我正在将数据作为简单的csv文件加载,以下是架构...
我需要查询方面的帮助。说我有一个像这样的数据框:+ ------ + ------ + | userid | songid | + ------ + ------ + | 1 | a | | 1 | b | | 1 | c | | 2 | a | | 2 | d | | ...
如何将全名拆分为pyspark中的不同列。输入CSV:名称,标记Sam Kumar Timberlake,83 Theo Kumar Biber,82 Tom Kumar Perry,86 Xavier Kumar Cruse,87输出Csv应该是:...
我是PySaprk的新手,但是有一些R的经验。问题:我想为ONE列中列出的高度(数字)分配一个名称。我开始编写如下代码:w = Window.partitionBy(“ ...
我在pyspark中有一个数据框,看起来像这样:+ ---------- + ------------------- + ----- -+ ----------------------- + ----------------------- + -------- + |会话ID |实例ID |操作| ...
我想缩放pyspark中的特定列。在这种情况下,我想在结果列中进行缩放。我的数据框看起来像-id年龄结果1 28 98 2 27 12 ...
Pyspark数据帧写入拼写而不删除/ _temporary文件夹
df.write.mode(“ append”)。parquet(path)我正在使用它来将实木复合地板文件写入S3位置。为了写文件,它似乎也在创建/ _temporary目录并删除它...
如何解码在pyspark数据帧中具有十六进制编码的特殊UTF-8字符的字符串
我有一个像下面这样的pyspark DataFrame,其中特殊字符已进行十六进制编码。 + -------------------- + | item_name | + -------------------- + | Jogador n \ xBA 10 | | Camisa ...
我有一个pyspark DataFrame,其中包含一个名为primary_use的列。这是第一行:创建一个布尔向量,该向量将指示特定行中的primary_use是Education还是...
我有如下所示的python代码,可以使用pyspark从Oracle读取数据。 tableDF = spark.read \ .format(“ jdbc”)\ .option(“ driver”,“ oracle.jdbc.driver.OracleDriver”)\ ...
我正在尝试将数据帧中的每一列除以每一列df = spark.createDataFrame([(1,2,3),(2,4,6),(3,6,9),(4, 8,12),(5,10,15)],[“ A”,“ B”,“ C”])):A列应为...
在Python中使用JDBC从Spark连接到远程Hive时找不到远程数据库吗?
我正在使用pyspark脚本通过JDBC驱动程序从远程Hive读取数据。我尝试了使用enableHiveSupport,Hive-site.xml的其他方法。但是由于某些...
我的问题真的很简单。我正在使用pyspark将配置单元表导出到SQL Server。我发现我在SQL Server中将列名导出为行。我只想在没有列名称的情况下执行此操作。我...