pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

pyspark dataframe基于列后缀转置多个列

有一个数据框(列c到e最多有15个变体)cola,colb,colc_1,cold_1,cole_1,colc_2,cold_2,cole_2 ... 1,2,3,4,5,6,7,8想要数据帧可乐,...

回答 1 投票 0

如何解决“无法创建多个Sparkcontext错误”?

我有两个文件。我有一个文件,我正在创建sparkcontext。 create_spark.py代码就像这样spark_conf =(SparkConf()。setAppName(app_name).set(“spark ....

回答 1 投票 0

创建DataFrame时Spark会出错

我已经下载了spark版本2.3.1和hadoop版本2.7和java jdk 8.每个东西都适用于简单的练习,但是当我尝试创建数据帧时。它开始虽然错误。下列 ...

回答 1 投票 0

如何在pyspark列表达式中引用名称中带有连字符的列?

我有一个形状像这样的json文档(请注意,这个模式不在我的控制之下 - 我不能去除密钥中的连字符):{“col1”:“value1”,“dictionary-a”: {“col2”:“value2”......

回答 1 投票 2

AttributeError:'NoneType'对象没有属性'sc'

对不起。今天我想运行一个关于如何在Pyspark中用sqlContext创建DataFrame的程序。结果是一个AttributeError,它是“AttributeError:'NoneType'对象没有属性'sc'”我的......

回答 2 投票 6

将Spark DataFrame写入Oracle时如何指定列数据类型

我想使用Oracle JDBC驱动程序将Spark DataFrame写入Oracle表。我的代码如下所示:url =“jdbc:oracle:thin:@servername:sid”mydf.write \ .mode(“overwrite”)\ .option(“...

回答 1 投票 0

如何在Pyspark中一起使用partitionBy和orderBy

我正在尝试从lastfm数据集中拆分会话,遵循来自pyspark.sql导入SparkSession的https://www.arundhaj.com/blog/calculate-difference-with-previous-row-in-pyspark.html的答案。 。

回答 2 投票 0

pyspark中的Lambda函数不使用python代码

我已经在python中编写了代码,我正试图转移到PySpark但面临语法问题。有人可以审查我的下面的Python代码,并协助在pySpark中获得相同的输出。 data_pit [” ...

回答 1 投票 -1

Pyspark - 从每列中选择不同的值

我试图在数据框中的每列中找到所有不同的值并显示在一个表中。示例数据:| ----------- | ----------- | ----------- | COL_1 | COL_2 | COL_3 | | ------...

回答 1 投票 0

如何使用pyspark从aws glue中的时间戳中提取Year

我需要从时间戳中获取年份,同时在aws glue中转换原始数据。以下是我正在尝试但不起作用的内容。从awsglue.unss导入awsglue.transforms import *导入sys ...

回答 2 投票 0

将转换应用于多个列pyspark dataframe

假设我有以下spark数据帧:+ ----- + ------- + |字|标签| + ----- + ------- + |红|色| |红|色| |蓝色|色| |蓝色|情| |快乐|情| + ----- + ------- +哪个......

回答 1 投票 2

Pyspark - 通过忽略空值来计算分组后的最小值

我想对数据集进行分组,并为每个组计算变量的min,忽略空值。例如:NAME |国家| AGE Marc |法国| 20安妮|法国|空值 ...

回答 1 投票 0

将spark数据帧写入单个镶木地板文件

我想做一些非常简单的事情,我有一些非常愚蠢的挣扎。我认为这必然与对火花正在做什么的根本误解有关。我非常感谢任何......

回答 2 投票 2

当hive分区丢失时,Spark SQL失败

我有一个表有一些缺少分区。当我在hive上调用它时,它可以正常工作SELECT * FROM table但是当从pyspark(v.2.3.0)调用它时它会失败并显示消息输入路径不存在:...

回答 1 投票 0

pyspark-java.lang.IllegalStateException:输入行没有架构所需的预期值

我在Horton沙箱上运行pyspark-sql代码18/08/11 17:02:22 INFO spark.SparkContext:运行Spark版本1.6.3 #pyspark.sql import *代码来自pyspark.sql.types import * rdd1 = SC ....

回答 3 投票 0

pyspark group by sum

我有一个包含4列的pyspark数据帧。 id / number / value / x我想组合列id,数字,然后添加一个新的列,其中包含每个id和number的值之和。我想保留colunms x ...

回答 2 投票 -1

使用列值作为spark DataFrame函数的参数

请考虑以下DataFrame:#+ ------ + --- +#| letter | rpt | #+ ------ + --- +#| X | 3 | #| Y | 1 | #| ž| 2 | #+ ------ + --- +可以使用以下代码创建:df = spark ....

回答 1 投票 3

如果列类型具有某些正则表达式模式,则pyspark忽略行

我有一个json格式的数据文件,当它是一个字符串“class”时,它的一个字段以字符串和结构类型存在:{“student”:“{\”one \“:\”one \“}”}当它是一个结构“类”时:{...

回答 1 投票 1

PySpark - 有没有办法水平连接两个数据帧,以便第一个df中的每一行都包含第二个df中的所有行

所以我有一个带有唯一user_ids的用户df和带有一组问题的第二个df。然后我想合并dfs,以便每个user_id附加到完整的问题集:User Df:+ ------------...

回答 1 投票 1

PySpark - SQL查询返回错误的数据

我正在努力实现协同过滤(使用Movielens 20m数据集)。评级数据看起来像这样:| userId | movieId |评级|时间戳|评级在1-5之间(如果...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.