将此标记用于与PySpark中的SQL模块相关的问题。
有一个数据框(列c到e最多有15个变体)cola,colb,colc_1,cold_1,cole_1,colc_2,cold_2,cole_2 ... 1,2,3,4,5,6,7,8想要数据帧可乐,...
我有两个文件。我有一个文件,我正在创建sparkcontext。 create_spark.py代码就像这样spark_conf =(SparkConf()。setAppName(app_name).set(“spark ....
我已经下载了spark版本2.3.1和hadoop版本2.7和java jdk 8.每个东西都适用于简单的练习,但是当我尝试创建数据帧时。它开始虽然错误。下列 ...
我有一个形状像这样的json文档(请注意,这个模式不在我的控制之下 - 我不能去除密钥中的连字符):{“col1”:“value1”,“dictionary-a”: {“col2”:“value2”......
AttributeError:'NoneType'对象没有属性'sc'
对不起。今天我想运行一个关于如何在Pyspark中用sqlContext创建DataFrame的程序。结果是一个AttributeError,它是“AttributeError:'NoneType'对象没有属性'sc'”我的......
将Spark DataFrame写入Oracle时如何指定列数据类型
我想使用Oracle JDBC驱动程序将Spark DataFrame写入Oracle表。我的代码如下所示:url =“jdbc:oracle:thin:@servername:sid”mydf.write \ .mode(“overwrite”)\ .option(“...
如何在Pyspark中一起使用partitionBy和orderBy
我正在尝试从lastfm数据集中拆分会话,遵循来自pyspark.sql导入SparkSession的https://www.arundhaj.com/blog/calculate-difference-with-previous-row-in-pyspark.html的答案。 。
我已经在python中编写了代码,我正试图转移到PySpark但面临语法问题。有人可以审查我的下面的Python代码,并协助在pySpark中获得相同的输出。 data_pit [” ...
我试图在数据框中的每列中找到所有不同的值并显示在一个表中。示例数据:| ----------- | ----------- | ----------- | COL_1 | COL_2 | COL_3 | | ------...
如何使用pyspark从aws glue中的时间戳中提取Year
我需要从时间戳中获取年份,同时在aws glue中转换原始数据。以下是我正在尝试但不起作用的内容。从awsglue.unss导入awsglue.transforms import *导入sys ...
假设我有以下spark数据帧:+ ----- + ------- + |字|标签| + ----- + ------- + |红|色| |红|色| |蓝色|色| |蓝色|情| |快乐|情| + ----- + ------- +哪个......
我想对数据集进行分组,并为每个组计算变量的min,忽略空值。例如:NAME |国家| AGE Marc |法国| 20安妮|法国|空值 ...
我想做一些非常简单的事情,我有一些非常愚蠢的挣扎。我认为这必然与对火花正在做什么的根本误解有关。我非常感谢任何......
我有一个表有一些缺少分区。当我在hive上调用它时,它可以正常工作SELECT * FROM table但是当从pyspark(v.2.3.0)调用它时它会失败并显示消息输入路径不存在:...
pyspark-java.lang.IllegalStateException:输入行没有架构所需的预期值
我在Horton沙箱上运行pyspark-sql代码18/08/11 17:02:22 INFO spark.SparkContext:运行Spark版本1.6.3 #pyspark.sql import *代码来自pyspark.sql.types import * rdd1 = SC ....
我有一个包含4列的pyspark数据帧。 id / number / value / x我想组合列id,数字,然后添加一个新的列,其中包含每个id和number的值之和。我想保留colunms x ...
请考虑以下DataFrame:#+ ------ + --- +#| letter | rpt | #+ ------ + --- +#| X | 3 | #| Y | 1 | #| ž| 2 | #+ ------ + --- +可以使用以下代码创建:df = spark ....
我有一个json格式的数据文件,当它是一个字符串“class”时,它的一个字段以字符串和结构类型存在:{“student”:“{\”one \“:\”one \“}”}当它是一个结构“类”时:{...
PySpark - 有没有办法水平连接两个数据帧,以便第一个df中的每一行都包含第二个df中的所有行
所以我有一个带有唯一user_ids的用户df和带有一组问题的第二个df。然后我想合并dfs,以便每个user_id附加到完整的问题集:User Df:+ ------------...
我正在努力实现协同过滤(使用Movielens 20m数据集)。评级数据看起来像这样:| userId | movieId |评级|时间戳|评级在1-5之间(如果...