pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

pyspark dataframe基于列后缀转置多个列

有一个数据框（列c到e最多有15个变体）cola，colb，colc_1，cold_1，cole_1，colc_2，cold_2，cole_2 ... 1,2,3,4,5,6,7,8想要数据帧可乐，...

python pandas pyspark pyspark-sql aws-glue

回答 1 投票 0

如何解决“无法创建多个Sparkcontext错误”？

我有两个文件。我有一个文件，我正在创建sparkcontext。 create_spark.py代码就像这样spark_conf =（SparkConf（）。setAppName（app_name）.set（“spark ....

apache-spark pyspark pyspark-sql

回答 1 投票 0

创建DataFrame时Spark会出错

我已经下载了spark版本2.3.1和hadoop版本2.7和java jdk 8.每个东西都适用于简单的练习，但是当我尝试创建数据帧时。它开始虽然错误。下列 ...

apache-spark hadoop pyspark-sql

回答 1 投票 0

如何在pyspark列表达式中引用名称中带有连字符的列？

我有一个形状像这样的json文档（请注意，这个模式不在我的控制之下 - 我不能去除密钥中的连字符）：{“col1”：“value1”，“dictionary-a”： {“col2”：“value2”......

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 2

AttributeError：'NoneType'对象没有属性'sc'

对不起。今天我想运行一个关于如何在Pyspark中用sqlContext创建DataFrame的程序。结果是一个AttributeError，它是“AttributeError：'NoneType'对象没有属性'sc'”我的......

pyspark pyspark-sql

回答 2 投票 6

将Spark DataFrame写入Oracle时如何指定列数据类型

我想使用Oracle JDBC驱动程序将Spark DataFrame写入Oracle表。我的代码如下所示：url =“jdbc：oracle：thin：@servername：sid”mydf.write \ .mode（“overwrite”）\ .option（“...

apache-spark jdbc pyspark pyspark-sql

回答 1 投票 0

如何在Pyspark中一起使用partitionBy和orderBy

我正在尝试从lastfm数据集中拆分会话，遵循来自pyspark.sql导入SparkSession的https://www.arundhaj.com/blog/calculate-difference-with-previous-row-in-pyspark.html的答案。。

python python-3.x apache-spark pyspark pyspark-sql

回答 2 投票 0

pyspark中的Lambda函数不使用python代码

我已经在python中编写了代码，我正试图转移到PySpark但面临语法问题。有人可以审查我的下面的Python代码，并协助在pySpark中获得相同的输出。 data_pit [” ...

apache-spark machine-learning pyspark data-science pyspark-sql

回答 1 投票 -1

Pyspark - 从每列中选择不同的值

我试图在数据框中的每列中找到所有不同的值并显示在一个表中。示例数据：| ----------- | ----------- | ----------- | COL_1 | COL_2 | COL_3 | | ------...

python python-3.x apache-spark pyspark pyspark-sql

回答 1 投票 0

如何使用pyspark从aws glue中的时间戳中提取Year

我需要从时间戳中获取年份，同时在aws glue中转换原始数据。以下是我正在尝试但不起作用的内容。从awsglue.unss导入awsglue.transforms import *导入sys ...

pyspark pyspark-sql aws-glue

回答 2 投票 0

将转换应用于多个列pyspark dataframe

假设我有以下spark数据帧：+ ----- + ------- + |字|标签| + ----- + ------- + |红|色| |红|色| |蓝色|色| |蓝色|情| |快乐|情| + ----- + ------- +哪个......

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 2

Pyspark - 通过忽略空值来计算分组后的最小值

我想对数据集进行分组，并为每个组计算变量的min，忽略空值。例如：NAME |国家| AGE Marc |法国| 20安妮|法国|空值 ...

pyspark pyspark-sql

回答 1 投票 0

将spark数据帧写入单个镶木地板文件

我想做一些非常简单的事情，我有一些非常愚蠢的挣扎。我认为这必然与对火花正在做什么的根本误解有关。我非常感谢任何......

apache-spark pyspark pyspark-sql

回答 2 投票 2

当hive分区丢失时，Spark SQL失败

我有一个表有一些缺少分区。当我在hive上调用它时，它可以正常工作SELECT * FROM table但是当从pyspark（v.2.3.0）调用它时它会失败并显示消息输入路径不存在：...

apache-spark hive pyspark pyspark-sql

回答 1 投票 0

pyspark-java.lang.IllegalStateException：输入行没有架构所需的预期值

我在Horton沙箱上运行pyspark-sql代码18/08/11 17:02:22 INFO spark.SparkContext：运行Spark版本1.6.3 #pyspark.sql import *代码来自pyspark.sql.types import * rdd1 = SC ....

apache-spark pyspark-sql hortonworks-data-platform

回答 3 投票 0

pyspark group by sum

我有一个包含4列的pyspark数据帧。 id / number / value / x我想组合列id，数字，然后添加一个新的列，其中包含每个id和number的值之和。我想保留colunms x ...

pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 -1

使用列值作为spark DataFrame函数的参数

请考虑以下DataFrame：＃+ ------ + --- +＃| letter | rpt | ＃+ ------ + --- +＃| X | 3 | ＃| Y | 1 | ＃| ž| 2 | ＃+ ------ + --- +可以使用以下代码创建：df = spark ....

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 3

如果列类型具有某些正则表达式模式，则pyspark忽略行

我有一个json格式的数据文件，当它是一个字符串“class”时，它的一个字段以字符串和结构类型存在：{“student”：“{\”one \“：\”one \“}”}当它是一个结构“类”时：{...

pyspark apache-spark-sql pyspark-sql

回答 1 投票 1

PySpark - 有没有办法水平连接两个数据帧，以便第一个df中的每一行都包含第二个df中的所有行

所以我有一个带有唯一user_ids的用户df和带有一组问题的第二个df。然后我想合并dfs，以便每个user_id附加到完整的问题集：User Df：+ ------------...

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 1

PySpark - SQL查询返回错误的数据

pyspark pyspark-sql

回答 1 投票 0

pyspark-sql 相关问题

最新问题