pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

删除pyspark数据框列中的非ASCII和特殊字符

我正在从约有50列的csv文件中读取数据,很少的列(4至5)包含具有非ASCII字符和特殊字符的文本数据。 df = spark.read.csv(path,header = True,...

回答 1 投票 0

Spark中的pyspark日期范围计算

我正在尝试处理每个用户的网站登录会话数据。我正在将S3会话日志文件读入RDD。数据看起来像这样。 ----------------------------------------用户| ...

回答 1 投票 0

在Hive中插入数据时,Pyspark错误

我正在使用pyspark代码。 。并且当我尝试将数据从pyspark插入HIVE Table时,出现错误。我试图在Google上找到问题,但没有任何想法。当我运行此插入语句时...

回答 1 投票 0

将json sturc值拆分为Pyspark中的多个列

我正在将json文件导入pyspark数据框。我已使用以下代码df = sqlContext.read.json(“ json_file.json”)。select(“ item”,“ attributes”)导入json。我想拆分属性...

回答 1 投票 0

从嵌套的json文件中提取数据

这是数据的架构,想要从中提取'from'。使用df3 = df.select(df.transcript.data.from.alias(“ Type”))进行了尝试,并得到了无效的语法错误。如何提取这个。根...

回答 1 投票 0

使用Pyspark平均值的异常值处理

我的数据框看起来像-id性别年龄1 m 27 2 m 39 3 f 99 4 f 11 5 m 46 6 f 60 I ...

回答 1 投票 0

数组元素的总和,取决于值条件pyspark

我有一个pyspark数据框:id |列------------------------------ 1 | [0.2、2、3、4、3、0.5] ------------------------------ 2 | [7,0.3,0.3,8,2,] ------------------------------我...

回答 3 投票 1

如何将SQL查询转换为HiveSQL并获取最小日期?

如何将SQL查询转换为HiveSQL并获取最小日期而不是使用datepart,如下所示:%sql-清除表(如果已存在)DROP TABLE IF EXISTS栏; -创建临时表...

回答 2 投票 0

pyspark数据帧中的分组计数

我的数据框看起来像-id年龄性别类别1 34 m b 1 34 m c 1 34 m b 2 28 f ...

回答 1 投票 0

[调用udf函数时出现pyspark泡菜错误

执行此操作时出现泡菜错误。我是pyspark的新手,所以如果我错过任何事情,我都不会感到震惊。有人可以帮助我理解我的错误吗?该代码应该与_ ...

回答 1 投票 0

无法使用pyspark运行简单的hql文件

我正在使用pyspark == 2.4.3,我只想使用myDatabaseName运行hql文件;显示表格;这是我从os.path导入expanduser尝试过的方法,从pyspark.sql导入中加入了abspath ...

回答 1 投票 0

火花作业性能问题

我具有以下DSE群集配置:6个节点,每个节点具有6个核心/ 16GB内存。我的应用程序是使用pyspark构建的,可以从Cassandra DB中读取数据。我们在cassandra db 320.000.000行上加载...

回答 2 投票 0

加入两个pyspark数据帧以从第一个df中选择所有列,从第二个df中选择一些列

我尝试导入如下所示的两个函数,但从pyspark.sql.functions导入regexp_replace时出错,col df1 = sales.alias('a')。join(customer.alias('b'),col(' b.ID')== col('a.ID'))\ ...

回答 1 投票 1

在pyspark中使用UDF和simpe数据帧

我是pyspark的新手,并尝试执行以下操作,为每个cookie调用函数PrintDetails,然后将结果写入文件。 spark.sql查询返回正确的数据,并且I ...

回答 1 投票 0

蜂巢中的分组/窗口化

在下图中,第一个是有问题的表(提供的脚本),第二个是预期的输出。在C列中,我们有不同的项目,例如T1,T2,T3,这些记录将按组显示,T1 ...

回答 1 投票 0

AnalysisException:基于前一行计算列值时,窗口函数不支持该表达式

我有示例数据,该数据具有4个字段amt1,amt2,amt3和amt4。我们要基于字段总和(上一行的amt1,amt2,amt3,amt4)和amt5值来计算amt5的值。假设下面是...

回答 1 投票 0

将重复项的所有实例都放入pyspark

我尝试搜索此内容,但我能找到的最接近的是这个。但这并没有给我我想要的东西。我想将重复项的所有实例都放在数据框中。例如,如果我有数据...

回答 1 投票 0

使用以前的值计算表中的行的值

我有两个这样构成的表-表1 + --- + --- + | id | val | + --- + --- + | 1 | 1.1 | | 2 | 1.2 | | 3 | 1.3 | | 4 | 1.4 | | 5 | 1.5 | | 6 | 1.6 | + --- + --- + table2 + --- + --- + | id | val | + --- + ---......>

回答 2 投票 0

火花将多行转换为具有多个集合的单行

我正在寻找有关如何解决以下情况的想法。我的用例在java spark中,但是由于我用完了构想,我一直在寻找与语言无关的想法,因为我有非结构化数据,如...

回答 2 投票 0

如何使用PySpark运行多行SQL查询? [重复]

spark.sql(“从assure_crm_accounts中选择acts.accountname,acts.county_state,loc.Town,acts.country是acts内连接asact_crm_accountlocation acts.GPAddressCode = loc.GPAddressCode”)。show(30,...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.