pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

删除pyspark数据框列中的非ASCII和特殊字符

我正在从约有50列的csv文件中读取数据，很少的列（4至5）包含具有非ASCII字符和特殊字符的文本数据。 df = spark.read.csv（path，header = True，...

python pyspark apache-spark-sql pyspark-sql azure-databricks

回答 1 投票 0

Spark中的pyspark日期范围计算

我正在尝试处理每个用户的网站登录会话数据。我正在将S3会话日志文件读入RDD。数据看起来像这样。 ----------------------------------------用户| ...

pyspark rdd pyspark-sql pyspark-dataframes

回答 1 投票 0

在Hive中插入数据时，Pyspark错误

我正在使用pyspark代码。。并且当我尝试将数据从pyspark插入HIVE Table时，出现错误。我试图在Google上找到问题，但没有任何想法。当我运行此插入语句时...

apache-spark hive pyspark pyspark-sql

回答 1 投票 0

将json sturc值拆分为Pyspark中的多个列

我正在将json文件导入pyspark数据框。我已使用以下代码df = sqlContext.read.json（“ json_file.json”）。select（“ item”，“ attributes”）导入json。我想拆分属性...

pyspark pyspark-sql

回答 1 投票 0

从嵌套的json文件中提取数据

这是数据的架构，想要从中提取'from'。使用df3 = df.select（df.transcript.data.from.alias（“ Type”））进行了尝试，并得到了无效的语法错误。如何提取这个。根...

pyspark apache-spark-sql pyspark-sql pyspark-dataframes

回答 1 投票 0

使用Pyspark平均值的异常值处理

我的数据框看起来像-id性别年龄1 m 27 2 m 39 3 f 99 4 f 11 5 m 46 6 f 60 I ...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

数组元素的总和，取决于值条件pyspark

我有一个pyspark数据框：id |列------------------------------ 1 | [0.2、2、3、4、3、0.5] ------------------------------ 2 | [7，0.3，0.3，8，2，] ------------------------------我...

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 3 投票 1

如何将SQL查询转换为HiveSQL并获取最小日期？

如何将SQL查询转换为HiveSQL并获取最小日期而不是使用datepart，如下所示：％sql-清除表（如果已存在）DROP TABLE IF EXISTS栏； -创建临时表...

sql hiveql pyspark-sql databricks datepart

回答 2 投票 0

pyspark数据帧中的分组计数

我的数据框看起来像-id年龄性别类别1 34 m b 1 34 m c 1 34 m b 2 28 f ...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

[调用udf函数时出现pyspark泡菜错误

执行此操作时出现泡菜错误。我是pyspark的新手，所以如果我错过任何事情，我都不会感到震惊。有人可以帮助我理解我的错误吗？该代码应该与_ ...

python-3.x pyspark pyspark-sql

回答 1 投票 0

无法使用pyspark运行简单的hql文件

我正在使用pyspark == 2.4.3，我只想使用myDatabaseName运行hql文件；显示表格；这是我从os.path导入expanduser尝试过的方法，从pyspark.sql导入中加入了abspath ...

python pyspark hive pyspark-sql spark-hive

回答 1 投票 0

火花作业性能问题

我具有以下DSE群集配置：6个节点，每个节点具有6个核心/ 16GB内存。我的应用程序是使用pyspark构建的，可以从Cassandra DB中读取数据。我们在cassandra db 320.000.000行上加载...

python apache-spark pyspark datastax-enterprise pyspark-sql

回答 2 投票 0

加入两个pyspark数据帧以从第一个df中选择所有列，从第二个df中选择一些列

我尝试导入如下所示的两个函数，但从pyspark.sql.functions导入regexp_replace时出错，col df1 = sales.alias（'a'）。join（customer.alias（'b'），col（' b.ID'）== col（'a.ID'））\ ...

python-3.x apache-spark pyspark pyspark-sql

回答 1 投票 1

在pyspark中使用UDF和simpe数据帧

我是pyspark的新手，并尝试执行以下操作，为每个cookie调用函数PrintDetails，然后将结果写入文件。 spark.sql查询返回正确的数据，并且I ...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

蜂巢中的分组/窗口化

在下图中，第一个是有问题的表（提供的脚本），第二个是预期的输出。在C列中，我们有不同的项目，例如T1，T2，T3，这些记录将按组显示，T1 ...

sql hadoop hive hiveql pyspark-sql

回答 1 投票 0

AnalysisException：基于前一行计算列值时，窗口函数不支持该表达式

我有示例数据，该数据具有4个字段amt1，amt2，amt3和amt4。我们要基于字段总和（上一行的amt1，amt2，amt3，amt4）和amt5值来计算amt5的值。假设下面是...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

将重复项的所有实例都放入pyspark

我尝试搜索此内容，但我能找到的最接近的是这个。但这并没有给我我想要的东西。我想将重复项的所有实例都放在数据框中。例如，如果我有数据...

pyspark pyspark-sql

回答 1 投票 0

使用以前的值计算表中的行的值

我有两个这样构成的表-表1 + --- + --- + | id | val | + --- + --- + | 1 | 1.1 | | 2 | 1.2 | | 3 | 1.3 | | 4 | 1.4 | | 5 | 1.5 | | 6 | 1.6 | + --- + --- + table2 + --- + --- + | id | val | + --- + ---......>

sql apache-spark-sql pyspark-sql

回答 2 投票 0

火花将多行转换为具有多个集合的单行

我正在寻找有关如何解决以下情况的想法。我的用例在java spark中，但是由于我用完了构想，我一直在寻找与语言无关的想法，因为我有非结构化数据，如...

dataframe apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

如何使用PySpark运行多行SQL查询？ [重复]

spark.sql（“从assure_crm_accounts中选择acts.accountname，acts.county_state，loc.Town，acts.country是acts内连接asact_crm_accountlocation acts.GPAddressCode = loc.GPAddressCode”）。show（30，...

python pyspark pyspark-sql

回答 2 投票 0

pyspark-sql 相关问题

最新问题