pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

我正在尝试在以下查询中运行：df3 = df1.join（df2，df1 [“ DID”] == df2 [“ JID”]，'inner'）\ .select（df1 [“ DID”]，df1 [ “ amt”]-df2 [“ amt”] \ .where（df1 [“ DID”] ==“ BIG123”））。show（）我收到错误信息...

dataframe hadoop apache-spark-sql pyspark-sql cdsw

回答 2 投票 0

对象不可调用错误|哪里功能Pyspark

dataframe hadoop apache-spark-sql pyspark-sql cdsw

回答 2 投票 0

Spark是否可以使用SQL直接在没有数据帧的情况下更新数据库？

Spark可以直接在源数据库中的表上执行SQL更新查询，而不必将表转换为数据框并将数据框重新写回数据库吗？谢谢...

apache-spark apache-spark-sql pyspark-sql

回答 1 投票 -3

比较pyspark中的两个数据集

我有2个数据集。示例数据集1：id |型号first_name |姓 - - - - - - - - - - - - - - - - - - - - - - - - - ---------- 1234 | 32 | 456765 | [456700，...

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 1

火花加载拼写无法从分区列推断时间戳

我可以保存一个拼合文件，该拼合文件由看起来像时间戳的列划分，但实际上是一个字符串。当我尝试使用spark.read.load（）将镶木地板加载回spark中时，它会自动...

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

为Spark SQL中的每一分钟差异创建一个新行

考虑我的数据：+ --- + ------------------- + ------------------- + | id |开始时间|结束时间| + --- + ------------------- + ------------------- + | 1 | 1970-01-01 07：00：00 | 1970-01-01 07:03：...

pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

如何在cassandra表中添加列描述？

如果可能，我想在cassandra表中添加每列的描述。在创建表或向现有表添加新列时，如何在cassandra表中添加列描述，例如：...

cassandra pyspark-sql spark-cassandra-connector cqlsh

回答 1 投票 0

如何连接两个数据框并从数据框中减去两列

我有两个数据框，如下所示，我试图根据ID数据框1查找两个数量之间的差异：ID I Amt 1 null 200 null 2 200 3 null 600 dataframe 2 ID I Amt 2 null ...

pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

如何在Azure Databricks（Pyspark）中使用SQL查询取消旋转数据框

因此，我使用registerTempTable（）从pyspark数据帧创建了一个临时表。该表具有如下数据：________________________________________________ |姓名| ...

sql pyspark pyspark-sql databricks pyspark-dataframes

回答 1 投票 1

解析数据框列中的值

我有一个pyspark数据框，如下面的输入数据框。它具有colA列，其中包含数字列表作为每个值。我想创建一个新列colC来解析来自...

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 -2

PySpark在一个分区中的第一个和最后一个函数

我有这样的pyspark代码，spark_df = spark_df.orderBy（'id'，'a1'，'c1'）out_df = spark_df.groupBy（'id'，'a1'，'a2'）。agg（F. first（'c1'）。alias（'c1'），F.last（'c2'）。alias（'c2'），F.first（'... >>）>

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 1

如何根据条件将字符串数组转换为结构数组

我有一个单列_c0的pyspark数据框。 a | b | c | clm4 = 1 | clm5 = 3 a | b | c | clm4 = 9 | clm6 = 60 | clm7 = 23我正在尝试将其转换为所选列的数据帧，例如clm1，clm2，clm3， clm4，clm6，...

python pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

查找值在PySpark Dataframe中特定列之间的所有列的列表

我有Spark DF，它由20列组成，我想从中查找哪个列的值介于高和低列值之间。时间，8,7,6,5,4,3,2,1,0，-1，-2，-3，-4，-5，-6，-7，-8，高，低09:16 ，...

python apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 1

Pyspark中的排序列表，使用udf和numpy

我有一个PySpark数据框，其中第二列是列表列表。以下是我拥有的PySpark数据框：+ --- + ------------------------------ + | A | B | + ---...