pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

我如何以编程方式从Spark sql中的日期中减去几天？ val date =“ 2019-10-01” val tmp = spark.sql（“”“从my_table中选择id，count（distinct purchase_id）作为count_purchases，其中...

apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 -1

是否存在针对“ org.apache.spark.SparkException的解决方法：Kryo序列化失败：缓冲区溢出。可用：0，是否需要：n”错误？

我正在通过spark-submit运行pyspark作业，在该作业中，在应用某些附加逻辑之前，先将两个大型拼花板表连接在一起。提交后，所有任务都会失败，并且...

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

Spark Dataframe中列的最大两个下一个值的平均值

[下面是样本数据帧：id和时间值3 n1 7 50 10 n1 3 40 11 n1 5 30 1 n1 2 20 2 n1 6 20 9 n1 4 10 4 n1 1 ...

sql apache-spark pyspark pyspark-sql pyspark-dataframes

回答 2 投票 -1

Pyspark连接数据框中列的逗号分隔值

所以我有两个要加入的数据框。渔获物是第二个表中存储有逗号分隔的值，其中一个与表A中的列匹配。我如何在Pyspark中使用它。下面...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

如何计算上一次满足条件之间的天数？

当前df：df = spark.createDataFrame（（（“ 2020-01-12”，“ d1”，0），（“ 2020-01-12”，“ d2”，0），（“ 2020-01- 13“，” d3“，0），（” 2020-01-14“，” d4“，1），（” 2020-01-15“，” d5“，0），（” 2020-01-15“ ，“ d6”，...

apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

Spark成功在循环运行中提交缓慢

我有一个程序，其中通过这样的python脚本进行多个火花提交，＃test_python_script.py为range（3）中的i导入os：os.system（'spark-submit test_spark_script.py'...

python-3.x dataframe apache-spark pyspark pyspark-sql

回答 1 投票 0

Pyspark sql用于oracle子查询

如何将以下基于oracle的sql查询写入等效的pyspark sql，因为不支持此操作，因为它是由于在spark.sql（* query）下嵌套造成的。有没有办法使用pyspark ... [

pyspark pyspark-sql pyspark-dataframes

回答 2 投票 0

如何在Pyspark中逐元素连接两个ArrayType（StringType（））列？

我在spark数据帧中有两个ArrayType（StringType（））列，我想按元素方式将这两列连接起来：输入：+ --------- + -------- -+ | col1 | col2 | + --------- + --------- + | ['...

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 3 投票 0

如何在PySpark中计算多个列和滚动窗口中的不同元素

假设我们有以下数据框：端口|标志|时间戳--------------------------------------- 20 | S | 2009-04-24T17：13：14 + 00：00 30 | R | 2009-04-24T17：14：14 + 00：00 32 | ...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 1

是否有可能在PySpark中使用爆炸功能之前将字符串类型的列更改为数组类型的列？

我想知道是否可以将String类型的“ data”列更改为数组类型，但数字之间用逗号分隔。＃+ ---------- + --------------------- + ------------ +＃|日期| ...

pyspark-sql

回答 1 投票 0

按列稀疏到pyspark中的密集数组

我有两个数据框，我需要从中获取信息以生成第三个数据框。第一个数据帧包含有关用户按项目进行迭代的信息，例如+ ----- + --------------- + ----------- + | user | ...

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 3 投票 1

Pyspark datafame.limit（）和drop_duplicates（）提供错误的输出

apache-spark pyspark apache-spark-sql pyspark-sql databricks

回答 1 投票 -1

VectorAssembler的格式错误，将不必要的值赋予特征

我已经多次使用VectorAssembler，效果很好。但是今天，我将不需要的数据添加到功能中，如下图所示。输入是来自pySpark数据帧的4个没有NaN的特征。 ...

pyspark pyspark-sql feature-extraction apache-spark-ml

回答 1 投票 0

在另一个Spark SQL查询中使用PySpark数据框列

我有一种情况，我试图查询表并将该查询的结果（数据框）用作另一个查询的IN子句。从第一个查询中，我得到以下数据框：+ ----------------- + ...

pyspark pyspark-sql

回答 2 投票 0

将两个不同类型的pyspark数据框列相乘（数组[double] vs double），而不用轻拂

我的问题与此处的问题相同，但是我需要在pyspark中解决问题并且没有微风。例如，如果我的pyspark数据框如下所示：重量vec“ u1” | 0.1 | [2，4，6] ...

python pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

生成2个Pyspark数据帧之间的不匹配列的报告

团队，我们需要根据完全相同结构的2个Pyspark数据帧之间的关键字段生成不匹配列的报告。这是第一个数据帧->>> df.show（）+ ----...

apache-spark pyspark pyspark-sql

回答 1 投票 -1

py4JJava错误-使用选择语句时发生错误

我正在Zeppelin笔记本中使用pspark，并尝试使用SELECT语句获取数据。我只是想查询一个表，但以下命令却出现奇怪的错误：％pyspark spark.sql（'...

python-3.x apache-spark pyspark pyspark-sql apache-zeppelin

回答 1 投票 6

如何计算Pyspark数据框中的元素

我有一个pyspark数据框。这是电影数据集。一栏是被“ |”分割的流派。每部电影都有多种流派。体裁= spark.sql（“从电影中选择不同的体裁ORDER BY体裁ASC”）...

pyspark pyspark-sql pyspark-dataframes

回答 3 投票 0

pyspark中的反向分组功能？

样本数据：+ ----------- + ------------ + --------- + |城市|大陆|价格| + ----------- + ------------ + --------- + | A |亚洲| 100 | | B |亚洲| 110 | | ...

apache-spark pyspark-sql

回答 1 投票 0

[monotonically_increasing_id大于数据框中的总记录数

我下面有pyspark代码。我正在尝试创建一个不断增加的新match_id。旧的match_id是随机的唯一值。 match_id表示......>

apache-spark pyspark pyspark-sql

回答 1 投票 0

pyspark-sql 相关问题

最新问题