pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

在一个火花数据帧中一次执行多个聚合，而不是多个慢速连接

目前，我有9个功能可对数据框进行特定的计算-包括每月的平均余额，滚动损益，期初余额，比率计算。每个...

apache-spark pyspark apache-spark-sql pyspark-sql pyspark-dataframes

回答 1 投票 0

在一个火花数据帧中一次执行多个聚合功能，而不是多个慢速联接

目前，我有9个功能可对数据框进行特定的计算-包括每月的平均余额，滚动损益，期初余额，比率计算。每个...

apache-spark pyspark apache-spark-sql pyspark-sql pyspark-dataframes

回答 1 投票 1

从CSV读取输入并将其用于不同功能

我有一个csv文件，其中包含来自用户的输入。第一列是STATISTIC，这是我的Python代码中的函数，其后各列是每个...

python python-3.x pandas pyspark pyspark-sql

回答 1 投票 0

为Pyspark中的1和N之间的行分配随机数

我正在尝试找出最好的方法，将1到N之间的数字随机分配给一行，以使每一行都是不同的。（N是数据集中的行数）。行数可以是10M ...

pyspark pyspark-sql

回答 1 投票 0

Pyspark：获取列的最常用值？

我需要能够使用Pyspark获得列的最通用值。在“日期”列的此示例中，我想要得到的结果是星期一，因为它的出现时间比星期二和星期三还多。 ...

python pyspark rdd pyspark-sql putty

回答 1 投票 0

Pyspark：获取两列之间不同组合的数量

我需要能够在两个单独的列中获得不同组合的数量。在此示例中，“动物”和“颜色”列中，由于三个不同的...

python sql pyspark rdd pyspark-sql

回答 2 投票 0

如何配置Spark驱动程序以将给定的内存参数用于内存（RAM）和磁盘？

[仅在内存（RAM）中使用spark时，由于内存较少而发生Java堆错误。我想同时使用RAM和磁盘。

apache-spark pyspark pyspark-sql

回答 1 投票 0

ImportError：无法从'pyspark.sql'导入名称'HiveContext'

我正在PC（Windows 10）中运行pyspark，但无法导入HiveContext：从pyspark.sql导入HiveContext ------------------------ -------------------------------------------------- -...

python-3.x pyspark pyspark-sql hivecontext

回答 1 投票 0

在pyspark UDF中使用类方法

您好，数据工程师！我正在尝试使用名为Astral的类中的方法编写pyspark udf。这是udf：def time_from_solar_noon（d，y）：中午= astral.Astral（）。solar_noon_utc ...

python pyspark user-defined-functions pyspark-sql pyspark-dataframes

回答 1 投票 0

spark 2.4 Parquet列无法在文件中转换，列：[印象数]，应为：bigint，找到的为：BINARY

我面临着一个我无法理解的怪异问题。我有带有“印象”列的源数据，该列有时是bigint /有时是字符串（当我手动浏览数据时）。 HIVE模式...

apache-spark pyspark pyspark-sql

回答 1 投票 -1

pyspark-在Spark会话中获取一致的随机值

我想将一列随机值添加到数据帧（每行都有一个ID）以进行我正在测试的内容。我正在努力在Spark会话中获得可重复的结果-相同的随机值...

python-3.x apache-spark random pyspark pyspark-sql

回答 1 投票 -1

pyspark-获得在Spark会话中可再现的随机值

python-3.x apache-spark random pyspark pyspark-sql

回答 1 投票 -2

在Spark DataBrick上创建表架构

我想创建表结构，就像在云上Spark DataBricks平台上的其他sql引擎中一样。我有几个与此相关的问题，如何创建具有默认值的列？ ...

apache-spark apache-spark-sql pyspark-sql databricks

回答 1 投票 -1

Pyspark无法获取自定义架构

我正在测试此代码。从pyspark.sql.functions导入从pyspark.sql导入input_file_name从pyspark.sql.types导入SQLContext import * sqlContext = SQLContext（sc）customSchema = StructType（[\ ...

python dataframe pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

如何使用group by子句在pyspark中对列进行排名

我有一个看起来像这样的数据帧：ABC --------------- A1 B1 C1 A1 B1 C2 A1 B1 C3 A2 B1 C1 A2 B1 C2 A2 B1 C3 A3 B2 C1 A3 B2 C2 A3 B2 C3 ...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

为什么spark显示文件数量和分区数量不同？

当我查询表并检查可用于该df的分区数为14时。数据大小超过10 GB。但是，当我看到表格位置时，有400个可用的零件文件...

apache-spark pyspark pyspark-sql

回答 1 投票 0

PySpark中的数据帧求和

我的数据框看起来像-id产品数量1 a 100 2 b 300 3 c 400 4 d 100我的最终...

pyspark pyspark-sql pyspark-dataframes

回答 2 投票 0

用spark数据框中的所有行的自动递增的唯一值替换null，并且所有重复的行都应具有相同的unique_id值

我是pyspark的新手，在以下情况下需要帮助。对于数据帧：i）我想为unique_id列生成唯一值，其范围应从3000000开始。ii）unique_id值应......>

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

Pyspark小时分割功能

代码根的屏幕快照|-地址：字符串（nullable = true）|-属性：map（nullable = true）| |-键：字符串| |-值：字符串（valueContainsNull = true）|-...

split pyspark pyspark-sql databricks pyspark-dataframes

回答 2 投票 0

在指定存储级别时，在pyspark2中保留数据帧不起作用。我在做什么错？

我试图在执行联接以解决“ java.util.concurrent.TimeoutException：期货超时...”问题之前坚持两个非常大的数据帧（请参阅：为什么联接失败并带有“ ...”>

apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.