pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

用下一个递增数字填充空值| PySpark | Python

我在下面的数据框中有值。我想在列ID中添加下一个概念性ID，该ID在本质上必须是唯一的以及递增的。 + ---------------- + ---- + -------------------- + | ...

python postgresql pyspark pyspark-sql

回答 1 投票 1

pyspark中的结构的扁平化数组

我有一个使用spark-xml包转换为dataframe的XML文件。数据帧具有以下结构：root |-结果：struct（nullable = true）| |-结果：struct（nullable = true）| ...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

在Pyspark中使用contains和udf的问题：AttributeError：'NoneType'对象没有属性'lower'

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

如何在Azure Databricks PySpark中执行存储过程？

我能够在Azure Databricks中使用PySpark执行简单的SQL语句，但我想改为执行存储过程。以下是我尝试过的PySpark代码。 #initialize pyspark import findspark ...

python pyspark-sql azure-databricks pyspark-dataframes

回答 1 投票 1

根据条件创建列并保留先前的值

我具有以下按“ col1”排序的数据框。 + ---- + ---- + | col1 | col2 | + ---- + ---- + | a | x | | a | x | | a | y | | b | x | | b | z | | c | x | | c | y | | d | z | | d | ...

apache-spark pyspark apache-spark-sql pyspark-sql pyspark-dataframes

回答 1 投票 0

引发异常（“ Java网关进程在发送其端口号之前已退出”）

[运行PySpark代码时，出现以下错误：throw Exception（“ Java网关进程在发送其端口号之前已退出”] Exception：Java网关进程在发送其端口之前已退出...

python python-3.x apache-spark pyspark pyspark-sql

回答 1 投票 -1

计算熊猫数据帧的余弦距离

我有一个形状为（70000 x 10）的熊猫数据框（例如df）。数据帧的头部如下所示：0_x 1_x 2_x ... 7_x 8_x 9_x用户ID ...

python pandas dataframe pyspark pyspark-sql

回答 1 投票 2

pyspark以拆分数组并获取键值

我有一个包含键值对字符串数组的数据框，我只想从键值中获取键，每行的键值对数是动态的，并且命名约定是不同的。示例...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

Spark聚合，其中输出列为函数，行为列

我想在数据帧的不同列上计算一堆不同的agg函数。我知道我可以做这样的事情，但是输出都是一行。 df.agg（max（“ cola”），min（“ cola”），max（“ ...

python apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 1

pyspark-在将WHEN与LIKE操作或CONTAINS一起使用时获取空值

我正在使用胶水etl（pyspark）在“ status_purpose”列中写入条件以验证值“ ITEM”。如果找到该值，则将“ check_status_ind”列设置为“ Y”，否则设置为“ N”。 ...

python-3.x pyspark pyspark-sql aws-glue

回答 1 投票 0

PySpark过滤器：AttributeError：'numpy.float32'对象没有属性'_get_object_id'

pyspark-sql pyspark-dataframes

回答 1 投票 0

PySpark TypeErrors

编写简单的CSV到Parquet转换。 CSV文件中有几个时间戳。因此，在尝试编写时出现类型错误。要解决此问题，我尝试将这一行实现为...

pyspark pyspark-sql

回答 1 投票 0

Pyspark将文件另存为实木复合地板并读取

我的PySpark脚本将创建的DataFrame保存到目录：df.write.save（full_path，format = file_format，mode = options ['mode']）以防我在同一运行中读取此文件，一切都很好：return。 ..

json dataframe pyspark parquet pyspark-sql

回答 1 投票 1

具有流数据帧的内部联接

apache-spark pyspark apache-spark-sql pyspark-sql spark-structured-streaming

回答 1 投票 0

Pyspark：从另一个结构数组创建一个结构数组

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

为什么pyspark.sql下层函数不接受文字col名称和长度函数呢？

为什么在下一个示例中，下层函数不接受col名称作为文字和长度呢？导入pyspark.sql.functions为func df = spark.createDataFrame（[['Tom'，80）]，[“ name”，“ height”]）...

pyspark-sql pyspark-dataframes

回答 1 投票 0

验证一个与另一个数据框中匹配的pyspark数据框中的行数据

我有2个Pyspark数据框df1，df2。 df1和df2都包含数百万条记录。 df1就像：+ ------------------- + -------- + -------- + |名称|州|密码| + ------------------- + --...

apache-spark pyspark apache-spark-sql pyspark-sql pyspark-dataframes

回答 1 投票 0

PySpark DataFrame何时使用/不使用Select

基于PySpark文档：DataFrame等效于Spark SQL中的关系表，可以在SQLContext中使用各种功能来创建。含义我可以使用Select来显示...的值]]

select pyspark-sql pyspark-dataframes

回答 1 投票 0

没有GroupBy的Pyspark SQL Pandas分组地图？

我有一个数据集，我想在多个ETL流程的不同阶段使用多个Pyspark SQL分组地图UDF进行映射，该大型ETL流程在AWS EMR中的临时集群上运行。分组地图API ...

python pandas apache-spark pyspark pyspark-sql

回答 1 投票 4

Pyspark查询加入数据框查询需要太多时间

我有两个数据集，一个数据集的大小为11 GB，另一个为2 GB。以下是两个数据集：数据集1：其中的IP范围值与域相同。数据集2：仅具有IP地址需要...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

pyspark-sql 相关问题

最新问题