pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

为什么Spark不会自动检测我的Parquet文件中的新字段？

在Databricks博客下面的摘录中，声称作为Spark 1.3，如果随着时间的推移将新字段添加到镶木地板模式中，它们将被自动检测并处理（我假设......

apache-spark pyspark apache-spark-sql pyspark-sql parquet

回答 1 投票 1

PySpark DataFrame：标记某些列值发生变化的行

我有一个PySpark DataFrame，列有'people'和'timestamp'（加上与问题无关的其他列）。解释是用户当时做了一些事情。我会 ...

python pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

pyspark：从地图类型列中选择包含特殊字符的列

在查询中从数据框中选择一些列，我有一个列类型：map，它有多个属性。我试图从这个专栏中只选择几个属性，但这又回到了我...

python dataframe pyspark pyspark-sql

回答 1 投票 1

Pyspark - 在pyspark中创建等效的业务当前视图

我需要在pyspark中创建一个等效的业务当前视图，我有一个历史文件和一个增量文件（包含id和日期）。我需要创建最终的数据帧，它将具有单个...

pyspark pyspark-sql

回答 1 投票 0

PYSPARK SQL中的数据透视表

我需要在下表中使用pivot。 id，周，分数102,1,96 101,1,138 102,1,37 101,1,59 101,2,282 102,2,212 102,2,78 101,2,97 102,3,60 102,3,123 101,3,220 101,3,87输出1 ...

sql apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

pyspark intersection（）函数用于比较数据帧

下面是我编写的用于比较两个数据帧并对它们施加交集功能的代码。从pyspark导入os导入来自pyspark的SparkContext sc = SparkContext（“local”，“Simple App”）....

python hadoop pyspark pyspark-sql

回答 1 投票 -3

pyspark.sql.utils.ParseException：PYSPARKSQL中的“\ nmismatched input”

我有一个要求使用pivot转换表。我已经在pyspark sql中尝试过，但面临问题。商店周xCount ------- ---- ------ 102 1 96 101 1 ...

sql apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 2

在PySpark数据帧中修剪字符串列

我是Python和Spark的初学者。从CSV文件创建DataFrame后，我想知道如何修剪列。我试过：df = df.withColumn（“Product”，df.Product.strip（））df是我的数据......

apache-spark pyspark apache-spark-sql trim pyspark-sql

回答 4 投票 11

pyspark作业参数中--archives，--files，py-files之间的区别是什么

--archives， - files， - py-files和sc.addFile以及sc.addPyFile都很混乱，有人可以清楚地解释这些吗？

apache-spark pyspark pyspark-sql

回答 1 投票 8

为什么Window函数失败并且“Window function X不采用帧规范”？

我正在尝试在pyspark 1.4.1中使用Spark 1.4窗口函数，但主要是出错或意外结果。这是一个非常简单的例子，我认为应该可以工作：从pyspark.sql.window import ...

apache-spark pyspark apache-spark-sql window-functions pyspark-sql

回答 1 投票 6

如何在不使用for循环的情况下从pyspark中的列表创建数据框？

我有如下列表：rrr = [[（1，（3,1）），（2，（3,2）），（3，（3,2）），（1，（4,1）），（2，（4,2））]] df_input = []然后我定义了如下所示的标题：df_header = ['sid'，'tid'，'srank']使用for循环...

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 -4

将数据帧的每一行转换为字符串

我正在尝试使用pyspark中的hashlib.md5为数据帧生成哈希码。它只接受一个字符串来生成哈希码。我需要将数据帧的每一行转换为字符串。我试过concat_ws ......

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

如何比较pyspark中两个不同数据帧中的两列

我想比较一个dataframe1中的“pitid”和另一个dataframe2的“pitid”，并想要提取dataframe1中缺少的行。 dataframe1：| ID |标记|名称| pitid | + --- + ----- + ---- + -...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

pyspark中的哈希码生成

我正在尝试为我的数据帧中的每一行生成哈希码，并且需要将哈希码附加为数据帧的新列“pitid”。我试过下面的代码，但在这里得到错误h = hashlib.md5（c）...

apache-spark pyspark pyspark-sql

回答 1 投票 -1

pyspark在lambda中使用正则表达式拆分字符串

我正在尝试基于lambda函数内的正则表达式拆分字符串，字符串不会被拆分。我确定正则表达式工作正常。检查正则表达式测试链接https：// ...

python apache-spark lambda pyspark pyspark-sql

回答 1 投票 1

Pyspark - 将mmddyy转换为YYYY-MM-DD

我正在处理一个大文件，其中有一个mmddyy格式的字段，其字符串为数据类型，我需要将其转换为YYYY-MM-DD。我确实试过创建UDF并转换为引用其中一个...

python datetime apache-spark pyspark pyspark-sql

回答 2 投票 2

pyspark中的Rdd乘法？

我有两个数据框，如下：数据帧1：（df1）+ --- + ---------- + | id | features | + --- + ---------- + | 8 | [5,4,5] | | 9 | [4,5,2] | + --- + ---------- +数据框2：（df2）+ --- + ---------- + | id | ...

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 1 投票 -1

获取分组PySpark数据框的第一行（或最后一行）[重复]

数据只是一组id及其登录日期，如下所示：data = pd.DataFrame（{'id'：['a'，'b'，'c'，'b'，'c']，'date '：['2017/12/10'，'2017/12/10'，'2017/12/11'，'...

python apache-spark spark-dataframe pyspark-sql

回答 2 投票 2

时间戳在Spark中原生缩写日期格式

我正在使用sql.functions.unix_timestamp成功转换为spark中的日期（y-m-d，yyyyMMdd等）的数字格式的时间戳。问题是当日期使用缩写名称...

apache-spark pyspark pyspark-sql

回答 1 投票 0

Pyspark - 根据语言过滤行

这个问题与Pyspark有关。我正在读一个列数很少的TSV文件。一个特定的列是注释列。我的任务是根据语言过滤掉行。例如，如果......

python apache-spark pyspark spark-dataframe pyspark-sql

回答 2 投票 -1

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.