pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。


每小时每小时的广告点击次数

我是火花和学习的新手。我碰到一堵墙,我想找出每小时的点击数。给定该表:adclicks_schema到目前为止,我已将时间戳转换为:...

回答 1 投票 0

Pyspark-计算groupby的实际值和预测值之间的RMSE-AssertionError:所有exprs应该为Column

[我有一个函数,用于为整个数据帧的前馈和实际计算RMSE:defcalculate_rmse(df,actual_column,prediction_column):RMSE = F.udf(lambda x,y:(((x-y)** 2) )df ...

回答 2 投票 0

Pyspark替换DF列中的字符并转换为浮点数

在Pyspark上对此有任何想法吗?我的薪水列中的工资如下。我试图删除$ df = df.withColumn('clean_salary',regexp_replace(col(“ Salary”),'$',)))df.show()...

回答 2 投票 0



错误:将pyspark数据帧写入Habse时出错

我正在尝试将pyspark数据帧写入Hbase。面对错误。我的集群上的Spark和Hbase版本是:Spark版本:2.4.0 Hbase版本:1.4.8 Spark提交spark-submit --jars / ...

回答 1 投票 0


我的Spark表未返回任何结果

我在Python中为Spark创建了一个数据框,但我不知道为什么它不返回任何结果。作业运行没有错误,但是没有输出,我已经对目录进行了三重检查,并且...

回答 1 投票 0

使用Pyspark的火花等

我如何接受输入服务的uuid,然后在Pyspark中的DataFrame的服务uuid 列中检查匹配的值?例如,如果我将输入id设为1be7c239-eef0-4f77-ad4c-bde82fe23b55,则我...

回答 1 投票 0

将带有压缩列表的新列作为pyspark中的常量值

我有payspark数据框,我想添加一个具有固定值x的新列,该列为压缩列表:x = [('1','hello'),('2','Hi'),('3' ,'Hello')]但是,当我运行以下代码时:df = df.withColumn('...

回答 1 投票 0

如何正确使用带有COUNT列的SQL HAVING子句?

我有下表。 | business_id |酷|日期|搞笑| review_id |星级|文字|有用| user_id | + -------------------- + ---- + ---------------...

回答 1 投票 0

如何一起使用“ select”和“ withColumn”-Pyspark

我有两个数据框df1和df2,我必须将这两个数据框连接起来并创建一个新的连接,使用df1.col1 = df2.col1进行连接,内部连接我的查询是我可以使用“ select”和“”。 ..

回答 1 投票 0

PySpark-基于条件的过滤选择。groupby

我正在尝试使用.groupBy函数根据国家/地区(美国=美国)的位置来查找AVG分数。这是我当前的代码:该代码仅适用于我显示的每个国籍...]]

回答 1 投票 0

Py spark在管道分隔的列上连接

我有两个要加入的数据框。渔获是表之一具有管道分隔的字符串,其中一个值是我要加入的值。我如何在Pyspark中。下面是...

回答 1 投票 0

将csv加载为蜂巢的orc格式的sql优化技术

嗨,我有90 GB数据,我正在CSV文件中将此数据加载到一个临时表中,然后使用select insert命令将其从临时表加载到orc表中,但是将其转换并加载为orc格式...]]

回答 1 投票 0

使用PySpark根据行值的模式对记录进行分组

我有一个包含三列的表:表A:+ ---- + ---- + ---------- + | col1 | col2 | row_number | + ---- + ---- + ---------- + | X | 1 | 1 | | Y | ...

回答 1 投票 0

如何在pyspark中连接文本列之前对值进行排序

我需要帮助来转换以下Pyspark代码或Pyspark sql代码中的代码。 df [“ full_name”] = df.apply(lambda x:“ _”。join(sorted((x [“ first”],x [“ last”])))),axis = 1)它基本上添加了一个新列...

回答 1 投票 0

[使用SQL而不使用createOrReplaceTempView的Spark数据帧选择

我想在Spark数据框df上执行类似SQL的语法。假设我需要计算cal_col = 113.4 * col1 + 41.4 * col2...。目前,我要做的是:1 /以临时视图广播:df ....

回答 1 投票 0

如何在pyspark中创建年,月和日的日期

我有关于年,月和日的三列。如何使用这些在pyspark中创建日期?

回答 3 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.