pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

如何检测pyspark数据框列中的模式何时发生变化

python dataframe pyspark pyspark-sql

回答 1 投票 1

每小时每小时的广告点击次数

我是火花和学习的新手。我碰到一堵墙，我想找出每小时的点击数。给定该表：adclicks_schema到目前为止，我已将时间戳转换为：...

apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

Pyspark-计算groupby的实际值和预测值之间的RMSE-AssertionError：所有exprs应该为Column

[我有一个函数，用于为整个数据帧的前馈和实际计算RMSE：defcalculate_rmse（df，actual_column，prediction_column）：RMSE = F.udf（lambda x，y：（（（x-y）** 2））df ...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 0

Pyspark替换DF列中的字符并转换为浮点数

在Pyspark上对此有任何想法吗？我的薪水列中的工资如下。我试图删除$ df = df.withColumn（'clean_salary'，regexp_replace（col（“ Salary”），'$'，）））df.show（）...

apache-spark pyspark pyspark-sql

回答 2 投票 0

Pyspark-过滤器-错误-列名不存在属性-数据帧中存在列[关闭]

python dataframe pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

Spark Sql Connection

oracle pyspark pyspark-sql ojdbc

回答 1 投票 0

错误：将pyspark数据帧写入Habse时出错

我正在尝试将pyspark数据帧写入Hbase。面对错误。我的集群上的Spark和Hbase版本是：Spark版本：2.4.0 Hbase版本：1.4.8 Spark提交spark-submit --jars / ...

apache-spark pyspark hbase pyspark-sql

回答 1 投票 0

通过PySpark在Kafka-Spark结构化流集成时遇到NoClassDefFoundError错误

apache-spark pyspark apache-kafka pyspark-sql spark-structured-streaming

回答 1 投票 0

我的Spark表未返回任何结果

我在Python中为Spark创建了一个数据框，但我不知道为什么它不返回任何结果。作业运行没有错误，但是没有输出，我已经对目录进行了三重检查，并且...

apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

使用Pyspark的火花等

我如何接受输入服务的uuid，然后在Pyspark中的DataFrame的服务uuid 列中检查匹配的值？例如，如果我将输入id设为1be7c239-eef0-4f77-ad4c-bde82fe23b55，则我...

python apache-spark pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

将带有压缩列表的新列作为pyspark中的常量值

我有payspark数据框，我想添加一个具有固定值x的新列，该列为压缩列表：x = [（'1'，'hello'），（'2'，'Hi'），（'3' ，'Hello'）]但是，当我运行以下代码时：df = df.withColumn（'...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

如何正确使用带有COUNT列的SQL HAVING子句？

我有下表。 | business_id |酷|日期|搞笑| review_id |星级|文字|有用| user_id | + -------------------- + ---- + ---------------...

sql pyspark pyspark-sql

回答 1 投票 0

如何一起使用“ select”和“ withColumn”-Pyspark

我有两个数据框df1和df2，我必须将这两个数据框连接起来并创建一个新的连接，使用df1.col1 = df2.col1进行连接，内部连接我的查询是我可以使用“ select”和“”。 ..

apache-spark select pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

PySpark-基于条件的过滤选择。groupby

我正在尝试使用.groupBy函数根据国家/地区（美国=美国）的位置来查找AVG分数。这是我当前的代码：该代码仅适用于我显示的每个国籍...]]

python pyspark pyspark-sql

回答 1 投票 0

Py spark在管道分隔的列上连接

我有两个要加入的数据框。渔获是表之一具有管道分隔的字符串，其中一个值是我要加入的值。我如何在Pyspark中。下面是...

pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

将csv加载为蜂巢的orc格式的sql优化技术

嗨，我有90 GB数据，我正在CSV文件中将此数据加载到一个临时表中，然后使用select insert命令将其从临时表加载到orc表中，但是将其转换并加载为orc格式...]]

scala apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

使用PySpark根据行值的模式对记录进行分组

我有一个包含三列的表：表A：+ ---- + ---- + ---------- + | col1 | col2 | row_number | + ---- + ---- + ---------- + | X | 1 | 1 | | Y | ...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 1 投票 0

如何在pyspark中连接文本列之前对值进行排序

我需要帮助来转换以下Pyspark代码或Pyspark sql代码中的代码。 df [“ full_name”] = df.apply（lambda x：“ _”。join（sorted（（x [“ first”]，x [“ last”]）））），axis = 1）它基本上添加了一个新列...

pandas pyspark pyspark-sql pyspark-dataframes

回答 1 投票 0

[使用SQL而不使用createOrReplaceTempView的Spark数据帧选择

我想在Spark数据框df上执行类似SQL的语法。假设我需要计算cal_col = 113.4 * col1 + 41.4 * col2...。目前，我要做的是：1 /以临时视图广播：df ....

apache-spark pyspark apache-spark-sql pyspark-sql pyspark-dataframes

回答 1 投票 0

如何在pyspark中创建年，月和日的日期

我有关于年，月和日的三列。如何使用这些在pyspark中创建日期？

python pyspark pyspark-sql pyspark-dataframes

回答 3 投票 0

pyspark-sql 相关问题

最新问题