pyspark-sql 相关问题

将此标记用于与PySpark中的SQL模块相关的问题。

在PyCharm IDE中添加Spark包

我已经设置了我的PyCharm链接到我的本地spark安装,按照此链接从pyspark导入SparkContext,SQLContext,SparkConf从运营商导入添加conf = SparkConf()conf ....

回答 1 投票 1

pyspark,比较数据帧中的两行

我试图将数据帧中的一行与下一行进行比较以查看时间戳的差异。目前数据看起来像:itemid | eventid |时间戳---------------------------- 134 | ...

回答 2 投票 4

如何根据Pyspark中数据框中的条件设置新的列表值?

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

回答 2 投票 0

如何从Pyspark的DataFrame中获取数字列并计算z得分

sparkSession = SparkSession.builder.appName(“example”)。getOrCreate()df = sparkSession.read.json('hdfs:// localhost / abc / zscore /')我能够从hdfs读取数据,我想要计算......

回答 1 投票 0

而不是使用pyspark获取多个表,我们如何使用jdbc执行连接查询

customer - c_id,c_name,c_address product - p_id,p_name,price supplier - s_id,s_name,s_address orders - o_id,c_id,p_id,quantity,time SELECT o.o_id,c.c_id,c.c_name,p ....

回答 1 投票 2

如果在pyspark数据帧中后续连续5'0,则获得第一个'1'条件

我有一个pyspark数据框,在user_id上每个月的事件列为0和1。我需要选择1的事件,它必须具有完全透明的行为5 0。如果这种情况......

回答 1 投票 0

迭代列表的每个元素并传递给函数

我想迭代列表中的每个元素并将其传递给函数。这是我尝试但低于错误。 import call_functions newObject = call_functions.call_functions_class()size_DF ...

回答 1 投票 0

在pyspark中替换循环到并行进程

我在我的脚本中使用for循环来为size_DF(数据框)的每个元素调用一个函数,但这需要花费很多时间。我尝试通过地图删除for循环,但我没有得到任何输出。 ...

回答 1 投票 0

在PySpark 2上加入DataFrame时出错

我在使用Spark 2.3.1和PySpark时遇到了麻烦。 Firstable我试图做很多不同的操作,如连接和列选择,最后收集它或将其保存到csv文件但是......

回答 1 投票 0

使用字符串表达式列表作为连接条件

我有一个列表,其中包含字符串作为其元素。 list_elem = ['df1.x1 == df2.p1','df1.x2 == df2.p2']我想将该列表更改为这样的内容。 list_new = [df1.x1 == df2.p1,df1.x2 == ...

回答 1 投票 1

如何在Spark提交中使用s3a和Apache spark 2.2(hadoop 2.8)?

我正在尝试使用使用hadoop 2.8版本构建的spark 2.2.0从spark访问S3数据,我使用的是/jars/hadoop-aws-2.8.3.jar,/ jars / aws-java-sdk-s3- 1.10.6.jar和/ jars / aws-java-sdk -...

回答 1 投票 0

如何在pyspark中对数组中的标签进行编码

例如,我有名称中具有分类功能的DataFrame:来自pyspark.sql import SparkSession spark = SparkSession.builder.master(“local”)。appName(“example”)。config(“spark.some.config ....

回答 2 投票 2

SparkSQL在第一次爆炸后第二次爆炸

我在第一次爆炸后使用以下命令进行第二次爆炸:myExplode = sqlContext.sql(“从myTable中选择爆炸(名称)作为name_x”)myExplode = sqlContext.sql(“select explode(...

回答 1 投票 0

PySpark列表中的项目

以下是我正在尝试实现的操作:types = [“200”,“300”] def Count(ID):cnd = F.when((** F.col(“type”)类型**) ,1).otherwise(F.lit(0))返回F.sum(cnd).alias(“CountTypes”)...

回答 1 投票 1

转发新行填写缺失日期的帐户

我目前有一个数据集,按变量“聚合器”分组为每小时增量。这个小时数据中存在差距,我理想的做法是向前填充前一行的行...

回答 1 投票 1

将groupBy聚合为csv文件后保存pyspark数据帧

我正在学习pyspark,我对如何将分组数据帧保存为csv文件感到困惑(假设由于某些原因 - 例如RAM限制 - 我不想先将其转换为Pandas ...

回答 2 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.