pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

如何根据Pyspark中数据框中的条件设置新的列表值?

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

回答 2 投票 0

如何从Pyspark的DataFrame中获取数字列并计算z得分

sparkSession = SparkSession.builder.appName(“example”)。getOrCreate()df = sparkSession.read.json('hdfs:// localhost / abc / zscore /')我能够从hdfs读取数据,我想要计算......

回答 1 投票 0

比较两个数据帧pyspark中的列名称

我在pyspark df和data中有两个数据帧。模式如下>>> df.printSchema()root | - id:integer(nullable = false)| - name:string(nullable = true)| - address:...

回答 2 投票 0

PySpark安装错误

我已经按照各种博客帖子的说明,包括这个,这个,这个和这个在我的笔记本电脑上安装pyspark。然而,当我尝试从终端或jupyter笔记本使用pyspark时,我保持...

回答 1 投票 1

从PySpark DataFrame中删除NULL,NAN,空格

我在PySpark中有一个包含空格,Null和Nan的数据帧。我想删除任何有这些行的行。我尝试了以下命令,但似乎没有任何工作。 myDF.na.drop()。show()myDF ....

回答 1 投票 1

在Pyspark填写na随机数字

我正在使用Pyspark DataFrame。我想更新Age列中的NA值,其值为14到46之间的随机值。我该怎么办?

回答 2 投票 0

PySpark worker在安装时无法导入包

我最近在gcloud DataProc上建立了一个集群(1个主服务器和2个从服务器)。我设法有一个带有PySpark内核的jupyter笔记本界面。只要我的工人不这样做,一切都有效......

回答 1 投票 1

在Python数据帧连接中动态填充列名

我正在开发一个动态脚本,可以加入任何给定的pyspark数据帧。问题是文件中的列名称会有所不同,连接条件的数量可能会有所不同。我可以循环处理这个......

回答 1 投票 0

在pyspark中编写自定义NER和POS标记器,以在管道方法中用于文本输入的特征提取

我正在做一个文本分类项目,我正在使用mllib中的管道方法来链接特征提取阶段。我的数据集由英语句子组成。我有Tokenizer和......

回答 1 投票 -2

如何在pyspark中设置spark.sql.files conf

我正试图在火花群上运行Hail(https://hail.is/)。当我尝试创建一个HailContext时,我收到一个错误声称我必须设置两个配置参数:spark.sql.files.openCostInBytes和...

回答 1 投票 0

Pyspark2写入CSV问题?

我通过以下命令运行py文件:/opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars / home / jsonnt200 / geomesa- HBase的火花 - runtime_2.11-1.3.5.1cc.jar,/ ...

回答 1 投票 0

pyspark数据帧比较,根据关键字段查找列差异

我必须比较两个数据帧,以最有效的方法使用pyspark找出基于一个或多个关键字段的列差异,因为我必须处理庞大的数据帧我...

回答 1 投票 0

而不是使用pyspark获取多个表,我们如何使用jdbc执行连接查询

customer - c_id,c_name,c_address product - p_id,p_name,price supplier - s_id,s_name,s_address orders - o_id,c_id,p_id,quantity,time SELECT o.o_id,c.c_id,c.c_name,p ....

回答 1 投票 2

如果自定义PySpark变换器是适合的ML管道中的一个阶段,如何设置它们的参数?

我已按照此处显示的模式为自己的Python算法编写了自定义ML Pipeline Estimator和Transformer。但是,在该示例中,_transform()所需的所有参数都是......

回答 1 投票 0

pyspark内存消耗非常低

我正在使用anaconda python并在其上安装了pyspark。在pyspark程序中,我使用数据帧作为数据结构。该程序如下:从pyspark.sql导入SparkSession ...

回答 1 投票 0

如果在pyspark数据帧中后续连续5'0,则获得第一个'1'条件

我有一个pyspark数据框,在user_id上每个月的事件列为0和1。我需要选择1的事件,它必须具有完全透明的行为5 0。如果这种情况......

回答 1 投票 0

pyspark SparkContext问题“正在构建另一个SparkContext”

我在本教程之后在我的EC2实例上安装了Spark:https://sparkour.urizone.net/recipes/installing-ec2/#03但是当我尝试启动pyspark shell时,我收到此错误:“另一个SparkContext是...

回答 2 投票 0

在pyspark中使用partitionBy()和persist()

我想优化我的脚本进行静默分区并在spark 2.1中使用persist()但运行我的代码我有一个我不明白的错误。代码是:rdd = sc.textFile(“path”)。map(...

回答 1 投票 1

registerTempTable()不会注册所有记录

我试图创建一个函数,它将从关系数据库中获取数据并将它们插入到Hive表中。由于我使用Spark 1.6,我需要注册一个临时表,因为写数据帧...

回答 1 投票 0

无法设置Pyspark

我使用conda环境安装了Pyspark和Findspark,并将它们的路径添加到环境变量中。我执行以下代码:import findspark import pyspark findspark.find()我得到了......

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.