pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

PySpark:将输入文件写入单独的输出文件而不进行重新分区

我有一系列非常大的每日gzip压缩文件。我正在尝试使用PySpark以Parquet格式重新保存S3中的所有文件供以后使用。如果对于单个文件(例如,2012-06-01)我做:...

回答 1 投票 0

pyspark,比较数据帧中的两行

我试图将数据帧中的一行与下一行进行比较以查看时间戳的差异。目前数据看起来像:itemid | eventid |时间戳---------------------------- 134 | ...

回答 2 投票 4

pyspark csv at url to dataframe,无需写入磁盘

如何在Pyspark中将URL中的csv读入数据帧而不将其写入磁盘?我试过以下没有运气:从io import StringIO url =“https:// raw .... import urllib.request

回答 1 投票 3

如何在从json创建数据帧时不推断模式?

我不想在从一组jsons创建数据帧时推断模式,但是当我从csv读取时,我无法传递inferSchema ='false'。以下是我读取数据的方法:df = spark.read.json(r's3:// ...

回答 2 投票 1

如何修复火花可怕的误解csv?

我有两个csv文件,一个包含电影的关键字,另一个包含演员和工作人员。 keywords.csv文件如下所示:$ head -n 3 keywords.csv id,keywords 862,“[{'id':931,'name':'...

回答 1 投票 2

如何根据Pyspark中数据框中的条件设置新的列表值?

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

回答 2 投票 0

如何从Pyspark的DataFrame中获取数字列并计算z得分

sparkSession = SparkSession.builder.appName(“example”)。getOrCreate()df = sparkSession.read.json('hdfs:// localhost / abc / zscore /')我能够从hdfs读取数据,我想要计算......

回答 1 投票 0

比较两个数据帧pyspark中的列名称

我在pyspark df和data中有两个数据帧。模式如下>>> df.printSchema()root | - id:integer(nullable = false)| - name:string(nullable = true)| - address:...

回答 2 投票 0

PySpark安装错误

我已经按照各种博客帖子的说明,包括这个,这个,这个和这个在我的笔记本电脑上安装pyspark。然而,当我尝试从终端或jupyter笔记本使用pyspark时,我保持...

回答 1 投票 1

从PySpark DataFrame中删除NULL,NAN,空格

我在PySpark中有一个包含空格,Null和Nan的数据帧。我想删除任何有这些行的行。我尝试了以下命令,但似乎没有任何工作。 myDF.na.drop()。show()myDF ....

回答 1 投票 1

在Pyspark填写na随机数字

我正在使用Pyspark DataFrame。我想更新Age列中的NA值,其值为14到46之间的随机值。我该怎么办?

回答 2 投票 0

PySpark worker在安装时无法导入包

我最近在gcloud DataProc上建立了一个集群(1个主服务器和2个从服务器)。我设法有一个带有PySpark内核的jupyter笔记本界面。只要我的工人不这样做,一切都有效......

回答 1 投票 1

在Python数据帧连接中动态填充列名

我正在开发一个动态脚本,可以加入任何给定的pyspark数据帧。问题是文件中的列名称会有所不同,连接条件的数量可能会有所不同。我可以循环处理这个......

回答 1 投票 0

在pyspark中编写自定义NER和POS标记器,以在管道方法中用于文本输入的特征提取

我正在做一个文本分类项目,我正在使用mllib中的管道方法来链接特征提取阶段。我的数据集由英语句子组成。我有Tokenizer和......

回答 1 投票 -2

如何在pyspark中设置spark.sql.files conf

我正试图在火花群上运行Hail(https://hail.is/)。当我尝试创建一个HailContext时,我收到一个错误声称我必须设置两个配置参数:spark.sql.files.openCostInBytes和...

回答 1 投票 0

Pyspark2写入CSV问题?

我通过以下命令运行py文件:/opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars / home / jsonnt200 / geomesa- HBase的火花 - runtime_2.11-1.3.5.1cc.jar,/ ...

回答 1 投票 0

pyspark数据帧比较,根据关键字段查找列差异

我必须比较两个数据帧,以最有效的方法使用pyspark找出基于一个或多个关键字段的列差异,因为我必须处理庞大的数据帧我...

回答 1 投票 0

而不是使用pyspark获取多个表,我们如何使用jdbc执行连接查询

customer - c_id,c_name,c_address product - p_id,p_name,price supplier - s_id,s_name,s_address orders - o_id,c_id,p_id,quantity,time SELECT o.o_id,c.c_id,c.c_name,p ....

回答 1 投票 2

如果自定义PySpark变换器是适合的ML管道中的一个阶段,如何设置它们的参数?

我已按照此处显示的模式为自己的Python算法编写了自定义ML Pipeline Estimator和Transformer。但是,在该示例中,_transform()所需的所有参数都是......

回答 1 投票 0

pyspark内存消耗非常低

我正在使用anaconda python并在其上安装了pyspark。在pyspark程序中,我使用数据帧作为数据结构。该程序如下:从pyspark.sql导入SparkSession ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.