pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

PySpark：将输入文件写入单独的输出文件而不进行重新分区

我有一系列非常大的每日gzip压缩文件。我正在尝试使用PySpark以Parquet格式重新保存S3中的所有文件供以后使用。如果对于单个文件（例如，2012-06-01）我做：...

apache-spark pyspark parquet

回答 1 投票 0

pyspark，比较数据帧中的两行

我试图将数据帧中的一行与下一行进行比较以查看时间戳的差异。目前数据看起来像：itemid | eventid |时间戳---------------------------- 134 | ...

python apache-spark pyspark apache-spark-sql pyspark-sql

回答 2 投票 4

pyspark csv at url to dataframe，无需写入磁盘

如何在Pyspark中将URL中的csv读入数据帧而不将其写入磁盘？我试过以下没有运气：从io import StringIO url =“https：// raw .... import urllib.request

csv apache-spark pyspark

回答 1 投票 3

如何在从json创建数据帧时不推断模式？

我不想在从一组jsons创建数据帧时推断模式，但是当我从csv读取时，我无法传递inferSchema ='false'。以下是我读取数据的方法：df = spark.read.json（r's3：// ...

python json apache-spark pyspark

回答 2 投票 1

如何修复火花可怕的误解csv？

我有两个csv文件，一个包含电影的关键字，另一个包含演员和工作人员。 keywords.csv文件如下所示：$ head -n 3 keywords.csv id，keywords 862，“[{'id'：931，'name'：'...

scala csv apache-spark pyspark

回答 1 投票 2

如何根据Pyspark中数据框中的条件设置新的列表值？

我有一个像下面这样的DataFrame。 + --- + ------------------------------------------ + | id |特征| + --- + ------------------------------------------ + | 1 | [6.629056,0 ....

apache-spark pyspark apache-spark-sql spark-dataframe pyspark-sql

回答 2 投票 0

如何从Pyspark的DataFrame中获取数字列并计算z得分

sparkSession = SparkSession.builder.appName（“example”）。getOrCreate（）df = sparkSession.read.json（'hdfs：// localhost / abc / zscore /'）我能够从hdfs读取数据，我想要计算......

pyspark hdfs pyspark-sql

回答 1 投票 0

比较两个数据帧pyspark中的列名称

我在pyspark df和data中有两个数据帧。模式如下>>> df.printSchema（）root | - id：integer（nullable = false）| - name：string（nullable = true）| - address：...

python pyspark spark-dataframe

回答 2 投票 0

PySpark安装错误

我已经按照各种博客帖子的说明，包括这个，这个，这个和这个在我的笔记本电脑上安装pyspark。然而，当我尝试从终端或jupyter笔记本使用pyspark时，我保持...

python hadoop apache-spark pyspark jupyter-notebook

回答 1 投票 1

从PySpark DataFrame中删除NULL，NAN，空格

我在PySpark中有一个包含空格，Null和Nan的数据帧。我想删除任何有这些行的行。我尝试了以下命令，但似乎没有任何工作。 myDF.na.drop（）。show（）myDF ....

apache-spark pyspark apache-spark-1.6

回答 1 投票 1

在Pyspark填写na随机数字

我正在使用Pyspark DataFrame。我想更新Age列中的NA值，其值为14到46之间的随机值。我该怎么办？

dataframe random pyspark

回答 2 投票 0

PySpark worker在安装时无法导入包

我最近在gcloud DataProc上建立了一个集群（1个主服务器和2个从服务器）。我设法有一个带有PySpark内核的jupyter笔记本界面。只要我的工人不这样做，一切都有效......

import pyspark google-cloud-platform python-module google-cloud-dataproc

回答 1 投票 1

在Python数据帧连接中动态填充列名

我正在开发一个动态脚本，可以加入任何给定的pyspark数据帧。问题是文件中的列名称会有所不同，连接条件的数量可能会有所不同。我可以循环处理这个......

python apache-spark dataframe pyspark

回答 1 投票 0

在pyspark中编写自定义NER和POS标记器，以在管道方法中用于文本输入的特征提取

我正在做一个文本分类项目，我正在使用mllib中的管道方法来链接特征提取阶段。我的数据集由英语句子组成。我有Tokenizer和......

nlp pyspark feature-extraction

回答 1 投票 -2

如何在pyspark中设置spark.sql.files conf

我正试图在火花群上运行Hail（https://hail.is/）。当我尝试创建一个HailContext时，我收到一个错误声称我必须设置两个配置参数：spark.sql.files.openCostInBytes和...

python apache-spark pyspark

回答 1 投票 0

Pyspark2写入CSV问题？

我通过以下命令运行py文件：/opt/cloudera/parcels/SPARK2-2.2.0.cloudera2-1.cdh5.12.0.p0.232957/bin/spark2-submit --jars / home / jsonnt200 / geomesa- HBase的火花 - runtime_2.11-1.3.5.1cc.jar，/ ...

python csv pyspark

回答 1 投票 0

pyspark数据帧比较，根据关键字段查找列差异

我必须比较两个数据帧，以最有效的方法使用pyspark找出基于一个或多个关键字段的列差异，因为我必须处理庞大的数据帧我...

python-3.x apache-spark pyspark comparison spark-dataframe

回答 1 投票 0

而不是使用pyspark获取多个表，我们如何使用jdbc执行连接查询

customer - c_id，c_name，c_address product - p_id，p_name，price supplier - s_id，s_name，s_address orders - o_id，c_id，p_id，quantity，time SELECT o.o_id，c.c_id，c.c_name，p ....

pyspark pyspark-sql

回答 1 投票 2

如果自定义PySpark变换器是适合的ML管道中的一个阶段，如何设置它们的参数？

我已按照此处显示的模式为自己的Python算法编写了自定义ML Pipeline Estimator和Transformer。但是，在该示例中，_transform（）所需的所有参数都是......

apache-spark pyspark apache-spark-ml

回答 1 投票 0

pyspark内存消耗非常低

我正在使用anaconda python并在其上安装了pyspark。在pyspark程序中，我使用数据帧作为数据结构。该程序如下：从pyspark.sql导入SparkSession ...

dataframe pyspark

回答 1 投票 0

pyspark 相关问题

最新问题