pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。


将groupBy聚合为csv文件后保存pyspark数据帧

我正在学习pyspark,我对如何将分组数据帧保存为csv文件感到困惑(假设由于某些原因 - 例如RAM限制 - 我不想先将其转换为Pandas ...

回答 2 投票 0

如何使用pyspark在jupyter笔记本中显示我的csv数据文件

我正在研究一个大数据csv数据集。我需要使用pyspark在jupyter-notebook上阅读它。我的数据大约是400多万条记录(540000行和7列。)我能做什么,我可以显示我的所有数据集......

回答 1 投票 0

如何使用具有火花数据流结构的非基于时间的窗口?

我正在尝试使用带有spark和kafka的结构化流媒体窗口。我在非基于时间的数据上使用窗口,因此我收到此错误:'流式DataFrames /不支持非基于时间的窗口...

回答 2 投票 1

Spark:相当于数据帧中的zipwithindex

假设我有以下数据帧:dummy_data = [('a',1),('b',25),('c',3),('d',8),('e',1) ] df = sc.parallelize(dummy_data).toDF(['letter','number'])我想创建以下内容......

回答 1 投票 5

如何使用PySpark将SparseVector中的前X个单词转换为字符串数组

我目前正在集中一些文本文档。由于PySpark方法,我正在使用K-means并使用TF-IDF继续我的数据。现在我想得到每个集群的前10个单词:当我这样做时:......

回答 1 投票 1

转发新行填写缺失日期的帐户

我目前有一个数据集,按变量“聚合器”分组为每小时增量。这个小时数据中存在差距,我理想的做法是向前填充前一行的行...

回答 1 投票 1

RDD take()方法如何在内部工作?

我知道take(n)将返回RDD的n个元素,但是Spark如何决定从哪个分区调用这些元素以及应该选择哪些元素?它是否维护索引......

回答 1 投票 0

pyspark用正则表达式替换正则表达式

我试图替换正则表达式(在这种情况下是一个带数字的空格)我有一个包含字符串列的Spark数据帧。我想用逗号替换正则表达式(空格加数字)而不用...

回答 1 投票 0

从PyCharm连接到运行Spark-Session

我目前正在尝试设置我的火花环境,并想知道什么是最佳实践。我想在Pycharm中编写我的代码并从那里执行它。我如何连接到本地(在我的Mac上)...

回答 1 投票 0

从json模式构建spark模式

我正在尝试构建一个想要在创建数据帧时显式提供的spark模式我可以使用下面的pyspark.sql.types生成json模式import StructType #Save schema from ...

回答 3 投票 2
热门问答
推荐问答