pyspark 相关问题

Spark Python API(PySpark)将apache-spark编程模型暴露给Python。

匹配键并在pyspark中加入2个RDD而不使用数据帧

我有2个RDD。 RDD 1:[['1','user1','Name1'],['2','user4','Name2']] RDD 2:[['5','1a','3',' 99','g1'],['11','2b','1','99','g2'],['12','3c','2','99','g3' ]]我必须加入......

回答 1 投票 0

如何将每个DStream保存/插入永久表

我一直面临着关于将输出Dstream插入永久SQL表的“Spark Streaming”的问题。我想插入每个输出DStream(来自单个批处理,引发...

回答 2 投票 4

坐标矩阵Apache Spark上的Ax = b求解器

如何使用Apache spark解决Ax = b问题。我的输入是一个坐标矩阵:从scipy import sparse row = np.array([0,3,1,0])col = np.array([0,3,1,...]导入numpy as np import scipy

回答 1 投票 1

Spark窗口函数按行中最频繁的值聚合

我希望在给定的窗口中连续获取最常出现的String,并将此值放在新行中。 (我正在使用Pyspark)这就是我的表格。窗口标签值123 ...

回答 1 投票 1

在PySpark中的分区中连接DataFrame

我有两个数据帧,其行数很大(数百万到数千万)。我想在他们之间加入。在我正在使用的BI系统中,你通过首先分区来快速实现这一点......

回答 1 投票 0

pyspark作业参数中--archives,--files,py-files之间的区别是什么

--archives, - files, - py-files和sc.addFile以及sc.addPyFile都很混乱,有人可以清楚地解释这些吗?

回答 1 投票 8

在pyspark中的窗口对象

如果我定义一个这样的窗口对象:w_score = Window()。partitionBy(“HUB_ID”)。orderBy(F.col(“系数”)。desc(),F.col(“LastUpdateDate”)。desc())还有一个,像这样:w_score_prim = ...

回答 1 投票 1

如何通过Spark RDD(Java)中的索引获取元素而不是scala,python

我知道方法rdd.first(),它给了我RDD中的第一个元素。此外,还有rdd.take(num)方法,它给出了第一个num元素。但是没有可能获得......

回答 1 投票 -3

在PySpark中禁用INFO日志记录[重复]

我已经编辑了log4j.properties文件以设置log4j.rootCategory = INFO,控制台并且日志记录已在spark-shell中停止,但它在pyspark中是不间断的。以下代码在pyspark中为我工作。 ...

回答 1 投票 3

为什么Window函数失败并且“Window function X不采用帧规范”?

我正在尝试在pyspark 1.4.1中使用Spark 1.4窗口函数,但主要是出错或意外结果。这是一个非常简单的例子,我认为应该可以工作:从pyspark.sql.window import ...

回答 1 投票 6

为什么sortBy()无法在Spark中均匀地对数据进行排序?

我正在编写一个pyspark脚本来读取一个大的二维数组,所以我尝试先生成一个索引数组并使用read方法映射以读入相应的数组。例如,如果我有......

回答 1 投票 4

PySpark 2.1:使用UDF导入模块打破Hive连接

我目前正在使用Spark 2.1,并且有一个主脚本调用包含所有转换方法的辅助模块。换句话说:main.py helper.py在我的helper.py文件的顶部...

回答 1 投票 3

在Windows上安装Spark不起作用

我正在尝试在我的Windows 10计算机上安装Apache Spark。我安装Spark的第一步是从这里下载Java,然后通过这条路径下载:C:\ Program Files(x86)\ Java ...

回答 1 投票 0

如何从pyspark检索RDD依赖项? [重复]

如何从PySpark中检索RDD的依赖项? Scala有dependencies()方法:public final scala.collection.Seq > dependencies()我看不到一个等价物......

回答 1 投票 0

SparkSQL - 延迟功能?

我在这个DataBricks帖子中看到,SparkSql中支持窗口函数,特别是我正在尝试使用lag()窗口函数。我有很多信用卡交易,我已经排序......

回答 1 投票 4

pyspark中的first_value窗口函数

我正在使用pyspark 1.5从Hive表中获取数据并尝试使用窗口函数。根据这个,存在一个名为firstValue的分析函数,它将给我第一个非...

回答 1 投票 2

用于激活数据帧的熊猫将datetime数据类型转换为bigint

我在pyspark中有一个pandas数据框。我想创建/加载此数据框到一个配置表。 pd_df = pandas数据帧id int64 TEST_TIME datetime64 [ns] ...

回答 2 投票 5

Python Spark:如何为每个元组连接包含> 2个元素的2个数据集

我正在尝试加入来自这两个数据集的数据,基于常见的“股票”关键股票,行业GOOG Tech股票,日期,交易量2015年5759725加入方法应该将这些加在一起,但是......

回答 1 投票 0

pyspark 1.6.3线性回归错误float()参数必须是字符串或数字

我正在使用来自pyspark的线性回归这是我的代码:来自pyspark.ml.regression从pyspark导入LabeledPoint,LinearRegressionWithSGD导入SparkContext,来自pyspark.sql导入的SparkConf ...

回答 1 投票 0

从spark(2.11)数据帧编写hive分区表时的org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions异常

我有这种奇怪的行为,我的用例是使用sqlContext.sql将一个Spark数据帧写入一个hive分区表(“INSERT OVERWRITE TABLE PARTITION (

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.