pyspark 相关问题

Spark Python API（PySpark）将apache-spark编程模型暴露给Python。

我有2个RDD。 RDD 1：[['1'，'user1'，'Name1']，['2'，'user4'，'Name2']] RDD 2：[['5'，'1a'，'3'，' 99'，'g1']，['11'，'2b'，'1'，'99'，'g2']，['12'，'3c'，'2'，'99'，'g3' ]]我必须加入......

python apache-spark join pyspark rdd

回答 1 投票 0

如何将每个DStream保存/插入永久表

我一直面临着关于将输出Dstream插入永久SQL表的“Spark Streaming”的问题。我想插入每个输出DStream（来自单个批处理，引发...

apache-spark pyspark apache-spark-sql spark-streaming spark-dataframe

回答 2 投票 4

坐标矩阵Apache Spark上的Ax = b求解器

如何使用Apache spark解决Ax = b问题。我的输入是一个坐标矩阵：从scipy import sparse row = np.array（[0,3,1,0]）col = np.array（[0,3,1，...]导入numpy as np import scipy

python-3.x apache-spark pyspark

回答 1 投票 1

Spark窗口函数按行中最频繁的值聚合

我希望在给定的窗口中连续获取最常出现的String，并将此值放在新行中。（我正在使用Pyspark）这就是我的表格。窗口标签值123 ...

apache-spark pyspark apache-spark-sql spark-dataframe window-functions

回答 1 投票 1

在PySpark中的分区中连接DataFrame

我有两个数据帧，其行数很大（数百万到数千万）。我想在他们之间加入。在我正在使用的BI系统中，你通过首先分区来快速实现这一点......

apache-spark pyspark spark-dataframe

回答 1 投票 0

pyspark作业参数中--archives，--files，py-files之间的区别是什么

--archives， - files， - py-files和sc.addFile以及sc.addPyFile都很混乱，有人可以清楚地解释这些吗？

apache-spark pyspark pyspark-sql

回答 1 投票 8

在pyspark中的窗口对象

如果我定义一个这样的窗口对象：w_score = Window（）。partitionBy（“HUB_ID”）。orderBy（F.col（“系数”）。desc（），F.col（“LastUpdateDate”）。desc（））还有一个，像这样：w_score_prim = ...

pyspark window

回答 1 投票 1

如何通过Spark RDD（Java）中的索引获取元素而不是scala，python

我知道方法rdd.first（），它给了我RDD中的第一个元素。此外，还有rdd.take（num）方法，它给出了第一个num元素。但是没有可能获得......

java python apache-spark pyspark rdd

回答 1 投票 -3

在PySpark中禁用INFO日志记录[重复]

我已经编辑了log4j.properties文件以设置log4j.rootCategory = INFO，控制台并且日志记录已在spark-shell中停止，但它在pyspark中是不间断的。以下代码在pyspark中为我工作。 ...

logging apache-spark pyspark

回答 1 投票 3

为什么Window函数失败并且“Window function X不采用帧规范”？

我正在尝试在pyspark 1.4.1中使用Spark 1.4窗口函数，但主要是出错或意外结果。这是一个非常简单的例子，我认为应该可以工作：从pyspark.sql.window import ...

apache-spark pyspark apache-spark-sql window-functions pyspark-sql

回答 1 投票 6

为什么sortBy（）无法在Spark中均匀地对数据进行排序？

我正在编写一个pyspark脚本来读取一个大的二维数组，所以我尝试先生成一个索引数组并使用read方法映射以读入相应的数组。例如，如果我有......

python apache-spark pyspark rdd

回答 1 投票 4

PySpark 2.1：使用UDF导入模块打破Hive连接

我目前正在使用Spark 2.1，并且有一个主脚本调用包含所有转换方法的辅助模块。换句话说：main.py helper.py在我的helper.py文件的顶部...

python apache-spark pyspark apache-spark-sql user-defined-functions

回答 1 投票 3

在Windows上安装Spark不起作用

我正在尝试在我的Windows 10计算机上安装Apache Spark。我安装Spark的第一步是从这里下载Java，然后通过这条路径下载：C：\ Program Files（x86）\ Java ...

java windows scala apache-spark pyspark

回答 1 投票 0

如何从pyspark检索RDD依赖项？ [重复]

如何从PySpark中检索RDD的依赖项？ Scala有dependencies（）方法：public final scala.collection.Seq > dependencies（）我看不到一个等价物......

python apache-spark pyspark rdd

回答 1 投票 0

SparkSQL - 延迟功能？

我在这个DataBricks帖子中看到，SparkSql中支持窗口函数，特别是我正在尝试使用lag（）窗口函数。我有很多信用卡交易，我已经排序......

sql apache-spark pyspark apache-spark-sql window-functions

回答 1 投票 4

pyspark中的first_value窗口函数

我正在使用pyspark 1.5从Hive表中获取数据并尝试使用窗口函数。根据这个，存在一个名为firstValue的分析函数，它将给我第一个非...

apache-spark pyspark apache-spark-sql window-functions

回答 1 投票 2

用于激活数据帧的熊猫将datetime数据类型转换为bigint

我在pyspark中有一个pandas数据框。我想创建/加载此数据框到一个配置表。 pd_df = pandas数据帧id int64 TEST_TIME datetime64 [ns] ...

pandas apache-spark pyspark

回答 2 投票 5

Python Spark：如何为每个元组连接包含> 2个元素的2个数据集

我正在尝试加入来自这两个数据集的数据，基于常见的“股票”关键股票，行业GOOG Tech股票，日期，交易量2015年5759725加入方法应该将这些加在一起，但是......

apache-spark pyspark

回答 1 投票 0

pyspark 1.6.3线性回归错误float（）参数必须是字符串或数字

我正在使用来自pyspark的线性回归这是我的代码：来自pyspark.ml.regression从pyspark导入LabeledPoint，LinearRegressionWithSGD导入SparkContext，来自pyspark.sql导入的SparkConf ...

python pyspark linear-regression

回答 1 投票 0

从spark（2.11）数据帧编写hive分区表时的org.apache.hadoop.hive.ql.metadata.Hive.loadDynamicPartitions异常

我有这种奇怪的行为，我的用例是使用sqlContext.sql将一个Spark数据帧写入一个hive分区表（“INSERT OVERWRITE TABLE PARTITION (

hadoop apache-spark hive pyspark

回答 1 投票 0

pyspark 相关问题

最新问题