apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

如何从Scala中的DataFrame在Spark中创建分布式稀疏矩阵

问题,请帮助找到从DataFrame中的(用户,功能,值)记录创建分布式矩阵的方法,这些功能及其值存储在列中。 ...

回答 2 投票 3

访问Spark Mllib对分K均值树数据的方法

查看“平分K均值”的源代码,似乎它在进行的每个级别上构建了集群分配的内部树表示。是否可以访问该...

回答 1 投票 4

如何在PySpark中创建自定义估算器

我正在尝试在PySpark MLlib中构建一个简单的自定义估算器。我在这里可以编写自定义的Transformer,但是我不确定如何在Estimator上进行操作。我也听不懂...

回答 1 投票 13

[XGBoost每个工人集成一个XGBoost模型

[尝试通过此笔记本https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/1526931011080774/3624187670661048/6320440561800420/latest.html。 ...

回答 1 投票 1

通过Spark MLlib回归估计数值

我正在训练一个Spark MLlib线性回归器,但是我认为我不理解库的部分动手用法。我有1个功能(NameItem)和一个输出(Accumulator)。第一个是...

回答 1 投票 0

pyspark hive_table数据帧操作错误

我是火花专家,我正在尝试使用MinMaxScaler。我正在使用Spark 2.1.1并用Jupyter编写东西,所以我的步骤是。 1.从pyspark.sql从pyspark.ml导入SQLContext。...

回答 1 投票 0

Sparklyr中的高斯混合模型聚类

我正在尝试在sparklyr中使用高斯混合模型对数据进行聚类:ml_gaussian_mixture(formula =〜var1 + var2 + var3 + var4 + var5,k = 5)但是,调用此函数不会返回度量...

回答 1 投票 0

Spark K-means性能随着更多的节点/实例而降低

我正在使用Spark MLLib在AWS EMR上执行K-means集群。数据集大约是10 ^ 6行和9个特征列。我正在使用的实例大小具有8vCPU和32GB内存。我...

回答 1 投票 0

Python培训和Spark部署

是否有可能在python中训练XGboost模型并使用保存的模型在Spark环境中进行预测?也就是说,我希望能够使用sklearn训练XGboost模型,并保存模型。加载...

回答 1 投票 0

无法从pyspark加载管道模型

您好,我尝试在pyspark中使用管道模型加载保存的管道。 selectedDf = reviews \ .select(“ reviewerID”,“ asin”,“ overall”)#建立管道以建立推荐...

回答 1 投票 3

使用MLLib保存线性回归模型时出错

试图将我的线性回归模型保存到磁盘上,我收到此错误:“ pyError:import()需要2个位置参数,但给了3个位置参数”,但是从给定了3个位置参数。

回答 1 投票 0

无法在数据框[重复]上应用StringIndexer方法

我已经从CSV文件中创建了名为df的数据框。数据框为+ --- + --- + --- + -------- + -------------------------- ----------------------- + | X | Y | Z | class | source ...

回答 1 投票 0

无法从链中的任何提供商加载AWS凭证-错误-尝试从S3加载模型时出错

我在S3的一个文件夹中保存了一个MLLib模型,例如存储桶名称/测试模型。现在,我有了一个火花集群(现在就说在一台机器上)。我正在运行以下命令来加载模型:...

回答 2 投票 0

奇怪的性能问题Spark LSH MinHashroxSimilarityJoin

我正在使用Apache Spark ML LSH的roximateSimilarityJoin方法加入2个数据集,但是我看到一些奇怪的行为。在(内部)加入之后,数据集有点偏斜,但是每次一个或...

回答 1 投票 1

如何使用Apache星火ML库进行随机森林网格搜索

我想在我的随机森林模型的Apache星火进行网格搜索。但我没能找到一个例子这样做。是否有样本数据,我可以做使用Hyper参数整定任何例子...

回答 1 投票 0

从RDD滤波空值 火花

我有双打的数据集JavaRDD的形式。我想删除的行(向量)包含空值。我打算用过滤功能,为了做到这一点,但不能弄清楚如何做到这一点。 ...

回答 2 投票 0

从数据帧到RDD [LabeledPoint]

我试图使用Apache星火MLlib实现文档分类,我有表示数据的一些问题。我的代码如下:进口org.apache.spark.sql {行,SQLContext} ...。

回答 2 投票 15

如何RowMatrix转换为本地矩阵?

我有一个关于在星火矩阵的一个问题。假设我有一个名为X这样RowMatrix:0.5 0.5 0.25 0.0625 0.125 0.125 0.0625 0.0625 0.0625 0.25现在我想做的是乘...

回答 1 投票 1

Spark RowMatrix columnSimilarities保留原始索引

我有以下Scala Spark DataFrame df(String,Array [Double]):注意id的类型为String(一个base64哈希)id,值为“a”,[0.5,0.6]“b”,[0.1,0.2] ......数据集非常大(45k)......

回答 1 投票 1

在Spark中堆叠ML算法

是否有一个火花api来建立火花堆叠合奏或应该从头开始构建它们?我没有在网上找到有关此主题的任何资源

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.