apache-spark-ml 相关问题

Spark ML是用于在Apache Spark中构建机器学习管道的高级API。

声明数据帧的StructType:包含org.apache.spark.ml.linalg.Vector的列

我有一个名为df1的DataFrame,具有以下方案:root |-实例:字符串(nullable = true)|-功能:vector(nullable = true)|-标签:double(nullable = false)where features。 ..

回答 1 投票 0

将数据帧列转换为StandardScaler()的密集矢量,“列必须为org.apache.spark.ml.linalg.VectorUDT类型”

我对Spark非常陌生,我正在尝试将StandardScaler()应用于DataFrame中的列。 + --------------- + | DF_column | + --------------- + | 0.114285714286 | | 0.115702479339 | | 0 ....

回答 1 投票 5

使用Spark 2.1.1一键编码多个变量

我需要使用Spark 2.1.1,并且有一个简单的ML用例,其中我适合进行逻辑回归以基于连续变量和分类变量进行分类。我会自动检测到...

回答 1 投票 0

解释pySpark中的随机森林

晚上好,我正在尝试寻找一种方法来解释Spark中的随机森林。通过解释,我的意思是找出在特定行中影响最大的变量。使用...

回答 1 投票 1

带有一个单词的数据集上的NGram

我正在研究SparkML,尝试使用Spark的OOB功能建立模糊匹配。一路上,我正在构建n = 2的NGram。但是,我的数据集中的某些行包含单个单词,其中...

回答 1 投票 0

ALS方法-训练,trainImplicit和适合

[als.train(,als.fit(),als.traimImplicit()]之间的区别是什么?

回答 1 投票 0

Apache Spark spark.read无法正常工作

我正在学习IBM Apache Spark。我正在使用HMP数据集。我按照教程中的说明进行操作,但是代码未按预期工作。这是我的代码:!git clone https://github.com/wchill / ...

回答 1 投票 0

AttributeError:'StringIndexer'对象没有属性

我正在Pyspark建立决策树。因此,已经使用StringIndexer将字符串属性转换为数值,以便从pyspark.ml.feature进行进一步计算。import StringIndexer indexer = ...

回答 1 投票 1

VectorAssembler的格式错误,将不必要的值赋予特征

我已经多次使用VectorAssembler,效果很好。但是今天,我将不需要的数据添加到功能中,如下图所示。输入是来自pySpark数据帧的4个没有NaN的特征。 ...

回答 1 投票 0

对于GBTClassifier,如何在pyspark中绘制ROC曲线?

我正在尝试绘制梯度增强模型的ROC曲线。我看过这篇文章,但它似乎不适用于GBTclassifier模型。 pyspark提取ROC曲线?我正在使用数据集...

回答 1 投票 0

用新数据引用现有的Spark ML PipelineModel

[或多或少,我正在使用Spark结构化流-通过DecisionTreeRegressor调整我的数据。我想重用我已经安装的PipelineModel再次适合新数据。可能吗?我有...

回答 1 投票 0

无法执行用户定义的函数(VectorAssembler

我正在使用Kmeans作为聚类算法,我的代码想要执行并向我显示此错误:org.apache.spark.SparkException:无法执行用户定义的函数(VectorAssembler $$ Lambda $ ...)>

回答 1 投票 0

[随机出现] [Spark ML ALS] [AWS EMR]检查点文件夹中的FileNotFoundException,但文件存在

我正在AWS EMR上运行一个计划的(每天一次)spark应用程序,该应用程序是基于spark.ml.recommendation.ALS的推荐算法,数据位于该应用程序的AWS S3上,...

回答 1 投票 0

如何在PySpark中创建自定义估算器

我正在尝试在PySpark MLlib中构建一个简单的自定义估算器。我在这里可以编写自定义的Transformer,但是我不确定如何在Estimator上进行操作。我也听不懂...

回答 1 投票 13

[XGBoost每个工人集成一个XGBoost模型

[尝试通过此笔记本https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/1526931011080774/3624187670661048/6320440561800420/latest.html。 ...

回答 1 投票 1

'GBTClassificationModel'对象没有属性'fitMultiple'-pyspark

尝试在GBT上进行交叉验证时遇到以下错误消息。以前运行GBT模型没有问题。不再支持fitMultiple吗?我正在使用PySpark 2.4.4 by ...

回答 1 投票 1

属性错误:管道对象没有属性转换

我已经使用spark ml管道构建了逻辑回归模型并保存了它。我试图将管道应用于新的记录集并收到错误。我的管道具有向量汇编程序,...

回答 1 投票 0

如何使用foreachPartition在Spark中为每个分区有效地构建一个ML模型?

我正在尝试为我的数据集的每个分区拟合一个ML模型,但我不知道如何在Spark中进行操作。我的数据集基本上看起来像这样,并按公司划分:功能...

回答 1 投票 0

Python培训和Spark部署

是否有可能在python中训练XGboost模型并使用保存的模型在Spark环境中进行预测?也就是说,我希望能够使用sklearn训练XGboost模型,并保存模型。加载...

回答 1 投票 0

使用pyspark.ml.feature.Tokenizer时如何打印令牌?

我想看看使用pyspark.ml.feature.Tokenizer时创建的令牌。我怎样才能做到这一点?如果我有这段代码:tokenizer = Tokenizer(inputCol =“ SystemInfo”,outputCol =“ ...

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.