apache-spark-ml 相关问题

Spark ML是用于在Apache Spark中构建机器学习管道的高级API。

SparkML MultilayerPerceptron错误:java.lang.ArrayIndexOutOfBoundsException

我有以下模型,我想使用SparkML MultilayerPerceptronClassifier()估计。 val formula = new RFormula()。setFormula(“vtplus15predict~vhistt plus15 + vhistt + vt + ...

回答 3 投票 0

在Pyspark中保存随机森林分类器模型时出错

rf = RandomForestClassifier()。setFeaturesCol(“features”)。setLabelCol(“label”)pipeline = Pipeline(stages = [tokenizer,hashingTF,idf,rf])model = pipeline.fit(training)model.save(sc,'

回答 1 投票 0

随机森林分类器 - 将索引标签标签转换回字符串值

我正在进行文本分类,并使用管道方法构建了一个模型。我正在拟合我使用数据框创建的训练数据,它有“标签”和“......”列。

回答 1 投票 1

ML管道和指标:精确度,召回,AUC-ROC,F1Score

我正在使用ML Pipeline,类似于:VectorAssembler assembler = new VectorAssembler()。setInputCols(columns).setOutputCol(“features”); LogisticRegression lr = new ...

回答 2 投票 3

Spark中的PCA输出与scikit-learn不匹配

我在Spark ML中尝试PCA(主成分分析)。 data = [(Vectors.dense([1.0,1.0]),),(Vectors.dense([1.0,2.0]),),(Vectors.dense([4.0,4.0]),),(Vectors.dense( [5.0,4.0]),)] ...

回答 1 投票 6

如果自定义PySpark变换器是适合的ML管道中的一个阶段,如何设置它们的参数?

我已按照此处显示的模式为自己的Python算法编写了自定义ML Pipeline Estimator和Transformer。但是,在该示例中,_transform()所需的所有参数都是......

回答 1 投票 0

苏打水经常抛出java.lang.ArrayIndexOutOfBoundsException:65535

H2O苏打水经常抛到异常之下,我们会在发生这种情况时手动重新运行。问题是火花作业在发生此异常时不会退出,它们不会返回退出状态...

回答 1 投票 2

将列名称与pySpark ML中的模型参数相关联

我正在使用GLM(在Spark 2.0中使用ML)对具有一个分类自变量的数据运行模型。我正在使用StringIndexer和OneHotEncoder将该列转换为虚拟变量,...

回答 2 投票 5

如果不使用spark-ml中的管道,交叉验证会更快吗?

假设我的功能工程中有很多步骤:我的管道中会有很多变换器。我想知道Spark在管道的交叉验证过程中如何处理这些变压器:...

回答 1 投票 1

保存ML模型以备将来使用

我正在将一些机器学习算法(如线性回归,Logistic回归和Naive Bayes)应用于某些数据,但我试图避免使用RDD并开始使用DataFrame,因为......

回答 2 投票 23

© www.soinside.com 2019 - 2024. All rights reserved.