apache-spark-ml 相关问题

Spark ML是用于在Apache Spark中构建机器学习管道的高级API。

SparkML MultilayerPerceptron错误：java.lang.ArrayIndexOutOfBoundsException

我有以下模型，我想使用SparkML MultilayerPerceptronClassifier（）估计。 val formula = new RFormula（）。setFormula（“vtplus15predict~vhistt plus15 + vhistt + vt + ...

scala apache-spark neural-network apache-spark-mllib apache-spark-ml

回答 3 投票 0

在Pyspark中保存随机森林分类器模型时出错

rf = RandomForestClassifier（）。setFeaturesCol（“features”）。setLabelCol（“label”）pipeline = Pipeline（stages = [tokenizer，hashingTF，idf，rf]）model = pipeline.fit（training）model.save（sc，'

pyspark random-forest apache-spark-ml

回答 1 投票 0

随机森林分类器 - 将索引标签标签转换回字符串值

我正在进行文本分类，并使用管道方法构建了一个模型。我正在拟合我使用数据框创建的训练数据，它有“标签”和“......”列。

python pyspark spark-dataframe apache-spark-ml

回答 1 投票 1

ML管道和指标：精确度，召回，AUC-ROC，F1Score

我正在使用ML Pipeline，类似于：VectorAssembler assembler = new VectorAssembler（）。setInputCols（columns）.setOutputCol（“features”）; LogisticRegression lr = new ...

apache-spark apache-spark-mllib apache-spark-ml precision-recall

回答 2 投票 3

Spark中的PCA输出与scikit-learn不匹配

我在Spark ML中尝试PCA（主成分分析）。 data = [（Vectors.dense（[1.0,1.0]），），（Vectors.dense（[1.0,2.0]），），（Vectors.dense（[4.0,4.0]），），（Vectors.dense（ [5.0,4.0]），）] ...

python apache-spark pyspark pca apache-spark-ml

回答 1 投票 6

如果自定义PySpark变换器是适合的ML管道中的一个阶段，如何设置它们的参数？

我已按照此处显示的模式为自己的Python算法编写了自定义ML Pipeline Estimator和Transformer。但是，在该示例中，_transform（）所需的所有参数都是......

apache-spark pyspark apache-spark-ml

回答 1 投票 0

苏打水经常抛出java.lang.ArrayIndexOutOfBoundsException：65535

H2O苏打水经常抛到异常之下，我们会在发生这种情况时手动重新运行。问题是火花作业在发生此异常时不会退出，它们不会返回退出状态...

apache-spark apache-spark-mllib h2o apache-spark-ml sparkling-water

回答 1 投票 2

将列名称与pySpark ML中的模型参数相关联

我正在使用GLM（在Spark 2.0中使用ML）对具有一个分类自变量的数据运行模型。我正在使用StringIndexer和OneHotEncoder将该列转换为虚拟变量，...