apache-spark-ml 相关问题

Spark ML是用于在Apache Spark中构建机器学习管道的高级API。

如何将具有多个输入列的 Spark ML 模型转换为 ONNX 并使用它来对动态批量大小进行评分?

我使用以下命令将具有动态批量大小的逻辑回归模型从 Spark ML 转换为 ONNX: 初始类型 = [('特征', FloatTensorType([无, 5]))] onnx_model = Convert_sparkml(s_clf, 'Occ...

回答 1 投票 0

ALS 算法 Spark MLlib - 我如何获得自己的“个人推荐”(我未排名的电影排名)

我在 Azure Databricks 中使用 PySpark。我使用 Sparks MLlib 库 ALS 算法来预测电影评级,效果很成功。但是,我正在尝试添加一个由我的 r 组成的数据框...

回答 1 投票 0

spark mlib:要求失败:索引0跟随0并且不是严格递增

使用我的数据集训练逻辑回归模型时出现以下错误: 引起原因:java.lang.IllegalArgumentException:要求失败:索引0跟随0并且不严格

回答 1 投票 0

在 Databricks 上使用 MLflow 记录 Spark 模型时出错 - mlflow.spark.log_model()

我正在尝试使用下面的代码片段记录 Spark 模型。模型指标和参数保存在 ML 流运行中,但模型本身不会保存在工件下。然而,我们...

回答 1 投票 0

Spark ML,二元分类的“rawPredictionCol”参数

我想使用 Spark.ml 中的二进制分类器在管道之后评估我的模型。我使用这个代码: val gbt = new GBTClassifier() .setLabelCol("Label_Index") .setFeaturesCol("功能...

回答 1 投票 0

{Py4JJavaError}调用 o339.save 时发生错误

我在pyspark中训练了Logistic回归模型,但无法保存模型。 模型 = LogisticRegression(featuresCol='TF-IDF', labelCol='labels', maxIter=10)` lr_model = Model.fit(train_data)` 类型(l...

回答 1 投票 0

如何在 Apache Spark 的 MLlib (Python) 中为逻辑回归模型分配类别权重

我正在研究具有不平衡数据集的二元分类问题,其中 75% 的数据属于负类 (0.0),其余 (25%) 属于正类 (1.0)。 我用的是

回答 1 投票 0

Java Spark MLlib。在ml库中的Logistic回归出现了一个错误 "ERROR OWLQN: Failure! 重置历史记录:breeze.optimze.NaNHistory: "的错误,在ml库中的Logistic回归。

我刚刚尝试使用Apache Spark ml库进行逻辑回归,但每次尝试时都会出现错误信息,如 "ERROR OWLQN: Failure! 重置历史:breeze.optimze.NaNHistory:......。

回答 1 投票 6

在spark上按分区训练ml模型。这样,每个分区的数据框会有一个训练好的模型。

如何在spark中用scala做每个分区的并行模型训练?这里给出的解决方案是在Pyspark中。我在寻找scala中的解决方案。如何有效地建立每个分区的一个ML模型... ...

回答 1 投票 0


Dose Spark ALS解决了二进制分类?

我正在尝试建立推荐系统。数据具有三列:userID,itemID,行为(购买或pv)。我想知道我可以使用ALS吗? ALS中的一个参数是“等级”列。我实际上不...

回答 1 投票 0

如何使用Spark ML在pyspark分类模型中计算基尼系数?

我正在尝试使用pyspark ml模型中使用GBTClassifier完成的分类模型计算基尼系数。我似乎找不到能够提供roc_auc_score的指标,如...

回答 1 投票 0


如何从Spark中的String加载数据集

从spark的文档中,我知道我可以从文件的libsvm格式的数据集中进行加载。但是,我想在远程Spark集群中运行代码,因此我将虹膜数据集硬编码到了我的代码中,并且我想要...

回答 1 投票 0

Spark Ml评估方法

我有一个火花数据框,如下所示:predictions.show(5)+ ------ + ---- + ------ + ----------- + |用户|项目|评分|预测| + ------ + ---- + ------ + ----------- + | 379433 | 31 | 1 | 0.08203495 | | 1834 | ...

回答 1 投票 10

Spark DataFrame中向量的访问元素,而未在Pyspark中使用UDF

我正试图解决这个问题:[访问Spark DataFrame中的向量的元素(逻辑回归概率向量),但在Pyspark中未使用UDF的情况下,我在Scala中看到了很多选择...

回答 1 投票 0

从Spark 2.2.0中的管道模型输出中获取BinaryLogisticRegressionSummary

我以前在Spark 2.2.0中使用过Logistic回归模型,并通过对某些带标签的测试数据调用模型的validate()方法,可以得到BinaryLogisticRegressionSummary ...

回答 1 投票 0

Spark Scala MLlib异常:java.lang.IllegalArgumentException

我是Spark MLLib的新手,并尝试执行以下Spark代码,导入org.apache.spark.ml.feature.VectorAssembler导入org.apache.spark.ml.linalg.Vectors val数据集= spark.createDataFrame(...

回答 1 投票 0

PySpark Array 不是Array

我正在运行一个非常简单的Spark(Databricks上为2.4.0)ML脚本:从pyspark.ml.clustering import LDA lda = LDA(k = 10,maxIter = 100).setFeaturesCol('features')model = lda。 fit(dataset)但接收到...

回答 1 投票 5

如何使用Scala在Spark中对每个分区进行并行模型训练?

此处给出的解决方案在Pyspark中。我正在寻找Scala中的解决方案。如何使用foreachPartition在Spark中为每个分区高效地构建一个ML模型?

回答 1 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.