Spark ML是用于在Apache Spark中构建机器学习管道的高级API。
如何将具有多个输入列的 Spark ML 模型转换为 ONNX 并使用它来对动态批量大小进行评分?
我使用以下命令将具有动态批量大小的逻辑回归模型从 Spark ML 转换为 ONNX: 初始类型 = [('特征', FloatTensorType([无, 5]))] onnx_model = Convert_sparkml(s_clf, 'Occ...
ALS 算法 Spark MLlib - 我如何获得自己的“个人推荐”(我未排名的电影排名)
我在 Azure Databricks 中使用 PySpark。我使用 Sparks MLlib 库 ALS 算法来预测电影评级,效果很成功。但是,我正在尝试添加一个由我的 r 组成的数据框...
spark mlib:要求失败:索引0跟随0并且不是严格递增
使用我的数据集训练逻辑回归模型时出现以下错误: 引起原因:java.lang.IllegalArgumentException:要求失败:索引0跟随0并且不严格
在 Databricks 上使用 MLflow 记录 Spark 模型时出错 - mlflow.spark.log_model()
我正在尝试使用下面的代码片段记录 Spark 模型。模型指标和参数保存在 ML 流运行中,但模型本身不会保存在工件下。然而,我们...
Spark ML,二元分类的“rawPredictionCol”参数
我想使用 Spark.ml 中的二进制分类器在管道之后评估我的模型。我使用这个代码: val gbt = new GBTClassifier() .setLabelCol("Label_Index") .setFeaturesCol("功能...
{Py4JJavaError}调用 o339.save 时发生错误
我在pyspark中训练了Logistic回归模型,但无法保存模型。 模型 = LogisticRegression(featuresCol='TF-IDF', labelCol='labels', maxIter=10)` lr_model = Model.fit(train_data)` 类型(l...
如何在 Apache Spark 的 MLlib (Python) 中为逻辑回归模型分配类别权重
我正在研究具有不平衡数据集的二元分类问题,其中 75% 的数据属于负类 (0.0),其余 (25%) 属于正类 (1.0)。 我用的是
我刚刚尝试使用Apache Spark ml库进行逻辑回归,但每次尝试时都会出现错误信息,如 "ERROR OWLQN: Failure! 重置历史:breeze.optimze.NaNHistory:......。
在spark上按分区训练ml模型。这样,每个分区的数据框会有一个训练好的模型。
如何在spark中用scala做每个分区的并行模型训练?这里给出的解决方案是在Pyspark中。我在寻找scala中的解决方案。如何有效地建立每个分区的一个ML模型... ...
我正在尝试建立推荐系统。数据具有三列:userID,itemID,行为(购买或pv)。我想知道我可以使用ALS吗? ALS中的一个参数是“等级”列。我实际上不...
如何使用Spark ML在pyspark分类模型中计算基尼系数?
我正在尝试使用pyspark ml模型中使用GBTClassifier完成的分类模型计算基尼系数。我似乎找不到能够提供roc_auc_score的指标,如...
从spark的文档中,我知道我可以从文件的libsvm格式的数据集中进行加载。但是,我想在远程Spark集群中运行代码,因此我将虹膜数据集硬编码到了我的代码中,并且我想要...
我有一个火花数据框,如下所示:predictions.show(5)+ ------ + ---- + ------ + ----------- + |用户|项目|评分|预测| + ------ + ---- + ------ + ----------- + | 379433 | 31 | 1 | 0.08203495 | | 1834 | ...
Spark DataFrame中向量的访问元素,而未在Pyspark中使用UDF
我正试图解决这个问题:[访问Spark DataFrame中的向量的元素(逻辑回归概率向量),但在Pyspark中未使用UDF的情况下,我在Scala中看到了很多选择...
从Spark 2.2.0中的管道模型输出中获取BinaryLogisticRegressionSummary
我以前在Spark 2.2.0中使用过Logistic回归模型,并通过对某些带标签的测试数据调用模型的validate()方法,可以得到BinaryLogisticRegressionSummary ...
Spark Scala MLlib异常:java.lang.IllegalArgumentException
我是Spark MLLib的新手,并尝试执行以下Spark代码,导入org.apache.spark.ml.feature.VectorAssembler导入org.apache.spark.ml.linalg.Vectors val数据集= spark.createDataFrame(...
我正在运行一个非常简单的Spark(Databricks上为2.4.0)ML脚本:从pyspark.ml.clustering import LDA lda = LDA(k = 10,maxIter = 100).setFeaturesCol('features')model = lda。 fit(dataset)但接收到...
如何使用Scala在Spark中对每个分区进行并行模型训练?
此处给出的解决方案在Pyspark中。我正在寻找Scala中的解决方案。如何使用foreachPartition在Spark中为每个分区高效地构建一个ML模型?