MLlib是Apache Spark的机器学习库
ML管道和指标:精确度,召回,AUC-ROC,F1Score
我正在使用ML Pipeline,类似于:VectorAssembler assembler = new VectorAssembler()。setInputCols(columns).setOutputCol(“features”); LogisticRegression lr = new ...
我有训练数据集,我在K = 4上运行了K-means,得到了四个集群中心。对于新的数据点,我不仅想知道预测的集群,还想知道它的距离......
我试图找出是否有可能在Apache Spark中使用MLlib对数据进行“增量训练”。我的平台是Prediction IO,它基本上是Spark(MLlib),HBase,...的包装器。
我想用MLlib运行一个简单的网格搜索实现,但我对选择“最佳”参数范围感到困惑。显然,我不想浪费太多资源......
我正在http://spark.apache.org/docs/1.2.1/mllib-linear-methods.html中使用scala版本的示例尝试演示。我运行演示它工作正常,但当我改变数据和步骤...
苏打水经常抛出java.lang.ArrayIndexOutOfBoundsException:65535
H2O苏打水经常抛到异常之下,我们会在发生这种情况时手动重新运行。问题是火花作业在发生此异常时不会退出,它们不会返回退出状态...
pyspark新手。这是我的代码:def sparkApp():spark = SparkSession \ .builder \ .appName(“Python Spark SQL基本示例”)\。config(“spark.sql.catalogImplementation”,“...
Spark MLlib:我应该在安装模型之前调用.cache吗?
想象一下,我正在训练Spark MLlib模型如下:val traingData = loadTrainingData(...)val logisticRegression = new LogisticRegression()traingData.cache val logisticRegressionModel = ...
使用spark / scala中的不同预处理交叉验证多个模型
我正在使用Spark和Scala。我想对我的数据进行不同的预处理。有没有办法使CrossValidator采用多个模型(也使用ParamMaps)从这两个模型中获取最佳模型? Ë....
如何使用CrossValidator在不同的模型之间进行选择
我知道我可以使用CrossValidator来调整单个模型。但是,对于相互评估不同模型的建议方法是什么?例如,说我想评估一个......
我必须在pyspark(spark 2.0)的大型DataFrame中对列进行编码。所有值几乎都是唯一的(约1000mln值)。最好的选择可能是StringIndexer,但由于某种原因它始终......
我想使用一个用Apache Spark 2.0.0开发的应用程序(这里是GitHub repo),但我只在我的iMac上安装了Spark 2.3.1(它似乎是自制软件支持的唯一一个...
我正在将一些机器学习算法(如线性回归,Logistic回归和Naive Bayes)应用于某些数据,但我试图避免使用RDD并开始使用DataFrame,因为......
有没有办法计算DataFrame每列的KDE?我有一个DataFrame,其中每列代表一个功能的值。 Spark MLLib的KDE功能需要一个RDD [Double] ...