MLlib是Apache Spark的机器学习库
火花错误:java.io.NotSerializableException:scala.runtime.LazyRef
我是新来的火花,能请您帮忙吗?下面的用于进行逻辑回归的简单管道会产生异常:代码:程序包pipeline.tutorial.com import org.apache.log4j.Level ...
我使用spark MLlib拟合了以下逻辑回归模型val df = spark.read.option(“ header”,“ true”)。option(“ inferSchema”,“ true”)。csv(“ car_milage-6f50d.csv”) val hasher = new FeatureHasher()....
pyspark-如何在分层随机采样中使用(df.sampleByKey())选择每个层的确切记录数
我有一个spark数据框(我正在使用pyspark)“订单”。它有以下几列['id','orderdate','customerid','status']我正在尝试使用键...
PySpark RandomForest实现中如何计算rawPrediction?
我已经在10个示例的训练集上训练了一个RF模型(有3棵树,深度为4个)。以下是三棵树的外观图像。我有两个班级(比如0和1)。阈值是...
Pyspark Py4j IllegalArgumentException,带有spark.createDataFrame和pyspark.ml.clustering
首先让我透露问题的全部背景,我将使用简化的MWE,在底部重新创建相同的问题。随意跳过我对设置的讨论,直接进入...
我正在用pySpark(Python3)测试MLlib令牌生成器:#-*-编码:utf-8-*-来自pyspark.sql.window导入pyspark.sql.functions的窗口从pyspark.ml.feature导入row_number导入...
我是ML算法的PySpark实现的新手。我试图创建一个分类模型,可以是Logistic,Random Forest,Multiclass分类器等中的任何一个。我用...
我有一列这样的SparseVectors:+ -------------------- + | features_array | + -------------------- + |(11,[1,2,3],[1.0,... | |(11,[1,2] ,[1.0,1.0])| |(11,[1,2],[1.0,1.0])| |(11,[1,4],[1.0,1 ....
我正在研究SparkML,尝试使用Spark的OOB功能建立模糊匹配。一路上,我正在构建n = 2的NGram。但是,我的数据集中的某些行包含单个单词,其中...
我已经阅读了有关本地性哈希的Spark部分,但仍不了解其中的一些内容:https://spark.apache.org/docs/latest/ml-features.html#locality-sensitive-hashing存储桶...
我正在使用Spark构建随机森林模型,我想保存它以便以后使用。我在没有HDFS的pyspark(Spark 2.0.1)上运行此文件,因此文件被保存到本地文件系统。我有...
例如,为什么Spark的Mllib ETL函数MinMaxScaler需要组装向量,而不是仅仅使用数据框中的列,我对此感到困惑。即而不是能够...
RandomForestClassifier没有属性转换,那么如何获得预测?
您如何从RandomForestClassifier中获得预测?松散地遵循这里的最新文档,我的代码看起来像...#将数据分为训练和测试集(保留30%用于测试)...
某些行中转换为字符串索引的字符串索引为空白(索引未设置为1)?
我有一个带有分类列的pyspark数据框,该列通过以下方式转换为onehot编码的向量:si = StringIndexer(inputCol =“ LABEL”,outputCol =“ LABEL_IDX”)。fit(df)df = si.transform (...
如何为XGBoost分类器设置最佳阈值?该算法中使用的默认值为0.5。我想知道是否可以使用任何功能/内置功能来更改此设置。
我有一个包含id的aparquet文件,特征.id为int,特征为double。我想应用pca算法来减小尺寸。 val lData = sqlContext.read.parquet(“ / usr / local / spark / dataset / ...
我有一个csv文件,我试图将其用作pyspark中KMeans算法的输入。我正在使用MLlib文档中的代码。从pyspark.ml.clustering导入KMeans,从pyspark.ml.evaluation ...
我有一个数据框(df_ml_nullable),如下所示:+ ----- + -------------------- + | label |功能| + ----- + -------------------- + | 0.0 | [127.0,132.0,123 .... | | 0.0 | [67.0,67.0,67.0,6 ... | | ...
我想在这里使用提供的代码来计算N-gram。N-gram的堆栈溢出答案下面的数据是测试数据的实际计算将基于大型分布数据+ ---------。 。
我知道Spark结构化流式处理中的滑动窗口是事件时间窗口,具有窗口大小(以秒为单位)和步长(以秒为单位)。但是后来我遇到了这个问题:import org ....