Spark ML是用于在Apache Spark中构建机器学习管道的高级API。
我在64GB RAM,32核和500GB磁盘空间的系统上运行Jupyter笔记本。大约700k文档将被建模为600个主题。词汇量大小为48000字。 100次迭代......
任何指针都可以逐步训练和构建模型,并获得单个元素的预测。尝试运行Web应用程序会将数据写入共享路径中的csv,以及ml应用程序......
我使用SparkML训练了几毫升的管道并将它们保存在HDFS中。现在,我想将管道应用于同一数据帧。我实现了一个通用的评分类,它读入了管道......
spark中的方法如何威胁向量汇编列?例如,如果我有经度和纬度列,使用向量汇编程序组装它们更好,然后将它放入我的模型或它...
我正在研究二进制分类问题并使用SparkML,我使用随机森林和Logistic回归模型训练和评估我的数据,现在我想检查SVM分类的程度......
我有一个使用mleap训练和保存的葡萄酒分类模型。注意:目前我正在使用TrueCar版本的mleap。计划很快更新。现在,当我尝试启动服务器来提供服务时......
我对Spark ML API有点新意。我正在尝试通过训练160个分类器(后勤或随机森林等)对160个标签进行多标签分类。一旦我在Dataset [LabeledPoint]上训练,我发现......
在相同配置下执行Spark应用程序时,任务,阶段和作业的数量是否有所不同?
我目前正在集群中执行K-Means算法。在相同配置下的连续执行(相同数量的执行程序,RAM,迭代,数据集)任务数量,......
我想使用R(最好是SparkR)对变量进行离散化处理,以便所需的结果如下所示。 library(arules)mtcars%>%mutate(bins = discretize(x = mpg,method =“...
我编写了以下代码来将数据提供给Spark 2.3中的机器学习算法。下面的代码运行正常。我需要增强此代码,以便能够转换不仅3列,但任何...
假设我有40个连续(DoubleType)变量,我使用ft_quantile_discretizer将其变为四分位数。识别所有变量的四分位数非常快,因为函数...
如何将VectorAssembler输出中的特征映射回Spark ML中的列名?
我正在尝试在PySpark中运行线性回归,我想创建一个包含汇总统计信息的表,例如我的数据集中每列的系数,P值和t值。但是,按顺序......
pyspark.sql.utils.IllegalArgumentException:u'Field“features”不存在。
我正在尝试执行随机森林分类器并使用交叉验证来评估模型。我使用pySpark。输入CSV文件作为Spark DataFrame格式加载。但我面临一个问题......
我试图理解spark.ml如何处理字符串分类独立变量。我知道在Spark中我必须使用StringIndexer将字符串转换为双精度数。例如,“a”/“b”/“c”=> 0.0 / 1.0 / 2.0。 ...
有人可以解释VectorAssembler的行为吗?来自pyspark.ml.linalg导入来自pyspark.ml.feature的向量导入VectorAssembler assembler = VectorAssembler(inputCols = ['CategoryID','...
我使用Spark ML方法创建了一个KMeans模型。 val kmeans = new KMeans()val model = kmeans.fit(df)我准备好了我的模型。但是如何预测哪个群集中的新数据点会下降。 ...
你们知道我在哪里可以找到Spark中多类分类的例子。我花了很多时间在书本和网络上搜索,到目前为止我只知道它可能是最新的......
PySpark ML特征变换,调用拟合/变换方法两次或覆盖它?
我们可以使用Spark-ML库中提供的各种预处理类。来自pyspark.ml.feature import StringIndexer,VectorIndexer,VectorAssembler labelIndexer = StringIndexer(inputCol = label_name,...
我试图用自定义阶段创建和保存管道。我需要使用UDF向我的DataFrame添加一列。因此,我想知道是否有可能转换UDF或类似的动作......
我是Spark / Scala的新手。我不知道如何使用spark数据集来过滤像pandas.loc这样的列。 pandas代码:data_fact = pd.read_excel(path,sheetname = sheetname_factor)//删除一些列...