MLlib是Apache Spark的机器学习库
我正在尝试测试关于线性回归机器学习算法的spark给出的例子,可以在这里找到:https://spark.apache.org/docs/2.2.0/ml-classification-regression ....
1)我在9570列上进行PCA,在本地模式下提供12288 mb RAM(仅限驱动程序),从1.5小时到2小时。这是代码(非常简单):System.out.println(“ 1级\ n“); ...
我正在尝试使用spark mllib lda来总结我的文档语料库。我的问题设置如下。大约100,000个文档大约400,000个独特单词100个集群我有16个服务器(每个有20个...
我正在尝试提取我使用PySpark训练的随机森林对象的类概率。但是,我没有在文档中的任何地方看到它的示例,也不是一种...的方法。
我有一个包含许多列的spark数据帧'mydataframe'。我试图只在两列上运行kmeans:lat和long(纬度和经度),使用它们作为简单值)。我要提取7 ...
PySpark AttributeError:类型对象'ALS'没有属性'trainImplicit'
我正在尝试使用ALS训练我的数据集以找到潜在因素。我的数据集是隐式评级。在深度上,我的数据库包括三列User,Item(Repositories)和Rating(Number of ...
将OneHotEncoder应用于SparkMlib中的多个分类列
我有几个分类功能,并希望使用OneHotEncoder将它们全部转换。但是,当我尝试应用StringIndexer时,我得到一个错误:stringIndexer = StringIndexer(...
AWS EC2 Spark / Hadoop集群。以下baisc K-Means sparklyr代码适用于Spark 2.0.1 kmeans_model%select(Petal_Width,Petal_Length)%>%ml_kmeans(centers = ...
寻找随机森林分类器指标,如ROC,精确召回曲线,精度,召回,基于Dataframe使用pyspark的F1分数。我可以在RDD对象上获得相同的指标。有人可以......
我有一个文件,我想给它一个mllib算法。所以我按照这个例子做了类似的事情:val data = sc.textFile(my_file)。 map {line => val parts = line.split(...
我在Apache Spark中训练了一个分类模型(使用pyspark)。我将模型存储在一个对象LogisticRegressionModel中。现在,我想对新数据做出预测。我想存储模型,......
我正在尝试使用Spark来学习窗口化文本文件中的多类逻辑回归。我正在做的是首先创建窗口并将它们分解为$“word_winds”。然后移动每个中心词......
众所周知,Spark中的GBT为您提供了截至目前的预测标签。我正在考虑计算一个类的预测概率(比如说落在某个叶子下的所有实例)......
在尝试使用Java中的MLlib时,使用breeze Matrix操作的正确方法是什么?对于例如scala中的乘法它只是“矩阵*向量”。相应的功能如何......
如何在java中将apache.spark.ml.linalg.Vector转换为arrayList?
我试图将apache.spark.ml.linalg.Vector转换为Java中的ArrayList。源代码是这样的:Vector vector =(Vector)row.get(1);数组列表 vectorList = new ArrayList
在MultiClass Classification上使用Spark ML的Logistic回归模型给出错误:列预测已经存在
我使用Spark ML的Logistic回归模型进行分类问题,有100个类别(0-99)。我在数据集中的列是 - “_ c0,_c1,_c2,_c3,_c4,_c5”,其中_c5是目标变量并且休息......
我有以下转换数据。 dataframe:rev + -------- + ------------------ + | features |标签| + -------- + ------------------ + | [24.0] | 6.382551510879452 | | [29.0] | 6 ....
Sparkexception:写入行时任务失败(Spark on Kubernetes)
我在Kubernetes(Azure Kubernetes服务)上有Apache Spark 2.4.1环境。 Spark容器图像由官方二进制文件(spark-2.4.1-bin-hadoop2.7.tgz)制成。它的例子很好......
我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset?
我很难理解RDD,DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生,每当我需要从数据模型传递到另一个时,我就会陷入困境(特别是...
我在64GB RAM,32核和500GB磁盘空间的系统上运行Jupyter笔记本。大约700k文档将被建模为600个主题。词汇量大小为48000字。 100次迭代......