apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

Java SparkML线性回归

我正在尝试测试关于线性回归机器学习算法的spark给出的例子,可以在这里找到:https://spark.apache.org/docs/2.2.0/ml-classification-regression ....

回答 1 投票 0

Spark MLlib:9570柱上的PCA需要太长时间

1)我在9570列上进行PCA,在本地模式下提供12288 mb RAM(仅限驱动程序),从1.5小时到2小时。这是代码(非常简单):System.out.println(“ 1级\ n“); ...

回答 1 投票 0

Spark LDA消耗太多内存

我正在尝试使用spark mllib lda来总结我的文档语料库。我的问题设置如下。大约100,000个文档大约400,000个独特单词100个集群我有16个服务器(每个有20个...

回答 1 投票 12

PySpark和MLLib:随机森林预测的类概率

我正在尝试提取我使用PySpark训练的随机森林对象的类概率。但是,我没有在文档中的任何地方看到它的示例,也不是一种...的方法。

回答 4 投票 9

K表示PySpark中的聚类

我有一个包含许多列的spark数据帧'mydataframe'。我试图只在两列上运行kmeans:lat和long(纬度和经度),使用它们作为简单值)。我要提取7 ...

回答 2 投票 7

PySpark AttributeError:类型对象'ALS'没有属性'trainImplicit'

我正在尝试使用ALS训练我的数据集以找到潜在因素。我的数据集是隐式评级。在深度上,我的数据库包括三列User,Item(Repositories)和Rating(Number of ...

回答 1 投票 0

将OneHotEncoder应用于SparkMlib中的多个分类列

我有几个分类功能,并希望使用OneHotEncoder将它们全部转换。但是,当我尝试应用StringIndexer时,我得到一个错误:stringIndexer = StringIndexer(...

回答 2 投票 4

sparklyr ml_kmeans字段“功能”不存在

AWS EC2 Spark / Hadoop集群。以下baisc K-Means sparklyr代码适用于Spark 2.0.1 kmeans_model%select(Petal_Width,Petal_Length)%>%ml_kmeans(centers = ...

回答 1 投票 1

随机森林分类器指标rdd

寻找随机森林分类器指标,如ROC,精确召回曲线,精度,召回,基于Dataframe使用pyspark的F1分数。我可以在RDD对象上获得相同的指标。有人可以......

回答 1 投票 0

如何基于if条件跳过spark rdd map动作中的行

我有一个文件,我想给它一个mllib算法。所以我按照这个例子做了类似的事情:val data = sc.textFile(my_file)。 map {line => val parts = line.split(...

回答 3 投票 0

如何在Apache Spark中保存和加载MLLib模型?

我在Apache Spark中训练了一个分类模型(使用pyspark)。我将模型存储在一个对象LogisticRegressionModel中。现在,我想对新数据做出预测。我想存储模型,......

回答 1 投票 7

如何使更快的窗口文本文件和机器学习在火花窗口

我正在尝试使用Spark来学习窗口化文本文件中的多类逻辑回归。我正在做的是首先创建窗口并将它们分解为$“word_winds”。然后移动每个中心词......

回答 1 投票 0

使用树输出在Spark中使用渐变增强树来预测类的概率

众所周知,Spark中的GBT为您提供了截至目前的预测标签。我正在考虑计算一个类的预测概率(比如说落在某个叶子下的所有实例)......

回答 5 投票 5

在Spark MLlib上使用Java中的Breeze

在尝试使用Java中的MLlib时,使用breeze Matrix操作的正确方法是什么?对于例如scala中的乘法它只是“矩阵*向量”。相应的功能如何......

回答 2 投票 3

如何在java中将apache.spark.ml.linalg.Vector转换为arrayList?

我试图将apache.spark.ml.linalg.Vector转换为Java中的ArrayList。源代码是这样的:Vector vector =(Vector)row.get(1);数组列表 vectorList = new ArrayList

回答 1 投票 0

在MultiClass Classification上使用Spark ML的Logistic回归模型给出错误:列预测已经存在

我使用Spark ML的Logistic回归模型进行分类问题,有100个类别(0-99)。我在数据集中的列是 - “_ c0,_c1,_c2,_c3,_c4,_c5”,其中_c5是目标变量并且休息......

回答 1 投票 0

从PySpark了解MLlib的分割功能

我有以下转换数据。 dataframe:rev + -------- + ------------------ + | features |标签| + -------- + ------------------ + | [24.0] | 6.382551510879452 | | [29.0] | 6 ....

回答 1 投票 0

Sparkexception:写入行时任务失败(Spark on Kubernetes)

我在Kubernetes(Azure Kubernetes服务)上有Apache Spark 2.4.1环境。 Spark容器图像由官方二进制文件(spark-2.4.1-bin-hadoop2.7.tgz)制成。它的例子很好......

回答 2 投票 1

我应该如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset?

我很难理解RDD,DataSet和DataFrame之间的转换是如何工作的。我对Spark很陌生,每当我需要从数据模型传递到另一个时,我就会陷入困境(特别是...

回答 2 投票 2

Spark - 主题建模中没有剩余磁盘空间

我在64GB RAM,32核和500GB磁盘空间的系统上运行Jupyter笔记本。大约700k文档将被建模为600个主题。词汇量大小为48000字。 100次迭代......

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.