apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

如何逐步加载,适应新数据,使用spark保存管道模型?

任何指针都可以逐步训练和构建模型,并获得单个元素的预测。尝试运行Web应用程序会将数据写入共享路径中的csv,以及ml应用程序......

回答 1 投票 0

Spark / Mllib以分布式方式训练许多GaussianMixture模型

我一直在玩为spark / mllib提供的高斯混合模型。我发现从大量的矢量/点生成GaussianMixture非常好。但是,这是......

回答 1 投票 1

如何在Spark中选择kMean集群作为新的Dataframe

我有一个包含几百万个条目的数据框,我使用了k-Means聚类,发现一个特定的集群与其他集群有着截然不同的中心。这很有趣。我怎样才能选择......

回答 1 投票 0

系统之间是否有随机种子兼容?

我使用python的sklearn包制作了一个随机森林模型,我将种子设置为例如1234.为了生产模型,我们使用pyspark。如果我要传递相同的超高压计并且相同...

回答 3 投票 4

在mleap中提供葡萄酒分类模型

我有一个使用mleap训练和保存的葡萄酒分类模型。注意:目前我正在使用TrueCar版本的mleap。计划很快更新。现在,当我尝试启动服务器来提供服务时......

回答 1 投票 1

如何在Intellij中的Scala Jar中添加外部Excel文件

我想用我的代码保留一个excel文件。如果我将我的罐子传递给其他人。他也可以阅读excel ..在Scala Intellij中有没有办法做到这一点。文件夹结构

回答 1 投票 1

使用k-means聚类时如何设置火花配置以减少混乱?

我知道有很多'如何调整你的Spark工作'等博客文章和帖子,但不幸的是我的目标是在pyspark(k-means)中使用内置的集群模块,所以建议......

回答 1 投票 0

用Pyspark训练随机森林回归模型

我正在研究一个情绪分析项目,使用从stocktwits中提取的json格式提取的数据。每条推文都被分配到一个情绪分数,该分数是0到1之间的一个浮点数。我......

回答 1 投票 -3

Spark Scala FPGrowth没有任何结果?

我正在尝试使用Scala从Spark MLLib中获取一些频繁的项集和关联规则。但实际上我没有得到任何东西,甚至没有错误。代码(spark / databricks笔记本)和数据......

回答 1 投票 0

转换Spark DataFrame以进行ML处理

我编写了以下代码来将数据提供给Spark 2.3中的机器学习算法。下面的代码运行正常。我需要增强此代码,以便能够转换不仅3列,但任何...

回答 1 投票 0

撤消比例数据pyspark

来自pyspark.ml.feature从pyspark.ml.linalg导入MinMaxScaler导入向量df = spark.createDataFrame([(0,Vectors.dense([5.0,0.1,-1.0]),),(1,Vectors.dense([ 2.0,2.1,1.0]),),(2,...

回答 1 投票 2

如何调整spark应用程序以避免OOM异常

我使用Spark 2.0.2。我正在尝试运行一个对已经创建的模型进行预测的spark应用程序。群集信息:m4.2xlarge 16个vCPU,32个GiB内存,仅EBS存储EBS存储:1000个GiB ...

回答 1 投票 1

K均值中的Spark ML-预测

我使用Spark ML方法创建了一个KMeans模型。 val kmeans = new KMeans()val model = kmeans.fit(df)我准备好了我的模型。但是如何预测哪个群集中的新数据点会下降。 ...

回答 1 投票 -1

model.getVectors()。keys()是否会返回模型中的所有键

下面是一个示例代码。我正在尝试获取newfile.txt中所有单词的向量表示(文件有新闻文章)。想知道model.getVectors()。keys()是否输出所有键(...

回答 1 投票 0

如何使用NNLS进行非负多元线性回归?

我试图解决Java中的非负多元线性回归问题。我找到了用Scala编写的解算器类org.apache.spark.mllib.optimization.NNLS。但是,我不知道怎么用...

回答 2 投票 0

Spark多类分类示例

你们知道我在哪里可以找到Spark中多类分类的例子。我花了很多时间在书本和网络上搜索,到目前为止我只知道它可能是最新的......

回答 2 投票 5

PySpark ML特征变换,调用拟合/变换方法两次或覆盖它?

我们可以使用Spark-ML库中提供的各种预处理类。来自pyspark.ml.feature import StringIndexer,VectorIndexer,VectorAssembler labelIndexer = StringIndexer(inputCol = label_name,...

回答 1 投票 0

SparkML MultilayerPerceptron错误:java.lang.ArrayIndexOutOfBoundsException

我有以下模型,我想使用SparkML MultilayerPerceptronClassifier()估计。 val formula = new RFormula()。setFormula(“vtplus15predict~vhistt plus15 + vhistt + vt + ...

回答 3 投票 0

如何按列值训练单独的模型?

如何基于在Spark数据框架中的某个列的寡妇运行不同的回归模型?假设我有2个产品的功能和标签与这些产品相关联...

回答 1 投票 0

在Spark中将BigInt转换为Int

嗨,我正在尝试将BigInt转换为int以生成Rating类。我只想使用足够小的实例来使用以下代码:val tup = rs.select(“...

回答 3 投票 3

© www.soinside.com 2019 - 2024. All rights reserved.