apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

PySpark 上的 MinHashLSH 问题

我正在尝试使用 PySpark 运行文本相似性分析。在使用 CountVectorizer 和 vocabSize=5000 对我的文本输入进行矢量化后,我正在对数据运行 approxSimilarityJoin。当我做...

回答 0 投票 0

如何对单个DatasetDataFrame的每个分区子集拟合多个Spark ml模型?

我想一次训练多个Spark ML模型,使用单个Dataset的每个子集。(一个分区到一个模型。)我怎么才能有效地实现它?Scala的循环似乎不太好,因为DAG会...

回答 1 投票 3

Pyspark NLTK保存输出

我使用spark 2.3.1,对上千个输入文件进行NLTK。从输入文件中我提取了unigram,bigram和trigram单词,并将其保存在不同的数据框架中。现在我想保存...

回答 1 投票 0

在Apache Spark中尝试将Dataframe写入CSV时,行为不一致。

我试图将我使用Spark的MLlib训练的一个决策树分类器的最优超参数输出到一个使用Dataframes和spark-csv的csv文件中。下面是我的一段代码。/ 拆分...

回答 1 投票 0

pyspark MLlib还在维护开发吗?

我2017年的书 "学习pyspark "可以阅读。即使MLlib现在是在维护模式, 也就是说,它不积极被开发 (并将很可能被废弃后)... ... 所以我...

回答 1 投票 0

稀疏向量的火花决策树

我有一个带标签的数据集,其中包括350万条推文,我想使用Spark中的决策树对该数据集进行分类。我要做的第一件事是使用以下代码获取每个推文的tf-idf向量:...

回答 1 投票 0

如何仅获得概率大于x的预测

我使用随机森林将文本分类为某些类别。使用测试数据时,我的精度为0.98。但是,使用另一组数据时,总体精度会降低到0.7。我认为,大多数...

回答 1 投票 0

Spark:FlatMap和CountVectorizer管道

我正在处理管道,并尝试在将列值传递给CountVectorizer之前对其进行拆分。为此,我制作了一个自定义的变形金刚。类FlatMapTransformer(重写val uid:String)...

回答 1 投票 2


如何从Spark中的String加载数据集

从spark的文档中,我知道我可以从文件的libsvm格式的数据集中进行加载。但是,我想在远程Spark集群中运行代码,因此我将虹膜数据集硬编码到了我的代码中,并且我想要...

回答 1 投票 0

AttributeError:'PipelineModel'对象没有属性'fitMultiple'

我正在尝试使用pyspark,CrossValidator和BinaryClassificationEvaluator,CrossValidator调整随机森林模型,但是这样做时会出现错误。这是我的代码。来自pyspark.ml。...

回答 1 投票 0

向量汇编器到密集向量的显式转换

如何将向量汇编器的输出转换为密集向量而不是稀疏向量? val featureIndexer = new VectorAssembler()。setInputCols(Array(“ feature1”,“ feature2”,“ feature3”))....

回答 1 投票 0

Spark Ml评估方法

我有一个火花数据框,如下所示:predictions.show(5)+ ------ + ---- + ------ + ----------- + |用户|项目|评分|预测| + ------ + ---- + ------ + ----------- + | 379433 | 31 | 1 | 0.08203495 | | 1834 | ...

回答 1 投票 10

如何创建已经适合初始数据集的训练新样本的估计器?

我正在按照在Spark源代码DeveloperApiExample.scala中找到的这个示例创建自己的Estimator。但是在此示例中,每次我在Estimator中调用fit()方法时,它都会...

回答 1 投票 1

Spark DataFrame中向量的访问元素,而未在Pyspark中使用UDF

我正试图解决这个问题:[访问Spark DataFrame中的向量的元素(逻辑回归概率向量),但在Pyspark中未使用UDF的情况下,我在Scala中看到了很多选择...

回答 1 投票 0

从Spark 2.2.0中的管道模型输出中获取BinaryLogisticRegressionSummary

我以前在Spark 2.2.0中使用过Logistic回归模型,并通过对某些带标签的测试数据调用模型的validate()方法,可以得到BinaryLogisticRegressionSummary ...

回答 1 投票 0

在Java Spark中使用Jackson 2.9.9

我正在尝试使用MLLIB库(java),但是我的依赖项之一是使用Jackson 2.9.9。我注意到发出了一个拉取请求,以便将master分支的依赖项升级到此...

回答 1 投票 1

Java / Spark:如何在带有映射结构数组的col中查找具有最大值的键

我有一个数据框,我想在映射中获取具有最大值的键。创建数据帧:Dataset data = spark.read().option(“ header”,“ true”).option(“ ...

回答 1 投票 0

使用MLlib缩放数据集

我正在使用spark MLlib在下面的数据集上进行缩放:-+ --- + -------------- + | id |功能| + --- + -------------- + | 0 | [1.0,0.1,-1.0] | | 1 | [2.0,1.1,1.0] | | 0 | [1 ....

回答 1 投票 0

无法使用网格搜索来检索bestModel

我正在使用以下代码来最适合回归模型并得到错误:#创建参数网格params = ParamGridBuilder()#为两个参数params = params添加网格...]]

回答 1 投票 -1

© www.soinside.com 2019 - 2024. All rights reserved.