apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

PySpark 上的 MinHashLSH 问题

我正在尝试使用 PySpark 运行文本相似性分析。在使用 CountVectorizer 和 vocabSize=5000 对我的文本输入进行矢量化后，我正在对数据运行 approxSimilarityJoin。当我做...

apache-spark pyspark apache-spark-mllib

回答 0 投票 0

如何对单个DatasetDataFrame的每个分区子集拟合多个Spark ml模型？

我想一次训练多个Spark ML模型，使用单个Dataset的每个子集。(一个分区到一个模型。)我怎么才能有效地实现它？Scala的循环似乎不太好，因为DAG会...

scala apache-spark apache-spark-mllib

回答 1 投票 3

Pyspark NLTK保存输出

我使用spark 2.3.1，对上千个输入文件进行NLTK。从输入文件中我提取了unigram，bigram和trigram单词，并将其保存在不同的数据框架中。现在我想保存...

apache-spark pyspark apache-spark-sql apache-spark-mllib apache-spark-2.0

回答 1 投票 0

在Apache Spark中尝试将Dataframe写入CSV时，行为不一致。

我试图将我使用Spark的MLlib训练的一个决策树分类器的最优超参数输出到一个使用Dataframes和spark-csv的csv文件中。下面是我的一段代码。/ 拆分...

csv apache-spark apache-spark-sql apache-spark-mllib spark-csv

回答 1 投票 0

pyspark MLlib还在维护开发吗？

我2017年的书 "学习pyspark "可以阅读。即使MLlib现在是在维护模式，也就是说，它不积极被开发（并将很可能被废弃后）... ... 所以我...

apache-spark pyspark apache-spark-mllib

回答 1 投票 0

稀疏向量的火花决策树

我有一个带标签的数据集，其中包括350万条推文，我想使用Spark中的决策树对该数据集进行分类。我要做的第一件事是使用以下代码获取每个推文的tf-idf向量：...

scala apache-spark apache-spark-mllib

回答 1 投票 0

如何仅获得概率大于x的预测

我使用随机森林将文本分类为某些类别。使用测试数据时，我的精度为0.98。但是，使用另一组数据时，总体精度会降低到0.7。我认为，大多数...

random-forest apache-spark-mllib

回答 1 投票 0

Spark：FlatMap和CountVectorizer管道

我正在处理管道，并尝试在将列值传递给CountVectorizer之前对其进行拆分。为此，我制作了一个自定义的变形金刚。类FlatMapTransformer（重写val uid：String）...

scala apache-spark apache-spark-mllib countvectorizer

回答 1 投票 2

Spark分类预测中的索引返回概率

apache-spark apache-spark-mllib apache-spark-ml multiclass-classification

回答 1 投票 1

如何从Spark中的String加载数据集

从spark的文档中，我知道我可以从文件的libsvm格式的数据集中进行加载。但是，我想在远程Spark集群中运行代码，因此我将虹膜数据集硬编码到了我的代码中，并且我想要...

apache-spark apache-spark-mllib apache-spark-ml

回答 1 投票 0

AttributeError：'PipelineModel'对象没有属性'fitMultiple'

我正在尝试使用pyspark，CrossValidator和BinaryClassificationEvaluator，CrossValidator调整随机森林模型，但是这样做时会出现错误。这是我的代码。来自pyspark.ml。...

python machine-learning pyspark apache-spark-mllib

回答 1 投票 0

向量汇编器到密集向量的显式转换

如何将向量汇编器的输出转换为密集向量而不是稀疏向量？ val featureIndexer = new VectorAssembler（）。setInputCols（Array（“ feature1”，“ feature2”，“ feature3”））....

scala apache-spark apache-spark-mllib

回答 1 投票 0

Spark Ml评估方法

我有一个火花数据框，如下所示：predictions.show（5）+ ------ + ---- + ------ + ----------- + |用户|项目|评分|预测| + ------ + ---- + ------ + ----------- + | 379433 | 31 | 1 | 0.08203495 | | 1834 | ...

python apache-spark pyspark apache-spark-mllib apache-spark-ml

回答 1 投票 10

如何创建已经适合初始数据集的训练新样本的估计器？

我正在按照在Spark源代码DeveloperApiExample.scala中找到的这个示例创建自己的Estimator。但是在此示例中，每次我在Estimator中调用fit（）方法时，它都会...

scala apache-spark machine-learning apache-spark-mllib

回答 1 投票 1

Spark DataFrame中向量的访问元素，而未在Pyspark中使用UDF

我正试图解决这个问题：[访问Spark DataFrame中的向量的元素（逻辑回归概率向量），但在Pyspark中未使用UDF的情况下，我在Scala中看到了很多选择...

python apache-spark apache-spark-sql apache-spark-mllib apache-spark-ml

回答 1 投票 0

从Spark 2.2.0中的管道模型输出中获取BinaryLogisticRegressionSummary

我以前在Spark 2.2.0中使用过Logistic回归模型，并通过对某些带标签的测试数据调用模型的validate（）方法，可以得到BinaryLogisticRegressionSummary ...

apache-spark machine-learning logistic-regression apache-spark-mllib apache-spark-ml

回答 1 投票 0

在Java Spark中使用Jackson 2.9.9

我正在尝试使用MLLIB库（java），但是我的依赖项之一是使用Jackson 2.9.9。我注意到发出了一个拉取请求，以便将master分支的依赖项升级到此...

java apache-spark jackson apache-spark-mllib

回答 1 投票 1

Java / Spark：如何在带有映射结构数组的col中查找具有最大值的键

我有一个数据框，我想在映射中获取具有最大值的键。创建数据帧：Dataset data = spark.read（）.option（“ header”，“ true”）.option（“ ...

java dataframe apache-spark-sql aggregation apache-spark-mllib

回答 1 投票 0

使用MLlib缩放数据集

我正在使用spark MLlib在下面的数据集上进行缩放：-+ --- + -------------- + | id |功能| + --- + -------------- + | 0 | [1.0,0.1，-1.0] | | 1 | [2.0,1.1,1.0] | | 0 | [1 ....

scala apache-spark machine-learning apache-spark-mllib

回答 1 投票 0

无法使用网格搜索来检索bestModel

我正在使用以下代码来最适合回归模型并得到错误：＃创建参数网格params = ParamGridBuilder（）＃为两个参数params = params添加网格...]]

python machine-learning pyspark apache-spark-mllib grid-search

回答 1 投票 -1

apache-spark-mllib 相关问题

最新问题