apache-spark-ml 相关问题

Spark ML是用于在Apache Spark中构建机器学习管道的高级API。

我如何在pyspark的GBTClassifier中调整阈值

似乎无法在pyspark中的GBTClassifier模型上设置阈值。它确实出现在explainparams()中,但是没有出现在pyspark的构造函数或set函数中。如果...

回答 1 投票 1

Sparklyr分割字符串(字符串)

试图sparklyr分割字符串,然后用它来连接/过滤我试图令牌化的字符串,然后将其分离到新列的建议的方法。这里是一个重复的例子(注...

回答 1 投票 1

你如何从型号输入列名?

例如,采取OneHotEncoderModel但你可以采取从pyspark.ml.feature包东西。当您使用OneHotEncoderEstimator你必须设置inputCols的选项。在面对你必须使用...

回答 1 投票 1

PySpark类型错误:类型“ParamGridBuilder”对象没有LEN()

我想调整我使用Pyspark Databricks模型。我收到以下错误:类型错误:类型“ParamGridBuilder”的对象没有LEN()我的代码已被列出如下。从pyspark.ml ....

回答 1 投票 -1

服务与培训的星火ML模型实时预测[复制]

我们目前正在测试一个预测引擎基于Python中的星火的实现LDA的:https://spark.apache.org/docs/2.2.0/ml-clustering.html#latent-dirichlet-allocation-lda https://开头的火花....

回答 1 投票 6

如何在pyspark中将列拆分为标签和功能?

我正在研究PySpark。从https://spark.apache.org/docs/2.2.0/ml-pipeline.html,有一个例子:来自pyspark.ml.linalg import来自pyspark.ml.classification的向量导入LogisticRegression#...

回答 1 投票 1

Spark ML中的尺寸不匹配错误

我对ML和Spark ML都很陌生,我正在尝试使用带有Spark ML的神经网络制作预测模型,但是当我在学习模型上调用.transform方法时,我得到了这个错误。 ......

回答 2 投票 3

如何在pyspark中可视化决策树模型/对象?

有没有办法可视化/绘制使用pyspark中的mllib或ml库创建的决策树。另外,如何获取叶节点中的记录数等信息。谢谢

回答 2 投票 3

增加MinHashLSH中的哈希表会降低精度和f1

我使用MinHashLSH和ApproxSimilarityJoin一起使用Scala和Spark 2.4来查找网络之间的边缘。基于文档相似性的链接预测。我的问题是,虽然我在增加......

回答 1 投票 -2

Sparklyr错误:由于阶段失败导致作业中止22.0失败1次,最近失败:丢失任务SparkException:看不见标签

我正试图从我的火花源实现机器学习(k均值)。我有一个有2列的表:审查和标签(正面或负面)一切似乎都很好。但是当我跑...

回答 1 投票 1

如何在pyspark中从MLP管道模型中获得最佳超参数?

我正在使用pyspark.ml.classification中的MLP分类器。我使用交叉验证将我的MLP模型拟合到数据集,即; ParamGrid方法。我正在使用ParamGrid方法迭代几个...

回答 1 投票 1

从PySpark ParamGrid中提取MLP层

所以我在Pipeline和CrossValidator之后从PySpark模型中提取超参数时遇到了麻烦。我在StackOverflow上找到了以下答案:如何从spark中提取模型超参数....

回答 1 投票 1

ChiSqSelector选择了错误的功能?

我从Spark 2.3.0 Shell的文档中复制粘贴了这个例子。 import org.apache.spark.ml.feature.ChiSqSelector import org.apache.spark.ml.linalg.Vectors val data = Seq((7,Vectors.dense(0.0,...)

回答 1 投票 1

将UDF余弦相似性应用于Pyspark中的分组ML向量的问题

将UDF(dot_group)应用于分组数据时出错。该UDF的目的是计算由特征列构成的每个组的ML矢量之间的成对余弦相似性。 ......

回答 1 投票 1

Spark ML:DecisionTreeClassificatonModel如何知道树权重?

我想从保存的(或未保存的)DecisionTreeClassificationModel中获取树节点的权重。但是我找不到任何类似的东西。模型如何实际执行......

回答 1 投票 0

如何将数组(即列表)列转换为Vector

问题的简短版本!考虑以下片段(假设spark已经设置为某些SparkSession):来自pyspark.sql import Row source_data = [Row(city =“Chicago”,temperature = [-...

回答 2 投票 50

我们是否可以更新spark-ml / spark-mllib中的现有型号?

我们使用spark-ml从现有数据构建模型。新数据每天都在发布。有没有办法我们只能读取新数据并更新现有模型而无需阅读所有...

回答 2 投票 2

pyspark:在gridsearch为空后获取最佳模型的参数{}

有人可以帮助我从网格搜索中提取表现最佳的模型参数吗?由于某种原因,它是一个空白的字典。来自pyspark.ml.tuning导入ParamGridBuilder,...

回答 3 投票 1

为什么Spark的Word2Vec会返回Vector?

运行Spark的Word2Vec示例,我意识到它接收了一个字符串数组并给出了一个向量。我的问题是,它不应该返回矩阵而不是向量吗?我期待一个......

回答 2 投票 2

如何在MLReader上创建泛型函数

我在Spark 1.6.3工作。以下是两个执行相同操作的函数:def modelFromBytesCV(modelArray:Array [Byte]):CountVectorizerModel = {val tempPath:Path = KAZOO_TEMP_DIR.resolve(s“...

回答 1 投票 1

© www.soinside.com 2019 - 2024. All rights reserved.