apache-spark-ml 相关问题

Spark ML是用于在Apache Spark中构建机器学习管道的高级API。

Spark中的多输出分类

我们可以预测Pyspark中的多个目标变量,就像我们在sklearn中执行MultiOutputClassifier一样吗?我有一个多个目标变量的数据集问题复杂性技能1技能2 ...

回答 1 投票 -1

SparkML:管道预测的记录少于输入

我怎样才能找到 - 在管道内 - 从转换中跳过或删除哪些记录?我有一个管道,如下所示:StringIndexer OneHotEncoderEstimator(重复...

回答 1 投票 1

Spark MLlib和Spark ML中的PCA

Spark现在有两个机器学习库 - Spark MLlib和Spark ML。它们在实现的内容上有些重叠,但正如我所理解的那样(作为整个Spark生态系统的新人)Spark ML是......

回答 1 投票 9

如何按类别在spark [duplicate]中按指定的数量进行抽样

我有一个DataFrame,它包含n个属性(列)。 DataFrame的总数可能每天都有所不同(增加)。假设我有一个类别列有四种类型 - typea,...

回答 2 投票 -1

PySpark ML:LinearSVC的OnevsRest策略

我是PySpark的新手。我在Windows 10上安装了Spark 2.3.0。我想使用线性SVM分类器进行交叉验证训练,但是对于具有3个类的数据集。所以我想申请......

回答 1 投票 2

Spark随机森林 - 无法将float转换为int错误

我有数字和二进制响应的功能。我正在尝试构建集合决策树,例如随机森林和渐变提升树。但是,我收到一个错误。我转载了......

回答 1 投票 0

K表示PySpark中的聚类

我有一个包含许多列的spark数据帧'mydataframe'。我试图只在两列上运行kmeans:lat和long(纬度和经度),使用它们作为简单值)。我要提取7 ...

回答 2 投票 7

PySpark AttributeError:类型对象'ALS'没有属性'trainImplicit'

我正在尝试使用ALS训练我的数据集以找到潜在因素。我的数据集是隐式评级。在深度上,我的数据库包括三列User,Item(Repositories)和Rating(Number of ...

回答 1 投票 0

在Spark ML中,为什么在具有数百万个不同值的列上拟合StringIndexer会产生OOM错误?

我试图在一个具有大约15.000.000个唯一字符串值的列上使用Spark的StringIndexer特征转换器。无论我投入多少资源,Spark总会因为一些而死在我身上......

回答 1 投票 4

在Spark MLlib中,DataFrame的列'rawPrediction'和'概率'意味着什么?

在我训练了LogisticRegressionModel之后,我用它转换了测试数据DF并得到了预测DF。然后当我调用prediction.show()时,输出列名是:[label |功能| ...

回答 3 投票 4

在csv数据上应用Logistic回归时出现问题

我是机器学习的新手,我正试图在本地模式下使用scala和spark来学习它,我的要求是在Csv数据上应用Logistic回归。 CSV数据示例:id ...

回答 1 投票 0

TypeError:不支持的操作数类型+:'map'和'list'与Pyspark

我正在通过jupyter笔记本中的pyspark示例来了解它的工作原理。我遇到了一个我无法找到帮助的问题。所以,这是加载sparkContext后的代码和...

回答 1 投票 1

pyspark:NameError:未定义名称'spark'

我正在从官方文档网站复制pyspark.ml示例:http://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.Transformer data = [(Vectors.dense ([0.0,0.0]),),(...

回答 3 投票 9

将OneHotEncoder应用于SparkMlib中的多个分类列

我有几个分类功能,并希望使用OneHotEncoder将它们全部转换。但是,当我尝试应用StringIndexer时,我得到一个错误:stringIndexer = StringIndexer(...

回答 2 投票 4

Pyspark错误:py4j.java_gateway:尝试连接到Java服务器时发生错误(127.0.0.1:50532)

您好我正在与Pyspark合作,使用ML包实施情感分析项目第一次cofde工作正常但突然显示上面提到的错误有人可以......

回答 1 投票 1

使用定义函数Spark 2.4?

我正在运行一个kmeans算法,我创建了一个VectorAssembler,将inputcols设置为(“longitude”,“latitude”),将outputCol设置为(“location”)。我需要将我的数据从json文件聚类到3个集群。一世 ...

回答 1 投票 1

Spark ML - MulticlassClassificationEvaluator - 我们可以通过每个类标签获得精确/召回吗?

我在Spark ML中使用随机森林进行多类预测。对于spark ML中的MulticlassClassificationEvaluator(),是否可以通过每个类标签获得精确度/召回率?目前,我......

回答 1 投票 9

随机森林允许的最大深度是多少?我正在使用Spark ML

我正在使用Spark ML。需要知道允许的最大深度?随机森林最大限制我知道默认值是5,但想知道我能走多远

回答 1 投票 0

IllegalArgumentException,从Spark(Scala)将ML模型写入s3时错误的FS

我创建了一个模型:val model = pipeline.fit(commentLower),我正在尝试将其写入s3:sc.hadoopConfiguration.set(“fs.s3.impl”,“org.apache.hadoop.fs。 s3native.NativeS3FileSystem“)sc ....

回答 2 投票 1

如何将Vector拆分为列 - 使用PySpark

上下文:我有一个包含2列的DataFrame:word和vector。其中“vector”的列类型是VectorUDT。一个例子:单词|矢量断言| [435,323,324,212 ...]我想得到这个:......

回答 2 投票 27

© www.soinside.com 2019 - 2024. All rights reserved.