apache-spark-ml 相关问题

Spark ML是用于在Apache Spark中构建机器学习管道的高级API。

Spark - 主题建模中没有剩余磁盘空间

我在64GB RAM,32核和500GB磁盘空间的系统上运行Jupyter笔记本。大约700k文档将被建模为600个主题。词汇量大小为48000字。 100次迭代......

回答 1 投票 1

如何逐步加载,适应新数据,使用spark保存管道模型?

任何指针都可以逐步训练和构建模型,并获得单个元素的预测。尝试运行Web应用程序会将数据写入共享路径中的csv,以及ml应用程序......

回答 1 投票 0

将多个SparkML管道应用于单个DataFrame

我使用SparkML训练了几毫升的管道并将它们保存在HDFS中。现在,我想将管道应用于同一数据帧。我实现了一个通用的评分类,它读入了管道......

回答 1 投票 1

Spark模型如何处理矢量列?

spark中的方法如何威胁向量汇编列?例如,如果我有经度和纬度列,使用向量汇编程序组装它们更好,然后将它放入我的模型或它...

回答 1 投票 -1

Spark ML错误:错误没有。使用线性SVC时检测到的类

我正在研究二进制分类问题并使用SparkML,我使用随机森林和Logistic回归模型训练和评估我的数据,现在我想检查SVM分类的程度......

回答 2 投票 2

在mleap中提供葡萄酒分类模型

我有一个使用mleap训练和保存的葡萄酒分类模型。注意:目前我正在使用TrueCar版本的mleap。计划很快更新。现在,当我尝试启动服务器来提供服务时......

回答 1 投票 1

Spark ML API将矢量转换为多标签分类的概率

我对Spark ML API有点新意。我正在尝试通过训练160个分类器(后勤或随机森林等)对160个标签进行多标签分类。一旦我在Dataset [LabeledPoint]上训练,我发现......

回答 1 投票 -1

在相同配置下执行Spark应用程序时,任务,阶段和作业的数量是否有所不同?

我目前正在集群中执行K-Means算法。在相同配置下的连续执行(相同数量的执行程序,RAM,迭代,数据集)任务数量,......

回答 1 投票 1

使用SparkR离散变量

我想使用R(最好是SparkR)对变量进行离散化处理,以便所需的结果如下所示。 library(arules)mtcars%>%mutate(bins = discretize(x = mpg,method =“...

回答 1 投票 1

转换Spark DataFrame以进行ML处理

我编写了以下代码来将数据提供给Spark 2.3中的机器学习算法。下面的代码运行正常。我需要增强此代码,以便能够转换不仅3列,但任何...

回答 1 投票 0

通过重复调用内存中的数据帧来减速

假设我有40个连续(DoubleType)变量,我使用ft_quantile_discretizer将其变为四分位数。识别所有变量的四分位数非常快,因为函数...

回答 1 投票 9

如何将VectorAssembler输出中的特征映射回Spark ML中的列名?

我正在尝试在PySpark中运行线性回归,我想创建一个包含汇总统计信息的表,例如我的数据集中每列的系数,P值和t值。但是,按顺序......

回答 3 投票 11

pyspark.sql.utils.IllegalArgumentException:u'Field“features”不存在。

我正在尝试执行随机森林分类器并使用交叉验证来评估模型。我使用pySpark。输入CSV文件作为Spark DataFrame格式加载。但我面临一个问题......

回答 2 投票 0

Spark和分类字符串变量

我试图理解spark.ml如何处理字符串分类独立变量。我知道在Spark中我必须使用StringIndexer将字符串转换为双精度数。例如,“a”/“b”/“c”=> 0.0 / 1.0 / 2.0。 ...

回答 1 投票 2

VectorAssembler行为和聚合稀疏数据与密集

有人可以解释VectorAssembler的行为吗?来自pyspark.ml.linalg导入来自pyspark.ml.feature的向量导入VectorAssembler assembler = VectorAssembler(inputCols = ['CategoryID','...

回答 1 投票 0

K均值中的Spark ML-预测

我使用Spark ML方法创建了一个KMeans模型。 val kmeans = new KMeans()val model = kmeans.fit(df)我准备好了我的模型。但是如何预测哪个群集中的新数据点会下降。 ...

回答 1 投票 -1

Spark多类分类示例

你们知道我在哪里可以找到Spark中多类分类的例子。我花了很多时间在书本和网络上搜索,到目前为止我只知道它可能是最新的......

回答 2 投票 5

PySpark ML特征变换,调用拟合/变换方法两次或覆盖它?

我们可以使用Spark-ML库中提供的各种预处理类。来自pyspark.ml.feature import StringIndexer,VectorIndexer,VectorAssembler labelIndexer = StringIndexer(inputCol = label_name,...

回答 1 投票 0

如何从UDF创建自定义Transformer?

我试图用自定义阶段创建和保存管道。我需要使用UDF向我的DataFrame添加一列。因此,我想知道是否有可能转换UDF或类似的动作......

回答 3 投票 9

火花数据集过滤器列,条件如pandas

我是Spark / Scala的新手。我不知道如何使用spark数据集来过滤像pandas.loc这样的列。 pandas代码:data_fact = pd.read_excel(path,sheetname = sheetname_factor)//删除一些列...

回答 2 投票 0

最新问题
© www.soinside.com 2019 - 2024. All rights reserved.