apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

使用 SPARK 从关联规则中提取提升和支持

我正在使用频繁模式挖掘算法 - 关联规则: 导入 org.apache.spark.mllib.fpm.AssociationRules 导入 org.apache.spark.mllib.fpm.FPGrowth.FreqItemset val freqItemsets = sc.

回答 1 投票 0

为什么我提取的规则置信度都是1.0?

我有以下数据集: [广告] [出租车] [A] [A、E、D] [B、D] 我正在尝试使用 Spark Mllib 使用频繁模式挖掘来提取一些关联规则。为此,我有以下代码: 瓦尔

回答 1 投票 0

从 Pyspark Dataframe 中提取 numpy 数组

我有一个数据框 gi_man_df 其中组可以是 n: +------------------+-----------------+--------+--- ------------+ |组 |数字|rand_int| rand_double| +------------------...

回答 3 投票 0

如何找到决策树分类的特征名称?

我正在尝试查找决策树的特征信息。更具体地说,如果 183 出现在我的树可视化中,我希望能够分辨出它是什么。我尝试过 dtModel。

回答 2 投票 0

spark mlib:要求失败:索引0跟随0并且不是严格递增

使用我的数据集训练逻辑回归模型时出现以下错误: 引起原因:java.lang.IllegalArgumentException:要求失败:索引0跟随0并且不严格

回答 1 投票 0

Apache Spark 和机器学习 - 在生产中使用

我在弄清楚如何在现实生产环境中使用 Spark 的机器学习功能时遇到了一些困难。 我想做的是: 使用

回答 2 投票 0

在 Spark 中运行任务时出现错误 ExecutorLostFailure

当我尝试在此文件夹上运行它时,它每次都会抛出 ExecutorLostFailure 嗨,我是 Spark 的初学者。我正在尝试在 Spark 1.4.1 上运行一个作业,该作业具有 8 个从属节点和 11.7 GB 内存...

回答 4 投票 0

(Spark) 对象 {name} 不是包 org.apache.spark.ml 的成员

我正在尝试基于此处的示例在 apache Spark 上使用 scala 运行独立的应用程序: http://spark.apache.org/docs/latest/ml-pipeline.html 这是我的完整代码: 导入 org.apache.spa...

回答 3 投票 0

FeatureStoreClient() log_model 无法使用 mlflow.spark 风味运行推理

我正在使用 FeatureStoreClient().log_model(...,flavor = mlflow.spark,...) 记录模型,并在尝试使用模型运行推理后 fs.score_batch(f"模型:/{model_name}/Prod...

回答 2 投票 0

使用 MLLIB 的 pyspark 数据帧中的点积

我在pyspark中有一个非常简单的数据框,如下所示: 从 pyspark.sql 导入行 从 pyspark.mllib.linalg 导入 DenseVector 行=行(“a”,“b”) df = Spark.sparkContext.parallelize([ ...

回答 5 投票 0

在自定义 MLFlow PyFunc 类中使用 PipelineModel.load() 会导致错误

我正在创建一个自定义 PyFunc 类,以与 Databricks 要素存储一起使用,作为其模型服务 UI,而要素存储的 log_model() 方法仅适用于 PythonModel 类。 底层模型我...

回答 2 投票 0

Spark 不再使用 SGD 作为优化器?

我使用的是Spark 2.4及以前的版本,spark mllib是使用SGD作为回归问题的优化器,还有LinearRegressionWithSGD和LassoWithSGD,它们使用SGD作为优化器。 它...

回答 1 投票 0

`pyspark mllib` 与 `pyspark ml` 包

pyspark mllib 和 pyspark ml 包有什么区别? : https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html https://spark.apache.org/docs/latest/api/python/pyspark.ml...

回答 1 投票 0

IllegalArgumentException:'字段“标签”不存在。在PYSPARK

我一直在 pyspark 中开发线性回归函数,并使用交叉验证来验证准确性。但它会抛出错误“llegalArgumentException:”字段“标签”不...

回答 1 投票 0

如何使用 pySpark 创建自定义转换器?

我正在尝试构建一个自定义变压器并在 pyspark pipline 中制作它,但我不知道如何做。 我的目标是创建这个变压器来估计概率。这是我使用的没有

回答 1 投票 0

如何在 Apache Spark 的 MLlib (Python) 中为逻辑回归模型分配类别权重

我正在研究具有不平衡数据集的二元分类问题,其中 75% 的数据属于负类 (0.0),其余 (25%) 属于正类 (1.0)。 我用的是

回答 1 投票 0

如何找到哪个输入图像/数据在 spark 的哪个工作节点上处理?

我有大量的数据(图像)使用机器学习模型(CNN)来处理图像并给出结果。作为 spark 作业性能的一部分,我正在尝试查看内部 spark (YARN) 作业流程。 Spark UI 显示

回答 1 投票 0

Apache Spark MLlib StandardScaler 与 z-score

所以,我想知道 Spark 的 StandardScaler 和简单的 z-score 计算之间是否有任何区别。 z-score 计算公式为: z = (x-均值)/标准 然而对于

回答 0 投票 0

Spark 3 KryoSerializer 问题 - 无法找到类:org.apache.spark.util.collection.OpenHashMap

我正在将 Spark 2.4 项目升级到 Spark 3.x。我们遇到了一些现有的 Spark-ml 代码的障碍: var stringIndexers = 数组 [StringIndexer]() 对于(特征列<- FEATURE_COLS) {

回答 1 投票 0

PySpark 上的 MinHashLSH 问题

我正在尝试使用 PySpark 运行文本相似性分析。在使用 CountVectorizer 和 vocabSize=5000 对我的文本输入进行矢量化后,我正在对数据运行 approxSimilarityJoin。当我做...

回答 0 投票 0

© www.soinside.com 2019 - 2024. All rights reserved.