apache-spark-mllib 相关问题

MLlib是Apache Spark的机器学习库

Spark Scala MLlib赋值语法

我一直在浏览https://spark.apache.org/docs/latest/ml-statistics.html上的指南,我注意到他们正在使用这种语法进行val赋值:val Row(coeff1:Matrix) )=相关性....

回答 1 投票 1

处理Spark中的不平衡类

我试图通过spark mllib试验信用卡欺诈检测数据集。与1(意味着欺诈)相比,我拥有的数据集有很多0(意思是非欺诈)。我想知道......

回答 1 投票 1

StreamingKMeans setSeed()

我需要训练具有特定种子值的StreamingKMeans。当我运行val km = new StreamingKMeans(3,1.0,“points”)km.setRandomCenters(10,0.5)val newmodel = km.latestModel.update(...

回答 1 投票 2

如何在pyspark中可视化决策树模型/对象?

有没有办法可视化/绘制使用pyspark中的mllib或ml库创建的决策树。另外,如何获取叶节点中的记录数等信息。谢谢

回答 2 投票 3

关于spark的DBSCAN:哪个实现

我想在Spark上做一些DBSCAN。我目前发现了2个实现:https://github.com/irvingc/dbscan-on-spark https://github.com/alitouka/spark_dbscan我测试了第一个......

回答 4 投票 7

我无法将FP-Growth模型融入火花中

拜托,你能帮帮我吗?我有一个80个CSV文件数据集和一个主服务器和4个从服务器的集群。我想在数据帧中读取CSV文件并在四个从属设备上并行化。在那之后,我想......

回答 1 投票 0

如何在spark SQL中为表添加增量列ID

我正在研究一个spark mllib算法。我拥有的数据集是公司“:”XXXX“,”CurrentTitle“:”XYZ“,”Edu_Title“:”ABC“,”Exp_mnth“:.(有更多类似于这些的值)我试图... 。

回答 1 投票 6

Spark - KMeans.train中的IllegalArgumentException

我在KMeans.train()中遇到异常,如下所示:java.lang.IllegalArgumentException:要求在org.apache.spark.mllib的scala.Predef $ .require(Predef.scala:212)中失败....

回答 3 投票 3

火花的外部包装中的多项式回归

在为这个主题投入大量的网络搜索之后,如果我能得到一些指针,我将在这里结束。请进一步阅读在分析Spark 2.0之后我得出的多项式回归不是......

回答 2 投票 8

使用UDF计算两个向量之间的距离是否效率低?

我在Spark中实现了一种分类算法,它涉及计算实例之间的距离。该实现使用数据框(尽可能使用原始SQL)。我转换功能......

回答 1 投票 0

为什么netlib-java native blas / lapack库不能提高性能?

我正在使用这段代码来计算spark建议:SparkSession spark = SparkSession .builder()。appName(“SomeAppName”)。config(“spark.master”,“...

回答 1 投票 5

如何将训练任务分布在执行者之间?

我已经建立了一个spark独立集群,其中包含4个worker(每个有4个内核)和1个master。每个都有窗口10操作系统。我提交了spark的ML示例:layered_perceptron_classification.py到...

回答 1 投票 0

在Apache PredictionIO中运行线性回归模型

我试图在Apache predictionIo中运行线性回归模型。并从PredictionIO templere gallery中获取样本模板。 https://github.com/RAditi/PredictionIO-MLLib-LinReg-Template ...

回答 1 投票 0

我们是否可以更新spark-ml / spark-mllib中的现有型号?

我们使用spark-ml从现有数据构建模型。新数据每天都在发布。有没有办法我们只能读取新数据并更新现有模型而无需阅读所有...

回答 2 投票 2

使用Pyspark从svd组件重建Matrix

我正在使用pyspark开发SVD。但是在文档以及任何其他地方我都没有找到如何使用分段向量重新构建矩阵。例如,使用svd ...

回答 1 投票 -1

“spark.yarn.executor.memoryOverhead”设置的值?

具有YARN的Spark作业中spark.yarn.executor.memoryOverhead的值应该分配给App还是仅分配给最大值?

回答 1 投票 15

如何使用java从Spark中的List或Array创建Row

在Java中,我使用RowFactory.create()创建一个Row:Row row = RowFactory.create(record.getLong(1),record.getInt(2),record.getString(3));其中“记录”是来自数据库的记录,但我不能......

回答 3 投票 5

在RDD上使用take方法时,Apache Spark抛出反序列化错误

我是Spark的新手,我正在使用Scala 2.12.8和Spark 2.4.0。我正在尝试在Spark MLLib中使用Random Forest分类器。我可以构建和训练分类器,分类器可以预测我是否......

回答 1 投票 0

Spark MLlib和Spark ML中的PCA

Spark现在有两个机器学习库 - Spark MLlib和Spark ML。它们在实现的内容上有些重叠,但正如我所理解的那样(作为整个Spark生态系统的新人)Spark ML是......

回答 1 投票 9

支持和提升mllib spark / scala中的fp增长规则

我想通过fp-growth提取生成的关联规则的支持和提升。找到下面代码的规则后,我手动完成交易并计算支持和...

回答 1 投票 2

© www.soinside.com 2019 - 2024. All rights reserved.