data-mining 相关问题

数据挖掘是分析大量数据以查找模式和共性的过程。

在数据帧的行中查找唯一ID

输入-具有超过5万行的数据框。预期结果:按多列查找唯一的ID。 F.e.有数据帧:id par1 par2 par3 1 a 1 AA 2 b 2 AB 3 c 3 AC 4 a ...

回答 2 投票 0

图挖掘和机器学习之间有什么区别? [处于保留状态]

我目前正在学习图挖掘,并且有以下问题。图挖掘和机器学习之间有什么区别?

回答 1 投票 -5

为什么图挖掘很重要?

我目前正在学习图挖掘,并且有以下问题。知识发现与机器学习有何不同?例如,为了聚类/分类,数据集被表示为...

回答 1 投票 -4

非欧氏空间中的数据挖掘群集

请考虑以编辑距离作为距离量度的字符串的间隔。给出一组字符串的示例,这样,如果我们通过最小化到另一个的距离之和来选择类固醇,...

回答 2 投票 2

DBSCAN及其索引应具有相同的距离函数

是否要求DBSCAN及其索引具有相同的距离函数?如果不是,在什么情况下需要使用不同的距离函数? Scala代码如何创建DBSCAN和...

回答 1 投票 0

R中关联规则的数据准备-到事务的数据帧

我的数据来自SQL数据库,并采用表格形式,其中单个事务有多个行。我不只是使用“产品”字段,而是希望使用数据中的所有其他列...

回答 3 投票 0

如何比较大型数据集的簇数?

我正在尝试将一个包含约1,100,000个观测值的数据集聚类,每个观测值具有三个值。由于我不知道正确的群集数量,因此尝试了分层群集,但它需要4095 GB ...

回答 2 投票 2

计算相关性和特征变量的特征选择之间的区别?

使用关联和使用特征选择来选择重要 高度相关的变量之间有什么区别 在研究特征选择时,我发现它使用了包括皮尔逊相关性在内的统计检验。 作为大学项目的一部分,我们小...

回答 1 投票 0

查找变量和类变量之间的相关性

我有一个数据集,其中包含 个数字属性和一个标称值 即类变量 。 我想知道如何才能将最好的属性用于预测类属性。 解决方案是通过每个属性找到最大的信息增益吗 ...

回答 2 投票 1

用于文本标记的建议的nlp算法

我一直在寻找开源工具,该工具可以帮助识别社交媒体上任何用户帖子的标签,并识别该帖子上的主题/主题外或垃圾邮件评论。即使经过一整天,...

回答 3 投票 0

如何在预测/回归模型中使用列表作为条目处理属性?

我正在研究音乐行业的预测模型。为此,我有一个数据库,其中包含有关许多歌曲的数据。例如。名称,制片人或艺术家。我的问题是,有很多...

回答 1 投票 -1

在数据挖掘中找到影响因素的更好的算法是什么

我正在研究学生活动的数据集,我想了解在他们学习期间会影响他们成绩的哪些因素,我想知道哪种算法会给我带来很好的收获...

回答 1 投票 0

确定先验算法中频繁项集生成的最小支持阈值

我想找到apriori算法的最小支持阈值。我知道它完全取决于用户和数据集,但是我发现了一篇使用指数衰减函数的文章。 http:// ...

回答 1 投票 0

使用python(pandas)进行数据挖掘(数据清理)

[请任何人帮帮我,我是数据挖掘的新手,我正在寻找一种方法来添加BaltimoreWashington和Baltimore-Washington,包括其价值,并同时使Denver成为...]]]

回答 1 投票 0

Kmeans聚类错误:绘制聚类时出现问题

我正在从之前创建的dataFrame中读取数据。我必须从数据框中选择一些矢量来完成此任务。但是,当我重新缩放数据框对象时,它变成一个“双精度”(不是“列表” ...

回答 1 投票 0

DBSCAN及其索引应具有相同的远距离功能

是否要求DBSCAN及其索引具有相同的距离函数?如果不是,在什么情况下需要使用不同的距离函数? Scala代码如何创建DBSCAN和...

回答 1 投票 0

在基于类中心模糊化算法是如何计算决策属性类的中心?

我碰到基于类中心的模糊化算法来到TRFDT本研究报告的第16页上。不过,我不明白什么是该算法(在本文为标题的第2步中发生...

回答 1 投票 1

找到一个聚类算法的准确度[关闭]

如何找到给出的算法的真实集群和集群预测聚类算法的准确性?我在网上搜索,但没有找到任何有用的信息来源。我知道如何计算?

回答 2 投票 0

其数据挖掘工具来使用?

有人可以解释我的最知名的数据挖掘开源工具的主要优点和缺点?无论我读了RapidMiner,Weka的,橙,KNIME都是最佳的。看看这个博客帖子可以...

回答 4 投票 3

混淆矩阵和列联表之间有什么区别?

我正在编写一段代码来评估我的聚类算法,我发现每种评估方法都需要来自m * n矩阵的基本数据,如A = {aij},其中aij是数据的数量......

回答 2 投票 13

© www.soinside.com 2019 - 2024. All rights reserved.