从开发人员的角度来看什么是数据挖掘?

问题描述 投票:0回答:8

我可以在一本书或维基百科上找到数据挖掘的技术解释,但我想知道它到底涉及什么样的开发?是更多的是使用工具还是更多的是编写工具?在研发方面真的与其他领域有很大不同吗?

data-mining
8个回答
22
投票

数据挖掘是在大量数据中发现有趣模式的过程。它不是查询数据,这正是用户 Treb 所描述的(对不起 Treb)。

要从开发人员的角度理解 DM,您应该阅读 Toby Segaran 所著的《Programming Collective Intelligence》一书。


3
投票

根据我的经验(我以前是一名数据挖掘者:-)),它是使用工具和编写工具的混合体。很多时候,分析特定数据集所需的工具并不存在,因此您必须先自己编写它们。它可能非常有趣,但您通常需要一种与我现在所做的编程完全不同的方法(例如嵌入式无线)。


2
投票

您确实应该更改此问题上已接受的答案,这样它就不会误导那些遇到它的人。

说查询数据库就是数据挖掘,因为“如果不先查询,你怎么会发现数据中的任何模式?”就像说打开车门就是开车一样,因为“如果不先打开车门,你怎么能开车去某个地方。”

如果需要,您可以从文本文件中读取数据。我的第一个数据挖掘任务使用了来自UCI存储库的数据集,这些几乎都是文本文件。

如果您想了解数据挖掘,请从查找聚类和分类开始。了解决策树和基于规则的分类。然后看看k-近邻和k-均值。之后,如果您确实想了解数据挖掘的全部内容,请查看 Chameleon、DBScan 和支持向量机。不一定要了解后三个的细节(它们非常复杂且数学量很大),但了解所发生情况的抽象概念将告诉您需要了解的所有信息,以便使用可用于的许多工具和库每个策略。

这些只是我刚才想到的算法。还有很多我不记得或什至还不知道。


1
投票

数据挖掘是在大量数据中搜索隐藏模式。 Web 2.0 示例:新闻集团使用其网站 myspace.com 作为大型数据挖掘来确定要宣传的电影和产品。他们编写软件来识别用户发布到网站的数据趋势。新闻集团这样做是为了收集对广告活动和市场预测有用的信息。它与其他研发领域的不同之处在于,从数据提供者的角度来看,它是被动的。数据挖掘工具不是走到街上亲自询问人们今年夏天可能会看什么电影等问题,而是通过分析用户自愿提供的数据来整理这些问题。

维基百科实际上有一篇关于它的很好的文章: - http://en.wikipedia.org/wiki/Data_mining


0
投票

我所说的数据挖掘是从给定数据中发现模式或趋势。开发人员的视角可能是在反洗钱等应用程序中......在给定模式的情况下,您将搜索该给定模式的数据。另一种用途是在投影软件中......您可以通过研究从数据中识别当前趋势来根据启发式来预测未来的结果或成果。


0
投票

我认为更多的是使用现成的工具而不是开发自己的工具。此类工具的学术示例可能是WEKA。当然,你还是要知道用什么算法,如何预处理数据(这部分很重要)等等

在研发方面我没有太多想法,但它应该像几乎所有东西一样:数学,统计,更多数学......


0
投票

在 2024 年,考虑到这是谷歌上的第二次点击,这是相当无用的


-3
投票

从开发层面来看,数据挖掘只是另一种数据库应用,但数据量巨大。

挖掘本身是通过在数据库上运行特定查询来完成的。重要的工作是在创建查询时完成的。当然,它们取决于数据模型和假设,即客户期望找到什么样的趋势。 因此,查询的微调通常无法在开发中完成,而只能在系统上线并且拥有实时数据后进行。然后用户可以测试他的假设并调整查询以向他展示他正在寻找的趋势。

所以从开发的角度来看,数据维护是关于

  1. 管理客户端中的大量数据(一个查询可能返回 100.000 行数据)

  2. 为用户(通常可能对 SQL 或关系数据库一无所知)提供修改查询和查看结果的有效方法。

© www.soinside.com 2019 - 2024. All rights reserved.