最近通过网上的、书上的资料,初步了解了数据挖掘的一些概念,现在整理一下以便日后学习。
一、定义(Data Mining)
1、数据挖掘:一种通过数理模式来分析企业内存储的大量资料,以找出不同客户和市场划分,分析出消费者喜好和行为的方法。也就是从存放在数据库、数据仓库和其他信息库中的数据中获取有效的、有潜在价值的、最终可被理解的模式的非平凡过程。
如:像我在当当网买书时,当当网的系统会根据我近期所购买的书的记录进行分析,然后在我下次登录当当网时,该系统会自行向我推荐其他类似的书籍。这个过程我想应该是用到数据挖掘的理论和方法。
2、数据挖掘在人工智能领域(AI)习惯上被称为数据中的知识发现,因此有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。
知识发现过程分为3个阶段:1】数据准备;2】数据挖掘;3】结果表达和解释。
3、数据挖掘的起源
数据挖掘来自这些领域的思想:1】来自统计学的抽样、估计和假设检验;2】人工智能、模式识别、机器学习的搜索算法、建模理论和学习理论;3】其他领域的思想:最优化、进化计算、信号处理、可视化和信息检索。
4、数据挖掘的用途:
1】分类
2】估值
3】预言
4】相关性分组或关联规则
5】聚集
6】描述和可视化
7】复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)
5、数据挖掘的第一步是描述数据、计算统计变量(如均值、方差等),再用图表或图片的形式直观地演示出来,就可以看出一些变量之间的相关性。因此为了挖掘工作提供足够的证据,必须为历史数据建立一个预言模型,然后用另外一些数据对这个模型进行测试,最后验证这个模型。