iso standard download
第1章引言 本书是一个导论,介绍一个年轻而充满生机的领域一一数据挖掘和从数据中发现知识。书 中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基 本概念和技术。所讨论的实现方法主要面向可伸缩的和有效的数据挖掘工具的开发。本章, 我们将了解数据挖掘如何成为数据库技术自然演化的一部分,为什么数据挖掘是重要的,以 及如何定义数据挖掘。我们将学习数据挖掘系统的一般结构,并考察可供挖掘的数据种类, 可以发现的模式类型,以及什么样的模式提供有用的知识。本章还将学习数据挖掘原语,从 这些原语可以设计数据挖掘查询语言。本章还讨论如何将数据挖掘系统与数据库或数据仓库 的挑战性研究问题。 1.1什么激发了数据挖掘,为什么它是重要的 需要是发明之母。柏拉图 近年来,数据挖掘引起了信息产业界和整个社会的极大关注,其主要原因是存在可以广 泛使用的大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识 可以广泛用于各种应用,包括市场分析、欺诈检测、顾客保有、产品控制和科学探索等。 数据挖掘可以看作是信息技术自然演化的结果。数据库系统业界见证了如下功能的演化 过程(见图1-1):数据收集和数据库创建,数据管理(包括数据存储和检索,数据库事务处 1 理),以及高级数据分析(涉及数据仓库和数据挖掘)。例如,数据收集和数据库创建机制的 早期开发已经成为后来数据存储和检索、查询和事务处理有效机制开发的先决条件。随着提 供查询和事务处理的大量数据库系统广泛付诸实践,高级数据分析自然成为下一个目标。 自20世纪60年代以来,数据库和信息技术已经系统地从原始的文件处理演变到复杂的和 功能强大的数据库系统。自20世纪70年代以来,数据库系统的研究和开发已经从早期的层次 和网状数据库系统发展到开发关系数据库系统(数据存放在关系表结构中;见1.3.1节)、数据 建模工具以及索引和存取方法。此外,用户通过查询语言、用户界面、查询处理优化和事务 管理,可以方便灵活地获取数据。联机事务处理(OLTP)的有效方法将查询看作只读事务, 对于关系技术的发展和关系技术作为大量数据的有效存储、检索和管理的主要工具得到广泛 认可作出了重要贡献。 自20世纪80年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、 功能强大的数据库系统。这些推动了诸如扩充关系模型、面向对象模型、对象一关系模型和演 绎模型等先进的数据模型的发展。包括空间的、时间的、多媒体的、主动的、流的、传感器 的和科学与工程的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。同 数据的分布、多样性和共享有关的问题被广泛研究。异构数据库系统和基于因特网的全球信 息系统(如万维网)也已出现,并成为信息产业的生力军。 在过去的30年中,计算机硬件技术稳步的、令人吃惊的进步导致了功能强大的和价格可 以承受的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息 产业的发展,使得大量数据库和信息储存库用于事务管理、信息检索和数据分析。 第 1 章 数据收集和数据库创建 (20世纪60年代和更早) ·原始文件处理 数据库管理系统 (20世纪70年代~80年代初期) ·层次和网状数据库系统 ·关系数据库系统 数据建模工具:实体-联系模型等 ·索引和存取方法:B树、散列等 ·查询语言:SQL等 ·用户界面、表单、报表等 查询处理和查询优化 ·事务、并发控制和恢复 ·联机事务处理(OLTP) 高级数据库系统 高级数据分析:数据仓库与数据挖掘 基于Web的数据库 (20世纪80年代中期~现在) (20世纪80年代后期~现在) (20世纪90年代~现在) ·高级数据模型: ·数据仓库与OLAP ·基于XML的数据库系统 扩充关系的、对象一关系的等 ·数据挖掘与知识发现: ·与信息检索集成 ·高级应用: 泛化、分类、关联、聚类、频繁模式 ·数据与信息集成 空间的、时间的、多媒体的、 和结构化模式分析、离群点分析、趋 主动的、流的和传感器的、科 势和偏差分析等 学的和工程的、基于知识的 ·高级数据挖掘应用: 流数据挖掘、生物信息数据挖掘、时 间序列分析、文本挖掘、Web挖掘、 入侵检测等 ·数据挖掘与社会: 保护隐私的数据挖掘 新一代的集成数据与信患系统 (现在~将来) 图1-1数据库系统技术的演变 现在,数据可以存放在很多不同类型的数据库和信息储存库中。最近出现的一种数据储 存库的系统结构是数据仓库(见1.3.2节)。这是一种多个异构数据源在单个站点以统一的模式 组织的储存库,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理 (OLAP)。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息 的能力。尽管OLAP工具支持多维分析和决策,但对于深层次的分析,如数据分类、聚类和数 据随时间变化的特征,仍然需要其他数据分析工具。此外,还可以在数据库和数据仓库之外 收集大量数据。典型的例子包括万维网和数据流,其中正如视频监视、电信和传感器网络等 应用中那样,数据像流一样流进和流出。这种不同形式的数据的有效性和有效分析成为一项 具有挑战性的任务。 数据丰富加上对强有力的数据分析工具的需求可描述为数据丰富,但信息贫乏。快速增长 引言 的海量数据收集、存放在大型和大量数据储存库中,没有强有力的工具,理解它们已经远远 超出了人的能力(见图1-2)。结果,收集在大型数据储存库中的数据变成了“数据坟墓” 难得再访问的数据档案。这样,重要的决策常常不是基于数据储存库中信息丰富的数据,而 是基于决策者的直觉,因为决策者缺乏从海量数据中提取有价值知识的工具。此外,当前的 专家系统技术通常依赖用户或领域专家人工地将知识输入知识库。遗憾的是,这一过程常常 有偏差和错误,并且耗时和费用高。数据挖掘工具进行数据分析,可以发现重要的数据模式, 4 对商务策略、知识库、科学和医学研究做出巨大贡献。正在扩大的数据和信息之间的裂口呼 唤系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。 我如何分析这些数据? 0 图1-2我们的数据丰富,但信息贫乏 1.2什么是数据挖掘 简单地说,数据挖掘是指从大量数据中提取或“挖掘”知识。该术语实际上有点用词不 当。注意,从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘。因此,数据挖掘应当更 正确地命名为“从数据中挖掘知识”,遗憾的是这个词有点长。“知识挖掘”是一个较短的术 语,但不能反映从大量数据中挖掘。毕竟,挖掘是一个很生动的术语,它抓住了从大量的、 未加工的材料中发现少量宝贵金块这一过程的特点(见图1-3)。这样,“数据挖掘”成了流行 术语。还有一些术语具有和数据挖掘类似但稍微不同的含义,如从数据中挖掘知识、知识提 取、数据/模式分析、数据考古和数据捕捞。 许多人把数据挖掘视为另一个常用的术语数据中的知识发现或KDD的同义词,而另一些 人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如图1-4所示,由以下步 骤的迭代序列组成: 1.数据清理(消除噪声和不一致数据) PDG 2.数据集成(多种数据源可以组合在一起)e 3.数据选择(从数据库中提取与分析任务相关的数据) 信息产业的一个流行趋势是将数据清理和数据集成作为预处理步骤执行,结果数据存放在数据仓库中。

.pdf文档 数据挖掘:概念与技术 原书第2版

文档预览
中文文档 510 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共510页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
数据挖掘:概念与技术 原书第2版 第 1 页 数据挖掘:概念与技术 原书第2版 第 2 页 数据挖掘:概念与技术 原书第2版 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-11-23 01:58:27上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。