数据仓库和数据挖掘技术

信息时代的信息处理分为事务型处理和信息型处理两大类。

事务型处理即通常所说的业务操作处理，如查询或修改。

信息型处理即对信息进行进一步的分析，通常必须访问大量的历史数据才能完成。

数据仓库

OLTP，On-Line Transaction Processing，即联机事务处理

为了能满足管理人员的决策分析需要，在数据库基础上产生了能满足决策分析需要的数据环境，即数据仓库，Data Warehouse（DW）。

包括星型模式、雪花模式、事实星型模式。

数据仓库中的数据通常是多维的：包括维属性、度量属性。包括多维数据的表，称为事实表。

维属性通常是一些短的标识，作为参照其他表的外码。

事实表、多维表，以及从事实到多维表的参照外码的模式，称为星型模式。

在星型模式基础上，含有多级维表的，称为雪花模式。

如果一个数据仓库包含多个事实表，则称为事实星型模式。

三层体系结构：

从结构的角度看有三种数据仓库模型：企业仓库、数据集市和虚拟仓库。

从海量数据库中挖掘信息的技术，称为数据挖掘（ Data Mining，DM ）。

按照所挖掘的数据库分：关系型数据库的数据挖掘、数据仓库的数据挖掘、面向对象数据集的挖掘、空间数据库的挖掘、正文数据库和多媒体数据库的数据挖掘等。

按所发现的知识类别分：关联规则、特征描述、分类分析、聚类分析、趋势分析和偏差分析。

按所发现的知识抽象层次分：一般化知识、初级知识和多层次知识。

数据挖掘的三种基础技术是：海量数据搜集、强大的多处理器计算机、数据挖掘算法。

在数据挖掘中常用的技术有：

略

数据挖掘过程一般需要经历以下几个阶段：