【摘 要】笔者以复杂的数据环境为研究对象,提出了层次分析法构建挖掘模型的主体结构与应用效能,从而为当前复杂数据环境中的数据挖掘提供一种新的应用策略。

【关键词】复杂数据环境 多维数据挖掘 层次分析法构建挖掘模型 应用效能

一般来说,在系统的“层次分析法构建挖掘模型”体系结构之中,主要包括数据挖掘处理模式、知识数据库、数据挖掘处理方法、数据模型学习与数据模型评估等几个方面的重要内容。该系统从整个战略的高度、不同层面的技术水平以及差异化的抽象层面来支撑不同挖掘组件之间的设置与组合,随后再重新设计、实施整个数据挖掘过程,最终形成一个合理的“数据挖掘模型结构”。

具体来说,“层次分析法构建挖掘模型”从不同的角度和层次上对整个数据挖掘的过程进行结构化、系统化的处理和改进。在层次分析法构建挖掘模型流程开始的时候,为了提升整个模型的准确性与高效性,知识数据库会与各种挖掘模型方法通过交互或者是互动的方式实施系统模型的自我学习。随后,每一个模型也会与知识数据库的构成部分之一Analytical Base通过交互的方式对现存的模型系统进行打分和评估。在完成了具体的评估与打分工作之后,它便会进入到挖掘模式环节,然后对比分析每一个“挖掘模型方法”,对其进行聚类、分类、回归等相关的处理活动,最后会在挖掘模式层之中按照从优至劣的顺序将各种模型进行排列,并通过数据表格的方式表示出来。一般来说,“优秀”的挖掘模型处于结构的最顶端,随后的是“成功”的挖掘模型。这些以数据表格呈现出来的排列结果会传输给执行引擎进行相关的处理,也即是对“优秀”挖掘模型进行数据的挖掘与预测活动。在充分使用“Analytical Base”与“Knowledge Engine”的时候,执行条件不同,挖掘模型评估结果的质量水平也会呈现出比较大的差异,但是其模式分支可以自由地进行插播,因此,不仅大大提升了工作效率,而且准确性也会随之有明显的提高。这是层次分析法构建挖掘模型的优良之处。

“层次分析法构建挖掘模型”的数据挖掘与处理的流程可以概括为:首先是建立相应的层次结构;其次是与知识数据库进行相关的交互活动;第三是对既定模型系统的分析和学习;第四是选择和评估合适的模型样式。在整体的层次结构设计过程中,通过先分解、后综合的思想达到对“层次分析法构建挖掘模型”系统分析的目的。

模型学习、模型评估以及模型学习与评估的影响关系是“层次分析法构建挖掘模型”中的三个重要概念。第一,模型学习主要是在M-KPI环节实现的。其核心目的在于通过使用新的数据来更新原有模型,从而形成一个崭新的模型样式。模型之间的不同之处就在于新的数据建构起新的模型,计算的设置、类型以及模型的范式都是一样的。第二,模型评估是在M-KPI和M-CSF两个层面发生的。输入“样品数据”,随后进行相关的评估和打分活动,得到相应的预测结果之后,通过实际结果来评估模型,并且给其赋予相关的“权值”。从而使所有M-KPI都能够得到相应的“权值”,以此来筛选评估模型和计算方法。第三,在模型学习与评估的影响关系方面,首先是各个M-KPI刷新模型,由此产生适合于新数据内容的模型;其次通过“Analytics Data”来评估各个模型,因此,输入迥异的需求数据,也能够产生不同的线性结构图。通过综合分析各个KPI的影响,各个M-CSF也就形成了特定的自适应影响的波动效果图。

层次分析法构建挖掘模型中包括诸多的成功关键因素,其中,分类-CSF作为层次分析法构建挖掘模型中一个非常重要的成功关键因素,其目的是学会一个分类模型或者是分类函数,从而把复杂数据库中的数据项映射到特定类别中的某一个模型之上,由此实现数据信息的聚合、分类与预测活动。从系统内容的角度来说,分类-CSF中包含决策树算法、Bayes算法等诸多计算方式。比如Bayes分类算法假设是在特定的数据样本中通过一个n维特征的向量来描述n个属性特征的值。也即是说,X={x1,x2,x3,……,xm},如果拥有m个类别,就可以使用C1,C2,C3,……,Cm来进行表示。预存一个未知的数据样本X,也即是没有类标号,如果将其分配给类Ci,也就一定会存在P(Ci/X)>P(Cj/X),1≤i≤m,1≤j≤m,j≠i。

根据此原理,对于所有类P(X)都为常数,因此P(Ci/X)作为最大化后验概率能够转换成为P(X/Ci)P(Ci),即最大化先验概率。假设诸多属性和元组存在于训练数据集之中,核算P(X/Ci)开销的概率就非常高。因此,大部分情况下假设各个属性的取值都是相互独立的。在此情况下,就能够从训练数据库中获得先验概率P(X1/Ci),P(X2/Ci),P(X3/Ci),……P(Xn/Ci)。依据此种计算方式,针对特定的未知样本X,可以先计算出X样本属于每一个类别Ci的概率,随后以概率最大的类别作为该未知样本的类别。

为了识别该模型数据预测结果的准确性,笔者以某医院的医疗数据作为数据库样本来进行数据挖掘的验证。首先通过DRUGIN系统来建立和学习该模型系统,随后采用DRUG4N的真实数据来评估ACMC建立的诸多模型样式,最终通过该系统得到Bayes分类算法所构建的系统模型作为取得的最优模型样式。在此基础上,笔者使用该模型来决定特定患者该使用什么样类型的药品。

参考文献:

[1]韩家炜,孟小峰.Web挖掘研究[J].计算机研究与发展,2011,(4):92-95.

[2]琚春华,郭飞鹏.基于支持向量机的分布数据挖掘模型DSVM[J].系统工程理论与实践,2010,(10):29-32.

[3]胡文瑜,孙志辉.数据挖掘取样方法研究[J].计算机研究与发展,2011,(1):43-46.