软计算原理与实现(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-06 02:01:14

点击下载

作者:李业丽

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

软计算原理与实现

软计算原理与实现试读:

软计算原理与实现李业丽 曾庆涛 编著内容简介

本书阐述了数据挖掘、软计算技术的发展状况,重点介绍了其采用的技术和方法,同时对各种方法进行了比较,并以几种方法为例,介绍了它们的思想及其在数据挖掘中的应用。另外,本书还阐述了基于Agent技术的智能数据挖掘系统模型的总体结构,介绍了常用的知识表示方法;讨论了数据挖掘中的小波神经网络方法,概述了基于WWW的数据挖掘和文本挖掘,介绍了分类、聚类分析的常用算法,并且给出了部分算法的算法实现,可为数据挖掘领域的研究生及相关技术人员提供参考。

未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。

版权所有,侵权必究。

图书在版编目(CIP)数据

软计算原理与实现/李业丽,曾庆涛编著.—北京:电子工业出版社,2020.1

ISBN 978-7-121-36368-9

Ⅰ.①软… Ⅱ.①李…②曾… Ⅲ.①数据采集 Ⅳ.①TP274

中国版本图书馆CIP数据核字(2019)第073028号

责任编辑:朱雨萌  特约编辑:王 纲

印  刷:

装  订:

出版发行:电子工业出版社

     北京市海淀区万寿路173信箱  邮编:100036

开  本:720×1 000 1/16 印张:13.25 字数:252千字

版  次:2020年1月第1版

印  次:2020年1月第1次印刷

定  价:68.00元

凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。

质量投诉请发邮件至zlts@phei.com.cn,盗版侵权举报请发邮件至dbqq@phei.com.cn。

本书咨询联系方式:(010)88254750。前 言

近年来,软计算的理论已经取得了重大进展,其算法实现策略及实际应用也发展迅速,有着光明的前景。软计算的概念从十几年前开始形成,并且建立在Zadeh的早期软数据分析、模糊逻辑和智能系统工作之上。在构建智能系统时,除了需要硬件、软件和传感器技术,或许更重要的是拥有在概念和智能系统设计方面比传统AI核的基于谓词逻辑的方法更有效的计算工具。

软计算(Soft Computing,SC)就是在这种需求下方法论积集的结果。很大程度上,软计算技术的应用已成为评价高机器智商(Machine Intelligence Quotient,MIQ)产品和工业系统的基础。本书系统地介绍了软计算理论及其应用方法,包括知识发现、知识表示、神经网络、文本挖掘、聚类分析、分类算法等。本书从结构上对软计算方法进行了统一描述,并注重各方法之间的相互融合,重点讲述了这些软计算方法的实际应用,并给出了应用实例。

本书提供了严谨但易懂的阅读材料,可以作为本科生或研究生进行软计算学习的参考书,也可供有关学科的教师及工程技术人员参考。本书组织成教材形式,既可作为软计算的核心教材,也可作为神经网络、机器学习等课程的课外读物。本书在内容方面力求完善,以使非机器学习或没有计算机背景的读者易于掌握。这样其他领域的读者就可以很轻松地将软计算应用到自己的实际问题中。作者还尝试通过严谨的推导来提供清晰的学习路线,因此本书提供了算法理论的推导过程以加深读者对概念的理解。对详细的推导过程感兴趣的读者可以参考原始文献。本书在各章列出了参考文献的详细信息,便于读者深入学习和研究。

本书涵盖了丰富的软计算理论和实例,特别感谢所有参考文献作者对本书内容的贡献。此外,由衷感谢管欣鑫、周楚风、于林轩、边玉宁、孙彦雄、贺伟、吴杰等对本书撰写和程序调试所付出的辛勤劳动。由于作者水平有限,书中难免存在不足之处,敬请广大读者批评指正。作 者2019年4月第1章 绪 论1.1 数据挖掘概述1.1.1 数据挖掘的发展状况

技术进步已经使得存储大量的数据不是问题,数据库存储的数据量呈指数级增长,随之而来的是按传统方法对众多的数据进行利用和管理已经达不到人们的要求。数据本身是对某个现象、事件、企业或部门的活动的记载,它们是有意义的,巨大的数据量使人工用传统的方法去发现数据中有价值的关系成为难事,而往往隐藏在数据中的本质性知识和关系,以及关于数据的整体特征的描述及对其发展趋势的预测,对于数据拥有者进行决策及获得利益非常重要或有参考价值,因此需要新的技术去解决信息超载带来的问题。这样就导致了数据库中的知识发现(Knowledge Discovery in Database,KDD)及数据挖掘工具的出现。KDD是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。一般将KDD中进行知识学习的[1]阶段称为数据挖掘(Data Mining)。数据挖掘是从存储在传统数据库的数据中抽取先前没有被识别出的信息,数据挖掘也是使存储的大量没有被使用的数据变成有用信息的手段。

事实上,KDD是一门交叉学科,它融合了数据库、机器学习、人工智能、模糊逻辑、统计学、知识工程、认知科学等学科的方法。在不同的研究群体中,对其给予了不同的名称,如在人工智能和机器学习界称为KDD,在统计、数据库及管理界称为数据挖掘,还有其他一些说法,如信息抽取、信息发现、知识发现、信息收获、数据考古等。本书采用与文献[1]一致的说法,把KDD看成一个过程,数据挖掘是其中的一个阶段,在有些情况下,并不加以严格区别。

20世纪90年代,人们对数据挖掘越来越关注。KDD这个术语首先出现在1989年8月在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上,1991年、1993年和1994年举行了KDD专题讨论会。随着参加会议人数的增多,从1995年开始,每年都要举办一次KDD国际会议。1997年,KDD拥有了自己的专业杂志Knowledge Discovery and Data Mining。除研究外,也出现了相当数量的KDD产品和应用系统,如由IBM Almaden研究所的R.Agrawal等人研究开发的面向大型数据库的Quest系统,其中包括挖掘关联规则、分类规则、序列模式和相似序列等;由加拿大Simon Fraser大学的J.Han等人研究开发的DBMiner系统,是一个交互式多层次裁决系统,主要挖掘关联规则、分类规则、预测等;Angoss International公司的KnowledgeSEEKER系统;SAS Institute公司的Enterprise Miner系统等[2]。[3]

数据挖掘已经有许多成功的案例。贝尔大西洋公司(Bell Atlantic)通过对客户电话问题的收集,采用数据挖掘创建的一组规则取代专家系统,这些学习得到的规则可以减少公司做出错误决定,每年为公司节省1000多万美元,由于学习规则通过在实例上训练而得到,因此容易维护,并且可以适应不同的地区和开销的变化。美国万国宝通银行(American Express)通过机器学习产生的规则对贷款申请者进行预测,预测贷款者是否会拖欠贷款的准确率可达到70%。英国石油公司(British Petroleum Corporation)通过使用机器学习创建了一组设定控制参数的规则,可以对从地下抽取出的原油和天然气的分离进行控制,专家需要一天多才能完成的任务,用机器学习的规则只需要10分钟。R.R.Donnelly(一家美国大型印刷公司)对凹版印刷滚筒上出现凹槽的情况,使用机器学习为控制过程参数(如油墨、温度等)创建规则,减少条带,学习得到的规则更适合具体的工厂,在某工厂中可以将条带出现的次数从538次降低到26次。新西兰奶牛场每年都需要决定哪些牛用于产奶、哪些牛送去屠宰,他们用机器学习来研究奶牛的血统、产奶史、健康状况、脾气等属性,然后做出决定。制药业采用序列相似性及药物机理,进行归纳逻辑规则的提取,以发现新药。医学界采用概率关系模型来进行流行病学的排查。天文学中采用机器学习开发的完全自动的天体分类系统,准确率可以达到92%。美国政府进行的数据挖掘研究计划在人们日常生活中产生的大量信息(如购物、电话记录、出行等)中寻找恐怖活动的警告模式。1.1.2 数据挖掘的概念

数据挖掘从字面意义上可以理解为从众多的数据中挖掘出有用的知识或信息。自从数据挖掘开始盛行,对于数据挖掘的定义就众说纷纭。有说这种说法词不达意的,建议把其改成“从数据中挖掘知识”,[4]或改成“数据中的知识发现”。我们认同把数据挖掘看成知识发现过程的一个特定的基本步骤,即人们面对大量数据的时候,从数据中抽取和挖掘新的模式。[1]

Fayyad给出的知识发现的定义:KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。文献[5]对此定义中的概念给出了解释,“数据集”是一组事实F(如关系数据库中的记录)。“模式”是一个用语言L来表示的表达式E,它可用来描述数据集F的某个子集F。E作为一个模式,要求它比对数E据子集F的枚举要简单(所用的描述信息量要少)。“过程”在KDDE中通常指多阶段的处理,涉及数据准备、模式搜索、知识评价及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作一个发现过程)。“有效”是指发现的模式对于新的数据仍保持一定的可信度。“新颖”要求发现的模式是新的。“潜在有用”是指发现的知识将来有实际效用,如用于决策支持系统可提高经济效益。“最终可理解”要求发现的模式能被用户理解,目前主要是体现在简洁性上。“有效、新颖、潜在有用和最终可理解”综合在一起称为兴趣。

知识发现过程可以分为三个主要阶段:数据预处理、数据挖掘及数据挖掘结果评估和表示。知识发现过程如图1.1所示。图1.1 知识发现过程

1.数据预处理

数据预处理可以分为以下几部分。(1)数据清理:对数据中的噪声、缺值、重复、不一致等进行消除。(2)数据集成:对多数据源的数据进行组合,比如可以放在数据仓库中。(3)数据选择:根据需要从原始数据中提取与分析任务相关的一组数据。(4)数据变换:将数据变换或统一成适合挖掘的形式,比如把连续数据转换为离散数据,便于符号运算。

目前较为流行的做法是在建立数据仓库时进行数据预处理,在数据仓库中主要进行降维工作,为数据挖掘做准备。

2.数据挖掘

它是知识发现的基本步骤,即使用智能方法和技术提取有用的数据模式。在此过程中确定挖掘的任务并与用户或知识库进行交互,完成诸如数据总结、分类、聚类、关联规则或序列模式等的发现。在这个过程中智能方法或技术可以用各种算法实现,将找到的有意义、有趣的模式提供给客户,或者作为新知识存放到知识库中。在算法的选择上要考虑不同的数据类型及用户的要求,以及对发现模式的描述形式及知识的表示。

3.数据挖掘结果评估和表示

数据挖掘过程发现的模式要通过用户或系统的评估,这种评估根据某种兴趣度量,识别出能够表示知识的真正有趣的模式。而在知识的表示方面,要把挖掘出的知识向用户展示出来。[4]

J.Han和M.Kamber从功能的角度给出了数据挖掘的定义:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程。基于这样的定义,数据挖掘系统的主要组成如下(见图1.2)。

· 数据库或其他信息库:是一个或多个数据库、数据仓库、电子数据表、Internet或其他类型的信息库。这些数据可以是经过数据清理及集成的。

· 服务器:现在许多服务器中存放着许多数据库或信息库,根据用户的数据挖掘要求,由相关的数据库、数据仓库或其他信息库提供数据源。

· 知识库:知识是人们对信息的加工成果,它们是客观的,是与领域相关的。这些知识存储在知识库中,用于指导搜索或评估结果模式的兴趣度。知识是人类智慧的结晶,知识可分为陈述性知识、过程性知识和控制性知识。在知识库中如何描述和表示人类已获得的知[5]识,是最终获得有用模式的基础。图1.2 数据挖掘系统

· 数据挖掘引擎:由若干功能模块组成,对数据可以实施特征化、关联分析、分类、预测、聚类分析等数据挖掘的算法,得到相应的挖掘结果。

· 模式评估:使用相关的评估规则,依据用户的兴趣度度量,与数据挖掘的功能模块进行交互,使挖掘出的模式得到评估,评估模式的过程是一个模式演化的过程,在数据挖掘中引导有兴趣的模式出现。

· 用户界面:在用户和数据挖掘系统之间通信,实现用户与系统的交互,它既用于说明数据挖掘任务、提供信息、帮助挖掘过程的实现,也用于数据挖掘中间和最终结果的显示。

通过数据挖掘,可以从数据库或其他信息库提取有趣新颖的知识、规律或深层信息,并可以从不同角度观察或查阅它们。知识发现的结果可以用于决策、过程控制、信息管理和查询。1.1.3 数据挖掘技术概述

把从数据中发现有用的知识比喻为挖掘,这种比喻是把数据库当[3]作“矿石”,从中发现“金子”。挖掘宝藏是需要手段的,从传统的锹挖到现代的钻探,随挖掘技术而定。数据挖掘也是如此。随着人们要求的不断提高及研究的实际问题的不同,形成了各种数据挖掘技术。[6]

数据挖掘技术可按三种情况分类:挖掘对象、挖掘任务、挖掘方法。

按挖掘对象分类是指作用在什么类型的数据库上,数据库类型的不同反映了数据库的逻辑结构的不同,依此可分为结构化数据库和非结构化数据库。结构化数据库包括关系数据库、事务数据库、面向对象数据库、演绎(Deductive)数据库、空间(Spatial)数据库、时间(Temporal)数据库等;而非结构化数据库包括多媒体数据库、文本数据库、异构(Heterogeneous)数据库、Internet信息库等。

按挖掘任务分类是指挖掘何种知识,有几种典型的知识可以挖掘出来,包括关联规则、特征(Characteristic)规则、分类规则、判别(Discriminant)规则、聚类、偏差(Deviation)分析、模式分析等。如果以挖掘知识的抽象层次划分,又有一般性知识、原始层次的知识、高层次的知识和多层次的知识等。

按挖掘方法分类是指采用何种方法,可以按驱动方法划分为自动知识挖掘、数据驱动挖掘、查询驱动挖掘及交互数据挖掘,也可以划分为一般化(Generalization)挖掘、基于模式挖掘、依据统计和数学理论的挖掘及综合(Integrated)方法。

数据挖掘技术大致包括:机器学习方法,包括关联规则发现、决策树、分类及分类树、遗传算法、归纳树等;统计方法,包括回归分析(多元分析、自回归、Bayesian网络、分类和回归树、预测模型等)、判别分析(贝叶斯分析、非参数判别等);模式识别方法,包括聚类分析(系统聚类、动态聚类等)、辨识树、K-近邻和最近邻、神经网络、顺序(Equential)模式发现、相似时序发现等;模糊逻辑[7]方法;语义查询优化方法;可视化方法等。下面简单介绍数据挖掘技术中目前研究的热点技术。

1.遗传算法[8]

J.H.Holland提出的遗传算法(Genetic Algorithm,GA)在进化计算中是举足轻重的算法。GA是一种基于适者生存的生物进化与遗传机理的随机搜索算法,是一种全局优化算法。遗传算法由以下5个基本要素构成:

① 参数编码;

② 初始群体设定;

③ 适应度函数设计;

④ 遗传操作设计;

⑤ 控制参数设定。

Holland将染色体编码成二进制代码串,种群就由具有每一位二进制数表示的串组成。对每个串进行适应度函数运算,对适应度的评定即决定把合适的串保留下来进行遗传,分别做“杂交”和“变异”操作,在产生的新一代种群中注入一些随机因素以保持种群的多样性,直到种群达到适应度函数最大化为止。[3]

遗传算法遵循的原则如下:

① 进化发生在染色体中,即染色体因基因的重组而动态变化。

② 适者生存,即复制那些具有更高适应度的有机体的染色体,而这种复制是因适应度函数而定的,有它的相对性。

③ 种群具有多样性,变异可以使有机体保持多样性。

Holland提出的遗传算法思想:首先利用随机方式产生初始群体,群体中的每个个体称为染色体,对应着优化问题的一个可能解。染色体的最小组成元素就称为基因,对应可能解的某一特征,即设计变量。染色体的评价函数值反映可能解的优劣,按照优胜劣汰原则对染色体进行选择,相对“好”的个体得以繁殖,相对“差”的个体将死亡。群体性能通过选择、杂交、变异等过程得到改善,经过若干代繁衍进化就可使群体性能趋于最佳。

遗传算法基本步骤如下。(1)建立一个待优化的问题:

式中x,y,z是自变量,可以是数值或逻辑变量,甚至可以是符号。每组(x,y,z)∈D构成问题的一个可能解,所以D既可以看成x,y,z的定义域,也可看成问题的约束条件或所有满足约束条件的解空间。F是属于实数域R的一个实数,也可看成对每一组可能解(x,y,z)∈D的质量iii优劣的度量,函数f表示从解空间到实数域R的一个映射,唯一的要求就是给定一组解(x,y,z)∈D都可以算出一个对应的F。目标就是要找iii到(x,y,z)∈D使F=f(x,y,z)最大。000000(2)编码:对每一个选定的自变量进行编码,常用一定比特数的二进制代码来代表一个自变量的各种取值,将各自变量的二进制代码连到一起即得到一个二进制代码串,该串就代表了优化问题的一个可能解。如自变量x,y,z的一组取值可用12比特的二进制代码表示为100010011010。(3)产生祖先群体:计算机按随机方法在可能解中产生给定数量的二进制代码串来构成一个原始的祖先群体,其中的每个二进制代码串就代表这一群体中的一位祖先,对每位祖先(可能解)计算其相应的函数值F。按F的大小来评价祖先的染色体的素质。GA算子的任务ii就是从这些祖先出发,模拟进化过程的优胜劣汰,逐次迭代,最后得出非常优秀的群体与个体,以达到优化的目的。(4)选种与繁殖:选种与繁殖模拟生物进化的自然选择功能,从原始群体中随机取一对个体作为繁殖后代的双亲,选种的规则是适应度高的个体有更多的繁殖后代的机会,以使优良特征得以遗传和保留。(5)杂交(也称交叉):以概率P将祖先群体中随机选中的双亲c进行杂交,最简单的杂交方法是随机选择一个截断点或两个截断点,将双亲的二进制代码串在截断点处切开,然后交换其尾部。(6)变异:变异用来模拟生物在自然的遗传环境中,由于各种偶然因素引起的基因突变。其方法是以一定的概率P,选取祖先群体中若干个体,随机选取某一位,将该位的数码翻转,即由1改为0或由0改为1。变异增加了群体基因材料的多样性和自然选择的余地,有利的变异将由于自然选择的作用得以遗传和保留,而有害的变异则将在逐代遗传中被淘汰。

综上所述,通过选种、杂交和变异得到的新一代群体将替代上一代群体。一般新群体的平均素质比上一代群体要好。重复第3~5步,如此迭代下去,各代群体的优良基因成分逐渐积累,群体的平均适应度和最佳个体的适应度不断上升,直到迭代过程找到最优解。

遗传算法具有稳健性、自适应性,其在解决大空间、多峰值、非线性、全局优化等复杂度高的问题时具有很强的优势。因此,遗传算法在数据挖掘技术中逐渐显示出其重要的地位。遗传算法在数据挖掘中主要应用于数据回归和关联规则的获取。数据挖掘采用进化计算在给定的目标集中挖掘有趣的规则,在获得有趣规则的过程中采用遗传[9]算法对属性间的相关性进行处理,在训练集中采用非线性多元回归等方法。

2.支持向量机[3,10]

近几年对支持向量机(SVM)的研究在数据挖掘领域非常活跃,它适用于大规模数据挖掘问题,目前在分类上使用较多。SVM是基于统计学习方法的,属于有监督的学习算法,为学习机提供样本集及相应的类别标识。

SVM构造了一个分隔两类的超平面,现在也可以扩展到多类问题上。在构造的过程中SVM算法试图使两类之间的间隔达到最大化,使其最小泛化误差与期望值最为接近。最小泛化误差是指当对新的样本数据进行分类时,超平面可以使其分类预测错误的概率最小化。这样的分类器可以达到类别分离边缘的最大化。数据集中落在边界平面上的点称为支持向量(Support Vector),支持向量机指支持向量算[11,12]法。Vapnik证明了如下结论:如果训练向量被一个最佳超平面准确无误地分隔,那么在测试样本上的期望误差率由支持向量的个数和训练样本的个数之比来界定。由于该比值和问题的维度无关,因此,如果可以找到一个较小的支持向量集,就可以保证得到很好的泛化能力。图1.3所示的具有训练误差的线性分类器,可以使误分类的个数最小化,即使被正确分类的样本间隔最大化。图1.3 具有训练误差的线性分类器1.1.4 数据挖掘方法比较

上节中已经讨论了大部分数据挖掘技术,这些技术实际上体现了[13]不同领域、不同角度给出的实现方法,大体可以分为从数学角度出发的数理统计方法、从仿生角度出发的神经网络法、从知识角度出发的机器学习方法、从处理不确定性角度出发的模糊逻辑及粗糙集方法等。文献[13]从以下几个方面对数据挖掘方法进行了比较。

· 描述模型的能力:此方法是否能够从数据中挖掘出复杂的模型。

· 可伸缩性:此方法对目标数据集合的大小的敏感度,即是否适用于大型数据库。

· 精确性:此方法对挖掘出的模型是否精确。

· 稳健性:此方法对非法输入、错误数据及环境因素的适应能力。

· 抗噪声能力:若目标数据中存在数据丢失、失真等情况,此方法是否能够自动恢复正确的值或仅仅将噪声过滤。

· 知识的可理解性:此方法发现的知识是否能够为人所理解,是否能够作为先验知识被再利用。

· 是否需要主观知识:此方法在挖掘过程中,是否依赖于外部专家的主观知识。

· 开放性:此方法是否能够结合领域知识来高效地发现知识。

· 适用的数据类型:此方法是否只适用于数值类型的数据或符号类型的数据,或者两者皆可。

依据上述几方面,可以得出,统计模式识别方法具有良好的理论基础,描述模型的能力较强,可伸缩性、精确性、稳健性、抗噪声能力和开放性都较好,比较适合数值信息。但这类方法大多需要对概率分布做主观假设,因此需要主观知识支持;并且发现的结果多为数学公式,不易理解。机器学习方法描述模型的能力较强,结果的可理解性、开放性较好,处理符号信息能力强。但它的精确性、稳健性和抗噪声能力一般,需要以算法的复杂度为代价,并且往往面向经过整理的小训练集,因此可伸缩性差。神经网络法的模型描述能力强,精确性、稳健性和抗噪声能力都较好,一般不需要主观知识的支持。但它需要对数据做多遍扫描,训练时间较长,可伸缩性差;由于知识是以网络结构和连接权值的形式来表达的,因此结果的可理解性和开放性都很差。对于知识的可理解性,虽然可以通过观察输入和输出来分析网络内部的知识,或者通过网络剪枝来简化网络的结构从而提取规则,但效果都不理想。粗糙集方法的伸缩性较强,稳健性和抗噪声能力也较强,知识的可理解性和开放性较好,比较适合符号信息。此外,粗糙集方法可以对数据进行预处理,去掉多余属性,可以提高挖掘效率,降低错误率,但其模型描述能力一般。面向数据库的方法适合大型数据库的知识挖掘,伸缩性强,精确性、抗噪声能力和稳健性较好,对一般数据和符号数据都适合,知识的开放性和可理解性都较强。但其依赖数据模型,只能发现比较简单的描述性知识,用它来发现复杂模型较难。

通过上述比较可以看出,各种方法有其不同的适应领域,在使用上要有所选择。1.1.5 数据挖掘面临的问题

数据挖掘技术经过二十几年的发展已经渐趋成熟,但有些问题还没有解决或解决得不够理想。为获得一个有效的数据挖掘系统,还必[2,6]须解决以下问题。(1)巨量数据与不同类型的数据。数据库的大型化和高维化一直是数据挖掘面临的主要问题,寻找缩减属性及缩小搜索空间的方法和降低线性计算复杂度及时间的有效算法始终是其研究的方向之一。不同的应用形成了各种不同类型的数据,一个强有力的知识发现系统应能处理结构化、半结构化和非结构化数据。然而,在一个系统中完美地实现上述目标还有相当大的困难,但通用的数据挖掘系统一直是人们追求的方向。(2)挖掘结果的有用性、正确性判定。数据挖掘是面向应用的,数据源本身的不完全性直接影响挖掘结果的有用性和正确性,对噪声、缺值和异常数据的处理方法的研究是数据预处理阶段的主要任务。要系统地研究如何判定挖掘结果的质量,包括结果的可靠性、正确性、有用性。(3)交互性与领域知识在知识发现过程中的作用。知识发现过程是一个反复进行的过程,在不同的抽象层上人的参与和领域知识的指导可以加速挖掘进程。系统应该允许用户交互地进行数据挖掘请求,动态地改变数据焦点,进一步深化数据挖掘进程,灵活地从不同的角度和抽象层观察数据和数据挖掘结果。交互性和背景知识或领域知识能使数据挖掘过程具有可控性。(4)知识的表达和解释机制。不同种类的知识表示是不同的,必须知道如何对知识进行表达才能使数据挖掘得到的知识从不同的角度以不同的方式被用户接受,所以挖掘出的知识表示及结果的解释也是研究方向之一,而且结果的过滤也很重要。(5)分布数据源的挖掘。局域网和广域网的遍布使数据源具有分布性和异构性,从不同的格式化或非格式化的具有各式各样语义的数据源中挖掘知识是对数据挖掘提出的又一个挑战,它能促进并行和分布数据挖掘算法的发展。而且,数据的动态变化常常会产生数据不一致问题,因而挖掘出的知识也面临着更新与维护。(6)私有权保护和数据安全。因为对数据可以从不同的角度及不同的抽象层来观察,知识发现有可能导致对私有权的侵犯或威胁数据安全,所以研究采取哪些措施防止暴露敏感信息是很重要的。(7)KDD系统与其他决策支持系统的结合。当前的数据挖掘系统尚不能支持多平台,仅是面向某种特定应用的,有些是基于PC的,有些是面向大型主机的,有些是面向客户−服务器环境的,有的系统对数据库中记录的格式是有要求的,因此,数据挖掘系统与其他决策支持系统的有机结合是一个非常重要的问题。1.2 数据挖掘中的软计算技术概述

上面已列出许多数据挖掘方法,有些是有效的,但有些并不令人满意。这是由于:(1)大量积累的数据的自然不精确性;[14](2)大量积累的多属性数据的内在复杂性。

软计算可以为数据挖掘提供有效的技术。1.2.1 软计算的发展状况

在物理、工程、技术应用、经济等领域中常常出现由多变量和多参数模型描述的物理系统,它们具有非线性耦合性。在处理这样的系统时,人们面临着高度的不确定性和不精确性。而软计算正是以放弃高精度而追求近优解或可行解为目的的。

Zadeh把基于二元逻辑、精确(Crisp)系统、数值分析和精确软件的计算称为硬计算,以区别于基于模糊逻辑、神经网络、概率推理的软计算。前者具有准确性和绝对性,而后者具有逼近性和不精确性(Dispositionality)。在硬计算中不精确性和不确定性是不期望的性质,而在软计算中则不然。软计算是一个汇集不同方法的学科。其宗旨不同于传统的硬计算,它的目标是适应真实世界的普遍深入的不精确性。因此,软计算的指导原则是用容忍不精确性、不确定性和部分真实来获得易处理性、稳健性、低处理代价及与现实较好的融合。软计算把人脑作为其角色模型。

软计算主要包含模糊逻辑(FL)、神经元计算(NC)和概率推理(PR),近来还包括遗传算法(GA)、混沌理论、信任网络(Belief Networks)、粗糙集等。它们是相互补充而不是相互竞争的。这些独特且相关的方法目前得到广泛的注意,并且已经找到大量的实际应用领域,如工业过程控制、故障诊断、语音辨识和不确定状态下的计划安排等。从这个角度来看,模糊逻辑的主要贡献是其逼近推理的能力,是字符计算的一种方法;神经网络理论提供了系统辨识、学习和自适应的有效方法;概率推理提供了在复杂的推理网络中对于表示和传播可能性和可信度(Beliefs)进行计算的有效方法;而GA则是系统化的随机搜索和优化方法。软计算是不精确性、不确定性和部分真实方法论的聚合体,这些方法结合起来比单独使用的效果更好。由此得到的结果具有易处理性、稳健性及与现实相一致性,并且这些[14,15,16]结果常常好于只用传统的(硬)计算方法得到的结果。

软计算是混合的智能化计算方法,它不以精确解为目标。高精度对于实际应用有时是没有意义的,大部分情况下可牺牲精度来换取效率。1.2.2 KDD中的软计算技术简介

KDD是抽取数据库中隐含的知识,把软计算应用到KDD中涉及接受不精确性,这种不精确性体现在数据、数据结构及挖掘出的信息中[14]。在许多方面,软计算表示对计算目标的有意义的模式转变,此转变反映了如下事实:人脑拥有非凡的存储和处理普遍深入的不精确、不确定和缺乏绝对性信息的能力。软计算为处理KDD中的不精确性和不确定性提供了有效的技术,其中各种方法的混合使用构成了KDD中独特的挖掘技术。下面仅简单介绍几种。

1.遗传算法

遗传算法是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。遗传算法是从代表问题潜在解集的一个种群开始的,而一个种群则由经过基因编码的一定数目的个体组成。每个个体实际上是染色体带有特征的实体。染色体作为遗传物质的主要载体,其内部表现(基因型)是某种基因组合,它决定了个体的外部表现,如黑头发的特征是由染色体中控制这一特征的某种基因组合决定的。因此,一开始需要实现从表现型到基因型的映射,即编码工作。由于仿照基因编码的工作很复杂,我们往往对此进行简化,如二进制编码,初代种群产生之后,按照适者生存和优胜劣汰的原理,逐代演化出越来越好的近似解。在每一代,根据问题域中个体的适应度选择个体,并借助自然遗传学的遗传算子进行组合交叉和变异,产生出代表新的解集的种群。这个过程将导致后代种群比前代种群更加适应环境,末代种群中的最优个体经过解码,可以作为问题的近似最优解。该算法主要分为以下步骤。(1)种群初始化。首先随机生成初始种群,一般该种群的数量为100~500,采用二进制将一个染色体编码为基因型。随后用进制转化,将二进制的基因型转化成十进制的表现型。(2)适应度计算。将目标函数值作为个体的适应度。(3)选择操作。将适应度高的个体从当前种群中选出来,即以与[17]适应度成正比的概率来确定各个个体遗传到下一代群体中的数量。

2.支持向量机

支持向量机(Support Vector Machine,SVM)是一类按监督学习(Supervised Learning)方式对数据进行二元分类(Binary Classification)的广义线性分类器(Generalized Linear Classifier),其决策边界是对学习样本求解的最大边距超平面。该算法在解决小样本、非线性及高维模式识别等问题时具有优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机建立在统计学习理论和结构风险最小原理基础上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳解,以期获得最好的推广能力。在机器学习中,支持向量机是监督学习模型,可以分析数据,识别模式,用于分类和回[17]归分析。

3.模糊神经网络

将模糊逻辑与神经网络相结合,即把模糊逻辑中的不精确性引入[18]神经网络中。M.Ayoubi 和R.Isermann提出了混合的神经元模糊网络,用于自适应规则提取,其结构如图1.4所示。此结构由三层网络组成,与三步模糊推理相对应:第一层为先行层(Antecedent Layer),完成输入的模糊化。这层的输出表示输入子集的模糊隶属度。第二层为关系层,它估计规则的成分,研究规则实现的等级。第三层为结论层,聚集规则库和计算反模糊值,进行精确输出。图1.4 混合神经元模糊网络结构

此网络由给出的数据自动抽取IF-THEN规则,然后基于Hebbian学习规则来简化需要的规则。

文献[19]提出的模糊神经网络用于时间序列预测。时间序列的神经网络模型为

其中,ε是均值,f是以权值矢量W为参数的函数。nw

模糊规则R:如果x是A,…,x是A,则j11jNNj

A(i=1,2,…,N;j=1,2,…,K)是模糊子集,K是模糊规则个数。为ij隶属函数。上述模糊推理可以由组合神经网络输出为

其中,g为门限神经网络的输出,计算式为j

训练此网络采用动态模糊聚类来实现。

4.概率推理与演化算法的结合

Bayesian信任网络(Bayesian Belief Networks,BBN)是概率推理中典型的方法,在实际应用中它对不确定性条件下的决策支持问题获得可能的解是有效的,能够表示和处理传统的方法不能实现的复杂模型,并且能基于部分或不确定的数据预测事件,如机械故障诊断、医疗诊断等。它的理论基础为概率论。在数据挖掘技术中采用BBN可以进行模糊信息回溯,取代传统的布尔逻辑。BBN是一个表示变量间概率关系的图网,是具有关联概率表的图,如图1.5所示。BBN由节点和有向弧组成,节点表示随机变量或不确定量,有向弧表示变量间的因果/相关关系,变量间的影响程度由前条件概率定量地表示。表[20,21]1.1为节点概率表,表1.2为条件概率表。图1.5 用于预测果树落叶原因的BBN表1.1 节点概率表表1.2 条件概率表

文献[22]把GA算法用于BBN来描述典型的诊断问题。d(i=1,2,i…,6)表示疾病名称,s(j=1,2,…,5)表示症状,把所对应的BBN映射为j线性结构:

上面的串表示的网络中d、d和s的状态存在,其他节点的状态231不存在。与之相应的概率可以计算出来。随机地产生这样的网络的种群,然后对此种群把概率作为适值函数引导实施遗传操作,找到的最大概率状态超过随机概率取样获得的状态。

5.P-CLASSIC概率描述逻辑法[23]

P-CLASSIC概率描述逻辑法利用描述逻辑和Bayesian网络,给出了一个P-CLASSIC语义和有效的概率包容推理,它能够表示不确定性,其原理是把概率加到一阶逻辑中并用Bayesian网络作为表示工具。图1.6为自然界事物的部分Bayesian网络,该网络中的节点包含每个初始概念:动物、蔬菜、哺乳动物、肉食动物、草食动物。每个节点的值依据一个对象是否属于此概念为真或假,网络定义了一个连接概率分布,例如,考虑(动物,非蔬菜,非哺乳动物,肉食动物,非草食动物),其概率为:P(动物)×P(非蔬菜|动物)×P(非哺乳动物|动物)×P(肉食动物|动物,非哺乳动物)×P(非草食动物|动物,肉食动物)=0.5×1×0.7×0.2×1=0.07。

6.模糊逻辑与演化算法的结合

文献[24]为了发现数据库中由欺诈者留下的“指纹”,利用模糊逻辑与演化算法的结合来进行模式分类,采用遗传程序设计去演化模糊规则,实现准确和智能的分类。其实现是由模糊规则演化器来完成的。图1.7为模糊规则演化器的结构图。

系统开始时对训练数据的每一列用一维聚类算法进行聚类,聚类得到的最大、最小值用于模糊系统的隶属函数的域。四个适值函数确保误分类的概率尽可能小,强制对区分怀疑的数据类和正常的数据类进行演化,要求怀疑项的值比正常值大,所有演化得到的规则是短的。选取交叉概率为0.8,变异概率为0.4,种群大小为100。图1.6 自然界事物的部分Bayesian网络图1.7 模糊规则演化器的结构图

7.粗糙神经网络法

粗糙集在数据挖掘中的应用已经显示出其处理不确定信息的优越性,粗糙集与神经网络结合后,其网络性能在某些情况下优于传统的[25]神经网络。P.Lingras描述的用于粗糙模式预测的粗糙神经网络是由传统的神经元与粗糙神经元结合在一起构成的网络,能够处理粗糙模式,每个粗糙神经元存储输入和输出的上下界值。依据应用的特性,神经网络中的两个粗糙神经元能够使用两条或四条线相互连接起来,上界和下界神经元的重叠表明它们之间的信息交流,其连接方式如图1.8所示。一个粗糙神经元也能与传统的神经元使用两条线相互连接起来。图1.8 两个粗糙神经元之间的三种不同连接方式

一个神经元(传统的、粗糙下界的或粗糙上界的)的输入用加权和来计算:

其中,i和j代表神经元。

一个粗糙神经元r的输出用变换函数按如下公式来计算:

一个传统的神经元i的输出可以简单地按下式计算:

使用如下的sigmoid变换函数:

其中,gain是由设计者确定的参数,以决定sigmoid函数在零点处的陡度。

权值的修正由如下的规则来确定:

其中,α为学习参数。

若网络由三层结构构成,可以采用两种形式:一种为输入层由粗糙神经元组成,隐含层及输出层由传统神经元组成;另一种为输入层及隐含层由粗糙神经元组成,输出层由传统神经元组成。其中的连接均采用全连接方式。

8.讨论

上面仅介绍了几种常见的软计算方法,在实际应用中还有许多其他有效的方法,比如文献[26]中给出的用于预测渗透性的混合软计算系统是一个模糊逻辑、神经网络和遗传算法的混合方法,文献[27]中给出了混沌模拟退火神经网络法,这些混合智能方法吸取了各类方法的优点,不同方法相互补充,变化出多种使用效果良好的方法。大部分模糊逻辑的应用涉及模糊规则的提取,在实际应用中模糊规则与人的直觉非常接近,所以模糊逻辑在软计算中起着重要作用。神经网络技术的主要工具为梯度程序设计,而遗传算法、模拟退火和随机搜索方法的应用没有梯度存在的假设。梯度程序设计和无梯度方法的相互补充提供了神经元遗传系统概念和设计的基础。它们的结合主要表现为神经元模糊系统、模糊遗传系统、神经元遗传系统和神经元模糊遗传系统。

在信息化时代,对信息的收集、存储、处理、利用是势在必行的,而各种相应的工具的开发及研制是受科技发展水平制约的。目前,为使数据的利用率和潜在的效益得以发挥,对数据挖掘的方法及系统提出了更高的要求,而现有方法和系统不完善和不够有效是促使我们在此方面进行研究的驱动力。

现实生活中不确定性是一个本质特征,因此,在不确定性的条件[28]下进行推理和决策是智能行为的核心内容。软计算技术在处理不确定性、不精确性知识方面的优势为知识发现过程提供了智能化方法,不论是神经元模糊技术和演化算法的结合,还是演化算法、混沌理论与其他方法的结合,都为数据挖掘提供了更好的智能挖掘工具,使机器本身能在数据库中有效地找到有价值的但未被识别的数据模式,这种机器智能的实现,离不开软计算技术的使用和发展。1.3 基于WWW的数据挖掘与文本挖掘1.3.1 基于WWW的数据挖掘

只要有数据积累的地方,就意味着其中存在有用的信息,同时也是数据挖掘的用武之地。WWW(World Wide Web)的迅猛发展,为我们积集了众多的数据,而对这些数据的分析处理可为Internet及WWW本身的设计及发展提供支持,因此基于WWW的数据挖掘已成为目前较为热门的研究方向之一。

Internet是一个具有开放性、动态性和异构性的全球分布式网络,资源分布得很分散。WWW以超文本的形式呈现给用户各种资料、[4]信息、新闻等,可以为用户提供丰富的信息资源。快速、准确地从大量的信息源中定位所需要的信息是每个用户的期望,基于WWW的[48]数据挖掘可为用户实现信息服务的良好支持,它可分为以下三类。(1)WWW内容挖掘:针对Web页面内容进行挖掘,包括传统的从WWW上提取信息的搜索引擎(如Webcrawler)、智能地提取信息的搜索工具(如Information Filtering)、把半结构化的Web信息重构为结构化信息后以常用的数据挖掘方法进行分析、对HTML页面内容进行挖掘(包括文本挖掘及多媒体信息挖掘)。(2)WWW访问信息挖掘:对用户访问Web时在服务器上留下的访问记录进行挖掘,包括路径分析、关联规则和序列模型的发现、聚类和分类等。(3)WWW结构挖掘:对Web页面之间的结构进行挖掘,如发现某个论文页面经常被引用,由此可以确定其是重要的。1.3.2 自然语言处理与文本挖掘

自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言(如中文、英文、法文、德文等)是人类交流的重要方式之一,人类的逻辑思维以语言为形式,人类的绝大部分知识以语言文字的形式记载和流传下来。用自然语言与计算机进行通信,一直是人们的愿望,因为这样就可以用自己最习惯的语言来使用计算机,自然语言处理正是以此为目的的。

自然语言处理包括自然语言理解与自然语言生成两部分。前者是指计算机能够理解自然语言文本的意义,后者是指计算机能以自然语言文本来表达给定的意图、思想等。中文信息处理是自然语言处理的一部分,是研究如何用中文与计算机进行通信的,它与其他语言处理[29]有共同之处,但由于中文自身的特点,所以也有其独特的处理方式。

人们在WWW上检索、获取最多的信息数据就是文本数据,而且随着中文信息在网络上的不断增加,对处理Internet上的中文信息提出了要求。由于这种数据类型缺乏结构化,并且随意地存放在Internet上的各个角落,人们不能有效地利用这些丰富的信息资源[30]。因此,对于文本信息处理的研究是一个很有实际意义的课题。

文本挖掘也称文本数据挖掘、文本数据库中的知识发现,它是从非结构化的文本文档中抽取有趣的和非平凡模式或知识的过程,它可以看成数据挖掘或数据库中的知识发现的扩展。

文本挖掘涉及自然语言处理、文本处理技术、网络技术、数据挖掘技术、人工智能技术等多个领域和方向。目前研究的主要方面包括文本的表示和特征提取、文本内容的挖掘、特征匹配等。1.4 研究现状与发展趋势

软计算方法由若干种方法构成,包括神经网络、支持向量机、模糊集合理论、近似推理及一些非导数优化方法,如基于熵的计算、遗[31]传算法、人工免疫和蚁群算法等。其中,机器学习(Machine Learning)是软计算领域中的重要方法,它利用算法来训练数据集,并让其模拟人脑对未来发展趋势进行预测,或采取某种行为来优化系统。机器学习主要是利用算法来分析大数据,从中找出有价值的信息对客观世界进行分析、预测或决策。同传统的软件硬编码相比,机器学习借助海量数据进行训练和学习,通过算法从数据中找到解决问题的规律和方法。神经网络是其代表性的算法,对语音、图像和自然语[32]言的识别和处理是其主要的研究和应用领域。近年来,以专家系统、模糊逻辑、神经网络(ANN)等智能技术为基础的建模方法在线加热[33]成形中得到了应用,显示出了智能建模技术在该工艺中的应用潜力。

通过调查分析,近10年来软计算技术的研究和使用都在快速增长,但在很多领域软件可靠性预测方法还是采用指标的方法度量。事实上,智能机器学习技术用于可靠性预测已逐渐引起人们的注意。因此,软件可靠性的研究应该继续使用公共数据集和其他的机器学习算法来建立更好的预测模型。软计算方法是指对所研究对象不以追求精确解为目标,而是允许存在不精确性、不确定性和部分真实性,从而得到易于处理、稳健性强和成本较低的解决方案,它不是一种单一的方法,而是由若干种计算方法构成的。Madsen(2005)研究使用软计算方法解决软件可靠性工程,提出了一个支持模糊方法和数据挖掘技术的框架。Marcia(2010)采用多种软计算方法进行可靠性建模和可维修系统的分析。他们指出许多软计算方法(包含神经网络、模糊系统和随机方法)都已被用于解决许多不同工程中的复杂问题。而精确地捕捉软件特性中的变化是十分困难的,软计算方法能够帮助软件开发者提高软件质量。软计算方法主要包括人工神经网络、支持向量[34]机、遗传算法和遗传编程等。

知识发现是一项重要活动。以关联数据和本体为代表的语义网技术试图在连接信息孤岛的基础上,提升机器理解信息的能力,从而改变人类知识工作的环境。知识发现是由多种主观和客观因素交织完成的。例如,知识发现的工具是从不同类型的数据库及其他有关资源中通过利用相应的网络技术与工具实现的,知识发现的对象是那些存在于不同类型的数据库与网络中的各种类型的数据,知识发现的结果是找到某种或某些知识,并将其组织为有效的信息。这些知识被称为人[35]们感兴趣的并且符合研究实践的、可利用的有用知识。

知识表示是指通过对真实世界的知识进行建模,表示出知识蕴含的语义信息,以便于机器识别和理解。现有的知识表示技术分成符号[36]主义和连接主义两类。符号主义知识表示基于物理符号系统假设,认为人类认知和思维的基本单元是符号,认知的过程就是在符号表示上进行的运算。连接主义认为人类的认知是互相联系的神经单元所形成网络的整体活动,知识信息不存在于特定的地点,而是在神经网络的连接或权重中。知识表示方法主要分成以下三种。(1)基于符号逻辑的知识表示,包括产生式系统、谓词逻辑、框架表示、语义网等。这种方法与自然语言较为接近,能较好地描述逻辑推理过程,但往往需要依靠人力来生成规则,故这种方法已经不再适用于当前的大规模数据时代。(2)互联网资源的开放知识表示方法,如基于标签的半结构化的标记语言XML、基于互联网资源的语义元数据描述方法RDF、基于逻辑的本体描述语言OWL等。其中,RDF被表示为三元组的形式来描述数据之间的语义联系,知识图谱中的知识也多被表示为这种三元组形式。(3)表示学习,即通过机器学习或深度学习的方法,将研究对象表示为低维连续空间中的向量,同时保留其中的语义信息。相比传统的知识表示方法,表示学习可以有效缓解数据稀疏问题,显著提升计算效率,而且利用表示学习更容易实现多种来源的信息融合。由此看来,表示学习对于知识图谱构建、知识推理和应用具有十分重要的意[37]义。

人工神经网络是20世纪80年代以来人工智能领域兴起的研究热点。通过抽象人脑神经元网络进行信息处理的过程,通过不同的连接方式组成不同的网络来构建模型。每一个神经元模型包括多个输入,每个输入上分别使用不同的权值,通过计算某一函数模型来确定是否[38]激发神经元,最后通过权值计算函数来计算人工神经元的输出。

当前的搜索引擎一般都包括四大部分——搜索器、索引器、检索[39]器及Web前端接口。搜索器也称后端网络爬虫,其工作内容为抓取网页,通常在深度优先或广度优先爬行抓取的方式中出现。严格来说,只要有合适的时间和地点,且相关数据设置正确,网络爬虫就可以支[40]持搜索器随时进行搜索。

较早开始进行文本挖掘研究的是拉丁语系的国家,国外学者先加入文本挖掘的理论、技术研究之中,我国的学者早期通过研究外国文献结合中文特色进行翻译或改进。袁军鹏等(2006)对文本挖掘进行了定义和流程介绍,并详细列举了预处理技术和挖掘分析技术,其[41]中包括分词技术、特征表示、文本摘要、文本聚类等。李芳(2010)提出了文本挖掘的难点技术,对其展开研究并进行了仿真实验,提出了优化方案,解决了文本数据中高度相关难以划分、存在大[42]量层次类别关系等问题。随着研究进程的发展,越来越多的学者提出了基于中文的文本挖掘技术实现方法,如网页信息提取技术、分词[43]技术、文本相似度计算、主题模型的提出及应用等。

聚类分析是无监督学习方法的一种,它是多元统计分析中的常用方法,也是数据挖掘、机器学习与模式识别领域的重要研究内容。聚类分析与有监督学习方法的区别在于聚类分析所用的样本事先不做任何标记,样本所属的类别由聚类分析算法自动确定,它是一种在没有训练数据的情况下将数据集按照样本的特征相似程度划分为若干个簇的过程,使得同一个簇内的样本有较高的相似性,而不同簇的样本之[44]间有较高的相异性。

数据挖掘方法的总体目标是从信息集合中提取信息,并将其关联到一个综合的结构中以供将来使用。分类是一种十分重要的数据挖掘方法,它是一个查找分类器的过程。通过一些约束条件来将数据集中[45]的对象分配到不同的类中。它使用给定的类别标签对数据集中的对象进行分析,通常使用一个训练集,其中所有的对象已经与已知的类别标签相关联。分类算法从训练集中学习并建立模型,而后用这个模[46]型分类新的对象。可以说,分类是根据不同的类来概括数据的过程。[47]分类技术能够处理更广泛的数据,并且越来越受欢迎。参考文献

[1] Usama Fayyad,et al.The KDD process for Extracting Useful Knowledge from volumes of Data[J].Comm.ACM,1996,39(11):27-34.

[2] 王军.数据库知识发现的研究[D].北京:中国科学院软件研究所,1997.

[3] K P Soman,Shyam Diwakar,V Ajay.数据挖掘基础教程[M].范明,等译.北京:机械工业出版社,2009.

[4] Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2008.

[5] 史忠植.知识发现[M].北京:清华大学出版社,2002.

[6] Ming-Syan Chen,et al.Data Mining:An overview from Database Perspective.

[7] An overview of datamining methods and products,http://www.Cs.Chalmers.Se/computingscie…Apporter/magnusbjornsson/appendixd.html

[8] J H Holland.Adaptation in Natural and Artificial Systems[M].Ann Arbor,Michigan:The University of Michigan Press,1975.

[9] K Xu,Z Wang,K S Leung.Using a new type of nonlinear integral for multiregression:An application of evolutionary algorithms in data mining.Proc IEEE Int Conf Syst,Man,Cybern,1998:2326-2331.

[10] Nello Cristianini,John Shawe-Taylor.支持向量机导论[M].北京:电子工业出版社,2006.

[11] V Vapnik.Statistical Learning Theory[M].Wiley,NY,1998.

[12] V Vapnik.Theory of Pattern Recognition[M].Nauka,Moscow,1974.

[13] 陆伟,吴朝晖.知识发现方法的比较研究[J].计算机科学,2000:27(3).

[14] BISC-Special Interest Group:Database Mining,http://www.cs.berkeley.edu/~mazlack/bisc/bisc-dbm.html

[15] What is BISC,http://HTTP.cs.Berkeley.EDU/Research/Projects/Bisc/bisc.memo.html

[16] Lotfi Zadeh.Neuro-Fuzzy and Soft Computing,http://neural.Cs.nthu.edu.tw/jang/book/foreword.html

[17] qiunn1994.Python遗传算法(详解) [EB/OL].https://blog.csdn.net/quinn1994/article/details/80501542

[18] M Ayoubi,R Isermann.Neuro-fuzzy systems for diagnosis[J].Fuzzy Sets and Systems,1997,89:289-307.

[19] 梁艳春,王政,周春光.模糊神经网络在时间序列预测中的应用[J].计算机研究与发展,1998,35(7):663-667.

[20] Bayesian Belidt Networks,http://www.agena.co.uk/bbn_article/bbns.html

[21] Hhgin Help pages,http://www.hugin.dk/hugintro/bbn_pane.html

[22] Applicability of Genetic Alagorithms forabductive Reasoning in Bayesian Belief Networks,http://www.Eur.Nl/fgg/mi/annrep94/p_08.html

[23] D Koller,A Levy,A Pfeffer.P-CLASSIC:A tractable probabilistic description logic.Proceedings of the AAAI Fourtheenth National Conference on Artifical Intelligence,1997.

[24] P J Bentley.Evolving Fuzzy Detectives:An Investigation Into The Evolution Of Fuzzy Rules,http://www.Cs.Ucl.ac.uk/staff/P.Bentley

[25] P Lingras.Rough Neural Networks,1996.

[26] Y Huang,P M Wong,T D Gedeon.Permeability Prediction in Petroleum Reservoir Using a Hybrid System,http://www3.muroran -it.ac.jp/wsc4

[27] T Kok,K A Smith.A Performance Comparison of Chaotic Simulated Annealing Medels for Solving the N-queen Problem,http://www3.muroran-it.ac.jp/wsc4

[28] Daphne Koller,Jack Breese.Belief Networks and Decision-Theoretic Reasoning for AI,http://www.Aaai.Org/conferences/National/1997/Tutorials/sa1.html

[29] 吴立德,等.大规模中文文本处理[M].上海:复旦大学出版社,

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载