粗糙集的论域扩展理论及在专家系统中的应用(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-23 07:12:08

点击下载

作者:阎瑞霞,吴忠,郑建国

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

粗糙集的论域扩展理论及在专家系统中的应用

粗糙集的论域扩展理论及在专家系统中的应用试读:

前言

Forword

粗糙集建立在分类机制的基础上,利用已知的知识库近似刻画不精确或不确定的研究对象。粗糙集已成功地应用到社会生活中的很多方面,随着其应用广度和深度的不断拓展,粗糙集的扩展研究引起了学者们的重视。目前,粗糙集的扩展理论主要是指粗糙集在等价关系、近似空间和论域3个方向上的扩展。其中,粗糙集的关系扩展和近似空间扩展理论已经成功应用于多属性决策、故障诊断等领域。但是,一方面粗糙集的论域扩展理论研究刚刚起步、定义还不统一、性质还不够完善;另一方面,现实问题大都涉及两个论域的情况,比如,个性化营销中商品属性集与顾客特征集、企业经营诊断中企业出现的问题集和解决方案集、疾病诊断中疾病的症状集和药物集、机械故障诊断中故障集和解决方案集等都可以看做两个不同的论域,利用粗糙集的论域扩展理论对上述问题进行推理、分析和获取相关规则,可以为我们的决策提供帮助。因此,粗糙集的论域扩展研究在理论和应用两个方面均有重要的意义。

已有粗糙集的论域扩展理论是建立在相容关系基础上的,在一定程度上限制了其应用。本书通过比较分析已有粗糙集论域扩展理论的相关定义,将两个论域之间的相容关系扩展为无限制的二元关系:一般关系,构建基于一般关系的论域扩展粗糙集近似算子——双论域粗糙集近似算子,基于双论域粗糙集近似算子的粗糙集被称为双论域粗糙集。具体来说,本书的主要工作如下:(1)丰富和发展粗糙集的论域扩展理论。在双论域粗糙集近似算子的基础上,定义了双论域粗糙集的属性重要度、属性约简、相对属性约简、信息熵和信息粒度等概念,研究双论域粗糙集的基本性质和不确定性度量。(2)在模糊信息系统中研究双论域粗糙集。利用模糊关系和水平截集构造模糊双论域粗糙集近似算子,定义基于模糊双论域粗糙集近似算子的粗糙集为模糊双论域粗糙集。从粗糙集和模糊关系两个角度研究模糊双论域粗糙集的性质和定义,研究模糊双论域粗糙集的属性重要度、属性约简、相对属性约简等基本概念和性质,并给出实例予以说明。(3)在概率近似空间中研究双论域粗糙集。利用包含度和阈值构造了变精度双论域粗糙集近似算子,定义基于变精度双论域粗糙集近似算子的粗糙集为变精度双论域粗糙集。从粗糙集和包含度两个角度研究变精度双论域粗糙集的性质,研究不同阈值下变精度双论域粗糙集的包含关系;定义并研究变精度双论域粗糙集的属性重要度、属性约简、相对属性约简等基本概念和性质,并给出实例予以说明。类似地,定义并研究双参数变精度双论域粗糙集近似算子的基本概念和性质。(4)设计基于双论域粗糙集、模糊双论域粗糙集和变精度双论域粗糙集的专家系统。设计双论域粗糙集、模糊双论域粗糙集和变精度双论域粗糙集上、下近似算子的求解算法。同时,提出研究对象的双论域、模糊双论域和变精度双论域正域、负域、可能域和边界域的计算方法。将书中提出的理论和算法应用于房地产个性化营销中,利用双论域、模糊双论域和变精度双论域正域、负域、可能域和边界域提取房地产个性化营销中的确定性规则和可能性规则。

由于学术水平的局限,本书难免存在不妥之处,真诚希望各位专家、学者不吝赐教。

在撰写本书的过程中,我们大量参阅了近年来该领域的一些新研究成果,在此向相关文献的作者表示诚挚的谢意。上海工程技术大学吴忠教授和东华大学郑建国教授认真地审阅了本书稿,并提出了宝贵的修改意见,在此一并表示感谢!本书还得到了上海地方本科院校国家社会科学基金资助成果(项目编号:12BGL088)、“十二五”内涵建设“现代综合交通智能化管理工程”(项目编号:0852011XKZY15)、上海市科委高校能力建设“上海轨道交通信息集成平台”(项目编号:09220502900)和上海市教委“轨道交通信息系统工程”(项目编号:JZ0907)的资助。阎瑞霞2012年9月第1章绪论

粗糙集是一种处理模糊和不确定性知识的数学工具,是人工智能中的一种重要推理技术。粗糙集无须提供问题所需处理的数据集合之外的任何先验知识,能客观地描述和处理不确定性问题。作为一个独立的理论框架,粗糙集理论能有效处理下列问题:不确定性或不精确知识的表达、经验学习并从经验中获取知识、知识分析、矛盾分析、不确定性推理、基于信息保留的数据简化、近似模式分类、识别并评价数据间的依赖性、发现数据中因果关系、发现数据中的相似性和区别、从数据中产生决策算法、基于一致性评价可用信息的质量等。粗糙集的特点决定了粗糙集在知识获取和知识推理中有着不可替代的优越性。

目前,已有众多学者研究了粗糙集的关系扩展和近似空间扩展,不仅在理论上取得了极大的进步,而且粗糙集的关系扩展和近似空间扩展已经成功应用于多属性决策、故障诊断等很多领域。

但是,一方面,粗糙集的论域扩展理论研究刚刚起步、定义还不统一、性质还不够完善。比如,现在存在基于相容关系粗糙集的论域扩展、双论域粗糙集和由粗糙集诱导的双论域粗糙集等概念。因此,粗糙集的论域扩展在理论方面具有广阔的研究空间。另一方面,现实问题大都涉及两个论域的情况,比如,个性化营销中商品属性集与顾客特征集、企业经营诊断中企业出现的问题集和解决方案集、疾病诊断中疾病的症状集和药物集、机械故障诊断中故障集和解决方案集等都可以看做两个不同的论域,可以利用粗糙集的论域扩展理论构建决策支持系统模型。同时,粗糙集的论域扩展理论的特点决定了其可以进一步求解这些多属性决策和多目标决策问题中,指导我们的决策。例如,在个性化型营销中,将产品特性和消费者的特征看做两个不同的论域,利用粗糙集的论域扩展理论分析和推理,获取营销规律,可以为营销人员针对客户进行个性化营销提供参考具有十分重要的现实意义。因此,粗糙集的论域扩展在现实生活中也有很广泛的应用背景。

综上所述,粗糙集的论域扩展无论在理论上还是在应用方面都有很好的研究价值和应用前景。1.1 粗糙集国内外研究进展1.1.1 粗糙集研究概述[1]

粗糙集理论是20世纪80年代初Z.Pawlak针对边界域思想提出的,粗糙集理论建立在分类机制的基础上,利用已知的知识库,基于给定训练数据内部的等价类,用上、下近似集合来逼近数据库中的不精确概念,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。[2]

1991年,Z.Pawlak出版专著系统全面地阐述了粗糙集理论,奠定了严密的数学基础,促进了粗糙集在各个领域中的应用。粗糙集理论的提出引起了许多数学家、逻辑学家和计算机研究人员的兴趣和国际学术界的广泛重视。

目前,粗糙集已成为信息领域、人工智能等方面的一个学术热点[[[3-5]6-8]9,10],同时,粗糙集还在医学、化学、管理科学[[11]12]和金融等其他学科得到了成功的应用。截至2012年9月19日,在数据库Web of science中以“主题=‘rough set’、入库时间=‘所有年份’、数据库=‘SCI-EXPANDED,SSCI,CPCI-S,CCR-EXPANDED.IC.’”进行检索,查得的文章数量为6692篇。在上述检索条件下年份与发表文章数目的描述如图1-1所示。图1-1 近20年粗糙集的研究状况

由图1-1可知,近20年来每年发表的文章数量是逐年递增的(由于2010年和2011年的文章还没有全部检索,数量较2009年少)。

在上述检索条件下各个年限引文中以“Rough set”为主题的文章数量描述如图1-2所示。图1-2 近20年粗糙集引文状况

由图1-2可知,近20年来与粗糙集有关的引用论文数量也是逐年递增的(由于2011年的文章还没有全部检索,数量较2010年少)。

由图1-1和图1-2可知,自粗糙集理论提出来后,以粗糙集为主题[13]的论文的数量逐年递增,近年来对粗糙集的研究逐渐趋热。

粗糙集理论作为一种处理模糊和不精确性知识的新型数学工具,以其独特的优势赢得了越来越多的研究者的关注,并在各个领域中获得了广泛的应用。对粗糙集理论的研究主要有两种方法:构造性方法[14]与公理化方法。

1.构造性方法

构造性方法是以论域上的二元关系或布尔子代数作为基本要素导U出粗糙集代数系统(2,~,∪,∩,),这种方法是对原始Pawlak粗糙集模型的推广,其主要思路是从给定的近似空间出发去研究粗糙集。它所研究的问题往往来源于实际,所建立的模型有很强的应用价值,其主要缺点是近似算子的代数结构不易被深刻了解。在Pawlak粗糙集模型中有3个最基本的要素:一个是论域U;一个是U上的二元等价关系R(或划分);另一个是U和R构成的近似空间。因此,粗糙集的扩展主要有3个方向,即论域方向、关系方向和近似空间方向。(1)论域扩展:目前论域扩展粗糙集大都基于相容关系,将单个论域扩展为两个不同的论域。目前,关于粗糙集的论域扩展理论和应用研究较少。(2)关系扩展:将论域上的二元等价关系扩展成为相似关系、相容关系、优势关系(支配关系)甚至任意的二元关系等,然后得到粗糙集的关系扩展模型。(3)近似空间扩展:粗糙集的近似空间扩展主要指经典集合向模糊集合的推广研究、一般是近似空间向模糊近似空间和概率近似空间的扩展研究。粗糙集的近似空间扩展侧重开展与其他处理不确定性的理论、方法,如概率论、模糊数学、证据理论等的结合研究。因此粗糙集的近似空间扩展研究主要集中在粗糙集与模糊集、概率论、证据理论的结合研究。

2.公理化方法

公理化方法也称为代数方法,有时也称为算子方法。它的基本要UU素是一对满足某些公理的一元集合近似算子L,H:2→2。公理化方法的明显优点是能够深刻地了解近似算子的代数结构,其缺点是应用性不够强。公理化方法中近似算子的某些公理能保证有一些特殊类型的二元关系的存在,使这些二元关系能够通过构造性方法产生给定的近似算子;反过来,由二元关系通过构造性方法导出的近似算子一定满足某些公理,使这些公理能通过代数方法产生给定的二元关系。公理化方法的研究一开始只局限于Pawlak粗糙代数系统,即公理与二元等价关系相对应的情形,后来逐渐发展为一般关系下的粗糙集系统。

下面将以构造性方法为主线,分析粗糙集的研究历史和现状。如不特别标明,下面未加限制的粗糙集均指原始的Pawlak粗糙集模型。1.1.2 粗糙集的关系扩展

粗糙集理论通过不可区分关系为不完全和不充分信息的处理提供了一套系统的方法。自从Pawlak粗糙集在数据挖掘中得到广泛应用以来,学者们根据解决问题的需要对Pawlak粗糙集的等价关系进行了推广:将等价关系放宽为相容关系、相似关系、优势关系和一般二元关系等。另外,从等价关系等同于划分这个角度出发,将Pawlak粗糙集推广到覆盖粗糙集等。关于粗糙集的关系扩展研究主要表现如下。

1.基于优势关系的粗糙集

经典的粗糙集理论不能够发现偏好多属性决策表中与指定的偏好属性相关的不相容性,如在经济及金融问题中常遇到的属性:投资回[15-17]报率、利润率、市场占有率及负债率等,这些属性包含偏好[18]信息。为了处理偏好属性,Greco等学者用优势关系代替不可分辨关系,提出了优势粗糙集理论,该理论能够处理多标准决策分析中[19]典型事例决策的不一致性。之后Greco等对优势粗糙集做了一系[20,21]列的扩展研究。优势粗糙集及其扩展研究(模糊优势粗糙[[22-26]27]集、变精度优势粗糙集、不完备信息系统下的优势粗糙[[2928,29]]集、区间值优势粗糙集)取得了很好的结果,优势粗糙集理论研究已经比较成熟。优势粗糙集广泛应用于风险预测[[30]31]、项目评估等方面。

2.基于相似关系的粗糙集

由于实际决策过程中的复杂性和不确定信息的多样性,人们在决策分析中面对的数据经常是不精确的,或者即使是精确的,但在特定的研究背景下,微小的差异是没有意义的。为了扩展粗糙集处理数据的能力,一些学者提出用相似关系来代替不可分辨关系作为粗糙集的[32]基础。1995年,Slowinski和Vanderpooten最先提出了满足自反性和对称性的相似关系取代等价关系来构造粗糙集模型,随后[33]Slowinski和Vanderpooten接着研究了基于相似关系的粗糙集的性质及应用,指出基于相似关系的粗糙集可以用于忽略属性值的微小差异。鉴于相似关系的普遍性,很多学者研究了基于相似关系的粗糙[34-37]集的理论及应用。另外,学者们研究了基于相似关系的模糊[35,粗糙集和变精度粗糙集的理论及应用,并取得了很好的结果38]。

3.基于相容关系的粗糙集

在现实世界中,由于数据测量的误差、对数据的理解或获取的限制等众多原因,所面临信息系统往往是不完备的。因此,如何使用粗糙集理论从不完备信息系统中挖掘知识对于粗糙集的发展具有举足轻重的作用。当不完备信息系统中的所有未知属性值都被认为是遗漏型[39]时,Grzymala-Bysse在《实例学习中属性的不确定》一文中做了详细的阐述,在该文的基础上,M.Krysikiewicz构建了满足自反性[40]和对称性的容差关系,并研究了不完备信息系统中规则挖掘的[41,42]方法。由于不完备信息系统的存在性,很多学者研究了基[43-45]于相容关系的粗糙集的理论及应用。另外,学者们研究了基[[46]47]于相容关系的覆盖粗糙集,模糊粗糙集和变精度粗糙集[48,49]的理论及应用,均取得了很好的结果。

4.覆盖粗糙集

从等价关系等同于划分这个角度出发,Zakowski把划分放宽为覆盖,将Pawlak粗糙集理论推广到覆盖广义粗糙集理论。对于覆盖粗糙集,目前主要有5种定义,其区别在于覆盖上近似运算法则的不同[[50,51]52]。覆盖粗糙集的属性约简已成为一个热点问题,另外,比较有意义的研究课题是将覆盖广义粗糙集与其他相关学科结合起[53]来,以找到新的突破点和应用。1.1.3 粗糙集的近似空间扩展

针对现实世界中遇到的对象很多是模糊的、不精确定义的类型,以及现实生活中获取的信息通常是含有噪声的,粗糙集的近似空间扩展主要是指经典集合向模糊集合的推广研究、一般近似空间向模糊近似空间和概率近似空间的扩展研究。下面介绍粗糙集的近似空间扩展相关研究。

1.粗糙集与模糊集的结合

Pawlak粗糙集模型中所涉及的概念都是清晰的,即所有集合都是经典集合。然而,在实际生活中,涉及更多的是模糊概念和模糊知[54]识。模糊概念和模糊知识反映在粗糙集模型中有两类,一类是知识库中知识是清晰的,而被近似的概念是模糊的;另一类是知识库中的知识和被近似的概念都是模糊的。粗糙集理论和模糊集理论是由经典集合论推广的两种不同的互补理论,由于它们描述了不确定性的不同方面,因而被应用于不同的领域。[55-58]

粗糙集与模糊集关系的研究除了模糊粗糙集和粗糙模糊集之外还包括粗糙集与Vague集(模糊集的扩展)关系的研究。从研究的结果可得,粗糙集,模糊集,Vague集理论有相通之处,它们是从不同角度、用不同方法、描述内容不尽相同的不确定性问题,因此不可能出现相互取代的情况;粗糙集、模糊集、Vague集的相互补充、相互渗透会更有利于解决问题。模糊集和粗糙集都具有很强的应用性,两者的结合可显示出更强的功能。目前模糊集和粗糙集的结合已经应[59-62]用到社会生活的各个领域。

综合已有文献可知,从模糊粗糙集理论的提出到后来的各种广义粗糙集理论、公理化的研究,可以说在一个完备的论域框架下,已经使模糊粗糙集理论的发展达到一个相对完善的状态。在不完备或不相容空间研究模糊集与粗糙集的结合模型以及在集值信息系统中研究模糊集与粗糙集的结合模型仍是一个研究热点。

2.粗糙集与概率理论的结合

粗糙集的定义没有充分利用边界区域中的统计信息,为了研究这[63]个问题,1993年Ziarko通过引入一个β近似空间来反映这种限制,提出了变精度粗糙集模型。变精度粗糙集模型是对粗糙集理论的一种扩展,它放松了粗糙集理论对近似边界的严格定义。当对象按变精度粗糙集分类时,需定义一个正确分类的阈值β。Ziarko称β为分类误差,定义区域为0≤β<0.5。

自Ziarko提出变精度粗糙集模型以来,许多学者对该模型进行了研究,主要集中在基于变精度粗糙集模型的知识约简理论与方法、模[64]型推广以及模型的应用。An等学者将β定义为正确分类的比例,在这种情况下近似范围为0.5<β≤1,并将此技术称为强化粗糙集,本质上它与Ziarko提出的变精度粗糙集是一致的。变精度粗糙集相对于传统粗糙集扩大了正域的范围,减小了边界域的范围。应用变精度粗糙集可以最大限度地获取边界信息,同时应用β上近似的过滤还可减少一定的噪声干扰。然而,参数β使得变精度模型比传统的模型更灵活的同时,也产生了一定的限制:一旦参数β确定,上下近似同时[65]受到一个参数的制约。Katzberg和Ziarko进一步提出了不对称边界的变精度粗糙集模型,即在上、下近似的定义中的β可以是不相同的,从而使此模型更加一般化。虽然Katzberg和Ziarko提出的不对称边界的变精度粗糙集模型具有很大程度的灵活性,但其中的参数是人为的,为了克服这一缺陷,Slezk和Ziarko提出了Bayesian粗糙集模型[66]。Bayesian粗糙集模型进一步增强了变精度粗糙集的应用灵活性。变精度粗糙集及其进一步的完善研究,使粗糙集理论能更合理地[67-70]处理处于边界区域的知识,在社会生活中有着广泛的应用。

3.粗糙集与证据理论的结合

作为概率论的推广,Dempster-Shafer证据理论是处理不确定性[71]信息的又一个方法,这个理论最初是由Dempster提出的,[72]Shafer进一步将该理论系统化成专著,该理论的基本信息粒度是信任结构,由信任结构可以导出一对对偶的信任函数和似然函数,这是证据理论中最重要的一对数值型测度。如果将粗糙集理论中集合的下近似与上近似看成对此集合所表示的概念在近似空间中的定性描述,而将证据理论中集合的信任度与似然度看成对集合所表示的概念在信任结构中的定量描述,那么这两个理论有某些必然的联系。最初[73,74]研究此问题的是Pawlak,随后,很多研究人员继续深入地对此问题进行了研究。然而,大部分的研究都把注意力集中在Pawlak粗糙集模型上,并且这些研究得到的主要结论是从一个Pawlak粗糙集可以导出信任函数,信任函数被看做概率测度从可测集到不可测集上的延伸,或者说信任函数是内概率测度。从现有成果看,粗糙集理论和证据理论的关系能够帮助加深对各自理论的进一步理解,由于从粗糙集理论的近似空间可以导出信任函数和似然函数,这为粗糙集理论在智能信息系统不确定性问题的分析找到了更为广泛的应用前景。由于在证据理论中的mass函数通常是由领域专家给出的,所以有很大的主观性,而粗糙集理论中导出的信任结构的mass函数是直接从所给定的数据库中得到的,因此是比较客观的。另外已有文献研究的都是完备系统,由于不完备系统要比完备系统复杂得多,因此针对不完备信息系统中各种不同要求及知识约简问题是值得进一步研究的问题。1.1.4 粗糙集的论域扩展

Pawlak粗糙集模型是建立在同一个论域的等价关系的基础上,然而现实生活中的问题是复杂的,所研究的对象可能出于不同的专家领域,因此学者开始了将一个论域推广到两个不同论域的研究。[75]

1998年,姚一豫指出“标准粗糙集的扩展有两个方向:利用非等价关系获得广义粗糙集和利用两个论域之间的关系获得区间值代数”,正式提出了在两个论域上研究粗糙集是粗糙集的一种扩展模[75]式。但是论文《粗糙集理论中关于信任函数的解释》的主要目的是构建统一的不确定性信息处理框架,仅涉及用区间结构刻画两个论域上的粗糙集代数,没有研究两个论域上的粗糙集下近似、上近似算子及它们的性质。姚一豫将论域推广后的粗糙集称为广义粗糙集(Generalized Rough Set)。从文献上看,广义粗糙集有两种理解方式:(1)将Pawlak粗糙集的基础等价关系扩展为一般的二元关系[76-78];[79-89](2)将论域扩展为两个不同的论域。

为了避免概念的混淆,本书用论域扩展粗糙集来指代姚一豫提出的由单个论域扩展到两个论域而得到的广义粗糙集;广义粗糙集仍指关系扩展的粗糙集。

粗糙集理论中下近似和上近似算子是构成粗糙集模型的基础,论域扩展粗糙集模型的主要工作也集中于两个论域的下近似和上近似算[74]子的构造上。文献《不确定模型的区间理论》和《粗糙集理论[75]中关于信任函数的解释》中构建了基于相容关系的论域扩展粗糙集近似算子,之后众多学者在文献[74,75]的基础上进一步研究了论域扩展粗糙集。

鉴于现实世界中存在着大量的模糊现象,很多学者同时研究了两[79]个论域上的粗糙集和模糊粗糙集。2003年,吴伟志等基于集值函数构造了基于一般关系的两个论域上的粗糙集近似算子,但是文章[79]《一般模糊粗糙集》没有考虑所研究集合为空集的情况。[79]

同时,在文章《一般模糊粗糙集》中吴伟志等利用模糊关系和阈值构造了两个论域上的模糊粗糙集,实质上他是利用截集将模糊关系转化为一般关系,将两个论域上的模糊粗糙集转化为两个论域上的粗糙集进行研究。[80]

2004年,吴伟志等重新构造了基于一般模糊关系的两个论域上的模糊粗糙集模型,并利用模糊集合的取大和取小算子构造了两个论域上的模糊粗糙集下近似和上近似算子,从此,两个论域上的模糊粗糙集的研究突破了两个论域上的粗糙集的研究思路。[81]

2005年,吴伟志和张文修首次将模糊蕴含算子和三角模算子引入两个论域上的模糊粗糙集近似算子的构造中来,构造了新的两个论域上的模糊粗糙集模型,研究了模糊关系和模糊粗糙集近似算子之间的关系,以及两个论域上的模糊粗糙集近似算子的存在性。[82,83]

2008年,李同军在文章[81]基础上研究了基于模糊蕴含算子和三角模算子的两个论域上的模糊粗糙集,他主要研究两个论域上的模糊粗糙集与覆盖模糊粗糙集、优势模糊粗糙集和相似模糊粗糙集之间的关系,对研究两个论域上的粗糙集、两个论域上的模糊粗糙集与已有的粗糙集模型之间的关系提供了很好的思路。[84]

2009年,张红英在两个论域上研究了基于区间值蕴含算子和三角模算子的区间值模糊粗糙集,研究了区间值模糊逻辑算子的基本性质,首次引入了区间值模糊相似关系的构造性方法,对两个论域上的模糊粗糙集的扩展有很大的促进作用。[85]

2010年,刘贵龙采用了构造性方法,引入孤独集构造了两个论域上的粗糙集下近似和上近似算子,但是文中对两个论域上的粗[86]糙集的性质的证明不够严谨,随后Yang给出了严格的证明。[87]

2010年,孙秉珍进一步推广了文章[80]的两个论域上的模糊粗糙集,给出了两个论域上的变精度模糊粗糙集模型,并通过例[87]子说明了模型的实用性,不过文章中的模糊关系为模糊相容关系,限制了模糊双论域粗糙集的应用。[88,89]

2010年,阎瑞霞等通过文献分析指出:很多学者提出的两个论域上的粗糙集近似算子的构造是建立在两个论域的相容关系的基础上,在一定程度上限制了论域扩展粗糙集的应用,阎瑞霞等将相容关系扩展为一般关系,构造了两个论域上的粗糙集。阎瑞霞构造的基于一般关系的两个论域上的粗糙集称为双论域粗糙集,双论域粗糙集扩大了两个论域上的粗糙集的应用范围。其中,文章[88]系统研究了基于一般关系的双论域粗糙集的性质,给出了双论域粗糙集下近似和上近似的求解算法,并将双论域粗糙集应用于专家系统的推理机设计中;文章[89]进一步完善了基于一般关系的双论域粗糙集的定义和性质,并将其应用于医疗诊断专家系统中。文章[88,89]从单个论域的关系出发,诱导出两个论域之间的关系,然后基于诱导得到的两个论域间的关系构造两个论域上的粗糙集近似算子。

通过分析论域扩展粗糙集的研究,可以看出论域扩展粗糙集发挥了粗糙集本质的特点——分类的确定程度,即利用下近似和上近似的概念刻画正域、边界域和负域,论域扩展粗糙集能广泛应用于不确定性样本分类和多属性决策问题。1.1.5 粗糙集在专家系统中的应用研究

专家系统是一个智能的基于知识推理的系统,是集领域知识、人工智能和技术于一体的智能推理系统,它能够在特定的领域内模仿人类专家思维来求解复杂问题。目前,专家系统已经成功地应用于个人理财、贷款损失评估等很多领域中。

从专家系统的作用和实现过程来看,专家系统主要包括知识获取、知识库管理和规则提取。可以利用粗糙集进行知识约简,降低计算复杂度和计算时间;在知识约简的基础上进一步导出问题的决策或分类规则,为我们做决策提供帮助。基于粗糙集的专家系统是基于等价类或知识在给定的信息系统中,利用上、下近似集合来逼近数据库中的不精确概念。基于粗糙集的专家系统是在属性约简和规则获取的基础上,利用知识库中的规则进行不确定性推理,为我们提供科学的决策。因此,粗糙集在专家系统中的应用研究主要集中于知识约简和规则提取两个方面。

1.基于粗糙集的知识约简

随着社会的发展,现实生活中的数据库变得越来越大,其维度(属性的个数)也变得越来越大,数以十计、百计,甚至千计的属性[90-92]存储于现实世界的数据库中。与决策无关的属性,在很大程[93]度上会增加计算复杂度,即存储和处理所有的无关属性的计算[94]是非常昂贵和不切实际的。为了解决这个问题,胡清华指出可以约简掉一些不(严重)影响分类的属性,约简掉一些属性不仅不会[95]影响实际问题的解决,还会降低实际问题的计算复杂度。

属性约简又称特征选择,已经广泛地被应用于模式识别、数据挖掘和机器学习领域。粗糙集的属性约简提供了一个基于一致性的特征选择理论框架,其思想是在保持对论域的分类能力不变的前提下尽可[96]能地减少属性。属性约简的方法主要有两种:一是采用学习算[97]法来评估所选择的属性子集;二是根据属性重要度或者信息增[9098,99],益等选择属性。

为了处理定量和定性属性,Pedrycz和Vukovich将属性称为粒度[92],研究了粗糙集的属性约简。沈强和Jenshen将经典粗糙集中的依赖函数推广到模糊近似空间,并且提出了模糊粗糙集的快速约简算[100]法。Bhatt和Gopal在模糊粗糙集中提出了紧凑的计算域来提高[101,102]计算效率。胡清华等人在模糊集中提出一种新的熵来度量[[103]104]信息数量,并应用该方法约简混合数据。由于粗糙集智能处理离散数据,因此,学者们将数据离散成多个间隔的数值,将定[105,106]量数据离散化。Ziarko提出β-约简概念,提供了一套减少[107]可变精度粗糙集模型的方法。吴伟志在文献[108]中,提出[109]了减少随机信息系统的属性约简方法。Kryszkiewicz和[110]Leung在不完备信息系统中提出了5种属性约简方法,并研究了它们之间的关系。为了获得一个给定的数据集属性约简,[111]Skowron提出了差别矩阵的方法,在任何两个对象之间确定一[112]个能区分它们的功能子集。邵明文等从差别矩阵的角度在区间值信息系统,集值有序的信息系统和不完整的序信息系统提出属性约[113]简方法。Kryszkiewicz和Laske提出了一种根据决策属性获取最小属性约简的方法。以上的属性约简方法计算复杂度比较高,在处理大规模数据集或高维数据集时有很大的限制。为了高效地获取约简属[94104,,性,很多学者在粗糙集理论中提出了启发式属性约简方法114-118]。启发式属性约简方法可以分为四大类:正区域的属性约简、香农熵的属性约简、信息熵的属性约简和组合熵的属性约简,利用这些方法可以方便地从给定的决策表中进行属性约简。

2.基于粗糙集的规则提取

在属性约简对信息系统进行预处理的基础上,设计规则提取算法获得有意义的决策规则是非常重要的,它为我们做决策提供了很大的

[[119]120,121]帮助。Tsum-oto研究了概率规则归纳方法,并将其[120]应用于医疗数据库的知识提取中。Tsumoto 先研究了只有完全包含的对象集,认为这集是能进行分组的,而在文献[121]中引入[122-124]了粗糙的包容关系。GrzymalaBusse等人研究了提取最小决策规则集的LEMS算法,并将LEMS算法应用于分类和医学知识挖[125]掘中。Bob Law在数值型和非数值型混合数据集上研究了分类、决策规则提取,并将其应用于旅游购物的分析。沈强和[126]Chouchoulas提出了一个高度模块化的粗糙集属性约简和规则的提取框架,并将其应用于城市污水处理系统。

总之,基于粗糙集的属性约简和规则提取的专家系统已经成功地应用到生活中的很多方面,但是,已有属性约简和规则提取的计算代价仍然非常昂贵,因此设计合理有效的粗糙集属性约简和规则提取算法仍是当前研究的一个热点议题。1.2 研究目标、内容与创新点1.2.1 研究目标

由文献分析可知,目前关于粗糙集的论域扩展模型构造不统一、理论研究不深入。因此,本书通过比较分析已有粗糙集的论域扩展相关定义,将两个论域间的相容关系扩展为无限制的二元关系:一般关系,构建了基于一般关系粗糙集的论域扩展模型:双论域粗糙集。基于本书中构建的双论域粗糙集模型,提出并研究双论域粗糙集的属性约简、规则提取、不确定性度量等概念和相关性质,丰富粗糙集的论域扩展理论体系;在模糊信息系统和概率近似空间中进一步研究双论域粗糙集,扩展双论域粗糙集的应用范围和灵活性。

本书研究的具体目标如下:(1)丰富和发展粗糙集的论域扩展理论体系;(2)在模糊信息系统中研究模糊双论域粗糙集模型;(3)在含噪声的信息系统中研究变精度双论域粗糙集模型;(4)构建基于双论域粗糙集、模糊双论域粗糙集和变精度双论域粗糙集的专家系统,并将其应用于决策中。1.2.2 研究内容

本书的整体研究目标是发展和完善粗糙集的论域扩展理论体系,并将其应用于专家系统中。针对这一研究目标,本书的主要内容可以归纳为以下4个方面。

1.丰富粗糙集的论域扩展理论体系(1)双论域粗糙集近似算子

粗糙集是基于上、下近似算子研究不确定信息及逼近问题,近似算子是构建粗糙集的基石。由于粗糙集的论域扩展研究时间比较短,目前存在多种粗糙集的论域扩展相关近似算子的构造公式,对粗糙集的论域扩展描述不统一。本书通过比较分析传统粗糙集的论域扩展近似算子的构造公式,结合Pawlak粗糙集近似算子的定义和性质,将两个论域间的相容关系扩展为无限制的二元关系:一般关系,构建基于一般关系的论域扩展粗糙集近似算子——双论域粗糙集近似算子。(2)双论域粗糙集的基本概念和性质

属性约简是粗糙集理论的一个特色,属性重要度、精确度、粗糙度等是属性约简中涉及的基本概念。为了更好地将双论域粗糙集应用于管理决策中,在双论域粗糙集近似算子的基础上,定义双论域粗糙集的属性重要度、属性约简、相对属性约简等基本概念,并研究它们的性质。同时,列举实例阐明了各个基本概念,为双论域粗糙集在现实生活中的应用打下基础。(3)双论域粗糙集的不确定性度量

自然科学、社会科学和工程技术等领域中的问题,都不同程度地涉及不确定性、模糊性和不完备信息。为了有效地进行双论域粗糙集的数据分析,在双论域粗糙集理论中研究不确定性度量:定义双论域粗糙集的近似精度、近似分类精度、属性依赖度等,并研究双论域粗糙集的近似精度、近似分类精度、属性依赖度等的性质;分析双论域粗糙集不确定性度量与由其诱导的Pawlak粗糙集的不确定性度量之间的关系。

2.模糊双论域粗糙集

为了扩大双论域粗糙集的应用范围,在模糊信息系统中研究双论域粗糙集,即模糊双论域粗糙集。利用水平截集将模糊关系转化为一般关系,将模糊信息系统中的两个论域上的粗糙集的研究转化为一般的双论域粗糙集的研究,并且在不同水平截集下研究双论域粗糙集的性质。

3.变精度双论域粗糙集

为了增强双论域粗糙集的鲁棒性,在概率空间中研究了双论域粗糙集,即变精度双论域粗糙集。将包含度引入双论域粗糙集理论中,构建基于包含度的变精度双论域粗糙集和双参数变精度双论域粗糙集,提出有关变精度双论域粗糙集的基本概念并研究变精度双论域粗糙集的性质,扩展双论域粗糙集的理论体系和应用灵活性。

4.双论域粗糙集在专家系统中的应用

根据双论域粗糙集、模糊双论域粗糙集和变精度双论域粗糙集的定义,设计双论域粗糙集、模糊双论域粗糙集和变精度双论域粗糙集的上、下近似算子的求解算法,构造基于双论域粗糙集、模糊双论域粗糙集和变精度双论域粗糙集的专家系统,通过双论域粗糙集在房地产个性化营销专家系统中的应用说明其实用价值。1.2.3 创新点

本书的创新点如下。(1)通过比较分析已有粗糙集的论域扩展模型,本书利用特征函数构建新的粗糙集的论域扩展模型:双论域粗糙集。根据构造的双论域粗糙集上、下近似算子,定义双论域粗糙集的基本概念并研究双论域粗糙集的不确定性度量等性质。(2)利用模糊关系、截集和双论域粗糙集近似算子在模糊近似空间中研究双论域粗糙集:模糊双论域粗糙集。(3)将包含度引入双论域粗糙集中,在概率近似空间中研究双论域粗糙集:变精度双论域粗糙集。(4)构造基于双论域粗糙集、模糊双论域粗糙集以及变精度双论域粗糙集的专家系统。1.3 本书结构

本书的组织结构如图1-3所示,各章节的内容组织安排如图1-3所示。图1-3 本书的组织结构图

第1章:简单介绍本书的研究背景和意义。通过回顾粗糙集的国内外研究进展,指出当前在粗糙集的论域扩展领域发展研究中存在的问题,并提出了本书的研究内容和创新点等。

第2章:对粗糙集、模糊集、模糊粗糙集和变精度粗糙集等相关基础理论进行介绍,为后续章节的研究内容奠定理论基础。

第3章:在回顾和总结已有粗糙集的论域扩展理论的基础上,提出双论域粗糙集近似算子;定义双论域粗糙集的属性重要度、属性约简等概念,研究双论域粗糙集的不确定性度量,丰富粗糙集的论域扩展理论体系。

第4章:在模糊信息系统和含有噪声的信息系统中研究双论域粗糙集。基于模糊关系和模糊截构造模糊双论域粗糙集理论;通过引入包含度研究变精度双论域粗糙集理论。

第5章:设计双论域粗糙集、模糊双论域粗糙集和变精度双论域粗糙集上、下近似算子的求解算法,构造基于双论域粗糙集、模糊双论域粗糙集和变精度双论域粗糙集的专家系统,并指出这些专家系统的特点。

第6章:将基于双论域粗糙集的专家系统应用于房地产个性化营销中,进一步阐明双论域粗糙集在解决现实问题时的实用性。

第7章:对本书进行总结,本结合本书研究中的体会和当前该领域的研究趋势,对未来的工作做出展望。本章小结

通过对粗糙集理论国内外研究进展的回顾,指出了粗糙集论域扩展研究方面的不足之处;给出了本书的研究目的、研究内容和对本书章节的具体安排。第2章粗糙集基本理论

粗糙集理论是建立在分类机制基础上能客观处理不确定性问题的一种工具,粗糙集能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。目前,粗糙集已在信息领域、人工智能、管理科学、医学、化学、材料学和地理学等方面得到了成功的应用。同时,伴随着实际应用的需要,粗糙集的扩展理论得到了迅速发展,诸如模糊粗糙集和变精度粗糙集理论等在系统科学、自动控制、信息处理、人工智能、模式识别等领域得以广泛应用。

本章将对粗糙集、模糊集、模糊粗糙集和变精度粗糙集的基本概念s和性质进行详细介绍,为第3章和第4章的研究奠定理论基础。2.1 Pawlak粗糙集

设U是一个有限非空论域,R是U上的等价关系(满足自反性、对称性和传递性),记为R⊆U×U,则关系系统(U,R)称为一个近似空间。如果x,y∈U,且(x,y)∈R,那么x和y属于相同的等价类,这时说x和y在(U,R)上是不可区分的,关系R也称为一个不可区分关系。

论域U中所有与x∈U具有等价关系R的元素的集合,称为包含元素x的R等价类,记为[x]={y∈U:(x,y)∈R}。R

商集U/R={[x]:x∈U}是等价关系R将论域U进行划分,所得R的等价类的集合。即存在x,x,…,x∈U,使得U=[x]∪12n1R[x]∪…∪[x],其中[x]∩[x]=∅,i,j=1,2,…,2RnRiRjRn,i≠j。

给定X⊆U,要用U/R中的元素来描述、表达X,不一定能精确地进行。

为此,Pawlak引进了两个精确集,用下近似集和上近似集来界定和表述目标集合X。[12,]

定义2.1(Pawlak粗糙集) 设R是论域U上的等价关系,对集合X⊆U,偶对(,)称为X在Pawlak近似空间(U,R)上的一个粗糙近似,其中,分别称为X的R下近似集和R上近似集。若≠,则称X为R粗糙集;否则X为R可定义集。

集合BN(X)=-称为X的R边界域;POS(X)=称为XRR的R正域;NEG(X)=U-称为X的R负域。R

简单地说,下近似集是根据关系R肯定属于集合X的U中的元素的集合,上近似集是根据关系R可能属于集合X的U中的元素的集合。

以上是经典的Pawlak粗糙集模型。由于其核心在于下近似、上近似概念上的研究,所以常常也把偶对(,)称为X的粗糙集。[12,]

定理2.1 设(U,R)为近似空间,则任意A,B⊆U,有下列性质成立:(1)(2)(3)(4)(5)(6)(7)2.2 模糊集与模糊粗糙集

模糊现象是指边界不清楚,在质上没有确定性的含义,在量上没有确切界限的事物的一种客观属性,是事物之间的差异存在一定的中间过渡的结果。在现实生活中模糊现象比较普遍,例如,“青年人”、“中年人”、“老年人”、“身高高”、“身高一般”和“身高低”等。因此研究模糊粗糙集对于在模糊信息系统中解决问题有很大的帮助。2.2.1 模糊集与截集

设U是一个有限非空论域。若F是论域U到[0,1]的一个映射,即

则称F是论域U上的模糊集。F(x)称为模糊集F的隶属函数,或称为x对模糊集F的隶属度。

论域U上全体模糊集的集合,记为F(U)。

设A,B∈F(U),若∀x∈U,A(x)≤B(x),则称B包含A,并记为A⊆B,或B⊇A;若∀x∈U,A(x)=B(x),则称A与B相等,记为A=B。若A⊆B,但是A≠B,则称B真包含A,并记为A⊂B,或B⊃A。

设A,B∈F(U),∀x∈U,模糊集A∪B,A∩B分别称为A与B的并和交,其隶属函数分别为(A∪B)(x)=max{A(x),B(x)}=A(x)∨B(x)(A∩B)(x)=min{A(x),B(x)}=A(x)∧B(x)CC

模糊集A为A的补集,∀x∈U,(A)(x)=1-A(x)。

给定α∈[0,1],模糊集F的α-截集定义为:F={x∈U:F(x)α≥α}。模糊集F的强α-截集定义为:F={x∈U:F(x)>α}。α+

设λ∈[0,1],F∈F(U),定义λF∈F(U),称λF为λ与F的数积。其隶属函数为:λF(x)=λ∧F(x),x∈U。

定理2.2(分解定理) 设F∈F(U),则F=(λF),或F=λ(λF)。λ+2.2.2 模糊粗糙集

设U和V为两个非空有限论域,F为从X到Y的一个模糊关系,二元组(U,F)称为模糊信息系统。

定义2.2 在模糊信息系统(U,F)中,∀Y⊆V,设I=[0,1]为单位区间,α∈I。其定义分别为

偶对(,称为X在模糊近似空间(U,F)上的一个粗糙近似,其中和,分别称为X在阈值α下的F下近似集和F上近似集。若≠,,则称X为在阈值α下的F粗糙集;否则X为在阈值α下的F可定义集。

定义2.2是利用模糊截集将模糊信息系统转化为一般信息系统进行处理,在现实生活中有广泛的应用。目前理论研究文献中所引用的[54]模糊粗糙集的概念,大多是指Dubois和Prade的定义。Dubois模[54]型起源于Willaets和Malvache对模糊等价关系与模糊分类的研究。

首先介绍一下模糊等价关系:设R为模糊关系,若R满足以下3个条件,则模糊关系R为模糊等价关系:(1)自反性:∀x∈U,R(x,x)=1;(2)对称性:∀x,y∈U,R(x,y)=R(y,x);(3)传递性:∀x,y,z∈U,R(x,z)≥min{R(x,y)=R(y,z)}。[54]

定义2.3(Dubois and Prade) 设(U,R)是模糊近似空间,即R是论域U上的一个模糊等价关系。任意模糊集F∈F(U),F

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载