数据挖掘在医学中的应用(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-24 10:26:00

点击下载

作者:张维朋,徐颖

出版社:中国原子能出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据挖掘在医学中的应用

数据挖掘在医学中的应用试读:

前言

随着社会信息化程度日益加深,医疗行业每天都在产生大量数据,如何更好地开发和利用日益增长的海量医学数据成为人们关注的焦点。数据挖掘理论通过对医学数据进行分析,挖掘蕴藏于其中的潜在规律,对明确诊断、正确治疗及促进对健康和疾病的研究均具有非常重要的意义。如何根据医学数据特点,有针对性地进行研究,挖掘出有意义的信息,为医务工作人员提供决策参考,是当今学者研究的热点,但目前相关的中文书籍较少。本书作者具有多年医院工作背景,在攻读硕士期间,深入研究数据挖掘在临床医学中的应用,并在高校的教研和科学工作中一直追踪数据挖掘在医学研究中的新动向。

本书对数据挖掘技术在医学中的应用进行了研究,书中重点介绍了聚类分析、因子分析及关联分析、Logistic回归法、灰色预测的理论基础。本书力图通过一系列实例来说明进行医学数据挖掘的过程,包括数据采集、数据预处理、数据挖掘、挖掘结果分析,并提出相应的决策建议。

本书的第1章为绪论,对数据挖掘的研究历史和现状、当前数据挖掘热点做了简要介绍;第2章为数据挖掘技术,对数据挖掘概念及功能、数据挖掘流程、数据挖掘工具、数据挖掘在医学上的应用进行了描述;第3章介绍了主要的数据挖掘的算法及理论依据;第4章研究了因子分析在临床检验中的应用,对大量临床检验数据信息中的女性生化指标进行数据挖掘,定量分析各属性之间的关系,找出描述系统本质特征因素,为女性预防保健和评价女性健康水平提供参考依据;第5章分析了逐步聚类在血流变检验中的应用,发现性别、年龄与临床血流变数据指标存在一定的关系,对于老年痴呆及其他疾病的诊断与预防有重要意义,运用方差分析法验证了聚类结果的可靠性;第6章为逐步聚类在肺癌CT图像特征的应用研究,得到了孤立性肺结节肺癌患者的CT图像医学特征分类,这对于辅助医生对肺癌的早期诊断及临床治疗具有十分重要的意义;第7章是因子聚类分析在中风与血流变关系的应用研究,通过因子分析和聚类分析法在中风与血流变指标关系研究的联合应用,得到了中风患者血流变4类不同的临床特征,为临床中风的诊断和预防提供一定依据;第8章是模糊聚类和Logistic回归在试管婴儿成功因素的应用,建立了妊娠结果对影响因素的Logistic回归模型,检验后将年龄、移植胚胎数、Gn总量、输卵管和卵巢确定为关键影响因素;第9章为关联规则在中风疾病与血流变关系中的应用,得到隐含于血流变与中风疾病之间的更有价值的信息,获取客观的结论或提示,将有助于医生作出相应的更科学的医疗决策,使预防中风更加具有针对性,从而提高临床预防和早期治疗的效果;第10章为Apriori算法在试管婴儿成功因素分析中的应用,发现其中蕴含的新信息,绕开了先入为主的专业思维,获取客观的结论或提示,有助于医生作出相应的更科学的医疗决策,使治疗不孕不育技术方案更加具有针对性,得出具有临床意义的指导意见;第11章是灰色预测在女性胆固醇随年龄变化中的应用,建立女性胆固醇随年龄变化的灰色预测模型,对女性健康保健和疾病有一定的预防意义。

全书由宁波大红鹰学院机电学院张维朋老师提出创作动议及撰写,并负责通稿审校,宁波大红鹰学院信息学院的徐颖老师负责第8章模糊聚类和Logistic回归在试管婴儿成功因素的应用相关章节撰写。

本书的研究内容是在浙江省公益项目(基于多特征的肺癌CT图像关联规则的关键技术研究2014C31161)支持下完成的。本书是跨学科研究专著,研究的内容属于交叉学科,涉及医学方面的知识与数据。感谢安徽省淮北矿工总医院心血管内科主任魏红霞在中风与血流变关系方面专业知识的建议和指导,感谢安徽省淮北矿工总医院CT室主任李勇在研究孤立性肺结节肺癌与CT图像特征关系方面给予的专业技术指导,感谢田思、王水教授在数据挖掘技术方面的建议和对本书的关注。

由于作者的经验和水平所限,书中可能多有错谬之处,还望广大读者海涵并不吝赐教。Email:zwphb@163.com。2017年8月于宁波大红鹰学院第1章绪论1.1 引言

随着计算机与信息技术的发展,人类社会发生了巨大变化。在人类社会的三大主导能源、物质和信息要素中,信息变得越来越重要,它将把人类社会从工业时代推向信息时代。随着计算机硬件及软件的发展,尤其是数据库技术与应用在全球范围内的日益普及,人们面临着大数据的迅速扩张,如果没有有效的办法来提取有用的信息和知识,人们就会感到面对信息海洋像大海捞针一样束手无策。在日常生活工作中,人们并不仅仅满足于对这些数据的查询、检索和简单的数学运算,而是迫切需要将这些数据转化为有用的信息和知识。如何利用这一丰富海量数据为人类服务,已经成为广大信息工作者所关注的焦点之一。据统计,现今一个大型企业数据库中的数据,只有7%得到了很好应用。为了克服“丰富的数据,贫乏的知识”这种独特现象,人们对能够处理和分析这些数据的技术需求显得更加强烈,于是数据[1]-[2]挖掘(Data Mining)技术应运而生 。随着计算机及云数据库和混合数据的快速发展,数据挖掘技术利用统计分析及人工智能的应用程序,可以动态地、无指导地从原始数据中提取领域的知识,使学者从对演绎数据库的研究转向对归纳数据库的研究。

医院数据库的信息容量不断扩大,数据库技术的发展解决了计算机信息处理过程中海量数据的存储冗余,实现数据共享、保障数据安全以及高效地检索数据和处理等问题,但无法改变“数据爆炸但知识贫乏”的现象,数据量的剧增与数据分析方法的落后之间的矛盾越来越突出。如何充分利用这些宝贵的医学信息资源来为疾病的预防、检测、诊断和治疗提供科学的决策,促进医学研究,已成为人们关注的

[3]焦点。医学研究人员希望从已有的成千上万份病历中找出某种疾病的共同特征,从而为治愈这种疾病提供一些帮助等等。针对这些问题,传统的信息管理系统中的数据分析工具无法给出解决方法。因为医院的信息处理大多都仍停留在基于数据库操作型事物处理水平上,无论统计、查询或报表,其处理方式都是对特定数据进行简单的数字运算处理,而不能对这些数据所包含的内在信息进行提取,这是对医学信息资源的一种浪费,实在可惜。而随着数据量的激增,人们越来越希望系统能够提供更高层次的数据分析功能,通过学习医疗数据丰富医学知识库,从而更好地去支持决策或科研工作。正是基于这种新的要[4]求,数据挖掘技术在医学中的应用应运而生。如何对大量的数据资源挖掘深层次的、隐含的、有价值的知识是我们面临的一个难题,数据挖掘有解决这方面的能力。数据挖掘技术的出现为医务管理者和科研工作者分析和利用这些数据资源进行科学管理、决策以及开展医学研究提供了技术工具,面对海量的医学资源,利用现代数据仓库和数据挖掘技术进行分析和处理数据,探索数据挖掘技术在医疗信息化方[5]面的研究具有更重要的使用价值和广阔的发展前景。因此,利用数据挖掘技术开展科学研究,提高医学管理水平及医学技术是有必要的。1.2 数据挖掘的研究历史和现状1.2.1 数据挖掘研究的历史“知识发现”(KDD)术语首次被提出是在美国底特律召开的第11[6]届国际人工智能联合会议上。1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议,此后每年举办一次。1997年,《Knowledge Discovery and Data Mining》杂志诞生,其专用于收录有关KDD的研究成果,国外学者在该方面发表了大量论文并开发出相关的数据挖掘软件,建立大量的相关网站。近些年我国人工智能领域的专家和学者也投入大量热情到KDD和数据挖掘的研究中,其研究规模从专题讨论会向国际学术大会扩展,研究重点从发现方法向系统应用转变,同时集成了多种发现策略和挖掘技术,注重多学科之间的相互渗透。特别是近10年以来,伴随着大数据的迅猛发展,数据挖掘技术不仅在学术界掀起了新一轮的研究热潮,也引起了工业界的极大关[7]注。1.2.2 国外数据挖掘研究的现状

近几年国外在数据挖掘的研究主要是Bayes和Boosting两方面。天文领域和人工智能的结合为学者们发现新的星体提供新的理论支持[8]。在医学领域,数据挖掘技术被用于分析医疗数据和基因研究,其[9]有助于医生发现病因,治疗疾病;在商业领域,利用数据挖掘技术可以分析不同类别信用卡客户的特征,并据此采用不同的营销策略和[10]-[11]风险控制方案。如分析贷款人是否安全,是否存在信息诈骗等;IBM自主研发了AS(Advance Scout)系统,在美国篮球联赛中,AS[12]能够帮助教练提升团队合作能力,提高战术和获胜概率。数据挖掘与数据库技术息息相关,互相渗透,影响不断扩大。国外很多著名公司开发了相关软件,如SPSS、SAS和Matlab,这些软件已成为数[13]据挖掘的首选工具。美国是全球数据挖掘最繁荣的地区,占据着[14]研究的核心地位。1.2.3 国内数据挖掘研究的现状

与国外相比,国内对数据挖掘的研究稍晚。1997年之前国内期刊正式发表的有关数据挖掘的论文数量很少,自2001年以后,数据挖掘才引起了学术界的重视,相关论文激增,近年来数据挖掘的研究正逐步走向成熟并开始向其他领域渗透。云计算的发展为数据挖掘的应用提供了新的研究内容和发展方向。目前各大电子商务类网络公司利用数据挖掘技术实现商品推荐、购物篮分析,其研究成果为顾客带来了愈发满意的购物体验。同时,在电信、金融等行业的客户关系管[15]理领域中,数据挖掘技术也体现出了深入而广泛的应用优势。

国内学者已对数据挖掘进行了多方面的研究并取得了一定的研究成果。近年来我国数据挖掘的发展特征如下。(1)深化拓展原有理论,如网络数据挖掘、基于神经网络的时序数据、相似序列、快速挖掘算法的研究等。近三年来,我国在基础研究中的空间数据库和Web数据库挖掘方面取得了长足进展,特别是在Web数据库挖掘领域,刊发的论文数量较多。随着网络的不断发展,该领域必将成为数据挖掘的研究重点之一。其在在线业务的智能处理和预测、决策过程的智能分析、科研中的知识管理等方面的研究也必将更加深入和广泛。目前我国在空间数据处理方面的综合能力居世界

[16]-[17]前列。(2)由于复杂类型的数据更常见于现实世界,所以对这类数据的处理体现出更强的实用价值,例如对蛋白质分子结构的生物信息挖掘,基于图表数据库知识发现系统的概念等级聚类的半结构化、非结[18]-[19]构化等复杂类型数据挖掘。(3)数据挖掘新技术与方法的引入并向其他学科领域的渗透。[20]-[21]如人工免疫系统方法、模拟退火算法等。

总之,数据挖掘技术的不断发展必将更高效地服务于社会生活的各个方面。尽管数据挖掘最初作为一项技术而出现,但其所体现的方法论为人们分析和解决各类问题提供了新的思路。数据挖掘必将在未来对人类生产生活产生深远而持久的影响。1.3 当前数据挖掘的研究热点[22]

当前数据挖掘的研究热点主要在以下几方面:(1)开发语言标准化。研发数据挖掘专用语言,统一标准格式,促使其体系化以提高效率。(2)研究更优秀的可视化方法。注重数据挖掘过程中的人机交互过程,图文并茂,便于在知识发现过程中被用户理解。(3)数据挖掘网络化。结合云技术,与数据库服务器配合,远程数据挖掘应用前景广阔。(4)多种理论与方法的合理整合,开发针对于特定应用的数据挖掘系统。(5)交互挖掘技术。增强数据挖掘软件的适用性,如果单次挖掘不能获得有效信息,可以对目标对象进行多层次的交互挖掘。(6)独特的数据挖掘专用软件。根据数据挖掘应用专业的不同,所应用的软件也应当高度专业化,以获得最佳效果和效率。(7)空间数据挖掘的发展。基于时空的数据概化、模糊空间关联规则的挖掘、挖掘空间数据的偏离和演变规则、交叉概化、遥感影像的挖掘、空间数据挖掘查询语言、多维规则可视化等均为空间数据挖掘的重要研究方向。第2章数据挖掘技术2.1 数据挖掘的定义

对数据挖掘概念的定义描述存在若干版本,被普遍采用的定义描述为:数据挖掘,又称为数据库中知识发现(Knowledge Discovery In Data Base,简称KDD),它是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又[23]是潜在有用的信息和知识的过程。

长期以来,人们对“知识发现”与“数据挖掘”这两个术语的范畴和使用界限一直模糊不清,在KDD(1996)国际会议上知识发现研究领域的知名学者Fayyad、Piatetsky-Shapiro和Smyth就两个术语关系作了如下阐述:KDD是数据库中知识发现的全过程,而Data Mining只是全部过程中的一个特定步骤。但是,由于两个述语的内涵大致相同,一般情况下,数据挖掘和知识发现可以作为互换的述语。2.2 数据挖掘系统的主要成分

1.数据库、数据仓库或其他信息库

这是一组或多组数据库、数据仓库、电子表格或其他类型的信息库。一般需要在原始数据集上进行数据清理和集成。

2.数据库和数据仓库服务器

根据用户的数据挖掘的请求,数据库和数据仓库服务器负责提取相关数据。

3.知识库

这里存放着数据挖掘所需要的领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识包括“概念分层”、用户确信的知识、阈值、元数据。

4.数据挖掘引擎

这是挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。

5.模式评估模块

通常此成分使用兴趣度度量来对数据挖掘过程中所产生的模式进行过滤,以得到有趣的模式。一般来说该成分应该尽可能深地推进到挖掘过程中,应与挖掘模块集合在一起,以提高挖掘效率。

6.用户图形界面

该模块实现用户与挖掘系统间的通信、交互,使系统能根据挖掘的中间结果进行探索式挖掘,有利于用户浏览存储数据的数据结构,评估挖掘模式。2.3 数据挖掘的功能

数据挖掘的功能是指对于确定数据挖掘任务中要找的模式类型。数据挖掘任务一般可分两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,对未来趋势进行预测。

数据挖掘不仅面向特定数据库的检索、查询、调用,而且要对这些数据进行统计分析,以解决实际问题,期待发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测,帮助决策者获得所需的多种知识。因为在某些情况下,用户不知道数据中存在哪些有价值的信息。因此,对于一个数据挖掘系统,它应该能够同时搜索和发现多种知识模式,以满足用户的期望和实际需要。此外,数据挖掘系统能够挖掘多层次的模式知识。[24]

数据挖掘功能以及所能够发现的模式有以下几种。

1.关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道或是不能确定数据库中数据的关联函数,关联分析能够从数据背后发现事物之间可能存在的关联或者联系。关联规则数据挖掘中最经典的案例就是沃尔玛的啤酒和尿布的故事。

2.聚类

聚类就是按一定的规则将无任何类型标记数据划分为合理的集合,即将类似的事物组织在一起。聚类分析起源于分类学,但是聚类不等同于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类和分类的区别在于聚类是无监督学习,分类是有监督学习。

3.自动预测趋势和行为

数据挖掘自动在大型数据库中寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,过去需要进行大量手工分析的问题,现在可以迅速直接由数据本身得出结论。例如市场预测问题,数据挖掘使用影响市场供求变化的数据进行分析和预测,预测其发展趋势,掌握市场供求变化的规律,为经营决策提供可靠的依据,减少决策的盲目性。

4.概念描述

描述性数据挖掘是最简单的一种类型,就是对包含大量数据的数据集合进行简洁、准确的描述,并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述。前者描述某类对象的共同特征,生成一个类的特征性只涉及该类对象中所有对象的共性。后者描述不同类对象之间的区别,涉及目标类和对比类中对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

5.偏差检测

在海量数据库中,常常存在一些异常记录,是数据集中小比例的对象,这里数据记录就是偏差,也就是孤立点。从数据库中检测这些偏差是非常有趣的任务。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。2.4 数据挖掘的流程

KDD的整个过程可粗略分为:问题的定义,数据准备和预处理,[25]数据挖掘以及结果的解释及评估。KDD是一个多步骤的处理过程,在处理过程中可能会有多次的反复,数据挖掘的流程如图2-1所示。图2-1 数据挖掘流程2.4.1 问题的定义

为了在大量数据中发现有用的、令人感兴趣的信息,我们在进行数据挖掘时,首先要明确在对某一类数据进行挖掘时,想得到什么样的结果。这是数据挖掘过程一个最重要的阶段。挖掘的最后结果是不可测的,但要探索的问题应是有预见的。为了避免挖掘盲目性,数据挖掘人员必须和领域专家以及最终用户多交流、多沟通,明确数据挖掘的具体需求,同时确定数据挖掘所需要采用的具体方法。2.4.2 数据准备和数据预处理

这部分花费的时间一般占数据挖掘项目的70%左右。数据的准[26]备又可分为三个子步骤:数据的选择,数据的预处理,数据的转换。根据自己的数据挖掘经验,这一部分的处理主要是:统计知识+项目经验+业务特点。

数据选择的目的就是确定数据挖掘任务所涉及的操作数据对象(目标数据),也就是根据数据挖掘任务的具体要求,从相关数据源中抽取与挖掘任务相关的数据集。数据的预处理是数据过程中的一个重要步骤,原始数据一般都存在几个问题:不一致、重复、含噪声、维度高等。因此,数据挖掘的过程中都离不开对数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获知识的目的。数据的预处理主要包括:消除噪声,填补遗漏的数据,除去异常值,将来自多个数据源相关数据合并到一起的数据集成。数据转换,主要是对数据规格化操作,实现不同量级之间数据的一个比较,消减数据维数或降维,即从初始特征中筛选出真正的与挖掘任务相关的特征,在不影响最终数据结果的前提下提高数据挖掘的效率。2.4.3 数据挖掘

数据挖掘阶段首先根据挖掘任务定义及已有的方法(分类、聚类、关联等)选择数据挖掘实施算法。作为数据挖掘从业者,最基本的应该是了解各种算法的原理,还有一些数据挖掘模型参数的意义。2.4.4 结果解释及评估

数据挖掘所获得的挖掘结果,需要进行评估分析,便于发现真正有趣的模式。因为数据挖掘所获得的结果中可能存在冗余或者无关的模式,或者所获得的模式不能满足用户的要求,这就需要重新进行挖掘,重新选择数据、重新设置参数值,甚至换一种新的算法等。整个数据挖掘是一个不断反馈修正的过程。当用户发现所选择的数据不合适,或使用的挖掘方法无法获得期望结果,用户就需要重复先前的过程,甚至从头开始。2.4.5 模型可视化

模型可视化展示在数据挖掘的各个阶段具有重要的作用。在数据准备阶段,用户可能要使用散点图、折线图等统计可视化技术,以期待对数据有一个初步了解,帮助数据分析人员从数据集中发现潜在的趋势。在数据挖掘表示结果阶段,要对发现的模式进行可视化,或把结果转化为用户易懂的另一种表示,以使得发现的知识更易于理解。

一个数据挖掘系统在完成挖掘算法后,常常会有很多模式或规则,期望挖掘算法能够产生所有有价值的模式。实际上一个模式的搜索方法可以利用有趣性来帮助缩小搜索范围,因此通常只需要保证挖掘算法的完整性就可以了。还有一点对算法最优化的要求,即希望数据挖掘算法仅挖掘有价值的模式知识,这是较为棘手的问题。评价所挖掘模式的趣味性标准对于有效地挖掘出具有应用价值模式的知识是十分重要的,这些标准可以直接帮助算法获取有实际应用价值的模式,摒弃无意义的模式。更为重要的是这些模式评估标准将指导整个知识发现的过程,通过及时消除无前途的搜索路径,提高挖掘的有效性。[27]

评价一个模式是否有意义,通常依据以下4条标准:(1)易于用户理解;(2)对新数据或测试数据能够确定有效程度;(3)具有潜在的价值;(4)具有新奇性。

此外,基于所挖掘模式结构或统计特征,还有一些评价模式的客观标准。例如,对于关联规则的一个客观标准是支持度。它表示满足相应关联规则的事物占总记录的比率。尽管客观评价方法能够帮助识别一些有意义的模式知识,但也仍然结合一些主观评价措施,才能有效地反映用户的要求和兴趣。2.5 数据挖掘在医学领域的应用

数据挖掘技术产生了二十几年的时间,在金融、工农业生产及商业中已经得到了广泛的应用,取得了较好的经济和社会效益。但是数据挖掘在医学领域方面的应用还处于初步阶段,这是由医学数据的独特性造成的。医学领域存在着大量的数据,医学领域数据来源很复杂,它包括大量的医学影像、实验数据、心/脑电图和肌电图等信号数据、药品管理信息、医院管理信息等,医学数据描述的复杂性、隐私性导致了数据的特殊性。但医学数据真实可靠,不受其他因素的影响,而且数据集的稳定性较强、客观性强。目前数据挖掘技术在医学中的应用主要在以下几方面。

1.在疾病诊断治疗方面的应用

在临床中有些错综复杂疾病中,数据挖掘中的粗糙集理论、人工神经网络、模糊逻辑分析在疾病诊断方面是有效的,它能挖掘出有价值的诊断,为临床医务工作者提供决策参考。国内有学者将粗糙集理论应用于孕妇产检项目与流产概率的研究,对众多流产因素进行了提炼,取得了满意的效果,大大提高了诊断准确率。国外A.Kusiak等将基于粗糙集理论的两种算法应用于实体性肺结核的诊断,诊断准确率达100%;Roshawnna Scales等运用人工神经网络理论及模糊逻辑[28]-[29]技术开发了心血管疾病诊断工具,其准确率达到92%。

2.在生物信息学中的应用

人类基因组计划的启动和实施使得核酸、蛋白质数据迅速增长,将海量的生物信息数据利用起来,探索生物信息中的规律,对人类基因组进行更深入的研究,为人类战胜疾病提供参考。国内学者朱杨勇等从DNA序列数据出发,对于基因序列相似性、基因序列功能预测性进行研究,建立肿瘤分类预测模型,对肿瘤基因的表达模式与识别进[30]行了研究。

3.在流行病方面的预测

在公共卫生治理中,结合医院信息系统,对流行病的防治以及对疾病危险因素进行筛选;对大量的健康体检资料数据进行体检参数之间的相似度的挖掘分析;对某群体的流行病发病趋势进行预测;为制[31]定卫生政策法规等提供科学依据。

4.在医学图像中的应用

随着医学影像学的发展及数据库管理系统的广泛应用,如SPECT、CT、MRI、PET等,数据挖掘技术在医学影像分析研究中发挥了重大的作用。图像数据挖掘是在图像数据库中自动提取隐含的、先前未知的和潜在有用的知识,它是一个集中了计算机视觉、图像处理、图像检索、数据挖掘、机器学习、数据库和人工智能等技术的多学科交叉的研究领域。例如,曹务腾等运用贝叶斯分类器和决策树归纳分类器对结直肠癌患者肝脏CT图像进行分类,自动识别肝脏乏血供转移瘤与单纯性肝囊肿,为未来计算机辅助诊疗疾病提供有效的依[32]据。

5.在药物研发中的应用

新药物研发的过程很漫长,投入大,风险高,药物的疗效和毒副作用问题使得药物的研发常在临床阶段失败,造成巨大的经济损失。数据挖掘技术有助于增加在寻找新药过程中的主动性,避免盲目性,真正做到有的放矢。尤其对于中医药的药物开发,每一味中药的相互配伍结果都不一样,采用数据挖掘可以合理运用知识发现技术,发现[33]其中的特点和配伍规律,指导中药复方新药研发。

在医学数据挖掘方法中用得较多的算法有模糊逻辑、决策树、神经网络、进化计算、粗糙集理论和支持向量机等,它们都显示出了各自独特的优越性,已经在医学数据挖掘中得到了成功的应用。医学数据挖掘是一门新兴的交叉学科,需要从事计算机、统计学的科研人员与广大医务工作者共同努力。随着理论研究的深入和进一步的实践探索,数据挖掘技术在疾病的诊断和治疗等方面将会发挥巨大的作用。2.6 数据挖掘系统工具

随着数据挖掘技术日益发展,许多数据挖掘的商业软件工具也逐渐问世。数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。

特定领域的数据挖掘工具针对某个特定领域问题提供解决方案,在设计算法时充分考虑到了数据及需求的特殊性,并做了优化,对其他领域可开发特定的数据挖掘工具。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型。

作者在研究数据挖掘在医学中的应用过程中,采用的软件有DPS数据处理系统(Data Processing System)、统计产品与服务解决方案软件SPSS(Statistical Product and Service Solutions),和MATLAB(MATrix LABoratory)软件。2.6.1 DPS数据处理软件

DPS(Data Processing System)数据处理系统是浙江大学唐启义教授研制的多功能数理统计和数学模型处理软件系统。DPS是一套通用多功能的数据处理软件,它将数值计算、统计分析、模型模拟以及画线制表等功能融为一体。其系统主要作为数据处理和分析工具而面向广大用户。DPS系统兼有如Excel等流行电子表格软件系统和若干专业统计分析软件系统的功能,与目前流行的同类软件比较,具有较强的统计分析和数学模拟分析功能。[34]

DPS有如下特点。(1)DPS数据处理系统是目前国内唯一一款实验设计及统计分析功能齐全、国产的、具有自主知识产权的统计分析软件。DPS数据处理系统在国内的应用十分广泛,其应用已遍及自然科学和社会科学各个领域。完善的统计分析功能涵盖了所有统计分析内容,是目前国内统计分析功能最全的软件包。(2)DPS的一般线性模型(GLM)可以处理各种类型试验设计方差分析,特别是一些用SPSS菜单操作解决不了、用SAS编程很难做的多因素裂区混杂设计、格子设计等方差分析问题,用DPS菜单操作可轻松完成。(3)独特的非线性回归建模技术实现了“可想即可得”的用户需求,参数拟合精度高。(4)丰富的专业统计分析模块能够完成指数模型(结构方程模型)、数学生态、生物测定、地理统计、遗传育种、生存分析、水文频率分析、量表分析、质量控制图、ROC曲线分析等功能。(5)DPS=Excel+SPSS。DPS既有Excel那样方便的在工作表里面处理基础统计分析的功能,又实现了SPSS高级统计分析的计算。DPS提供了十分方便的可视化操作界面,可借助图形处理的数据建模功能为用户处理复杂模型提供了最直观的途径。(6)除了具有统计分析的功能,DPS还具有模糊数学方法、灰色系统方法、各种类型的线性规划、非线性规划、层次分析法、BP神经网络、径向基函数(RBF)、小波分析、投影寻踪综合评价等更加完善的功能。2.6.2 SPSS统计分析软件

SPSS(Statistical Product and Service Solutions)统计分析软件由美国斯坦福大学的三位研究生于1968年研制,随着1984年全球第一个统计分析软件微机版本SPSS/PC+的率先推出,SPSS很快地应用于自然科学、社会科学和技术科学中的各个领域,极大地扩充了它[35]的应用范围。在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,已成为国际学术界中不成文的规定,由此可见其影响之大和信誉之高。SPSS统计软件在使用过程中表现[36]-[38]出的优点有很多,主要包括以下几个方面。(1)风格的界面极为友好。SPSS软件最突出的特点就是操作界面极为友好,输出结果美观漂亮。SPSS是第一个采用人机交互界面的统计软件,非常容易学习和使用。即时切换多国语言界面,中文界面清晰友好,中文输出结果一目了然。SPSS界面完全是菜单式,操作时只要了解分析原理,掌握一定的窗口操作技能,通过窗口提供的方法和功能选项,就可以得出所需要的结果。(2)功能全面。SPSS提供了数据获取、数据管理与准备、数据分析、结果报告这样一个数据分析的完整过程,特别适合设计调查方案、对数据进行统计分析,以及制作研究报告中的相关图表。此外,SPSS还能够进行数据文件管理、数据整理、统计分析、报表制作、图形绘制,统计功能不仅包括一般的统计描述、均值比较、一般线性模型、统计推断、方差分析、非参数检验、相关分析、回归分析和时间序列,也包括近期发展起来的多元统计技术,如多元回归分析、聚类分析、判别分析、因子分析、相应分析和主成分分析等方法。(3)易学易用。SPSS采用类似EXCEL表格的界面与管理法,能够直接从很多其他数据库中读入数据,同时该软件提供了较为常用与成熟的统计方法,完全可以满足非统计专业人士的工作需要,为操作人员带来了很大方便,是非专业统计人员的首选统计软件。(4)编程能力强,支持二次开发。SPSS软件具有强大的编程能力,支持二次开发。对于常用的统计方法,SPSS软件的大多操作可以通过菜单和对话框来完成,无须记忆繁复的统计过程及大量的命令、过程、选择项。那些精通者可以通过编程,将其他编程语言与软件中的命令结合起来实现更强大的功能,开发出更强大的统计平台。(5)支持丰富的数据源,具备强大数据访问和管理能力。SPSS可以同时打开多个数据集,方便研究者对不同数据库进行比较分析和数据库转换处理。软件提供了更强大的数据管理功能,帮助用户通过SPSS使用其他的应用程序和数据库,并且能够读取及输出多种格式的文件。(6)灵活的配置方案。SPSS Statistics是一种按照模块进行配置的软件,主要包括SPSS Statisties Base模块和其他一系列扩充功能模块。SPSS Statisties Base是基础的软件平台,具备强大的数据管理能力和输入输出界面管理能力,并具备完备的常见统计分析功能,而其他每个独立扩充功能模块均在SPSS Statistics Base的基础上,为其增加某方面的分析功能。(7)支持多种操作系统。客户端支持Windows XP(32位)、Windows Vista and Windows 7(32位和64位)、Linux和Mac OS。服务器端支持Windows Server 2003(32位和64位)、Windows Server 2008(32位和64位)、AIX、HP—UX、Solaris。SPSS软件虽然经过几十年的成长与发展,但是SPSS软件的应用仍然可以拓展,具有良好的使用前景和巨大的发展空间。2.6.3 MATLAB软件

MATLAB是由美国The Math Works公司开发的,它是一种以矩阵运算为基础的交互式程序语言。它作为一种编程语言和可视化工具,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。它建立在向量、数组和矩阵的基础上,使用方便,人机界面直观,输出结果可视化,矩阵是MATLAB的核心。MATLAB由一系列工具组成,这些工具方便用户使用MATLAB的函数和文件,其中许多工具采用的是图形用户界面。它具[39]有以下主要特点。(1)易学易用性。MATLAB是一个高级矩阵/阵列语言,用户可以在命令窗口中,将输入语句和执行命令同步,也可以使用C++语言先编写好一个应用程序(M文件)后再一起运行。简单的编程环境提供了比较完备的调试系统,程序不必经过编译就可以直接运行,而且能够及时地报告出现的错误以及进行出错原因分析。(2)高效性。MATLAB语句功能很强大,只需要一条语句就能够完成复杂的任务,提高了专业计算机技术人员研究软件开发的效率。(3)可拓展性。拓展性是MATLAB最明显的特点,用户可以根据自己的需要自己定义具有一定功能的程序文件,即M文件。一个从事特定行业的工程师,可以用MATLAB自带的工具箱完成许多工程项目,此外还能自己编译一些专用函数。因此,MATLAB的功能被扩展,当前有用户自己定义的Toolbox数不胜数。第3章数据挖掘的算法及依据3.1 聚类

聚类是按照某个特定的标准把一个数据集分割为不同的类或族的过程,并使得同一族内的数据对象具相似性尽可能大,同时不在同一族中的数据对象差异性也尽可能大。也就是说,聚类后的同一类别的数据尽可能地聚在一起,而不同类别的数据尽量分离。

聚类分析是进行数值分析的一个的基本方法,在许多领域里都得到了广泛的研究和应用,如市场或客户分割、模式识别、生物学研究、空间数据分析、Web文档分类等等。聚类分析可以作为一个独立的数据挖掘工具,用来获得对数据分布情况的了解,也可以作为其他数据[40]挖掘算法的预处理步骤。3.1.1 聚类的定义

聚类定义如下:在数据空间A中,数据集X由许多点(数据对象)组成,d维数据N个数据点,的每个属性既可以是数值型的,也可以是枚举型的。数据集X相当于是一个矩阵。假设数据集X中有N个对象。聚类的最终目的是把数据集X划分为个分割,也可能有些对象不属于任何一个分割,这就是噪声。所有这些分割和噪声的并集是数据集X,并且这些分割之间没有交集。即:,这些分割就是聚类。此外,在模糊聚类中,每个聚类对象不再仅属于单个聚类,而是以不同的隶属度属于多个聚类。3.1.2 聚类分析算法的典型要求

聚类分析在很多领域得到了广泛的研究和应用,它的潜在应用都[41]-[42]有各自特殊的要求。数据挖掘对聚类算法的典型算法要求如下。(1)可伸缩性。当数据小于200个,聚类算法一般能够很好地进行聚类,但是,在一个可能包含有几百万、几千万乃至更多的大型数据进行聚类可能会导致有偏的结果。虽然通过抽样可以减少要处理的数据量,但是抽样会对聚类的结果带来影响甚至会产生错误的结果。因此,聚类算法要具有高度可伸缩性。(2)处理混合型数据的能力。聚类算法需要有处理二值型、枚举型、序数型,或者这些数据类型的混合数据类型的能力。(3)发现任意形状的聚类的能力。基于距离的聚类算法趋向于发现相近尺度和密度的球状簇。然而,聚类可能是各种形状的,如线性、环形、凹形以及其他各种复杂不规则形状。这就要求聚类算法能够发现任意形状的聚类。(4)输入参数对领域知识的弱依赖性。聚类结果对输入参数的要求很敏感,但参数通常很难确定,尤其对于高维数据集更是如此。输入参数的质量直接影响聚类的结果,因此要求聚类算法应该对此有一个好的解决方法。(5)处理噪声数据的能力。现实世界的许多数据中都包含一些异常数据或错误数据,有些聚类算法对这些数据非常敏感,并可能产生错误的聚类结果。(6)对输入顺序不敏感。有些聚类算法对数据的输入顺序非常敏感。例如,对于同一个数聚集,用不同的顺序输入到某个算法中,就可能产生完全不同的聚类结果。(7)对高维数据的处理能力。一些聚类算法只擅长处理三维以下的低维数据,对于高维的数据对象的聚类是一个挑战,数据可能很稀疏,也可能高度偏斜,特别是考虑这样的数据可能非常稀疏,并且高度倾斜。(8)基于约束的聚类。现实世界可能要在约束条件下进行聚类,这就要求既要满足客户特定的约束,又具有良好聚类特性的数据分组。(9)结果的可解释性和可用性。得到一个可解释的、可理解的和可用的,并且与应用目标相对应的聚类结果有非常重要的意义。3.1.3 主要的聚类算法

聚类分析是数据挖掘中很活跃的研究领域,在研究论文中有许多聚类算法,需要根据所涉及的数据类型、聚类的目的以及具体应用来选择合适的聚类算法。通常聚类的方法可以分为基于划分法、基于层[43]-[46]次法、基于密度法和基于网格法、基于模型法。

1.基于划分法

基于划分法首先创建k个划分,k为要创建的划分个数,也就是说将数据分为k组,这些组满足以下要求:(1)每组至少包含一个对象。(2)每个对象必须只能属于某一个组。

后一个要求在模糊划分方法中可以放宽。给定需要划分的个数k,创建初始划分,然后用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。即通过移动不同组中的对象来改变划分内容。一个好的划分衡量标准通常就是同意组中的对象“相近”或彼此相关;而不同组中的对象“较远”或彼此不同。典型的划分法如K-means法。

2.基于层次法

基于层次法就是通过分解所给定的数据对象来创建一个层次。层次分解法可分为自顶向下(分解)和自底向上(合并)两种方法。自底向上的层次法从每个对象均为一个(单独)的组开始,直到将这些对象组进行合并,合并在层次顶端或满足终止条件为止。自顶向下的方法开始于所有属于一个组的方法,每循环一次将其组分解为更小的组,构成一个集合或满足终止条件,但是不能纠正自己的错误决策。可以采用可扩展的聚类算法,如平衡迭代削减聚类法(BIRCH)和使用代表点的聚类方法(CURE)。

3.基于密度法

基于密度法是通过对给定类中的每个数据点,只要临近区域的密度数据点的数目超过某个阈值,就把它加到与之相近的聚类中。在一个给定范围的区域中必须至少包含某个数目的可以用来过滤“噪声”的孤立点数据。基于密度法发现任意形状的聚类结果,弥补了基于对象距离进行聚类的不足,但是只能处理数值型数据。典型的方法有DBSCAN和OPTICS。

4.基于网格法

基于网格法首先将对象空间化为有限个单元以构成网格结构。所有聚类操作均在这一网格结构进行。这种方法的主要优点是由于处理时间与数据对象个数和顺序无关,而与划分对象的空间的网格有关,这种聚类方法处理时间很短。利用网格结构完成聚类,可以处理任意类型数据。典型的方法有STING、wave-cluster等。

5.基于模型法

基于模型法就是为每一个聚类假设一个模型,然后再去发现符合相应模型的数据对象。一个基于模型的算法可以通过构造一个描述数据空间分布的密度函数来确定具体聚类。它根据标准统计方法并考虑到“噪声”或异常数据,可以自动确定聚类个数,因而可以产生很鲁棒的聚类方法。典型的方法如统计法COB-WEB和神经网格法SOM。

上述分析得知,每一种聚类算法都有各自不同的特点,在不同的领域展现不同的性能,没有十全十美的聚类算法。此外,有些应用也需要将多个聚类技术结合起来方可实现其应用目标。总之,基于划分的聚类算法在模式识别里是最常用的聚类算法类型,优点是方法设计[41],[47]简单、收敛速度快,缺点是不能发现形状复杂的聚类。3.2 模糊理论与聚类的结合3.2.1 模糊集合理论

模糊概念不能用经典集合加以描述,这是因为不能绝对地区别“属于”或“不属于”,就是说论域上的元素符合概念的程度不是绝对的0或1,而是介于0和1之间的一个实数。Zadeh以精确数学集合论为基础,他提出用“模糊集合”作为表现模糊事物的数学模型,并在“模糊集合”上逐步建立运算、变换规律,开展有关的理论研究。Zadeh认为,指明各个元素的隶属集合,就等于指定了一个集合。当隶属于0和1之间值时,就是模糊集合。

1.经典集合表示

论域U中的每个元μ,对于子集来说,要么,要么,两者比居其一,且仅居其一,不许模棱两可。因此,子集A由映射

唯一确定。即集合A可由特征函数来刻画。

由于这种函数仅取两个值,所以在表达概念方面有其局限性,只能表达“非此即彼”的现象,而不能表达在于现实中的“亦次亦彼”的现象。例如,“年轻”与“年老”之间,学习成绩的“好”与“坏”,一个人的身高的“高”与“矮”之间,它们都不存在明显的界线,而是中间经历了一个从量变到质变的连续过渡过程,因此,它们不能用经典集合里的仅取0或1两个值的特征函数来刻画。

为了体现类似问题中的这种连续过渡过程的共性,美国的扎德(L.A.Zadeh)已于1965年提出用隶属度函数来表示模糊集合,即把特征函数值域由{0,1}扩大到[0,1]。

2.模糊集合表示

设论域上给定了一个映射U,

则称A为U的一个模糊集,称为A的隶属函数,或称为μ对于A的隶属度。论域U上的模糊集A由隶属函数来表征,取值范围为闭区间的大小反映了对于模糊从属程度。的值接近于1,表示μ从属于A的程度很高;的值接近于0,表示μ从属于A的程度很低。可见,模糊集完全由隶属函数所描述。

当的值域等于{0,1}时,蜕化成一个经典集的特征函数,模糊集A便蜕化成一个经典集。由此不难看出,经典集合是模糊集合的特殊形态,模糊集合是经典集合概念的推广。

3.模糊集合的表达方式

有以下几种:

当U为有限集时,通常有如下3种方式。(1)Zadeh表示法

其中,并不表示“分数”,而是表示论域U中的元素与其隶属度之间的对应关系。“+”也不表示“求和”,而是表示模糊集合在论域U上的整体。(2)序偶表示法

将论域中的元素与其隶属度构成序偶来表示:

此种方法隶属度为0的项可不写入。(3)向量表示法

在向量表示法中,隶属度为0的项不能省略。有时也将上述三种方法结合起来表示为:3.2.2 模糊聚类

传统的聚类分析是一种硬划分,它把每个待辨识的对象严格地划分到某个类中,具有非此即彼的性质,这种分类的聚类界限是分明的。然而,在实际的应用中,许多对象的类与类之间并无清晰的划分,边界具有模糊性,它们之间的关系更多的是模糊关系,它们的类属和形态存在着中介性,适合软划分。硬划分并不能真正地反映对象和聚类的实际关系,反而使聚类结果偏差较大,并且易陷入局部最优解。因此,人们就提出了要对处理的对象进行软划分。Zadeh提出的模糊集

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载