基于大数据多元统计的工业过程监控(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-21 13:32:53

点击下载

作者:高翔

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

基于大数据多元统计的工业过程监控

基于大数据多元统计的工业过程监控试读:

前言

当今的过程工业具有规模大、复杂性高、变量多等特点。为了有效地控制生产过程,提高产品质量,应当利用过程产生的历史数据建立模型,并对过程进行监控以发现过程的状态是否处于异常,并对其进行故障诊断。这对于生产企业来说,是非常重要的。随着信息技术的不断发展,尤其是分布式控制系统的普遍应用,过程产生的大数据隐含着大量的信息,具有巨大的价值。而由于过程工业的复杂性,很多情况下无法建立机理模型,所以,可以利用这些历史数据建立统计模型,用统计的方法来发现过程变量中潜隐的过程异常,从而及时采取措施,以避免或减少不合格产品的出现。

本书针对一个实际的聚氯乙烯生产过程和两个知名的仿真器:青霉素发酵过程和田纳西—伊斯曼过程,所采集的数据和从仿真器生成的数据能够真实地代表其过程。我们这里说到的大数据,不仅是数量多,还有其他特点:维数高,从二维的连续过程到三维的间歇过程;在线实时的要求,检测的过程数据暂时不全,要求用各种方法来补齐数据,以利于过程监视;间歇过程的各个反应批次,反应时间不尽相同,无法直接建立统计模型和开展监视工作。为了克服采样序列的相关性,需要建立动态模型;过程数据的采样率不同,无法直接建立统计模型;统计过程的时效性,过程漂移导致使用历史数据建立的统计模型出现监视误差。因此,本书讨论的过程工业的大数据,主要涉及的是数据的不同特点,并根据这些特点来解决问题。由于模型具有上述特性,可以认为其是柔性的,给建模工作带来困难。

本书采用的建模和监视的统计方法是主元分析法(PCA)和独立元分析法(ICA),及其在间歇过程的延伸:多向主元分析法(MPCA)和多向独立元分析法(MICA)。为了在线匹配间歇过程的各条轨迹,作者使用了独创的广义相关系数法,对多元轨迹同步化,改进了两种同步方法:动态时间错位(DTW)和正交函数近似(OFA);对于动态 PCA和动态ICA,本书采取自创的只增广相邻样本的简化的动态PCA和动态ICA方法;对于双采样率系统,本书开发了三种统一采样率的方法,以利于统计建模。至于PCA的更新问题,本书采用研发的限定记忆方法的递归PCA方法来解决。

著者

2016年9月

第1章 绪论

1.1 过程工业大数据的进展

1.1.1 大数据的发展

随着传感器技术、计算机技术、通信技术以及物联网、数据存储等技术的发展,互联网、过程工业等行业产生并存储了大容量数据,并且随着时间呈指数级增长。美国互联网数据中心(IDC)在其报告中给大数据下了一个定义:大数据技术是新一代的技术与架构,它被设计用于在成本可承受的条件下,通过高时效(Velocity)的采集、发现和分析,从大体量(Volumes)、多类别(Variety)的数据中提取价值。这也就是统称的“3Vs”。

数据大体量(Volumes)的一个例子是 Facebook 每天在 30 万台服务器上处理 25TB数据;搜索引擎要求在几分钟内更新内容,为用户查询新闻提供便利,意味着高时效(Velocity);多类别(Variety)是指除了结构化的数据,半结构化、非结构化的数据大量产生。

如今,“3Vs”的概念已经发展到“5Vs”,增加了价值(Value)和真实性(Veracity)两个方面。大数据中的内容与真实世界中发生的事件是息息相关的,研究大数据,就是从庞大的数据中提取出能够解释现实事件和预测未来发生的事件的相关信息的过程。大数据意味着海量数据,早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇。IDC 指出,互联网上的数据每年将增长50%,每两年便翻一番,目前世界上90%以上的数据是最近几年才产生的。

但是,大数据不仅是互联网信息的概念,全球的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递有关位置、运动、振动、温度、湿度,乃至空气中化学物质变化的数据,也产生了海量数据。

从海量数据中“提纯”出有用的信息,以便有效地利用其中蕴藏的价值,可以实现大数据产业技术创新,提升产业整体的效益。在能源、金融、电信等行业的企业中,可以开发数据监测、商业决策、数据分析等软、硬件一体化行业应用解决方案。在行业内部,可以开发深度加工的行业数据库,提供内容增值服务。另外,可以发展政府及大型公共信息服务平台建设,提高行政效率,降低成本,科学决策,提高预测能力和应急响应能力。

大数据蕴含着大价值。麦肯锡咨询公司在2011年的报告中指出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”根据该公司的研究,大数据创造价值有5种方式:①通过提高信息透明度与可用度开启价值;②采集更细节信息来揭示变化与提升性能;③个性化产品与服务;④通过复杂的分析改进决策;⑤改进下一代产品和服务的研发。大数据的价值促使人们使用统计学、计算机科学和工程学等数据分析工具,深入分析并建立数据模型来获取数据内部蕴含的价值。

例如,著名的围棋“人机大战”。Alphago 收集大量高手对弈棋谱的数据,通过智能深度学习,多层的神经网络输入大量的矩阵数字,然后通过非线性激活方法取权重,产生另一个数据集合作为输出,做出接近人类的处理和判断,最终击败人类顶尖高手李世石。这就是大数据应用价值的典型案例。

农夫山泉公司利用大数据卖矿泉水是另外一个案例。农夫山泉公司在全国有1万名业务员,每天获得的有关瓶装水的摆放、位置和高度等的数据共有100GB,每月就是3TB。缺乏数据分析时,公司老总不知如何利用这些数据来产生经济效益。没有数据实时支撑,公司在物流领域花了不少冤枉钱。对于某地产品短缺,从其他地区调配的情况,在实施过程中经常出现偏差。农夫山泉公司成为SAP Hana数据库平台的上线企业后,同等数据量的计算速度从过去的24小时缩短到0.67秒,可以做到实时计算结果。有了强大的数据分析能力作为支持,公司年销售量获得了30%~40%的增长率,在饮用水行业成为国内的领头羊。1.1.2 过程工业大数据的发展

与互联网大数据最近几年的迅速发展相比,过程工业的大数据具有悠久的历史。工业现场中各个设备和传感器采集来的数据可以由集散控制系统(Decentralized Control System,DCS)内部分享。过程工业的数据不仅有数字,而且包括文本、图像和声音等,非常丰富。

麦肯锡咨询公司发表文章《如何利用大数据改进制造业》,就大数据及高级分析如何使生物制药、化工和离散制造更加合理化给出深度分析。文章特别提到,那些身处基于过程的行业的制造商如何利用高级分析来提高产量并且降低费用。今天,制造商可以对大量来自生产和销售过程中的数据进行追踪。麦肯锡的文章通过对数个案例进行解析,说明大数据以及高级分析应用和平台能够为经营决策提供帮助。通过寻找决定过程效益的核心因素,大数据与在其上进行的高级分析将厘清制造过程中的价值链,帮助管理人员采取行动,以便对制造过程持续改进。

工业大数据,是指在工业领域信息化应用中产生的大数据。随着信息化与工业化的深度融合,信息技术渗透到工业企业产业链的各个环节,条形码、二维码、RFID、工业传感器、自动控制系统、物联网、ERP等技术得到广泛应用,工业企业进入新的发展阶段,它们所拥有的数据日益丰富。在工业企业中,生产线高速运转,由工业设备所产生、采集和处理的数据量远大于企业中计算机和人工产生的数据;从数据类型方面来看,多是非结构化数据。生产线的高速运转,对数据的实时性要求更高。

工业大数据应用将带来工业企业创新和变革的新时代。这些创新为不同行业的企业带来了更快的速度、更高的效率和更高的洞察力。工业大数据的典型应用包括产品创新、产品故障诊断与预测、工业生产线物联网分析、工业企业供应链优化和产品精准营销等各个方面。

尽管过程工业数据丰富,但根据Garterner 公司的分析,由于缺少有效的分析工具以及高效的计算技术来提取有用信息,工业大数据还未得到充分利用。过程工业大数据面临的挑战在于挖掘历史大数据中蕴含的知识。然而,知识不是直接呈现在数据里,而是呈现于用于揭示数据的模型中。

工业大数据的数据分析,已经进入为精益生产服务的阶段。美国西北分析公司(NWA)市场副总裁Peter Guilfoyle认为,当今工业的生产企业,首要考虑的不再是如何提升产量,而是如何优化生产,实现精益。现有的系统能够产生大量的数据,目前的挑战是如何将这些数据转换成实时、可行的决策所需要的智能信息。此前,该公司90%以上的用户业务来自统计过程控制(Statistical Process Control,SPC)。这是一种传统的借助数理统计方法的过程控制工具。对生产过程进行分析评价,根据反馈信息对过程异常做出判断,及时报警,甚至进行预测,从而主动对调整、优化生产过程控制采取措施,以达到控制生产质量的目的。从2013年开始,美国西北分析公司面向客户提供新的高端的企业智能制造(Enterprise Manufacturing Intelligence,EMI)方案。Peter 指出,EMI先进于SPC工具之处可总结为:实时的过程数据集成、分析和可视化。不需要在做大数据分析前,收集、转移和复制这些数据,只是实时地、分布式地在各个数据源之间进行就地分析,然后直接连接到所有的主要的过程数据库,不需要冗余数据存储,简化了数据建模,降低了大数据分析成本,避规了过度占用数据存储资源,同时,避免了因传输造成的损失或错误的风险。

EMI可以看成SPC的升级版,尽管它做了很多改进,但是基本的数据分析和处理方法都源自SPC。从这个角度来看,过程工业大数据处理的基础是SPC。本书内容主要基于SPC展开。

1.2 统计过程控制

统计过程控制的概念来源于美国沃特·阿曼德·休哈特(W.A.Shewhart)博士于1924年5月16日在贝尔实验室的备忘录中所作的“控制图”(Control Chart)。从一开始,SPC就被看做是一种提高产品质量和生产效率的技术手段。

统计过程控制是一种借助数理统计方法的过程控制工具。它对生产过程进行分析评价,根据反馈信息,及时发现系统性因素出现的征兆,并采取措施消除其影响,使过程维持在仅受随机性因素影响的受控状态,以达到控制质量的目的。它认为,当过程仅受随机因素影响时,过程处于统计控制状态;当过程中存在系统因素的影响时,过程处于统计失控状态。由于过程波动具有统计规律性,当过程受控时,过程特性一般服从稳定的随机分布;而失控时,过程分布将发生改变。

传统的统计过程控制方法都是以单个变量为基础的,由于缺乏大数据存储和高级的数据分析技术,人们只对生产过程中的一些重要指标单独地进行统计过程控制。这在某种程度上能够改进产品质量。但是由于生产过程的复杂性,产品质量往往涉及具有相关关系的几十甚至上百个变量,并且这些变量在一段时间内形成海量的数据,基于单变量的 SPC难以完好解释过程的变化情况,所以不能真正保证产品的良好质量和性能。

从20世纪90年代以来,随着DCS系统发展到现场总线系统,工业现场的数据资源更加丰富,并随着计算机计算处理能力的强大,人们开始使用多元统计分析方法处理过程数据、产品质量数据。因为需要监视的多个产品性能指标或多个过程变量之间存在相关关系,需要多元统计分析方法来揭示、反映过程的内在变化,为提高产品质量提供有用的信息,使用多元统计分析方法的统计过程控制,就是多元统计过程控制(Multivariate Statistical Process Control,MSPC)。

MSPC使用多元投影的方法,将过程数据和质量数据从高维的数据空间投影到低维的特征空间,所得到的特征变量保留了原始数据的特征信息,除掉了冗余信息,是一种高维数据分析的有效工具。目前,多元统计分析方法有主元分析(Principal Component Analysis,PCA)、部分最小二乘(Partial Least Squares,PLS)、主元回归(Principal Component Regression,PCR)和独立元分析(Independent Component Analysis,ICA)等。

利用SPC可以帮助企业在质量控制上真正做到事前预防和控制,可以完成如下工作:①对过程作出可靠的评估;②确定过程的统计控制界限,判断过程是否失控和过程是否有能力继续进行;③为过程提供一个早期报警系统,及时监控过程的情况以防止废品的产生;④减少对常规检验的依赖性,定时地观察,系统的测量方法替代了大量的检测和验证工作。

统计过程控制发展到今天,理论研究方面的主体部分已经非常完善,出现了许多商业化的软件。如美国公司DataNet开发的软件的WINSPC、澳大利亚的库得克(QTech)公司的SPC、上海盈飞无限公司提供的Infinity QS SPC软件,太友软件公司的QSmart SPC软件,种类繁多。多变量统计控制的商业软件中最著名的是美国的特征向量研究公司(Eigenvector Research)推出的在MATLAB软件下运行的软件包PLS toolbox,该软件包已受广大的工业界和学术界人士的欢迎。

1.3 过程监控与故障诊断

设备在运行中可能发生故障。这些故障会降低企业的生产效率和产品的一致性,减少设备使用寿命,危及操作人员的生命安全。及时和准确地检测和诊断出故障显得非常重要。故障诊断领域是一个非常重要的领域。

过程监控的四个步骤是故障检测、故障隔离、故障诊断和过程恢复。故障检测是检测到故障的发生,提出警告并采取措施,以免发生事故;故障隔离就是将那些与故障有关的变量与其他变量分别开来,也可以称之为故障定位;故障诊断则是确定哪一种故障发生了,明确故障的原因;而过程恢复,则是指消除故障所产生的影响。

过程监控的目标是通过识别不正常的行为来确保过程成功地按计划进行,监控得到的信息能够帮助人们了解过程的状态,并作出适当的补救措施,以消除不正常行为带来的影响,从而改进设备运行的安全性、降低生产成本。

传统的监控方法基于单变量的控制图,已经无法反映复杂的工业过程的变化。现代过程监控是基于数据驱动的方法,数据驱动的量度是直接从过程数据中导出的。现代工业系统的大数据,虽然带来丰富的信息,但是工程师和操作人员无法根据这海量的数据从经验上得出过程运行的评估。借助数据驱动的 MSPC 方法带来的过程监控方式,将高维数据变换为低维数据,并从中获取重要的信息,然后计算出一些有意义的统计数字和生成直观的图表,捕捉到过程变量之间相关关系的异常,从而告知操作人员及时应对。然而,这种数据驱动方法的缺点是,高度依赖于过程数据的数量和质量。

1.4 数据建模方法

1.4.1 潜隐结构建模的性质

传统的工业过程建模是一种机理建模,也是一种了解系统的机理,建立数学模型的方法。建模用到的工业历史数据,只是用做建模时的数据拟合,以获得模型的参数。由于要符合过程的物理或化学变化规律,所以该建模性质属于“刚性”。

MSPC的建模方法,基本不需要了解过程机理,它主要基于过程的大量正常的历史数据,这种建模方法属于潜隐结构建模。这种建模方法有别于传统的输入输出模型和因果模型,强调数据之间的潜隐的结构,并在此基础上定义故障检测指标机器控制限以进行故障检测与诊断。未明机理的两个类似的工业过程,由于历史数据的不同,所建立的统计模型不尽相同。

潜隐结构建模不需要了解过程的机理,可以根据大数据的统计关系,直接建立模型,并进行故障检测及诊断,这是它的优点。但是,利用这种过分柔性的模型无法设计出控制器。Piovoso曾经在1994年就提出主元控制器的思想,由于其思路基本上无法和传统的反馈控制兼容,所以后续学者没有在相关方面进行研究。所以,潜隐结构建模的作用,主要是用于故障检测方面。

潜隐结构建模方法,主要方法有PCA、ICA和PLS等。由于只涉及过程数据,并没有介入到质量数据,本书主要讨论PCA和ICA的各种应用。此种建模策略中,PCA和ICA性质属于单一层面上无监督的模型。二者的区别在于PCA以提取最大方差的潜隐结构变量为目标,假设过程数据满足高斯分布;而 ICA 则假设潜在变量为非高斯分布,将观测数据分解为统计上独立元的线性组合,提取测量值中不服从高斯分布的部分。一般地说,相对于PCA方法,ICA方法的运算更加复杂。这两种方法都能够描述过程数据之间的相关关系。

PCA和ICA算法都是基于对过程变量的高维数据,经过处理后降维成低维数据,然后形成虚拟的主元变量和独立元变量。无论是主元变量之间,还是独立元变量之间,它们都是相互垂直的。但是,PCA处理的主元,相对于ICA来说,更像是一种粗略的线性组合;而ICA的各个独立元,好似根据过程的内部的变化关系,一种细致的拆分。

PCA算法和ICA算法的好处是,可以将过程中微不足道的主元或独立元,忽略为模型误差,以此来降低变量的个数,将变量繁杂的过程降低到只有几个主元变量或独立元变量,以此来抓住问题的主要矛盾,获取过程中的异常信息。1.4.2 复杂工业过程建模

一般的PCA方法或ICA方法,在运用时,都需要满足以下条件:①过程是连续的;②过程是线性的;③过程处于稳态,不存在时序相关性;④过程不随时间变化;⑤过程变量是否在时间序列上匹配。

但是,在不同的情况下,上述条件可能有的不具备。

第一个问题,为了生产高附加值的产品,如高分子产品、医药产品以及生化产品等,这些产品通常是由间歇过程生产的。所以其生产过程不是连续,而是分成一个一个批次进行的。每一个批次的过程,因相似性而不尽相同。这样,对于间歇过程,加拿大的J.F.MacGregor等人于1994年系统地提出了将多向主元分析(Mulway Principal Component Analysis,MPCA)用于化工过程。MPCA将PCA扩展到三维空间,它们在统计和算法上都是一致的,并具有同等的目标和功效。类似地,2004年韩国学者Chang Kyoo Yoo等人将独立元分析扩展到多向独立元分析(Mulway Independent Component Analysis,MICA),并解决了算法中相关的一些问题,例如用于青霉素制药中的仿真。

但是,只有少量的工业过程如半导体热退火过程,可以保证间歇过程所有的批次同时开始和同时结束,也就是说,用精密控制方法来保证各批次同步进行。但是,事实上,在许多间歇过程中,各批次总的时间长度不同,且各批次内各相应阶段的持续时间也不相同。究其原因,会进一步发现由于原料中杂质的变化、各成分配方比例的不同以及季节变化引起冷却水温度的改变,造成材料放热能力的不同,进而影响反应速率。各批次之间异步的现象在许多大型间歇过程中普遍存在,甚至在有些不是全自动的间歇过程中,某些阶段只能靠操作员的判断能力,使得变量轨迹中产生相当大的变化。由于这些情况的发生,在比较和分析各批次历史轨迹之前,为了让各批次之间具有可比性,必须对各条轨迹进行同步化处理。

Athanassios Kassidas于1998年提出用动态时间错位(Dynamic Time Warping,DTW),运用动态规划策略,使用一种模式匹配方案,能够局部转移、压缩和扩展各模式,使得模式间相似特征能够匹配,并根据过程的反应特点,对算法进行范围限定和运行限定。本书对DTW算法进行简化性改进,使之更加适用于大型的间歇过程。

另外一种间歇过程同步化方法就是正交函数近似(Orthonormal Function Approximation,OFA)方法,是由中国台湾学者Junghui Chen和Jialin Liu提出的。它的基本思路是把每一条变量轨迹用正交函数集及相应的投影系数进行近似表示,并把投影系数作为这条变量轨迹的测量值。投影系数本身包含了变量轨迹所具有的特性,从而达到了同步化的目的。

从表面上看投影系数根本不像DTW方法那样可以反映出变量轨迹的时间指标值,但它所得到的投影系数会包含原始轨迹的全部信息,而且其原理易于理解,算法较简单,程序执行速度快,因而较为实用。本书用一种新的规格正交函数集的离散化处理方法来重新构造算法,不仅满足了勒让德多项式的正交性又有效地降低了计算量。

由于间歇过程的数据模型是三维的,因此,以上对间歇过程进行过程监控,在数据维度上的高阶,可谓是大数据的一种体现。

为了解决间歇过程中在线监控的问题,本书独特地提出了一种广义相关系数法。由于间歇过程运行中,过程尚未完成,所以监测点后面的数据无法知晓,而J.F.MacGregor等人提出的在线检测方法,由于对未来的变量数值的补充存在误差,导致最后的 MPCA 运算误差比较大。本书通过比较在线检测轨迹和历史轨迹的模式,创造性地用本书设定的广义相关系数来匹配相应的历史轨迹,以此来补充过程中未完成部分,仿真实验证明这种方法的有效性。由于在线运算和模式匹配的计算量比较大,可以认为它是大数据的处理方法。

第二个问题,变量间存在强非线性关系,一般用核主元分析法(Kernel PCA,KPCA)来解决,这是一种非线性主元分析方法,能够有效提取非线性特征。从原始数据空间,通过核函数方法,间接实现非线性映射,投影到高维特征空间,再用PCA方法进行分析。其关键在于通过引入核函数,把非线性变换后的特征空间内积运算转换为原始空间的核函数计算,从而大大简化了计算量。

本书没有对这方面的知识有所涉及。

第三个问题,工业过程中,采样间隔短或存在时滞现象,会导致采样序列的相关性,Ku等学者于1995年提出动态主元分析法(Dynamic PCA,DPCA),利用时间窗构造一个变量增广矩阵,这样的优点是在矩阵中引入了变量的自相关与互相关关系,再进行DPCA处理。但是实际的过程变量很多,会导致传统构造的增广矩阵的维数急剧增加。本书采用简化的DPCA方法,对增广矩阵的设置方法进行创新,并使用DPCA法和相应的动态ICA (Dynamic ICA)方法,收到了良好的效果。

增广矩阵的建立,使得本来就利用巨量数据建立的模型,成倍地增加,这也是大数据处理的一种体现。

第四个问题,多元统计模型是否随着时间的变化而发生变化。在一段时间,模型可以认为是不变的。但是,由于种种原因,某些情况下模型是会产生过程漂移的,那么,PCA模型就可以认为是时变的,如何动态更新PCA模型就是一个需要讨论的问题。Weihua Li于2000年提出的递归PCA(Recursive PCA)模型,通过新旧PCA模型相关矩阵之间的递归关系,实际上是一种赋予相关矩阵遗忘因子方法的递归 PCA。本书提出一种限定记忆模式的递归 PCA,用近期在同样过程中产生的数据来代替同等数量的过程数据,以建立新型的相关矩阵。经验证这种递归PCA模型可以准确地监视生产过程。

第五个问题,由于采样系统中被控对象的大型化和复杂化带来了信号变化速率,以及系统的造价问题,系统的控制品质问题,系统各个变量使用不同的采样率。多采样率的系统能否建立PCA模型乃至ICA模型,是建模时需要考虑的问题,本书讨论了多采样率下传统的数据插补方式,进而建立了双采样率下的PCA模型,并给出了三种统一采样率的方式:①以系统中某一现有的采样率作为参照采样率,另外一种采样率则采用一种插值的方式,数据样本经过计算变换成参照采样率的样本;②采用最小公倍数方法将两种采样率归并为一种新的目标采样率;③采用最大公约数的方法将两种采样频率统一到一个公共频率中去。这三种方法实际上是以计算出的样本来代替现场采样的样本,并完成PCA模型的建模和监视工作。

1.5 本书的内容安排

第2章介绍主元分析法(PCA),以及多向主元分析方法(MPCA)。

第3章介绍独立元分析方法(ICA)和多向独立元分析方法(MICA)。

第2章和第3章是数据建模的基础。

第4章是作者研究在线监控提出的广义相关系数方法,介绍这种方法,并应用这种方法进行了一些数据预测工作。

第5章是应用DTW方法对间歇过程数据进行同步化。

第6章是应用OFA方法对间歇过程进行同步化。

在第5、6两章中,作者仔细研究了这两种算法,在第7章中提出了自己的改进性方法。

第8章是介绍三种典型的反应过程,其中两种是间歇过程,分别是聚氯乙烯生产过程和青霉素发酵过程,另一种是一种连续过程——田纳西—伊斯曼过程,为后续几章的工作作为铺垫。

第9章是典型的间歇过程的综合方法的仿真,分别应用MPCA和MICA方法,在线监视和离线监控,应用广义相关系数法。以 DTW 和 OFA 两种不同的方式来对聚氯乙烯和青霉素发酵过程进行建模和监视。

第10章是针对多采样率下的过程,作者建立了双采样率下的PCA模型,并创造性地采用了三种统一采样率的方法,最后用田纳西—伊斯曼过程进行了验证。

第11章是讨论如何更新PCA模型的问题,作者提出了用限定记忆法来更新PCA模型的相关矩阵和负载矩阵,并用田纳西—伊斯曼过程的数据建模并验证模型更新的效果。

第2章 主元分析法

在现代工业中,随着集散控制系统(DCS)、各种智能化仪表和现场总线等设备和技术的广泛应用,所监视的大量的过程数据被采集并存储下来。如何从海量的测量数据中挖掘出隐藏的有用信息,从而对系统进行监控,已成为越来越迫切的需要。同一过程中的不同变量之间存在着相互关联的关系,即这些变量不是相互独立的。呈现在操作人员面前的多个过程变量曲线,同时也错综复杂地变化着。操作人员很难对这些变化后面的真正原因及时地做出正确的判断。这种“数据丰富而信息缺乏”会让操作人员对现场的变化情况感到手足无措。

如果能将变量的相关关系消除,并把数目繁多的过程变量压缩为少数的相互独立的变量,则操作人员就能从这少数的变量中,较为容易地找出引起过程变量错综复杂变化的原因。

主元分析法(Principal Component Analysis,PCA)是一种比较成熟的多变量统计方法,在这方面提供了强有力的支持。在过程监控中,PCA 常被视为基于数据的一种有效的降维方法。

2.1 主元分析方法原理简介

假设 X(n×m)是一个原始数据矩阵,n 代表采样样本(观测p值)数,m 代表测量变量数。PCA处理数据的一般过程:(1)对原始数据 X(n×m)进行归一化处理(减去各自变量的p均值,除以各自变量的标准差),目的是消除不同量纲对结果的影响。经过量化处理后的数据矩阵为X(n×m)。(2)将量化后的矩阵X分解成为m个变量的外积之和的形式,即n

在式(2-1)中,t∈R称为得分(score)向量,且i,用于提取采样数据间关联信息,X的得分向量又m称X的主元;p∈R称为负荷(loading)向量,用于提取变量间关联i信息(i=1,2,…,m)。由于各个得分向量之间是正交的,各个负荷向量之间也是正交的,则有:

即每一个得分向量实际上是数据矩阵 X 在和这个得分向量相对应的负荷向量方向上的投影。向量t的长度反映了数据矩阵X在p方向ii上的覆盖程度,由公式(2-2)可知,负荷向量p代表数据矩阵X变化1最大的方向,p代表数据矩阵X变化最小的方向。当数据矩阵X中的m变量间存在一定程度的线性相关时,数据矩阵X的变化将主要体现在最前面的几个负荷向量方向上,而在后面几个负荷向量上的投影将会很小,因为它们主要是由测量噪声引起的。我们将式(2-1)写成下面的形式:

其中T=[t,t,…,t]称为得分矩阵,P=[p,p,…,p]称为负12a12a荷矩阵,a为确定的主元数(a≪n),E为由测量噪声引起的误差矩阵为主元模型预测矩阵。式(2-3)称为主元模型,由正常运行的数据建立。得分矩阵T,负荷矩阵P可采用下面三种方法之一进行求取。

方法1:通过奇异值分解(Singular Value Decomposition,SVD)法计算T和P,对数据矩阵X进行奇异值分解,即

其中,σ>σ>…>σ,则t=σu,p=v。12miiiii

方法2:通过对量化后的数据矩阵X的协方差矩阵S进行SVD分解来计算T和P,即Tm×m

这里对角矩阵Λ=∑∑∈R是协方差矩阵S的非负的实特征值λ(i=1,2,…,m)并递减排列,即;V 是正交单位特征i向量,则取P=V, T=XP,X 观测到低维空间的投影就包含在得分矩阵T中,且得分矩阵T中的第i个得分向量t的方差为λ,即:var(t)iii=λ,(λ≥λ≥…≥λ≥0)。i12m[27]

方法 3:通过非线性迭代部分最小二乘算法 (Non-linear Iterative Partial Least Squares,NIPALS)来计算T和P。其具体步骤介绍如下。

①从X中任选一列X,并记为t,即t=X。j11j

②计算p:。1

③将p的长度归一化:。1

④计算。

⑤将步骤②中的t与步骤④中的t作比较,如果它们一样,则算11法已收敛,计算停止;如果它们不一样,回到步骤②。

计算下一个得分向量和负荷向量时,要将已经计算的得分向量和负荷向量的外积从数据矩阵X中减掉,用得到的误差矩阵替换步骤①~⑤中的X并计算。例如计算得分向量t和负荷向量p时要计算,22,并把E代入步骤①~⑤中替换掉X进行计算得1到t和p;计算得分向量t和负荷向量p时要计算,2233,并把E代入步骤①~⑤中替换掉X进行计算得2到t和p。这样一直计算下去,直到计算出数据矩阵X中的全部主元33为止。

2.2 主元分析的特点

总的来说,主成分分析是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题,对于某些复杂数据就可应用主成分分析法对其进行简化。计算主成分的目的是将高维数据投影到较低维空间。

PCA 技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化模型或是对数据进行压缩的效果,同时最大限度地保持了原有数据的信息。

PCA技术的一个很大的优点是,它是完全无参数限制的。在PCA的计算过程中完全不需要人为地设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。但是,这一点同时也可以看做缺点。如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高。

2.3 主元的个数选择

建立主元模型关键的问题是如何选择合适的主元个数。当所选主元个数太少时,将会丢失较多信息,造成模型误差变大;当采用的主元过多时,将会过多地引入过程数据中的测量噪声,也会造成模型误差增大。通常情况下,有以下两种方法可以确定主元个数。(1)采用方差累计贡献率(Cumulative Percent Variance,CPV)来确定主元个数k,即

式中,CL是人为设定的控制限,一般取85%。(2)交叉检验估计法。交叉检验估计法的主要思想是先假定主元个数A为1,再把数据矩阵X分成l块,数据矩阵X中去掉第i块数据则用于检验该PCA模型的预测能力,依次对l块数据进行上述操作(即i=1,2,…,l),得到对应主元个数A的PCA模型的累计误差Press(Prediction Error Sum of Squares),然后计算前后两次所得A的累计误差比率R=Pr ess/Pr ess ,当主元个数增加反而增加累计AA-1误差时(即R>1)时,前一次主元个数(A-1)就是最佳主元个数。

事实上,交叉检验估计法能真正准确地计算出主元的个数,而方差累计贡献率的算法,比较简单易行,一般情况下,误差率也不大。

2.4 两种统计量指标

22

PCA算法有两种统计量:Hotelling T统计量和SPE(Q)统计量。

根据式(2-3)确定的主元模型,在新的时刻k,过程向量x(k)可被分解为

其中,在主元子空间上的投影,在残差子空间上的投影。2

通过计算Hotelling T统计量来实现对多个主元同时进行监控。在有的文献中,该统计量也称为D统计量,对于第i时刻过程变量X,Di统计量的定义为

其中,t是T矩阵中第i行,T由构成主元模型的k个主元的得分向ikk量所组成,λ是由与前k个主元所对应的特征值所组成的对角矩阵。显然,也是多个变量共同累加的标量。

式(2-3)的主元模型在i时刻的平方预测误差可以写成

其中,X为i时刻第j个变量的测量值,为i时刻第j个变量的ij主元模型预测值。在有些文献中,主元模型的SPE也被称为Q统计量。对第i个采样点来说

其中,e是式(2-3)中的E的第i行, P=[ pp …p],I是n×n的ik12k单位矩阵。

2.5 控制限指标的计算

如果过程运行正常,应该同时满足2

其中,UCL是Hotelling T的上限,Q是SPE的上限。Q统计量代α表了数据中没有被主元模型所解释的变化。2.5.1 SPE控制限

当 SPE 过大而超出控制限时,说明过程中出现了不正常情况。控制限的计算基于假设检验,当检验水平为百分数α时,SPE控制限可按下式计算:

λ为X的协方差矩阵的特征值,C是正态分布在检验水平为α的临iα界值,按3σ准则,α一般取为95%或99%,统计量的95%控制限称为警告限(warning limit),越限则故障征兆;99%控制限称为作用限(action limit),越限则说明系统确实出现故障现象。α为主元模型中所保留的主元个数。

图2-1为60个批次数据投影后计算出的SPE统计量,其横坐标为数据批次个数,纵坐标为SPE统计量的值,虚线为95%控制限。图2-1 PCA方法SPE统计量监控图

从图2-1中可以得出,60个数据批次中批次7、批次26、批次44、批次48、批次52、批次57、批次58、批次60均超出95%SPE控制限,说明这些批次存在异常情况。22.5.2 T控制限也是多个变量共同累加的标量,因此它也可以通过单变量控制2图的形式来监控多变量工况。T图通过主元模型内部的主元向量的模的波动来反映多变量变化的情况。2

对于样本个数为m,主元个数为a的数据集X,Hotelling T统计量服从自由度为a和m-a的F分布,即

其中,F(a,m-a)是自由度为a和m-a的中心F分布。2

这样可以得到置信度为α的Hotelling T统计量的上控制限:

其中,F(a,m-a)是自由度为a和m-a的中心F分布的上100α百α分位点,其值可从F分布表中查得。同样,α一般取为95%或99%,分别设置D统计量的警告限和作用限。2

图2-2为60个批次数据投影后计算出的T统计量,其横坐标为数2据批次个数,纵坐标为T统计量的值,虚线为95%控制限。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载