智能电网大数据云计算技术研究(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-11 04:07:57

点击下载

作者:周国亮,宋亚奇,朱永利,王桂兰,萨初日拉

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

智能电网大数据云计算技术研究

智能电网大数据云计算技术研究试读:

前言

近年来,随着智能电网研究和建设的不断推进、各种分布式可再生能源的大规模应用等,电网规模不断扩大、结构日趋复杂,对电网监测的广度不断扩大、深度不断加强,而对大规模电网的全方位、多尺度感知将使电力系统运行和监测过程中收集的数据量呈指数级增长,并逐渐形成了电力大数据。通常情况下,电力大数据具有如下特点。(1)体量巨大。从TB级别跃升到PB级别,广域向量测量系统(Wide Area Measurement System, WAMS)和数据采集与监视控制系统(Supervisory Control and Data Acquisition, SCADA)遥测点增加、采集频率提高,每年将产生超过TB级的数据;用电信息采集系统成为世界上最大的自动化计量系统,连接着以亿计算的用户,随着采集频率提高,数据量将以PB计算。(2)多源异构特性。电力系统本身结构复杂、规模庞大,采集的数据具有明显的多源异构特性。同时也需要对电网系统外数据(气象、地理、环境等)与内部数据进行关联分析。比如与电力设备状态评估相关的数据来源广、种类多,包括在线监测实时数据、设备台账信息、预试数据以及音视频和气候环境等非结构化数据。(3)生成速度快。由于电力系统的特殊性,在某些场景下数据采样频率很高,数据生成速度非常快。分布式能源随气候环境动态变化,要求快速准确预测变化,需要对设备和环境实时监控。在SCADA调度系统中,每分钟产生的数据量也将达到GB级。(4)价值密度低。以视频数据为例,连续不间断监控过程中,可能有用的数据仅仅有1~2s。在基于经验和人工的传统输变电设备状态监测评估中,只对少量异常数据关注、处理和采用,而丢弃所谓“正常数据”,然而大量的正常数据也可能成为故障分析判断的重要依据。

基于电力大数据的特点,深入探讨数据驱动的电力系统各项技术,提高数据利用率是当前智能电网建设过程中必须要面对的问题。云计算技术是处理分析大数据的有效方式,具有良好的可扩展性和容错机制,在商业互联网领域应用广泛。随着电力大数据的形成,探讨基于云计算技术的电力大数据分析处理,进而对提高电力系统的整体安全性和可靠性具有重要的研究价值。然而,由于电力系统运行模式与商业互联网企业相比具有自身的特点和性能要求,当云计算应用于生产运行数据时具有很大的挑战性,本文正是基于此背景展开相关研究和探讨。

当前云计算技术包括批处理计算、流式计算和内存计算等三种方式,分别适应于不同的数据处理类型。其中,批处理适合离线静态数据分析,对运行时间要求较低;而流式计算面对流动的实时数据动态计算,对时限性要求较高;内存计算是针对批处理频繁磁盘操作性能瓶颈,适应需要多次迭代的机器学习类算法。另外,针对电力大数据的多源异构特点,需要开展数据融合分析技术,为用户提供统一综合的查询视图。综上所述,本书主要开展了如下几项研究工作。(1)智能电网大数据批处理技术模式研究与应用(第1章)

利用收集的静态离线电力大数据,开展了电力短期负荷预测、绝缘子泄漏电流数据高效存储和聚类划分及局部放电信号处理的并行EEMD算法研究。主要采用的技术是Hadoop的MapReduce技术,通过并行计算和大数据的支撑,提高数据处理的效率。(2)智能电网大数据高性能内存计算技术研究(第3章)

针对电力系统中部分应用需要高性能计算分析的特点,开展内存计算技术在电力系统中的应用研究。重点对监测数据尤其是在线监测领域,监测数据速度快的特点,研究高效的内存聚类算法。另外,对电力数据高级分析的OLAP技术开展了基于内存计算的并行方体计算技术研究。(3)智能电网大数据的多源数据融合分析技术(第4章)

针对智能电网大数据多源异构的特点,研究数据融合技术,为用户提供统一的查询或显示视图。重点研究内容包括多通道数据融合特征提取和多数据源的连接技术,并结合Hadoop和Spark研究并行计算模式和高速融合算法。(4)智能电网大数据的流式计算研究(第5章)

针对智能电网大数据速度快,多种场景下表现出流数据的特征,研究流式计算技术动态处理数据,应用在在线监测和实时用电信息采集系统中。研究了监测流数据实时过滤和检测技术,通过设计基于工作流的处理模型,快速实现对大规模流数据的监测,实时发现异常,提高监测效率。针对大规模用电信息采集系统,设计流式计算的聚类算法,完成数据聚类划分,实时发现用电行为异常,从而提升数据分析技术与生产系统的融合水平。(5)全景实时分析平台关键技术探索(第6章)

智能电网最终目标的实现需要借助全景实时分析平台的支撑,将大数据平台变为智能电网的神经中枢,促进大数据与电力系统的深度融合,从数据驱动的角度研究当前电力系统面临的挑战问题。探讨基于内存计算、实时流式大数据处理技术、大规模并行计算技术及列存储等在电力大数据实时分析中的应用,满足电力系统对大数据分析的时效性需求;结合主流开源大数据处理技术,设计了电力大数据分析平台的分层体系架构,为电力系统的高效运行提供保证。(6)能源互联网中的大数据(第7章)

能源互联网是实现广域范围内的能源分享和支持分布式清洁能源为主体,将涵盖大规模的分布式能源、交通网络、天然气网络等,而支撑能源互联网高效运行和实时能源分享的核心技术应包括大数据分析技术。探讨了通过大数据提高能源互联网的安全等级和高效实时调度技术。

本书由国网冀北电力有限公司技能培训中心周国亮统稿,并负责第1、2、5、6、7、8章的编写,华北电力大学宋亚奇和王桂兰分别负责第3、4章的编写,华北电力大学朱永利教授对全书进行了审阅。

本书的研究工作得到了河北省自然科学基金(F2014502069)的资助。在这里,谨对所有给予我们指导、关心和帮助过的单位和个人表达最诚挚的谢意,没有你们认真负责的工作,此书不可能完成。感谢本书引用中所涉及的各位学者、专家。本文引用了多位学者的研究文献,如果没有各位学者研究成果的帮助和启发,我们将很难完成本书的内容。感谢为本书出版做出辛勤工作的出版社同志,没有你们的专业劳动,展现在读者面前的内容会很凌乱,很难示人。感谢阅读此书的每一位读者,是你们的阅读才使我们的工作有意义,谢谢你们。

由于我们的学术水平、工程经验有限,对所研究内容把握能力还存在不足和欠缺,书中不足之处在所难免,恳请各位专家和读者批评和指正!我们的邮箱是yu_bing_2000@163.

com,谢谢!周国亮2016年3月28日第1章智能电网大数据现状及挑战1.1 智能电网

智能电网通俗地讲是指电网的智能化或智能电力,也被称为“电网2.0”,它是建立在集成的、高速双向通信网络的基础上,通过先进的传感和测量技术、先进的设备技术、先进的控制方法以及先进的决策支持系统技术的应用,实现电网的可靠、安全、经济、高效、环境友好和使用安全的目标,其主要特征包括自愈、激励,用户抵御攻击、提供满足高要求的用户电能质量、支持大规模分布式等各种不同发电形式的接入、启动电力市场以及资产的优化高效运行等。建设智能电网将有效促进世界经济社会发展,并更好地应对全球气候变化和能源危机,对促进世界经济社会可持续发展具有重要作用。智能电网的作用主要表现在如下5个方面。(1)促进清洁、可再生能源的开发利用,减少温室气体排放,推动低碳经济社会发展。(2)优化能源结构,实现多种能源形式的互补,确保能源供应的安全稳定,减少对化石能源的依赖程度。(3)有效提高能源输送和使用效率,增强电网运行的安全性、可靠性和灵活性,促进在更大范围内的能源动态平衡。(4)推动相关领域的技术创新,促进装备制造和信息通信等行业的技术升级,扩大就业,促进社会经济可持续发展。(5)实现电网与用户的双向互动,创新电力服务的传统模式,为用户提供更加优质、便捷的服务,提高人民生活质量。

随着智能电网的发展,电网功能逐步扩展到促进能源资源优化配置、保障电力系统安全稳定运行、提供多元开放的电力服务、推动战略性新兴产业发展等多个方面。作为我国重要的能源输送和配置平台,智能电网从投资建设到生产运营的全过程都将为国民经济发展、能源生产和利用、环境保护等方面带来巨大效益,具体表现在如下几个方面。(1)在电力系统方面:可以节约系统有效装机容量;降低系统总发电燃料费用;提高电网设备利用效率,减少建设投资;提升电网输送效率,降低线损。(2)在用电客户方面:可以实现双向互动,提供便捷服务;提高终端能源利用效率,节约电量消费;提高供电可靠性,改善电能质量。(3)在节能与环境方面:可以提高能源利用效率,带来节能减排效益;促进清洁能源开发,实现替代减排效益;提升土地资源整体利用率,节约土地占用。(4)其他方面:可以带动经济发展,拉动就业;保障能源供应安全;变输煤为输电,提高能源转换效率,减少交通运输压力。

智能电网的核心技术包括如下几个方面。(1)发电领域:主要包括大规模可再生能源、分布式能源、光伏发电等电源的接入和协调运行技术。(2)输电领域:主要包括大电网规划技术、电力电子技术、输电线路运行维护技术、输电线路状态检修技术和设备全寿命周期管理技术等。(3)调度领域:主要包括大电网安全稳定分析与控制技术、经济运行技术、综合预警和辅助决策技术、安全防御技术等。(4)变电领域:主要包括变电站信息采集技术、智能传感技术、实时监测与状态诊断技术、自适应保护技术、广域保护技术、智能电力设备技术等。(5)配电领域:主要包括配电网安全经济运行与控制、电能质量控制、智能配电设备研究、大规模储能、电动汽车变电站等技术。(6)用电领域:主要包括高级量测技术、双向互动营销技术、用户储能技术、用户仿真技术等。

综上所述,智能电网最终目标是建设成为覆盖电力系统整个生产过程,包括发电、输电、变电、配电、用电及调度等多个环节的全景实时系统。而支撑智能电网安全、自愈、绿色、坚强及可靠运行的基础是电网全景实时数据采集、传输和存储,以及累积的海量历史多源异构数据快速分析。因而随着智能电网建设的不断深入和推进,电网运行和设备检/监测产生的数据量呈指数级增长,逐渐构成了当今信息学界所关注的大数据,因此需要相应的存储和快速处理技术作为支撑。1.2 云计算与大数据

大数据可以通俗地理解为无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。根据国际数据公司(International Data Corporation, IDC)的监测统计,即使在遭遇金融危机的2009年,全球信息量也比2008年增长了62%,达到80万20PB(1PB=2 GB),到2011年全球数据总量已经达到401.8ZB(1ZB=2 GB),并且以每两年翻一番的速度飞速增长,预计到2020年全球数据量总量将达到40ZB。在数据规模急剧增长的同时,数据类型也越来越复杂,包括结构化数据、半结构化数据、非结构化数据等多种类型,其中采用传统数据处理手段难以处理的非结构化数据已接近数据总量的75%。

鉴于大数据分析技术在经济、社会的应用和潜在的巨大影响,很多国家都将大数据视作战略资源,并将大数据应用提升为国家战略。2012年3月,美国奥巴马政府宣布推出“大数据的研究和发展计划”。2012年9月,日本总务省发布2013年行动计划,提出以复苏日本为目的推进“活跃在ICT领域的日本”ICT综合战,明确提出“通过大数据和开放数据开创新市场”。2013年2月,法国政府发布了《数字化路线图》,列出了5项将会大力支持的战略性高新技术,“大数据”就是其中一项。2013年1月,中国国家能源局下发了《关于数据中心建设布局的指导意见》,国家发展和改革委员会与中科院正式启动基础研究“大数据服务平台应用示范”项目;2013年3月,中国电机工程学会发布了《中国电力大数据发展白皮书》;2013年年初,贵州省发布《贵州“云计算”战略规划》;2013年10月,中国国内领先水平的大规模云计算数据中心、云计算研发应用示范基地——中国电信云计算贵州信息园在贵阳正式开工建设。这些实例进一步说明了大数据应用的重要性,未来大数据可能成为国家创新能力和竞争力的重要体现。

仅2009年,谷歌公司通过大数据业务对美国经济的贡献就为540亿美元,而这只是大数据所蕴含的巨大经济效益的冰山一角。淘宝公司通过对大量交易数据变化分析,可以提前6个月预测全球经济发展趋势。2011年5月,麦肯锡公司发布了关于大数据的调研报告《大数据:下一个前沿,竞争力、创新力和生产力》,文中充分阐明了大数据研究的地位以及将会给社会带来的价值,大数据研究已成为社会发展和技术进步的迫切需要。

目前,大数据应用已在社会经济活动方面展示出巨大的价值和潜力,在电力行业也有成功的应用范例。丹麦的维斯塔斯风力技术集团(Vestas Wind System A/S),通过在世界上最大的超级计算机上部署国际商业机器公司(International Business Machines Corporation, IBM)大数据解决方案,得以通过分析包括PB量级气象报告、潮汐相位、地理空间、卫星图像等结构化及非结构化的海量数据,从而优化风力涡轮机布局,提高风电发电效率。这些以前需要数周时间完成的分析工作现在只需不到1小时即可完成。美国的Space-Time公司2011年利用大数据可视化技术为美国加州独立系统运营商设计了一套实时监控电力传输系统能源基础设施的可视化软件Space-Time Insight,该系统可实时监测25000km的输电线路状况,可根据发生问题的严重性和临近地区的反应及时做出决策,保障电网的安全运行。中国国家电网所属的国家冀北电力有限公司,正在使用智慧风能解决方案来整合可再生能源并入所属电网,通过使用IBM风力预测技术,张北项目的第一阶段目标,旨在增加10%的可再生能源的整合发电量。通过分析提供所需的信息,将使能源电力公司得以减少风能并网的限制,进而更有效地使用已产出的能源,强化电网的运行。这种大数据的应用实践对中国电力大数据分析展示乃至整个能源相关行业都具有巨大的参考价值。应对大数据处理分析的有效技术方式是云计算技术。

云计算(Cloud Computing)是基于互联网的计算存储服务的增加、使用和交付模式,通常涉及通过互联网提供动态易扩展且通常是虚拟化的资源,是应对当前大数据挑战的有效方式。云是对网络或互联网的一种比喻说法。过去在图中往往用云表示电信网,后来也用于表示互联网和底层基础设施的抽象。云计算可以让用户体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过计算机、笔记本、手机等方式接入数据中心,按自己的需求进行运算。

现阶段广为接受的云计算定义是美国国家标准与技术研究院(National Institute of Standards and Technology, NIST)提出的:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务等),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。

当前,被普遍接受的云计算特点如下所述。(1)超大规模“云”具有相当的规模,Google云计算已经拥有100多万台服务器,Amazon、IBM、微软、Yahoo等的“云”均拥有几十万台服务器。企业私有云一般拥有数百上千台服务器。“云”能赋予用户前所未有的计算能力。(2)虚拟化

云计算支持用户在任意位置、使用各种终端获取应用服务。所请求的资源来自“云”,而不是固定的有形的实体。应用在“云”中某处运行,但实际上用户无须了解、也不用担心应用运行的具体位置。只需要一台笔记本或者一个手机,就可以通过网络服务实现我们需要的一切,甚至包括超级计算这样的任务。(3)高可靠性“云”使用了数据多副本容错、计算节点同构可互换等措施保障服务的高可靠性,使用云计算比使用本地计算机可靠。(4)通用性

云计算不针对特定的应用,在“云”的支撑下可以构造出千变万化的应用,同一个“云”可以同时支撑不同的应用运行。(5)高可扩展性“云”的规模可以动态伸缩,满足应用和用户规模增长的需要。(6)按需服务“云”是一个庞大的资源池,你按需购买;云可以像自来水、电、煤气那样计费。(7)极其廉价

由于“云”的特殊容错措施,可以采用极其廉价的节点构成云,“云”的自动化集中式管理使大量企业无须负担日益高昂的数据中心管理成本,“云”的通用性使资源的利用率较之传统系统大幅提升,因此用户可以充分享受“云”的低成本优势,经常只要花费几百美元、几天时间就能完成以前需要数万美元、数月时间才能完成的任务。云计算可以彻底改变人们未来的生活,但同时也要重视环境问题,这样才能真正为人类进步做贡献,而不是简单的技术提升。(8)潜在的危险性

云计算服务除了提供计算服务外,还必然提供了存储服务。但是云计算服务当前垄断在私人机构(企业)手中,而他们仅能够提供商业信用。对于政府机构、商业机构(特别像银行这样持有敏感数据的商业机构)选择云计算服务应保持足够的警惕。一旦商业用户大规模使用私人机构提供的云计算服务,无论其技术优势有多强,都不可避免地让这些私人机构以“数据(信息)”的重要性挟制整个社会。对于信息社会而言,“信息”是至关重要的。另一方面,云计算中的数据对于数据所有者以外的其他用户云计算用户是保密的,但是对于提供云计算的商业机构而言确实毫无秘密可言。所有这些潜在的危险,是商业机构和政府机构选择云计算服务、特别是国外机构提供的云计算服务时,不得不考虑的一个重要前提。

在智能电网运行过程中,大数据产生于整个系统的各个环节。比如在用电侧,随着大量智能电表及智能终端的安装部署,电力公司和用户之间的交互行为迅猛增长,电力公司可以每隔一段时间获取用户的用电信息,从而收集了比以往粒度更细的海量电力消费数据,构成智能电网中用户侧大数据。通过对数据分析可以更好地理解电力客户的用电行为、合理地设计电力需求响应系统和进行短期负荷预测等,从而有利于电网的规划和运行。

在智能电网中,随着高压、特高压电网及配电自动化建设的不断推进,智能化设备及系统应用数量不断增长,电网设备的部署结构与产生的数据日益复杂庞大。一方面,设备的自身状态和外部环境都会影响系统的运行,迫切需要对输变电设备负载能力、运行状态进行动态评估,以降低故障发生概率及相关风险,减少设备运行维护成本,提高设备净资产收益率;另一方面,由于智能输变电设备数量的不断增长,电网中获取与传输的各类数据也在发生几何级数的增长。这些数据不仅包括设备异常时出现的各类故障信号,运行过程中设备的各类状态信息,同时还包含了大量的相关数据,如地理信息、气象、视频图像、设备台账、实验数据与文档等。如何将这些多源异构高维的数据资源进行统一的收集、过滤与处理,并对现有的设备状态检测方案进行优化成为新的挑战。此外,基于因果关系的传统设备状态评价方法着眼点为单一设备和少量异常数据,难以实现对大量“数据资产”的综合有效利用以及面向整个电网的准确状态评估和风险预测。

鉴于大数据在电力系统中出现的场合越来越多,有必要对目前的应用现状和将来的挑战进行总结,为大数据技术在智能电网建设中的应用提供有益的参考。本节试图将智能电网中大数据的研究和应用现状及挑战进行综述,并给出了智能电网大数据存储与分析系统的一种可选的框架。1.3 智能电网大数据及特点1.3.1 智能电网中的大数据

电网业务数据大致分为三类:一是电网运行和设备检测或监测数据;二是电力企业营销数据,如交易电价、售电量、用电客户等方面的数据;三是电力企业管理数据。

根据数据的内在结构,这些数据可以进一步细分为结构化数据和非结构化数据。结构化数据主要包括存储在关系数据库中的数据,目前电力系统中的大部分数据是这种形式,随着信息技术发展,这部分数据增长很快。但由于数据库存储容量的限制,数据会定期更新,一般只存储最新的数据。相对于结构化数据而言,不方便用数据库二维逻辑表表现的数据即称为非结构化数据,主要是包括视频监控、图形图像处理等产生的数据等。这部分数据增长非常迅速,据IDC的一项调查报告中指出,企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。在电力系统中,非结构化数据占智能电网数据很大比重,这部分数据增长速度也很快,对电网数据中心的存储压力很大。

结构化数据根据处理时限要求又可以划分为实时数据和准实时数据,比如电网调度、控制需要的数据是实时数据,需要快速而准确地处理;而大量的状态监测数据对实时性要求相对较低,可以作为准实时数据处理。数据依据时限要求不同可以采取不同的处理方式,比如实时数据采用流式内存计算方式,而准实时数据可以采用批处理方式。

智能电网与传统电网存在很大的不同,具有更高的智能化水平,而实现智能化的前提是大量的实时状态数据及时获取和快速分析处理,目前智能电网中的大数据主要是因为以下几个方面。(1)为了准确实时获取设备的运行状态信息,采集点越来越多,常规的调度自动化系统含数十万个采集点,配用电、数据中心将达到百万甚至千万级。需要监测的设备数量巨大,每个设备都装有若干传感器,监测装置通过适当的通信通道把这些传感器连接在一起,由变电站的数据收集服务器按照统一的通信标准上传到数据中心,这实际上构成了一个物联网。而物联网的后端采用云计算平台已被认为是未来的发展趋势。智能电网设备物联网同云计算平台的基础设施层互联,进行数据交换。(2)为了捕获各种状态信息,满足上层应用系统的需求,设备的采样频率越来越高。比如在输变电设备状态监测系统中,为了能对绝缘放电等状态进行诊断,信号的采样频率必须在200kHz以上,特高频检测需要吉赫兹的采样率。这样,对于一个智能电网设备监测平台来说,需存储的监测或检测的数据量十分庞大。(3)为了真实而完整地记录生产运行的每一个细节,完整地反映生产运行过程,要求达到“实时变化采样”,实现对设备的全生命周期管理和实时状态评估。

同时,在智能电网中,大数据产生于电力系统的各个环节。(1)发电侧:随着大型发电厂数字化建设的发展,海量的过程数据被保存。这些数据中蕴藏丰富的信息,对于分析生产运行状态、提供控制和优化策略、故障诊断以及知识发现和数据挖掘具有重要意义。基于数据驱动的故障诊断方法被提出,利用海量的过程数据,解决以前基于分析的模型方法和基于定性经验知识的监控方法所不能解决的生产过程和设备的故障诊断、优化配置和评价的问题。

另外,为及时准确掌握分布式电源的设备及运行状态,需要对分布广泛和大量的分布式能源进行实时监测和控制。为支持风机选址优化,所采集的用于建模的天气数据每天以80%的速度增长。(2)输变电侧:在2006年美国能源部和联邦能源委员会建议安装同步相量监测系统(Synchrophasor-based Transmission Monitoring Systems)。目前,美国的100个相位测量装置(Phasor Measurement Unit, PMU)一天收集62亿个数据点,数据量约为60GB,而如果监测装置增加到1000套,每天采集的数据点为415亿个,数据量达到402GB。相量监测只是智能电网监控的一小部分,电网中还包括其他大量需要高采样监测的设备。(3)用电侧:为了准确获取用户的用电数据,电力公司部署了大量的具有双向通信能力的智能电表,这些电表可以每隔五分钟的频率向电网发送实时用电信息。美国太平洋天然气电力公司(Pacific Gas&Electric)每个月从900万个智能电表中收集超过3TB的数据。国家电网公司也建成了包含上亿用户的自动化采集系统。

电动汽车的无序充放电行为会对电网运行带来麻烦,如果能合理地安排电动汽车的充放电时间,则会对电网带来好处,变害为利,而前提是对基数很大的电动汽车电池的充放电状态进行监测,并合理制定调度规则,而这也会产生大数据,需要大数据处理技术的支撑。1.3.2 智能电网中大数据的特点

与互联网中的大数据相似,智能电网中的大数据也具备“4V”特征,即规模大(Volume)、类型多(Variety)、价值密度低(Value)和变化快(Velocity)。

1.规模大

从TB级别,跃升到PB级别。常规SCADA系统10000个遥测点,按采样间隔3~4s计算,每年产生1.03TB的数据(1.03TB=12字节/帧×0.3帧/s×10000遥测点×86400秒/天×365天);广域向量测量系统(Wide Area Measurement System, WAMS)10000个遥测点,采样率可以达到100次/s,按上述公式计算,则每年产生495TB的数据。目前正在发展的直升机和无人机巡线技术所产生的红外、紫外视频信息,每年作业采集的数据量达40TB。某省级电力公司已有数字化变电站178座,每天产生的数据量约为700TB。随着监测系统规模的扩大,以及数据采样频率的提高,数据量还将成倍增加。若同时考虑环境、气象、地理信息等,则数据量更为庞大。

2.类型多

电网数据广域分布、种类众多,包括实时数据、历史数据、文本数据、多媒体数据、时间序列数据等各类结构化、半结构化数据以及非结构化数据,各类数据查询与处理的频度和性能要求也不尽相同。比如,电力设备状态监测数据中的油色谱数据半个小时采样一次,而绝缘放电数据的采样速率高达几百千赫兹,甚至吉赫兹。随着状态监测技术的发展和智能化设备类型与数量的增加,音视频等非结构化数据在数据中的占比进一步加大。此外,大数据应用过程中还存在对电网系统运行环境相关数据(气象、地理、环境等)的大量关联分析需求,而这些都直接导致数据类型的增加以及状态评估应用领域数据的复杂度。

3.价值密度低

以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。在输变电设备状态监测中也存在同样问题,所采集的绝大部分数据都是正常数据,只有极少量的是异常数据,而异常数据是状态检修的最重要的依据。以视频数据和高压设备放电波形为例,连续不间断监测过程中,基于经验和人工的传统输变电设备状态监测评估方法可能只对小段时间(如1~2s)的数据和少量异常数据予以关注、处理和分析,而丢弃大量所谓的“正常数据”,对这些正常数据的深度挖掘也可能为故障分析提供重要的线索和依据。

4.变化快

在几分之一秒内对大量数据进行分析,以支持决策制定。这种在线的流数据分析与挖掘同传统的数据挖掘技术有着本质的不同。输变电设备状态评估和风险预测要求对大量数据进行及时分析并做出判断,以支持生产调度决策的制定,对在线状态数据的处理性能要求远高于离线数据。尤其对输变电设备状态监测系统,在极端(天气、故障发展阶段等)情况下,大规模报警数据会在短时间内以“井喷式”的方式产生与传输,并要求实时处理,将对信息处理系统的吞吐技术提出挑战。SCADA采集了大量的电压、电流、开关状态等电网稳态数据。常规SCADA系统10000个遥测点,按采样间隔3~4s计算,每年产生1.03TB数据(1.03TB=12字节/帧×0.3帧/s×10000遥测点×86400s/天×365天),目前三华的数据量每日65.3万条,7.58GB;WAMS 10000个遥测点,采样率100次/s,按上述公式计算,每年产生495TB的数据。

另外,智能电网中的数据处理,对数据质量有一定的要求,可以考虑为各类智能电网数据引入一个新的属性:数据的真实性。数据的真实性是指与特定类型数据相关的可靠性级别。高质量数据对于数据分析结果的正确性有重要影响。然而即使最好的数据清洗方法也无法去除某些数据固有的不可预测性。承认不确定性需求,并将数据的真实性作为智能电网大数据的一个维度是可行的。

智能电网中汹涌而来的大数据为智能电网建设带来了新的挑战和机遇。国网信通公司成立了大数据团队应对智能电网建设中的大数据挑战问题。IBM收集并建模大数据,服务于智能电表分析、基于决策的运维、基于天气数据的风机选址、分配负荷预测与调度等各类能源行业与公用事业。

中国电机工程学会电力信息化专委会在此基础上,总结智能电网中大数据特征还包括“3E”,分别是数据即能量(Energy)、数据即交互(Exchange)、数据即共情(Empathy)。

1.数据即能量(Energy)

电力大数据具有无磨损、无消耗、无污染、易传输的特性,并可在使用过程中不断精炼而增值,可以在保障电力用户利益的前提下,在电力系统各个环节的低耗能、可持续发展方面发挥独特而巨大的作用。通过节约能量来提供能量,具有与生俱来的绿色性。电力大数据应用的过程即是电力数据能量释放的过程,从某种意义上讲,通过电力大数据分析达到节能的目的,就是对能源基础设施的最大投资。

2.数据即交互(Exchange)

电力大数据以其与国民经济社会广泛而紧密的联系,具有无与伦比的正外部性。其价值不只局限在电力工业内部,更能体现在整个国民经济运行、社会进步以及各行各业创新发展等方方面面,而其发挥更大价值的前提和关键是电力数据同行业外数据的交互融合,以及在此基础上全方位的挖掘、分析和展现。这也能够有效地改善当前电力行业“重发轻供不管用”的行业短板,真正体现出“反馈经济”所带来的价值增长。

3.数据即共情(Empathy)

企业的根本目的在于创造客户,创造需求。电力大数据天然联系千家万户、厂矿企业,推动中国电力工业由“以电力生产为中心”向“以客户为中心”转变,这其中的本质就是对电力用户的终极关怀,通过对电力用户需求的充分挖掘和满足,建立情感联系,为广大电力用户提供更加优质、安全、可靠的电力服务。在电力行业价值最大化的贡献过程中,中国的电力工业也找到了常变常新的动力源泉,共情方能共赢。1.4 大数据处理技术1.4.1 大数据处理的价值和复杂性

近年来,大数据已经成为科技界和产业界共同关注的热点。2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”。美国政府认为大数据是“未来的新石油”,将“大数据研究”上升为国家意志,对未来的科技与经济发展必将带来深远影响。一个国家拥有数据的规模和运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间和企业间新的争夺焦点。

目前全球数据的存储和处理能力已远落后于数据的增长幅度。例如,淘宝网每日新增的交易数据达10TB;eBay分析平台日处理数据量高达100PB,超过了美国纳斯达克交易所全天的数据处理量;沃尔玛是最早利用大数据分析并因此受益的企业之一,曾创造了“啤酒与尿布”的经典商业案例。现在沃尔玛每小时处理100万件交易,将有大约2.5PB的数据存入数据库,此数据量是美国国会图书馆的167倍;微软花了20年,耗费数百万美元完成的Office拼写检查功能,谷歌公司则利用大数据统计分析直接实现。

与大数据在商业及互联网领域的广泛研究和应用相比,大数据在智能电网建设的研究中还有待进一步加强。由于云计算平台具有存储量大、廉价、可靠性高、可扩展性强等优势,但在实时性方面难以保证,故它不适合于作为电网调度自动化系统的主系统,但可用于调度自动化系统的后台,也可用于智能电网数据中心(营销、管理和设备状态监测)。云平台环境下的通用大数据处理和展现工具正在不断涌现,为减少软件开发工作带来了好处。然而,数据挖掘通常是与具体应用对象相关的,大数据挖掘是一个不小的挑战。如故障录波数据初次筛选等一些基于聚类方法的应用,在面对海量数据时,传统聚类算法在普通计算系统上无法完成。此外,在数据处理面临规模化挑战的同时,数据处理需求的多样化逐渐显现。相比支撑单业务类型的数据处理业务,公共数据处理平台需要处理的大数据涉及在线/离线、线性/非线性,流数据和图数据等多种复杂混合计算方式。下面对目前主流的大数据处理技术进行综述,并指出在应对智能电网大数据时这些技术的局限性,探讨了可能的解决方案。1.4.2 并行数据库

关系型数据库系统在电力系统中获得了广泛的应用,比如Oracle等。关系数据库主要存储结构化数据,提供便捷的数据查询分析能力、按照严格规则快速处理事务(Transaction)的能力、多用户并发访问能力以及数据安全性的保证。其通过SQL语言查询语言及强大的数据分析能力以及较高的程序与数据独立性等优点获得广泛应用。

然而随着智能电网建设的加速,数据已远远超出关系型数据库的管理范畴,地理信息系统以及图片、音视频等各种非结构化数据逐渐成为需要存储和处理的海量数据的重要组成部分。面向结构化数据存储的关系型数据库已经不能满足智能电网大数据快速访问、大规模数据分析的需求,主要表现在如下几个方面。

1.数据存储容量有限

关系数据库可以有效处理TB级的数据,当数据量达到PB级时,目前主流数据库很难处理。为了回避此问题,目前电力企业采用先从“生数据”中提取“熟数据”的存储方式,这样虽然可以减少网络传输和数据库存储的数据量,但不可避免损失“生数据”中隐藏的重要特征量信息,如绝缘的放电频谱。

2.关系模型束缚对海量数据的快速访问能力

关系模型是一种按内容访问的模型,即在传统的关系型数据库中,根据列的值来定位相应的行。这种访问模型会在数据访问过程中引入耗时的输入输出,从而影响快速访问的能力。虽然传统的数据库系统可以通过分区的技术(水平分区和垂直分区),来减少查询过程中数据输入输出的次数以缩减响应时间,提高数据处理能力,但是在海量数据的规模下,这种分区所带来的性能改善并不显著。

3.缺乏对非结构化数据的处理能力

传统的关系型数据库对数据的处理只局限于某些数据类型,比如数字、字符、字符串等,对非结构化数据(图片、音频等)的支持较差。然而随着用户应用需求的提高、硬件技术的发展和互联网上多媒体交流方式的推广,用户对多媒体处理的要求从简单的存储上升为识别、检索和深入加工,面对日益增长的处理庞大的声音、图像、视频、E-mail等复杂数据类型的需求,传统数据库已显得力不从心。

4.扩展性差

在海量规模下,传统数据库一个致命弱点,就是其可扩展性(Scalability)差。通常解决数据库扩展性问题有两种方式:向上扩展(Scale Up)和向外扩展(Scale Out)。面对海量数据处理,通过提升服务器性能进行Scale Up的方式在成本及处理能力方面均不能满足要求,唯一可行的方法就是进行Scale Out。关系数据库管理系统Scale Out的方法是通过对数据库的垂直和水平切割将整个数据库部署到一个集群上,这种方法的优点在于可以采用关系数据库管理系统(Relational Database Management System, RDBMS)这种成熟技术,但缺点在于它是针对特定应用的,应用不同切割方法不一样。

目前工业监测系统中常采用实时数据库(也属于内存数据库)和内存数据库。然而,内存数据库难以胜任智能电网中对大规模设备的监控,其原因主要包括以下几个方面。(1)内存数据库对事务一致性具有很高的要求,而根据CAP(Consistency, Availability, Partition Tolerance)理论,一致性的高要求必然会制约其可扩展性。(2)由于扩展能力差,使得可用内存容量有限,当数据超出内存可以管理的范围后,性能会急剧下降。(3)内存数据库主要处理结构化数据,而智能电网系统中,既包括结构化数据,还包含大量的半结构化和非结构化数据。1.4.3 云计算技术

大数据技术的需求是伴随着云计算平台的出现而出现的,故有必要介绍一下云计算技术。实际上目前云计算技术是大数据存储与处理技术的重要组成部分。由于大数据的数据量和分布式的特点,使得传统的数据管理技术难以胜任这种海量数据。

云计算的核心是海量数据存储和数据并行处理技术。其核心思想包括分布式文件系统(Distributed File System, DFS)和MapReduce技术,主要思路由Google公司提出。

DFS有着高容错性(Fault-tolerant)的特点,并且是为部署在价格低廉的硬件上而设计的,而且它为应用程序提供高吞吐量的数据访问,适合有着超大数据集(Jarge Data Set)的程序。Hadoop提供了DFS的一种开源实现(Hadoop Distributed File System, HDFS),该分布式文件系统放宽了可移植操作系统接口(Portable Operating System Interface, POSIX)的要求,可以实现流的形式访问(Streaming Access)文件系统中的数据,并具有高可靠性、高可扩展性以及负载均衡等能力。

MapReduce是2004年由谷歌公司提出的一个用来进行并行处理和生成大数据集的并行编程模型。Hadoop包括了MapReduce的开源实现,是引起关注的大数据处理技术之一。为使MapReduce并行编程模型更易使用,出现了多种大数据处理高级查询语言,如Facebook的Hive、雅虎的Pig、谷歌的Sawzall等。这些高层查询语言通过解析器将查询语句解析为一系列MapReduce作业,在分布式文件系统上并行执行。与基本的MapReduce系统相比,高层查询语言更适于用户进行大规模数据的并行处理。MapReduce及高级查询语言在应用中也暴露了在实时性和效率方面的不足,因此有很多研究针对它们进行优化。Cloudera发布了实时查询开源项目Impala 1.0 beta版,实测表明,它比原来基于MapReduce的Hive SQL查询速度提升3~90倍。Mahout是Apache开发的基于MapReduce的并行数据挖掘项目,相对传统数据挖掘算法,能够适应大规模数据集,性能大幅提升。1.4.4 云计算在智能电网中的应用

智能电网中数据量最大的应属于电力设备状态监测数据。状态监测数据不仅包括在线的状态监测数据(时序数据和视频),还包括设备基本信息、实验数据、缺陷记录等,数据量极大,可靠性要求高,实时性要求比企业管理数据要高。

云计算技术在国内电力行业中的应用研究还处于探索阶段,研究内容主要集中在系统构想、实现思路和前景展望等方面。针对智能电网状态监测的特点,结合Hadoop,借助虚拟化技术、分布式冗余存储以及基于列存储的数据管理模式存储和管理数据,以保证电网海量状态数据的可靠和高效管理,目前还只是一个框架。为了解决电力系统灾备中心资源利用率低、灾备业务流程复杂等一系列问题,设计了云计算资源管理平台框架和部分模块,其目标是实现电力企业ERP(Enterprise Resource Planning)数据的备份,但尚未实现。有学者初步设计了电力系统仿真云计算中心的系统架构及其所属的层次:基础设施云、数据管理云、仿真计算云等。当前智能电网控制中心面临的严峻的挑战,提出物联网和云计算技术结合是新型控制中心的技术支撑。笔者课题组在实验室中搭建了Hadoop云计算平台,设计实现了基于Hadoop的电力设备状态监测存储系统,对动态时序数据、静态数据以及视频数据进行了存储、关键字查询与并行处理方面的研究,并对系统进行了测试,验证了云计算平台高可靠性、良好的可扩展性和数据并行访问的性能优势。

在国外,云计算应用目前已用于海量数据的存储和简单处理,已有实现并运行的实际系统。有学者分析了电力系统中不同用户的实时查询需求,设计了用于实时数据流管理的智能电网数据云模型,特别适合处理智能电网中产生的海量流式数据,同时基于该模型实现了一个实时数据的智能测量与管理系统。Cloudera公司设计并实施了基于Hadoop平台的智能电网在田纳西河流域管理局(Tennessee Valley Authority, TVA)上的项目,帮助美国电网管理了数百TB的电源管理单元(Pressure Measurement Unit, PMU)数据,突显了Hadoop高可靠性以及价格低廉方面的优势;另外,TVA在该项目基础上开发了superPDC,并通过openPDC项目将其开源,此工作将有利于推动量测数据的大规模分析处理,并可为电网其他时序数据的处理提供通用平台。日本Kyushu电力公司使用Hadoop云计算平台对海量的电力系统用户消费数据进行快速并行分析,并在该平台基础上开发了各类分布式的批处理应用软件,提高了数据处理的速度和效率。

对云计算平台应用于智能电网进行了详细的分析,得出的结论是:现有云计算平台可以满足智能电网监控软件运行的可靠性和可扩展性,但实时性、一致性、数据隐私和安全等方面的要求尚不能满足,有待进一步研究。1.5 智能电网大数据机遇与挑战1.5.1 大数据传输及存储技术

随着智能电网建设的逐步推进,在电力系统各个环节的运行数据及设备状态在线监测数据被记录下来,由此产生的海量数据传输和存储问题不仅对监控装置造成极大的负担,而且也制约着电力系统智能化的跨越式发展。

通过数据压缩可以有效减少网络数据传输量,提高存储效率。因此数据压缩技术获得了广泛关注,杨奇逊院士探讨了基于提升格式的故障暂态过程信号实时数据的压缩和重构算法,利用线性整数变换小波双正交滤波器组合哈夫曼编码方法对电力系统的实时数据进行压缩和解压缩。针对时序数据存在大量重复的问题,为减小存储空间,压缩算法是一种可行的选择,研究了基于二维提升小波的火电厂周期性数据压缩算法和电力系统稳态数据参数化压缩算法。在输电线路状态监测系统中,为了发现绝缘子放电,泄漏电流的采样频率比较高,数据量大。目前该类系统普遍采用无线通信方式,网络带宽有限,因此需要进行数据压缩。利用自适应多集树集合分裂排序(Set Partitioning in Hierarchical Trees, SPIHT)算法可以根据小波系数集合的显著性自适应地进行集合划分,尤其适合压缩泄漏电流这类高噪声信号。数据压缩一方面减少了存储空间;另一方面压缩和解压缩造成大量中央处理器(Central Processing Unit, CPU)资源的耗费。在数据到达监控中心后需要对数据进行解压缩,需要合适的计算与存储平台。

在数据存储方面,智能电网中的海量数据可以利用分布式文件系统来存储,比如利用Hadoop的HDFS等存储系统,然而这些系统虽然可以存储大数据,但很难满足电力系统的实时性要求。因此必须对系统中的大数据根据性能和分析要求进行分类存储:对性能要求非常高的实时数据采用实时数据库系统;对核心业务数据使用传统的并行数据仓库系统;对大量的历史和非结构化数据采用分布式文件系统。本节提出为智能电网中的大数据构建多级存储系统,如图1-1所示。需要指出的是,鉴于目前云平台接收智能电网监测数据的实时性不能保证,可以在图1-1的数据接入与信息集成前面设置若干前置机,负责实时接收通信网中送来的报警信息或监测数据,并在云平台不能响应时负责暂存。图1-1 智能电网大数据多级存储系统

另外,智能电网中的数据格式与传统商业数据具有很大的不同,拥有自己的特点。比如在故障录波及在输变电设备状态监测中,波形数据较多,而波形数据与传统商业数据具有本质的不同,具有数据生成速度快、体量大和处理计算复杂度高等特点。因此需要研究面向智能电网大数据存储的格式,从而有利于后续的数据分析和计算。

智能电网环境下各类数据异构,不能用已有的简单数据结构描述,而计算机算法在处理复杂结构数据方面相对低效,但处理同质的数据则非常高效。因此,如何将数据组织成合理的同质结构,是大数据存储处理中的一个重要问题。另外,智能电网中存在大量的非结构化和半结构化数据,如何将这些数据转化为一个结构化的格式,是一项重大挑战。1.5.2 实时数据处理技术

1.数据处理时效性

对大数据而言,数据处理速度十分重要。一般情况下,数据规模越大,分析处理的时间就会越长。传统的数据存储方案是为一定大小的数据量而设计的,在其设计范围内处理速度可能非常快,但不能适应大数据的要求。未来智能电网环境下,从发电环节、输变电环节,到用电环节,都需要实时数据处理。目前的云计算系统可以提供快速的服务,但有可能会受到短暂的网络拥塞,甚至是单台服务器故障的影响,而不能保证响应时间。

基于内存的数据库越来越受到关注。内存数据库就是将数据放在内存中直接操作的数据库。相对于磁盘,内存的数据读写速度要高出几个数量级,将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。目前,电力系统中已经开始使用内存数据库,以提高实时性。例如,针对去年我国部分地区出现用电荒,而另一部分地区则呈现电能过剩的状态,SAP(Systems Application and Products)推出了基于HANA(High-performance Analytic Appliance)内存数据库的智能电表分析解决方案,希望能够将智能电网涉及的环节和电力大用户的数据进行集成和整合分析,以实现各地电能消费情况的分析,以做好相应的预防措施。

在大数据集中,进行关键字的查询也是一个重要的挑战。通过对整个数据集进行扫描来找到符合要求的记录的方法显然是不可行的,即使通过类似MapReduce这样的并行处理技术加快扫描,也不是很合理。而通过事先为数据建立索引结构帮助查找是一种比较快速同时节省系统资源的方法。目前一般的索引结构的设计仅支持一些简单的数据类型,大数据则要求为复杂结构的数据建立合适的索引结构,这也是一个大数据的巨大的挑战。例如,物联网采集的多维数据,其数据量不断增长,同时对查询时限有要求,需要不断更新索引结构,索引的设计就非常具有挑战性。下面分别从发电、输变电和用电环节分析智能电网大数据在数据处理方面带来的挑战。

2.发电

发电企业属于连续工业生产企业,它的特点是生产过程连续、自动化程度高,要求全过程的实时监控、高速的实时数据处理、长期的历史数据存储以及生产信息的集成与共享。有研究表明,正常运行的SCADA系统当接收到监测数据延时如果超过50ms,就会导致错误的控制策略;还有研究表明,SCADA系统在使用Internet环境下最普遍的TCP/IP协议时出现故障,主要原因是TCP协议在进行流量控制和数据纠错,而造成数据延迟。未来的智能电网解决方案将需要实时响应,即使出现节点故障的情况。目前的关系数据库系统和云计算系统被设计为是处理永久、稳定的数据。关系数据库强调维护数据的完整性、一致性;云计算系统强调可靠性和可扩展性,但很难顾及有关数据及其处理的定时限制,不能满足工业生产管理实时应用的需要。

3.输变电环节

状态监测对数据存储与处理平台的性能或实时性具有较高的要求,而云计算技术虽然可以有效地处理大数据,但需要进一步提升云平台对海量监测数据的存取性能,以满足实时性的要求。以往的大规模停电事故,最初是由一些环境因素引起的,比如大风导致的线路跳闸等。现有SCADA系统的监控范围仅限于系统的主参数,对构成系统的各重要设备的健康状况的信息缺失,致使运行人员在事故面前难以做出正确的处理。未来智能电网要求具有故障自愈功能,其SCADA系统须拥有全网的监测数据,需要将电力设备的状态数据纳入其中,这对平台的实时处理提出了更高的要求。

新型绿色能源发电功率的不稳定造成电网的波动,对整个电网调度形成很大的压力。目前电网调度与控制模型不能够处理这种大量的小型发电系统产生的波动和不可预知的行为。最新的研究表明,为支持这种情况,需要创建一种新型的电网状态监控系统,能够更加细粒度地跟踪电网实时状态。因此未来的SCADA系统需要实时处理比目前多几个数量级的监控数据。

4.用电

未来智能电网环境下,家庭可能配备多种电能、电量监测设备,用以实现低成本的用电,并与电网的负载相匹配。例如,电热水器可能会选择在夜间这种用电量低谷时段运行;空调会根据用户舒适度、电价以及电网负荷等参数实时自动调整。某种程度上,可以认为SCADA系统进入了普通家庭,用电环节的实时数据处理变得越来越重要。1.5.3 异构多数据源处理技术

1.异构信息整合

未来智能电网要求贯通发电、输电、变电、配电、用电、调度等多个环节,实现信息的全面采集、流畅传输和高效处理,支撑电力流、信息流、业务流的高度一体化。因此,首要功能是实现大规模多源异构信息的整合,为智能电网提供资源集约化配置的数据中心。针对海量异构数据,如何构建一个模型对其进行规范表达,如何基于该模型实现数据融合,以及对其进行有效的存储和高效查询是急需解决的问题。

电网各信息系统大多是基于本业务或本部门的需求,存在不同的平台、应用系统和数据格式,导致信息与资源分散,异构性严重,横向不能共享,上下级间纵向贯通困难,例如:电力系统中存在监控、能量管理、配电管理、市场运营等各类信息系统,大多处于相互独立、数据信息不能共享的状态。使用云平台实现各独立系统的集成,可实现这些分散孤立系统之间的信息互通。

另外,智能电网的基础设施规模庞大,数量众多且分布在不同地点。例如:国家电网公司的信息化平台在公司总部与各个网省公司建

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载