信息存储与管理(第二版):数字信息的存储、管理和保护(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-06 13:01:04

点击下载

作者:[新加坡]G.Somasundaram,[美]AlokShrivastava著

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

信息存储与管理(第二版):数字信息的存储、管理和保护

信息存储与管理(第二版):数字信息的存储、管理和保护试读:

前言

信息存储是信息技术的中流砥柱。无论是个人用户还是企业IT用户,他们每时每刻都在产生着海量的数字信息。我们需要对这些处于传统环境、虚拟环境以及迅速发展的云环境中的信息进行存储、保护、优化和管理。

曾几何时,人们对信息存储的认识还仅仅是连接到电脑主机背后的那一摞摞用于保存数据的磁盘或磁带。即使在今天,也只有那些存储业内人士才深知信息存储技术对于IT基础设施的可用性、高性能、完整性和信息优化所发挥的至关重要的作用。近十年来,信息存储技术已发展成为尖端技术,为数字信息的存储、管理、互联、保护、安全、共享和优化提供了丰富多彩的解决方案。

虚拟化的广泛应用、云计算的出现、数据量每年的高速增长、数据类型和来源多样化——所有这些因素都让现代存储技术在企业和组织成功中扮演着越来越重要的角色。在传统、虚拟及云环境下,如何雇佣存储领域的专业人才,是主管们正面临的严峻挑战。

尽管许多一流大学已经开始在其计算机或信息技术专业的教学计划中加入了专门讲授存储技术的课程,但遗憾的是,当今的许多IT专家们,甚至包括那些有着多年经验的专家,都未曾获益于这种正规教育。因此,包括应用、系统、数据库及网络管理等多个领域在内的资深专家,对于存储技术对各自领域所产生的影响并不具备一个统一的认知基础。

我们编写本书的目的在于:使学生和专业人士对存储技术的各个环节形成一个完整全面的认识与理解。尽管本书的实例部分采用的是EMC公司的产品,但是,读者通过本书形成的对于技术概念及其基本原理的理解,必将有助于轻松地掌握其他公司的相关产品。

本书分为5个部分,共15章。其中,高级专题是基于其前面章节所掌握的内容深化而来的。第1部分介绍虚拟化和云基础设施的概念,这些概念贯穿全书,确保对于存储技术的探讨覆盖传统环境、虚拟环境和迅速发展的云环境。

第1部分,存储系统:这4章讲述了信息增长及其带来的挑战,定义了存储系统及数据中心环境,回顾了存储技术的发展历程,并介绍了智能存储系统。这一部分还介绍了虚拟化和云计算的概念。

第2部分,存储网络技术:这4章涵盖了光纤通道存储区域网(FC-SAN)、IP存储区域网(IP SAN)、网络连接存储(NAS)、基于对象的存储和统一存储。对统一存储和聚合网络(FCoE)的概念也进行了介绍。

第3部分,备份、归档和复制:这4章介绍了传统环境和虚拟环境中的业务连续性、备份及恢复、数据去重、数据归档、本地数据复制和远程数据复制。

第4部分,云计算:这一部分讲述的是云计算的内容,包括基础设施框架、服务模型、配置选项以及迁移到云需要考虑的问题。

第5部分,存储基础设施的安全与管理:这2章涵盖了存储安全、存储基础设施的监控和管理。其中包含了虚拟和云环境中在安全和管理方面需要考虑的问题。

此外,本书的网站还提供了一些最新的辅导资源和阅读材料,有兴趣的读者可以访问http://education.EMC.com/ismbook,以获取更详尽的信息。

EMC学院联盟

我们真诚地邀请有意教授《信息存储与管理:数字信息的存储、管理和保护》课程的大专院校参与 EMC 学院联盟计划。参与该计划可获得针对以下课题的独特的公开课程教育:

• 信息存储和管理

• 云基础架构和服务

• 数据科学与大数据分析

• 备份恢复系统及体系结构

本计划为教学机构免费提供各种课程资源,帮助学生在迅速变化的 IT 业界获得工作机会。具体内容请访问http://education. EMC.com/academicalliance。

EMC认证专家证书

EMC认证专家是IT业界领先的培训和认证项目,涵盖了信息存储技术、虚拟化、云计算、数据科学/大数据分析等方面的内容。

参与认证是对自己的投资,也是对经验的检验。

本书是EMC信息存储及管理专家认证考试(E10-001)的辅导教材。通过此考试将获得ECM认证专家——信息存储准专家(第2版)的认证。

欲了解其细节,请访问http://education.EMC.com。致谢

当我们开始本书的编撰时,首当其冲的挑战就是如何寻找一个对构成现代信息存储基础设施的广泛技术有着全面了解的专家队伍。

激发并支持我们完成本书的一个关键因素就在于:在EMC,我们有着丰富的技术和经验,以及许许多多业界最优秀的人才。和这些专家交流时,他们都和我们一样对出版这本全面涵盖信息存储技术的书籍的前景倍感兴奋,因为这是使他们能够与全球的专家和学生们分享他们专业知识的一个难得的契机。

本书是在EMC教育服务部的指导下,在CTO办公室、全球市场部、EMC研发部门的支持下,由EMC许多关键部门的努力和奉献所凝聚的结晶。

本书第一版出版于2009年,是在来自EMC教育服务部的Ganesh Rajaratnam和来自EMC CTO 办公室的David Black 博士带领下完成的。出版后一直是最受专业人士和学生欢迎的存储技术类书籍。除了英文纸版和电子版外,本书还有简体中文版、葡萄牙语版和俄语版。

随着云计算的兴起和虚拟化技术的广泛应用,我们觉得有必要对书的内容进行更新,加入对信息存储领域出现的新技术和新成果的介绍,于是就有了本书的第二版。第二版的内容更新是在来自EMC 教育技术部的Ashish Garg 的带领下完成的。而内容的审阅则是由Joe Milardo 和Nancy Gessler 牵头,是他们协同专家团队共同完成的。

下列来自EMC的专家参与编撰审阅了本书的某些章节,我们在此向他们表示衷心的感谢。

编撰:

Rodrigo Alves Anbuselvi Jeyakumar Charlie Brooks Sagar Kotekar Patil

Debasish Chakrabarty Andre Rossouw Diana Davis Tony Santamaria

Amit Deshmukh Saravanaraj Sridharan Michael Dulavitz Ganesh Sundaresan

Anand Varkar Dr. Vanchi Gurumoorthy Dr. Viswanth VS Simon Hawkshaw

Jim Tracy

审阅:

Ronen Artzi Jack Harwood Eric Baize Arthur Johnson

Greg Baltazar Michelle Lavoie Edward Bell Tom McGowan

Christopher Chaulk Jeffery Moore Roger Dupuis Toby Morral

Deborah FilerPeter Popieniuck Bala Ganeshan Kevin Sheridan

Jason Gervickas Ed VanSickle Jody Goncalves Paul Brant

Juergen Busch Brian Collins Juan Cubillos John Dowd

Manoj Kumar Wayne Pauley Ira Schild Shashikanth,Punuru

Murugeson Purushothaman Shekhar Sengupta Mike Warner

Ronnie Zubi Evan Burleigh Ed Belliveau

我们还要感谢 EMC 的 Mallik Motilal 为本书制作了所有的插图,感谢 EMC 的 Mallesh Gurram为本书设计封面,感谢本书的出版商John Wiley & Sons协助本书及时出版。——Somasundaram Gnanasundaram,EMC 公司教育服务部主管——Alok Shrivastava,EMC 公司教育服务部资深主管2012年3月作者简介

Somasundaram Ganasundaram(Somu)目前是EMC全球服务部的主管,引领着全球业界的培训创新。Somu是EMC开放课程的架构师,该课程旨在填补IT业界关于存储和新兴云计算知识的鸿沟。在他的率领和指导下,EMC学习伙伴(EMC Learning Partner)、学院联盟(EMCAcademicAlliance)等业界培训创新项目如火如荼地持续发展壮大,为全球信息存储和管理技术领域培养了成千上万的优秀学生。Somu 所负责的关键领域包括指导全球专家小组、发掘全球IT教育提供商并建立合作以及为EMC的业界培训创新制定总路线。在此之前,Somu曾担任EMC以及其他IT领军厂商的多个管理及领导职位。Somu毕业于印度金奈的安那大学(Anna University Chennai),并获得孟买印度理工学院(Indian Institute of Technology)的硕士学位。他拥有25年的IT从业经验。

Alok Shrivastava是EMC 教育服务部门的资深主管。Alok 是EMC 许多成功培训创新计划的架构师,如业界领先的EMC专家认证项目、EMC学院联盟培训项目以及这本关于信息存储技术的独特而宝贵的书籍。Alok以其卓识远见领导着一个由高水平专家组成的团队,共同为 EMC 员工、合作伙伴、客户和其他业界专业人士提供世界一流的技术培训。在此之前,Alok曾在亚太地区和日本组建并率领了一个富有成就的EMC售前工程师团队。Alok在早期还曾作为系统管理员、存储管理员以及备份和灾难恢复顾问,效力于全球许多大型数据中心。他获得了印度理工学院(Indian Institute of Technology)和印度Sagar大学(University of Sagar)的双硕士学位。在超过30年的IT 从业生涯中, Alok一直对信息存储技术领域怀着情有独钟的热情。

译者简介

马衡,EMC 公司中国卓越研发中心企业存储部门高级文档工程师。参与了 EMC Symmetrix DMX-4、VMAX系列以及VPLEX等产品文档的设计和编写,同时负责分析和总结对客户影响较大的产品问题,对存储技术和存储解决方案有较好的理解。具有7年的IT行业从业经验,涉及存储、关系数据库、数据仓库、数据分析和挖掘等领域。在加入EMC 之前,曾在IBM的信息管理部门工作,参与了数据仓库InfoSphere Warehouse、数据分析工具Cubing Services和IBMAlphablox多个版本的开发和测试工作。

赵甲,曾在EMC、HP和中国邮政等多家国内外知名企业从事技术工作。拥有多年存储工作经验,曾多次承担重大项目的规划和实施工作,在存储规划、性能调优和容灾方向拥有丰富经验。现就职于中国建设银行北京数据中心,担任高级信息技术工程师,主要负责EMC存储全系产品的研究工作。主审简介

王永康,现任 EMC 公司学院联盟计划大中国区高级经理,中国电子学会教育工作委员会委员,全球网络存储工业协会(SNIA)中国教育委员会副主席。王永康先生是IT行业的教育专家,主要工作是在大中华地区的著名高校中普及与存储、云计算、大数据相关的技术和知识,致力于为IT行业培养未来的专业人才。王永康先生及其领导的团队代表EMC与全国各大教育机构建立了长期的合作伙伴关系,涉及学科建设,科研开发,实习生计划,联合实验室等各个领域。王永康在IT行业从业15年,之前在EMC担任资深技术顾问。

陈弘,现任EMC中国卓越研发集团统一存储部门总监,主持和领导EMC统一存储产品系列包括CLARiiON,Celerra,VNX和VNXe在中国的开发、测试、系统工程等活动。陈弘在通信和IT行业从业十余年,在加入EMC之前,陈弘在朗讯科技和阿尔卡特-朗讯的光网络产品和接入网络产品研发部门从事多年的通信系统产品软件开发、系统工程及其相关的领导工作。

井超,现任EMC大中国区培训服务经理,专注于培训领域超过了10年,为大陆、港、台三地的客户和合作伙伴提供企业级专业的技术培训,涵盖了虚拟化、云计算、大数据和数据中心基础架构等最前沿的技术及解决方案。从早年的网络公司Novell到通信公司摩托罗拉等,井超先生担任过售前、售后工程师,拥有超过10年的网络、通信理论及实战经验。井超先生及其 EMC 培训团队作为国内网络存储及云计算技术的布道者,每年为国内培训上千名存储专家、虚拟化专家、云计算专家及数据中心专家。本书图标说明第1部分存储系统第1章 信息存储与管理的介绍

核心概念

数据和信息

结构化和非结构化数据

存储架构的演变

数据中心的核心部件

虚拟化和云计算

信息在我们的日常生活中变得越来越重要。21世纪,我们生活在一个随令就行、随需应变的世界里,随时随地都可能需要信息,我们已经变得很依赖信息了。每天我们都上网搜索、参加社交网络、收发邮件、共享图片与视频以及使用其他许多应用。随着产生数据的设备数量的高速增长,越来越多的信息由个人产生,超过了由组织(包括商业、政府及非营利组织等)产生的信息量。当由个人产生的信息被其他人共享时,该信息就会增值。信息产生时,通常存储在本地设备上,如手机、智能手机、平板电脑、摄像机、笔记本。共享这些信息,需要通过网络将其上传到集中管理的数据存储仓库(数据中心)。有意思的是,大量信息是由个人产生的,但是这些信息的存储和管理却只由很少的组织负责。

当然,商业世界信息的重要性、依赖性及其数据量也都继续保持惊人的增长速度。商业世界依赖于快速、可靠的信息访问,这对他们的成功十分重要。涉及信息处理的商业应用包括机票预定、通信计费系统、电子商务、电子银行、信用卡交易处理、资本/股票交易、医保保单处理、生命科学研究等。随着商业世界越来越依赖于信息,这为存储、保护和管理信息带来了很多挑战。许多法规和合同对数据的可用性和数据保护提出了要求,这增加了问题的复杂性。

商业组织通常会维护一个或多个数据中心,用来存储和管理信息。数据中心包含数据存储及其他用于运算、联网及数据存储的物理性信息技术资源。在传统的数据中心里,不同的业务部门和业务应用拥有专用的存储资源。随着应用数量的增加和数据量的增长,数据中心出现了彼此独立的信息存储设备孤岛。这增加了信息管理的复杂性,存储资源也得不到充分利用。虚拟化的出现,优化了资源的利用率,并且简化了资源的管理。许多机构把虚拟化技术应用到数据中心,从而把传统的数据中心变成了虚拟数据中心。云计算根本性地改变了信息技术的构建、管理和提供方式,进一步降低了信息存储和管理的复杂度,减少了IT资源的部署时间。云计算带来了完全自动化的需求满足流程,用户可以快速获取所需的存储和其他IT资源。应用云计算,一个机构能够快速部署应用,可以根据需求随时扩展和收缩底层的存储能力。

本章描述了信息存储架构从以服务器为中心模型到以信息为中心模型的演变,对虚拟化和云计算也进行了简单的介绍。1.1 信息存储

商家通过分析和处理数据来获得对它们每天操作相关的信息,而存储就是允许用户持续存取数字数据的仓库。1.1.1 数据

数据就是原始事实的集合,从中可以得出一些结论。手写书信、印刷书籍、家庭照片、已签字的抵押贷款文件、银行账册和机票等都包含了数据。

在计算机发明之前,数据的产生和共享仅限于很少的形式,例如,纸和胶卷。今天,相同的数据可以转换成更多便利的格式,如一个邮件信息、一本电子书、一张数字图像或者一部数字电影。这些数据都可以用计算机生成并存储为0和1的字串,如图1-1所示。这种形式的数据称为数字数据,经过计算机处理之后可以被用户使用。图1-1 数字数据

随着计算机和通信技术的发展,产生数据和共享数据的速率也呈指数增长。下面是一些促进数字数据增长的因素。

■ 数据处理能力的提升:当今计算机在处理能力和存储能力上有了显著提高。这促成了把不同类型的内容和介质从传统方式转换为数字格式。

■ 数字存储的低成本:技术的进步和存储成本的降低提供了低成本的解决方案,也促进了价格更低廉的存储设备的开发。这种成本的减少提升了数据产生和存储的增长速度。

■ 可负担的和更快的通信技术:共享数字数据比传统方式更加快捷。一封手写的书信也许需要一周才能到达目的地,而一封电子邮件只需几秒钟就能抵达收件人。

■ 无处不在的应用和智能设备:智能手机、平板电脑、新型电子设备和智能应用贡献了大量的数字内容。

目前,创建、收集和存储各种类型的数据变得廉价且更加容易。伴随着个人和商业需求的增长,加速了数据的产生,这种现象被称为数据爆炸。个人和商业机构对“数据爆炸”有不同程度的贡献。

随着时间的推移,数据的重要性和价值都会改变。大部分产生的数据都只在短期内重要,时间一长就不那么重要了。这一特点影响着数据存储解决方案的选择。通常最近产生的且使用率较高的数据存储在高速但成本较高的设备上。过一段时间之后,这些数据可以被转移到速度较慢、成本低但是可靠的设备上。

研究和商业数据实例:

下面是一些研究和商业数据实例。

„■ 客户数据:关系到公司客户的数据,如订单信息、发货地址以及购买历史清单。

„■ 生产数据:包括产品不同方面的数据,如库存、描述、价格、可用量和销售量。

„■ 医疗数据:涉及医疗护理的数据,如病人历史记录、放射图像、药物详细信息以及其他诊断治疗和保险信息。

„■ 地震学数据:地震学是研究地震的学科。需要收集数据并处理,以获取信息来判断地震的位置和震级。

商业应用会产生大量的数据,然后从中提取有意义的信息来获得经济利益。因此,商业应用需要维护数据并保证其在较长一段时间内可用。更进一步,不同数据的重要程度不同,需要具体的处理。例如,法律和规章制度要求银行必须保证客户账户信息的准确性和安全性。一些商业应用需要处理上百万客户的数据,并保证它们在很长一段时间内是完整的和安全的,这就需要高性能大容量且具有增强安全性能的存储设备。1.1.2 数据类型

根据存储和管理方式,可以将数据划分为结构化数据和非结构化数据(如图1-3所示)。结构化数据按行和列这种严格的格式组织,以便用户能够高效地检索和处理。结构化数据通常用数据库管理系统存储。

如果数据无法按行和列进行存储,那么该数据就是非结构化数据。这种数据比较难于被商业应用检索和查询。例如,客户联系信息可能会存储成不同的格式,如便签、邮件信息、商业名片,或者数字格式的文件(DOC文件、TXT文本文件和PDF文件)。由于它的非结构化特征,使用传统的客户关系管理应用来获取非结构化数据比较困难。新创建数据绝大多数都是非结构化数据。如何应用新架构、新技术、新方法和新技能来存储、管理和分析各种来源的非结构化数据,并从中获取价值,是业界面临的挑战。图1-2 数据类型1.1.3 大数据

大数据是一个新提出的且在不断演化的概念,是指数据量超出了常规软件工具在可接受的时间内的抓取、存储、管理和处理能力。它既包括结构化数据,也包括非结构化数据。其数据的来源多种多样,可以来自商务应用处理、网页、视频、图像和社交媒体等。这些数据集通常需要实时地抓取和更新,以用于分析、预测性建模和决策等用途。

从大数据中吸取价值存在很大的机遇。大数据的生态系统(见图1-3)由以下元素组成:

1.从多个位置收集数据,并从收集的数据中生成数据(元数据)的设备。

2.数据收集器,收集来自设备和用户的数据。

3.数据聚合工具,从收集的数据中吸取有意义的信息。

4.数据用户和买家,是指在数据价值链中从他人收集或聚合的数据中获益的人群。

大数据的数据量、多样性、变化范围和复杂性超出了传统的IT设备和数据处理工具及方法的处理能力。对大数据进行实时分析需要新的方法、架构和工具,以提供高性能、大规模并行处理(MPP)数据平台和对数据集的复杂分析。

数据科学是一门新兴的学科,商业组织可以利用这门学科从大数据中获取商业价值。数据科学是多门学科(统计学、数学、数据可视化和计算机科学)的综合。数据科学家的职责是设计各种高级算法对海量数据进行分析,以寻找新的价值点,为更多的决策提供数据支持。

很多领域和市场已经开始利用数据科学,从大数据的分析中获益。其中包括医学与科学研究、医疗医护、公共管理、欺诈检测、社交媒体、银行、保险公司,以及其他以数字信息为中心的实体。1.1.4 信息

不管是结构化数据还是非结构化数据,除非其被展现成一种有意义的形式,否则都不能满足任何个人的或是商业的目的。信息就是从数据中提取出来的智慧和知识。

商业应用分析原始数据以找出有意义的趋势。基于这些趋势,公司可以制定和修改其策略。例如,只需通过分析客户的购买模式和维护客户的物品清单,零售商就可以辨认出客户喜欢的样式和品牌的名字。

有效的数据分析不仅给现有的商业应用带来利益,而且通过采用创造性的方式来使用数据还能创造出潜在的、新的商业机会。1.1.5 存储

由个人和商业应用产生的数据必须存储起来,以便在进一步处理时可以进行访问。在一个计算环境下,用来存储数据的设备称为存储设备(storage device),或简称存储(storage)。存储设备的类型取决于数据类型以及数据创建和使用的频率。像手机或数码相机中的内存、DVD、CD-ROM和个人电脑中的硬盘等都是存储设备的实例。

商业应用中通常使用的几种存储介质,包括内部硬盘、外部磁盘阵列和磁带。1.2 存储架构的发展

以前,所有的组织在其数据中心都有集中的计算机(大型机)和信息存储设备(磁带卷和磁盘架)。开放系统的发展及其提供的部署的简单性和易用性,使得组织内的不同商业单元(部门)都可以拥有自己的服务器和存储设备。在早期开放系统的实现中,存储设备都在服务器内部,无法和其他服务器共享。图1-3 大数据生态系统

这种方式称为以服务器为中心(server-centric)的存储架构(参见图1-4(a))。在这种架构中,每个服务器拥有一定数量的存储设备。对服务器进行维护或者增加存储容量都会导致信息的暂时无法访问。分散布置于企业内各部门的服务器导致了信息的难于保护、不易管理,并产生了信息孤岛以及增加了操作的开销。图1-4 存储架构的发展

为了应对这些问题,以服务器为中心的存储架构被以信息为中心的架构所取代(information-centric architecture)。在以信息为中心的架构中,存储设备集中管理,不再依附服务器。多个服务器可共享存储设备。部署新服务器时,从共享存储设备中为它分配存储。共享存储的容量可以通过添加新设备的方式动态增加而不影响信息的可用性。以信息为中心的架构让信息管理变得简单,同时拥有更好的成本效益。

存储技术和存储架构的不断发展,使得各组织能对其数据进行更好的融合、保护、优化和利用,从而在其信息资产上获得更高的回报。1.3 数据中心基础设施

企业组织通过数据中心为整个企业提供集中的数据处理能力。数据中心保存和管理着大量的数据。数据中心基础设施包括硬件组件和软件组件。硬件组件包括计算机、存储系统、网络设备和后备电源等。软件组件包括应用、操作系统和管理软件等。此外,空调、灭火和通风装置等环境控制设备也是基础设施的组成部分。

大型组织通常维护多个数据中心,以便分散数据处理负担,并在灾难发生时提供数据备份。1.3.1 数据中心核心部件

一个数据中心要实现基本功能,必须要有5个核心部件。

■ 应用:提供计算操作逻辑的计算机程序。

■ 数据库管理系统(DBMS):提供了一种结构化方式,把数据存储成具有关联关系的逻辑表。

■ 主机或计算:指运行应用和数据库的计算平台(包含硬件、固件和软件)。

■ 网络:联网设备之间通信的数据通路。

■ 存储:持续存储数据以供后续使用的设备。

通常这些核心部件都被视为独立的管理单元,但是只有所有这些部件一起工作才能达到数据处理的要求。

在本书中,主机,计算和服务器这三个名词是通用的,指的是运行应用的部件。

图1-5展示了一个在线订单处理系统示例,其中包含5个核心部件以及它们在商业处理中的作用。图1-5 一个在线订单处理系统

用户在一台客户端上下了订单,客户端通过局域网或广域网与主机联网,主机上运行着订单处理应用。客户端通过此应用访问主机上的数据库管理系统,获取与订单相关的信息,如客户姓名、地址、支付方式、订购产品和数量等。

数据库管理系统(DBMS)通过主机操作系统将数据写入存储阵列的物理磁盘内。存储网络为主机和存储阵列之间的通信提供连接,并在两者之间传输数据读写请求。存储阵列在接到主机发来的请求后,在物理磁盘上执行相应的操作。1.3.2 数据中心的主要特点

数据中心运行的不可中断性对商业机构的生存和成功至关重要。因此,很有必要用一个可靠的存储基础设施来保证数据随时可访问。图1-6所示的特点对数据中心基础设施的所有部件都适用,但这里我们只关注存储系统。本书将给出满足这些需求的多种技术和解决方案。

■ 可用性:有需求时,一个数据中心必须保证数据的可用性。对于金融服务业、通信和电子商务领域的业务来说,数据无法访问可以造成每小时上百万美元的损失。

■ 安全性:数据中心应建立完整的安全策略和流程,加强各部件的整合,防止对信息的非授权访问。

■ 可扩展性:业务的增长通常需要部署更多的服务器、新的应用和额外的数据库。数据中心资源应实现按需扩展,扩展应不影响正常的业务运营。图1-6 数据中心部件的关键特征

■ 性能:数据中心的部件应能根据服务等级提供最佳的性能。

■ 数据完整性:数据完整性对应的是一种机制,比如纠错码或奇偶校验位,以保证数据在存取和接收时保持一致。

■ 容量:数据中心的运行需要足够的资源来高效地存储和处理海量数据。当容量需求增加时,数据中心必须在不影响可用性,或者仅对其产生很小影响的前提下实现扩容。容量管理可以是对现有资源的重新分配,而不仅仅是添加新的资源。

■ 可管理性:数据中心对于部件的管理应该尽量简单和统一。可管理性可以通过对常规任务进行自动化或减少人工介入来实现。1.3.3 管理数据中心

管理一个数据中心牵涉到许多任务。关键的管理任务包括以下几点。

■ 监控(Monitoring):对数据中心的各个部件和运行的服务持续不断地收集信息。数据中心需要监控的方面包括安全性、性能、可用性和容量。

■ 报告(Reporting):周期性地反映资源的性能、容量和使用率。报告可以帮助确定与数据中心运行相关的业务评判和分摊费用。

■ 配给(Provisioning):提供支持数据中心运行的硬件、软件和其他资源的一个流程。配给主要是对资源进行管理,以满足容量、可用性、性能和安全方面的需求。

虚拟化和云计算的出现极大地改变了数据中心基础设施的部署和管理方式。许多组织已经迅速实现了对数据中心中多个部件的虚拟化,提高了资源的利用率。此外,IT部门面临持续的成本压力和对于随需应变数据处理的需求,加速了云计算的应用。1.4 虚拟化和云计算

虚拟化是将物理资源(例如计算、存储和网络资源)抽象出来,使其表现为逻辑资源。在IT业界,虚拟化已经以各种形式存在了好些年。虚拟化最常见的例子是计算机系统中的虚拟内存和对物理磁盘的分区。

虚拟化将物理资源放到一个共享池中,提供一个统一的视图。例如,存储的虚拟化是将共享池中的多个存储设备表现为一个大容量的存储实体。与此类似,计算的虚拟化是将共享池中多个服务器的CPU性能(以兆赫作为单位)作为可共享的计算资源。虚拟化也使共享资源的集中管理成为可能。

虚拟资源可从共享的物理资源中创建部署。例如,一块特定容量的虚拟磁盘可从一个存储共享池中创建,一个特定CPU频率和特定内存大小的虚拟服务器也可以从一个计算共享池中创建。物理资源在虚拟资源之间共享,提高了物理资源的利用率。虚拟资源可以根据需求增删,并且不影响应用和用户。随着 IT 资产的利用率提高,企业花费在采购和管理新物理资源的成本得以节省。同时,更少的物理资源也意味着占用更小的空间,消耗更少的资源。这对于经济和环境都是有益的。

在当今节奏加快,竞争日趋激烈的环境下,商业组织必须敏捷而灵活,才能应对不断变化的市场需求。这意味着在IT预算萎缩或不变的情况下,也要实现资源的扩容或升级。云计算很好地应对了这些困难,使得个人和企业可以通过网络获取作为服务提供的IT资源。云计算提供了扩展性极强又非常灵活的计算模式,资源可以按需配给。用户可以增加或消减对于计算资源的需求,只需极少的管理成本和服务提供商介入。云计算利用自我服务(self-service)模式,使得需求的实现可以完全自动化。消费者的支出只用在使用的资源上(消耗的CPU时长、传输的数据量和占用的存储空间大小)。

云基础设施通常建立在虚拟化的数据中心之上,因为虚拟化后的数据中心可以提供资源的聚合共享和快速部署。虚拟和云环境下的信息存储将会在后面的章节中详述。小结

本章阐述了数据、信息和存储基础设施的重要性。为了满足今天的存储需要,必须从了解数据类型、数据的价值以及数据中心的关键特性开始。

本章所介绍的存储架构的发展和数据中心的核心部件,为信息存储和管理奠定了基础。虚拟化的出现为数据中心的变革提供了契机,传统的数据中心得以转变为虚拟化的数据中心。云计算则进一步改变了IT资源的部署和消费方式。

本书后面的章节将对信息存储和管理在传统数据中心和虚拟化的数据中心应用的各个方面进行详述。最先涉及的是数据中心的关键部件,重点放在存储系统和RAID上(在第2、3、4章)。第5到第8章会讲述各种存储联网技术,如存储区域网(SAN),网络连接存储(NAS),对象存储(object-based storage)和统一存储(unified storage)。第9 到12 章讲述业务连续性解决方案(备份、复制和归档技术)。第13章会介绍云架构和云服务。第14和15章将会讲述在传统和虚拟环境下的存储安全策略和管理技术。

练习

1.什么是结构化和非结构化数据?调查存储和管理非结构化数据面临的问题。

2.讨论一下以信息为中心的存储架构对比以服务器为中心的架构的优势。

3.大数据有哪些属性?调查并准备一个关于大数据分析的陈述。

4.调查商业结构如何利用信息资产获取竞争优势和新业务机会。

5.调查并准备一个关于个人数据管理的陈述。第2章 数据中心环境

核心概念

应用、数据管理系统、主机、连接和存储设备

应用虚拟化

文件系统和卷管理器

计算、桌面和内存的虚拟化

存储介质

磁盘部件

分区位记录

逻辑块寻址

闪存盘

不管商业机构的规模如何,数据中心都是其不可或缺的部分。集中管理的主机、存储、连接(或网络)、应用和数据库管理系统(DBMS)是一个数据中心的关键部件。这些部件协同工作,对数据进行处理和存储。随着虚拟化的成熟,传统的数据中心也逐渐发展为虚拟化的数据中心(virtualized data center,VDC)。在虚拟化的数据中心中,传统的数据中心资源被放到一个共享池里,作为虚拟资源提供。经过这个抽象化处理,物理资源的复杂性和局限性对于用户不再可见。利用虚拟化整合IT资源,商业机构可以提高基础设施的利用率,降低整体拥有成本。另外,在一个虚拟化的数据中心中,虚拟资源的创建是通过软件实现的,与传统数据中心的物理资源的部署相比要快很多。本章将会讲述数据中心的所有关键部件,包括在计算、内存、桌面和应用层面的虚拟化。存储和网络的虚拟化将会在后面的章节涉及。

信息资产对于商业机构的关键性日增,存储这一数据中心的关键部件,被视为一项独特的资源。存储的实现和管理值得特别关注。本章还将涉及存储子系统,以及磁盘驱动器的组件、几何构造和性能参数,以及实现主机和存储之间连接的技术。2.1 应用

应用指的是一个提供计算操作逻辑的计算机程序。应用向底层操作系统发起请求,对存储系统进行读写操作。也可与数据库配合,由数据库通过操作系统提供的服务对存储设备执行读写操作。在数据中心环境中配置的应用根据特点,可以分为业务应用、基础设备管理应用、数据保护应用和安全应用。电子邮件、企业资源规划(Enterprise Resource Planning,ERP)、决策支持系统(decision support system,DSS)、资源管理、备份、身份认证和防病毒应用都属于上面所述的应用。

应用产生的I/O特性对于存储系统的性能和存储解决方案的设计影响很大。参考附录A了解更多关于应用I/O特性的信息。

应用的虚拟化

应用的虚拟化消除了应用对于底层平台(操作系统和硬件)的依赖。实质上是将应用和所需的操作系统资源打包放入一个虚拟的容器中。利用这项技术,部署应用时无需对计算平台的操作系统、文件系统和注册表做任何更改。因为虚拟化应用运行在孤立的环境中,不会对底层操作系统和其他应用造成破坏。以前同一计算平台上运行多个应用或者同一应用的多个版本可能会造成冲突,应用虚拟化隔离了不同版本应用所需的资源,避免了冲突。2.2 数据库管理系统(DBMS)

数据库是一种结构化存储数据的方式,数据以某种逻辑进行组织,存在相互关联的表格中。数据库有助于优化数据的存取。数据库管理系统控制数据库的创建、维护和使用。它处理来自应用对数据的操作请求,对操作系统发出指令,对存储设备中的相应数据进行读写。2.3 主机(计算)

用户通过应用程序来存取数据。运行这些应用程序的计算机被称作“主机”或“计算系统”。主机可以是物理机,也可以是虚拟机。计算虚拟化软件可以在一个物理计算架构上创建多个虚拟机。计算虚拟化和虚拟机将会在本章的后面进行探讨。物理主机的例子很多,比如桌面电脑、服务器、服务器集群、笔记本电脑以及移动设备。主机由 CPU、内存、I/O 设备,以及一系列执行运算操作的软件构成。软件包括操作系统、文件系统、逻辑卷管理器和设备驱动等。这些软件可以作为单独的实体安装,也可以作为操作系统的一部分安装。

CPU 由四个部件组成:算术逻辑单元(Arithmetic Logic Unit,ALU),控制单元(Control Unit),寄存器(register)和一级缓存(L1 cache)。主机上的内存有两种,随机存取存储器(RAM)和只读存储器(ROM)。I/O设备负责主机的通信。I/O设备包括键盘、鼠标和显示器等。

软件运行在主机上,对数据的输入和输出进行处理。下面一节将会详细讲述主机系统中不可或缺的各种软件组件。2.3.1 操作系统

在传统的计算环境中,操作系统控制着计算的所有方面。它负责应用和计算系统物理部件之间的协作。操作系统还提供了访问数据的应用。操作系统负责监测用户行为和环境,并作出反应。它还负责组织和控制硬件组件,管理硬件资源的分配,为其被管理的所有资源的访问和使用提供基本保护。操作系统可执行基本的存储管理任务,同时管理着底层组件(如文件系统、卷管理器和设备驱动)。

在虚拟计算环境中,虚拟层处于操作系统和硬件资源之间。操作系统的工作方式因引入的计算虚拟化的实现形式而不同。在常规的实现方式下,操作系统的工作方式类似访客,只进行与应用交互相关的活动。这时,硬件管理的功能由虚拟层负责。

内存的虚拟化

内存一直以来都是,以后也将是主机部件中成本较高的一个器件。它决定了一个主机可以运行的应用的大小和数量。内存的虚拟化允许多个应用和进程,在其内存需求之和大于可用内存的情况下,依然可以运行且互不影响。

内存的虚拟化是操作系统将主机内存虚拟化的一个功能。操作系统创建一个虚拟内存,其地址空间大于物理内存空间。虚拟内存由物理内存空间和一部分硬盘存储组成。操作系统中管理虚拟内存的工具叫做虚拟内存管理器(virtual memory manager,VMM)。VMM管理着虚拟内存和物理内存的映射关系,并在虚拟地址指向硬盘部分时,从硬盘获取数据。VMM 使用的硬盘空间叫做交换空间(swap space),也称页文件(page file)或者交换文件(swap file)。它是硬盘上的一块空间,被操作系统当作物理内存对待。

在虚拟内存的实现中,系统的内存被分为连续的区块(block),这些块由固定大小的页组成。分页(paging)这个进程负责将不活动的页面移至交换文件中,在需要时将这些页面从交换文件取回到物理内存中。这样可以在多个应用之间充分利用有限的可用物理内存。操作系统将最少使用的页面从内存中移至交换文件中,以保证更活跃的进程有足够的物理内存空间。访问交换文件要比访问物理内存页慢,因为交换文件在硬盘上,而硬盘的速度慢于内存。2.3.2 设备驱动

设备驱动(device driver)是一种专用软件,它用于实现操作系统与某种设备,如打印机、鼠标或硬盘的交互。设备驱动让操作系统识别、访问和控制设备。设备驱动依赖于硬件,不同操作系统的驱动也不同。2.3.3 卷管理器

早期,硬盘驱动器(HDD)呈现给操作系统的是一组连续的物理块。整个硬盘驱动器都分配给文件系统或是其他数据体,由操作系统或应用程序使用。这样做的缺点是缺乏灵活性:当一个硬盘驱动器的空间使用完时,想要扩展文件系统的大小就很难。而当硬盘驱动器存储容量增加时,把整个硬盘驱动器分配给文件系统通常会导致存储空间不能充分利用。

逻辑卷管理器(Logical Volume Manager,LVM)的发展使得文件系统容量的动态扩展以及高效的存储管理成为可能。LVM 是一个运行在物理机器上管理逻辑和物理存储设备的软件。LVM也是一个介于文件系统和物理磁盘之间的中间层。它可以把一个大容量物理磁盘划分为若干小的虚拟磁盘,也可以把几个小的物理磁盘组合成一个大的虚拟磁盘(这个过程叫做串联concatenation),提供给应用程序使用。

磁盘分区(disk partitioning)的引入就是为了改善硬盘驱动器的灵活性和使用率。在分区时,硬盘驱动器被划分为几个逻辑卷(logical volume,LV),如图 2-1 所示。例如,一个大的物理磁盘,可以根据文件系统和应用程序的数据管理要求,划分为若干小的逻辑卷。当硬盘在主机上进行初始分区时,是将一组连续的柱面分配给一个分区。主机的文件系统在访问分区时,完全不需要知道磁盘的物理结构和分区信息。图2-1 磁盘分区与串联

串联(concatenation)把若干小的物理磁盘组合起来,呈现给主机一个较大的逻辑盘(见图2-1)。

LVM提供了优化的存储访问,简化了存储资源的管理。它隐藏了物理磁盘的细节和数据在磁盘上的位置。管理员改变存储的分配时无需停止正在运行的应用。

LVM的基本部件是物理卷(physical volume)、卷组(volume group)和逻辑卷(logical volume)。在LVM术语中,每一个连接到主机系统的物理磁盘都是一个物理卷(PV)。LVM把由物理卷提供的物理存储空间转换为逻辑存储空间,供操作系统和应用程序使用。一个卷组由一个或多个物理卷组合而成。对一个物理卷进行初始化时,LVM会为其分配一个唯一的物理卷标识(PVID)。卷组中的物理卷可以动态添加或移除。一个物理卷只能属于一个卷组,它的全部空间都并入卷组,不能被其他卷组共享。在卷组创建时,每一个物理卷都被划分为若干个相同大小的数据块,这些数据块称为物理区域(physical extent)。

逻辑卷是在给定的卷组中创建的。一个逻辑卷可以被认为是一个虚拟磁盘分区,而卷组则可以被认为是一个磁盘。一个卷组可以划分为许多逻辑卷。逻辑卷的大小取决于其包含的物理区域的数目。

对操作系统来说,逻辑卷就像是一个物理设备。一个逻辑卷可以由不连续的物理分区组成,并可以跨越多个物理卷。在逻辑卷上创建文件系统后,就可以将逻辑卷分配给应用了。可以为逻辑卷配置镜像,以确保更好的数据可用性。2.3.4 文件系统

文件是有关联关系的记录或数据的集合,它们作为一个有命名的整体存储。文件系统(file system)是大量文件的分层组织结构。文件系统使得对存放在磁盘、磁盘分区或逻辑卷内的数据文件的访问变得更加容易。文件系统包含相应的逻辑结构和软件例程,负责控制对文件的存取。有了文件系统,用户可以对文件进行创建、修改、删除和访问操作。对磁盘上文件的访问需要由文件拥有者授权才能进行,这通常也是由文件系统来控制的。

文件系统使用目录(directory)把数据组织成分层结构。目录就是保存指向文件的指针的地方。所有的文件系统都维护着一个到目录、子目录和文件的指针映射,这些内容也是文件系统的一部分。常见的文件系统有以下几种。

■ FAT32(File Allocation Table,文件分配表):适用于微软Windows。

■ NT 文件系统(NTFS):适用于微软Windows。

■ UNIX 文件系统(UFS):适用于UNIX。

■ 扩展文件系统(EXT2/3):适用于UNIX。

除了文件和目录,文件系统还包括许多其他相关的记录,统称为元数据(metadata)。例如, UNIX系统的元数据包括超级块(superblock)、索引节点(Inode)、空闲的和正在使用的数据块列表等。一个文件系统的元数据必须保持一致,才能算得上是健康的文件系统。

超级块包含了文件系统的重要信息,比如文件系统的类型、创建和修改时间、大小和布局、可用的资源数量(如空闲块数量,索引节点数量等),以及指示文件系统挂载状态(mount status)的标记等。索引节点与文件和目录关联,包含文件长度、拥有者、访问权限、最后访问和修改时间、连接数量,以及数据存放的地址。

文件系统块(file system block)是最小的分配数据的单元。每一个文件系统块对应物理磁盘上一个连续的区域。在文件系统创建之初,文件系统块的大小就确定了。文件系统的大小是由文件系统块的大小以及所存储数据使用的总块数决定的。因为大部分文件都比单个预定义的文件系统块的大小要大,所以一个文件可以跨越多个块。随着新块的添加和删除,文件系统中的块将变得不再连续了(碎片化)。使用一段时间后,随着文件数量的增多,文件系统就变得更加碎片化了。

下面的列表说明了使用LVM将用户文件映射到磁盘存储子系统的过程(该过程可结合图2-2来理解):

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载