PMML建模标准语言基础(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-15 23:59:38

点击下载

作者:潘风文、潘启儒 著

出版社:化学工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

PMML建模标准语言基础

PMML建模标准语言基础试读:

内容提要

本书结合实际案例介绍了PMML语言的各个组成元素,包括数据字典、挖掘模式/架构、数据转换、模型定义、输出、目标、模型解释、模型验证等元素,并介绍了表述数据挖掘模型的PMML实例文档创建流程;同时也对各种PMML元素中涉及的一些统计知识做了必要介绍。通过学习,读者可以完整地了解和掌握PMML语言,将其应用于数据挖掘建模。

本书可供从事数据挖掘(机器学习)、人工智能系统开发的软件开发者和爱好者学习使用,也可以作为高等院校大数据等相关专业的教材。版权页书名:PMML 建模标准语言基础作者:潘风文,潘启儒著CIP号:第063332号ISBN:978-7-122-34258-4责任编辑:潘新文出版发行:化学工业出版社(北京市东城区青年湖南街13号 100011)购书咨询:010-64518888售后服务:010-64518899网址:http://www.cip.com.cn版权所有 违者必究前 言

数据挖掘技术起始于20世纪下半叶,当时伴随着计算机技术和数据库在各行各业的广泛应用,业务系统产生的数据量不断膨胀,传统的统计分析工具受到巨大的挑战,这促使科学家和研究人员把当时最新的数据分析技术(例如关联规则、神经网络、决策树等)与数据库技术结合起来,从而直接导致了数据挖掘技术的诞生。进入21世纪后,各行各业对数据价值的深入探索迅速推动了数据挖掘软件的应用,各种数据挖掘系统如雨后春笋般相继出现,比较著名的开发公司有IBM、SAS、NCR、Tibco等。

数据挖掘技术目前已经应用到几乎所有的行业,并取得了巨大的成功。但是不同的系统开发厂商都是基于各自的发展规划,使用自己的技术,推出的数据挖掘系统平台各具特色,从而导致数据挖掘模型不能在不同挖掘系统间共享,给数据挖掘的进一步普及和发展造成了障碍。

为了解决上述问题,实现数据挖掘模型的共享与交换,1997年,芝加哥伊利诺伊大学的Robert Lee Grossman博士发起设计了数据挖掘模型的开放标准──PMML(Predictive Model Markup Language,预测模型标记语言)它是一种基于XML(Extensible Markup Language,可扩展标记语言)规范的开放式挖掘模型表达语言,为不同系统提供了定义数据挖掘模型的方法,可使兼容PMML规范的应用程序共享模型。采用PMML语言,用户可在一个软件系统中创建预测模型,然后将其传递到另外一个系统,并在该系统中用PMML文档中的模型预测新数据,实现预测模型的跨语言、跨平台应用,提高可移植性,充分发挥挖掘模型的应用价值。

PMML语言基于XML,XML定义了一套对电子文档进行编码的规则,以人类和计算机都能够读懂的文本格式来表现文档,可以表达任意数据结构,是万维网联盟W3C(World Wide Web Consortium)的标准语言;XML是众多应用型标记语言的基础,如化学领域的CML、数学领域的MathML以及本书介绍的PMML等。

一个完整有效的PMML实例文档包括数据字典、挖掘模式/架构、数据转换、模型定义、输出、目标、模型解释、模型验证等元素,PMML规范针对这些元素的声明和使用制定了模型创建者和模型使用者必须遵守的一致性规则,例如模型创建者通过何种方式生成何种分析模型,模型使用者通过何种方式使用何种分析模型等,这些一致性规则可以确保模型的输出在语法上是正确的,使所输出的模型符合PMML定义的语义标准,并确保模型使用者能够正确地部署和应用模型。本书主要基于以上要点讲述PMML规范以及PMML实例文档的结构和应用。

目前PMML已经发展到版本4.3,能够支持关联规则、聚类、回归、贝叶斯网络、神经网络、高斯过程等18种数据挖掘模型,涵盖了应用最广泛的常用模型。作为事实上的表达分析模型的标准,PMML已经被IBM、SAS、NCR、FICO、NIST、Tibco等绝大多数顶级商业公司所支持,也得到越来越多的开源挖掘系统如Weka、Tanagra、RapidMiner、KNIME、Orange、GGobi、JHepWork等的支持,目前其影响力越来越大。很多想学习PMML的人员苦于没有完整的学习资料,而网上的相关资料又比较零散琐碎,不成体系,为此我们结合多年来的实践和体会编写了本书,希望能在一定程度上助广大数据挖掘系统、人工智能系统开发者和使用者一臂之力,为深入学习PMML起到抛砖引玉的作用。

本书除了供数据挖掘(机器学习)、人工智能领域的软件开发人员使用外,也可以作为高等院校大数据等相关专业的教材或数据挖掘爱好者自学用书。

由于编写时间和编写精力有限,书中难免会有疏漏不当之处,敬请同行批评指正,多多提出宝贵意见和建议,共同进步。作者QQ:420165499。编者2019年3月1 XML基础1.1 XML的发展、技术体系及应用

从广义上理解,语言是一套具有共同处理规则的用于表达思想、方法等的指令符号,它涵盖的范围较广,例如自然语言、计算机编程语言、工程图学语言、数学语言等等。XML(Extensible Markup Language,可扩展标记语言)是一种应用广泛的标记语言,它定义了一套对电子文档进行编码的规则,以人类和计算机都能够读懂的文本格式来描述文档,可以表达任意数据结构,是万维网联盟W3C(World Wide Web Consortium)的标准语言。设计XML语言的主要目标是在互联网上以简单、通用、便捷的方式交换和存储文档。XML也是众多应用标记语言的基础,如化学领域的CML、数学领域的MathML以及本书将重点介绍的PMML等。1.1.1 标记语言和SGML

按照Wikipedia的定义,“标记语言(Markup Language)”又称为置标语言、标志语言、标识语言,是一种将文本及其他相关信息结合起来,展现文档结构和数据处理细节的计算机文字编码,通过标记文本以及相关信息(例如文本的组织结构、表现形式、呈现颜色等),实现相关内容的表达和传递。“Markup Language(标记语言)”一词引申自传统出版业中对原稿的“Markup(标记)”,即在原稿的边缘加注一些符号,指示排版格式以及打印要求,包括使用什么样的字型、字体以及字号等,然后将原稿交给排版人员进行排版。理论上讲可以有各种各样的标记语言,其中超文本标记语言HTML(HyperText Markup Language)和可扩展标记语言XML(Extensible Markup Language)被广泛应用于网络应用程序和网页中。

从XML语言的发展历史看,它是基于SGML(Standard Generalized Markup Language)发展起来的。SGML是一种通用的文档结构描述标记语言,也是定义其他标记语言的元语言,曾被用于编写牛津英语词典的电子版本。SGML的发展经历了通用编码(Generic Coding)、通用标记语言GML(Generalized Markup Language)、SGML标准化以及SGML应用四个重要阶段。

1)通用编码

大多数人把通用编码的起源归功于美国图形通信协会GCA(Graphic Communications Association)委员会主席William Tunnicliffe。1967年9月,在加拿大政府印刷局会议上,William Tunnicliffe做了题为“The Separation of the Information Content of Documents From Their Format”(文档信息内容与其格式的分离)的演讲,提出了对文本内容进行嵌入式格式化编码的思想。

20世纪60年代后期,纽约一位名叫Stanley Rice的书籍设计师提出了一个通用参数化“编辑结构”标签的设想,这是一个非常有创意的构思设计,GCA主任Norman Walter Scharpf敏锐地捕捉到它的价值,很快他便提出了GenCode的概念,指出可通过创建各种不同的通用代码来表达不同类型的文档,较小的文档可以作为较大文档的元素,随后他在委员会中设立了一个通用编码项目组来实现这种设计,该项目组最终演变为GenCode委员会,在SGML 标准制定中发挥了重要作用。

2)通用标记语言GML

1969年,IBM的Charles Goldfarb与Edward Mosher、Raymond Lorie共同推出了通用标记语言GML(Generalized Markup Language),GML基于Tunnicliffe和Rice的通用编码思想,但没有采用简单标记方案,而是引入了具有显式嵌套元素结构的文档定义类型概念。Goldfarb对文档的结构进行了深入的研究,提出了很多新概念,例如简短引用、链接过程、并发文档类型等,这些概念后来逐步成为SGML的一部分。

3)SGML标准化

1978年,美国国家标准协会ANSI(American National Standards Institute)信息处理委员会设立了计算机语言处理文本委员会,Goldfarb加入了该委员会,组织开发基于GML 的文本描述语言标准项目,GCA的GenCode委员会也为这个项目做出了很大贡献。

SGML标准的第一份草案于1980年推出;1983年,GCA推出了SGML标准的第六份草案,并被作为行业标准(GCA101-1983),1986年此标准成为国际标准ISO 8879:1986 Information processing - Text and office systems - Standard Generalized Markup Language(SGML)。

4)SGML应用

SGML是一个具有较高稳定性和完整性的国际标准语言,其规范制定得相当细致严密,可满足不同应用领域使用者的需求,具有较好的可移植性(可携性),SGML文件可以跨平台使用;支持SGML格式的应用软件比较多,相关的数据转换技术也比较丰富;与SGML搭配使用的很多语言(如HyTime、DSSSL等)也都是国际标准语言。

早期的SGML多被应用于行业和企业组织内部的项目,如美国出版商协会AAP(the Association of American Publishers)的电子手稿项目、美国国防部计算机辅助采集和后勤保障计划CALS(the Computer-aided Acquisition and Logistic Support)的文档组件项目等,都采用了SGML。

不过SGML的使用比较复杂,例如美国出版商协会AAP的电子手稿项目,其技术工作由Aspen Systems公司承担,参与信息处理工作的组织超过了30个,包括IEEE、图书馆资源委员会、美国索引协会、美国国会图书馆、美国化学学会、美国物理学会、生物学编辑理事会和美国数学学会等。由于本身过于复杂,SGML最终没有被广泛普及,但是其设计理念非常先进,因此它成为各种标记语言的始祖,现在流行的各种标记语言全都是基于SGML派生的。

XML摒弃了SGML的复杂性,提高了易用性和开放性,因此很快得到普及,与其相关的应用有很多,例如XHTML、RSS、XML-RPC和SOAP等等;随着XML语言的发展,在其基础上又衍生出一系列应用标准语言,如XHTML、SVG、SMIL、XBRL以及PMML(见图1-1),因此可以说XML是一种元标记语言,可以用来创建满足特定需求的专用标记语言。图1-1 标记语言的发展历史1.1.2 XML的特点和应用

XML是由XML工作组(最初称为SGML编辑审查委员会)于1996年在万维网联盟W3C组织下开发出来的,最初XML工作组由Sun Microsystems的Jon Bosak主持,XML特殊兴趣小组(以前称为SGML工作组,由W3C组织)也积极参与了开发。

XML的设计目标是:

◆ XML可以直接在Internet上使用;

◆ XML应支持各种应用程序;

◆ XML应与SGML兼容;

◆ XML文档处理器的编写不需要很高深的技术;

◆ XML中的可选功能的数量应尽可能少,甚至为零;

◆ XML文档应易于理解并且相当清晰;

◆ XML应容易上手,使用快速便捷;

◆ XML设计应该正规而且简单;

◆ XML文档应易于创建;

◆ XML标记的简洁性不作为重点考虑因素。

经过多年的发展,XML语言已经非常成熟,它具有以下优点。

1)开放的标准

XML的开放性体现在它既与平台无关,又与技术提供厂商无关。W3C的XML工作组致力于维护XML的开放性,为开发人员在不同系统之间进行数据处理提供技术支持,不断推进XML标准的发展。

2)文档内容和展示分离

XML把标记与展示分开,开发者可以在结构化数据中嵌入程序化的描述,以指明如何展示数据。

3)可自定义标记

XML不仅仅是一种标记语言,它还可以用来创建各种自描述性的标记——只要这种标记在相关领域得到认可。

4)良好的可读性和可维护性

XML文档包含文档类型声明,用来指定文档的结构、包含的元素及其意义,这样可使XML文档结构显得清晰,便于阅读和维护,并可以验证标记的定义和使用是否符合语法规则。

5)XML是各种技术的集成者

XML集数据验证、展示表达、文件转换、文档对象链接、组件选择等多种数据处理技术于一体,是各种技术的集成者。

XML主要应用领域如下。

◆ 数据交换 不同的应用系统可以按照基于XML的同一标准共享和解析数据,实现不同平台和系统间的无缝数据交换。基于Web服务的应用系统广泛使用XML文档进行数据传输。

◆ 内容管理 XML文档的内容和展示是分离的,其内容(数据)通过元素及其属性来描述,可通过扩展样式表语言XSL(Extensible Stylesheet Language,XSL文档也是一种XML文档,遵循XML的所有规范)转换成各种格式的文件,如HTML、PDF、CSV等,以进行展示。

◆ 系统配置 系统配置管理是每个应用系统必备的功能。XML文档的结构化、易用性优点使它被很多系统用来进行系统配置,各种Web服务器(如Tomcat、JBoss等)都采用XML文件作为系统参数配置文件。

◆ 创建新的标记语言 XML可以用来创建标记语言,目前有很多标记语言是基于XML创建的,例如MusicML、MathML、CML、SVG、WML、SMIL和PMML等。

实际上XML技术的应用远远不止这些,随着各种相关技术的日益成熟,XML在各个行业都开始得到广泛应用。1.1.3 XML技术体系

XML目前最新版本为第5版,XML的官方网址为:https://www.w3.org/TR/xml/,可以通过官方网站了解XML的基本语法规范以及用XML设计各种应用标准语言的方法和规则等。

图1-2所示是XML家族技术体系,其底层是XML的核心,包括XSD(XML Schema Definition,也称XML Schema)、Namespace、DTD(XML Document Type Definition)。XML Schema用于定义和描述XML文档结构、内容模式、元素之间的关系以及元素和属性的数据类型,为XML文档的处理提供基础,XML Schema于2001年5月成为W3C的正式标准,官方网址:https://www.w3.org/XML/Schema。XML Namespace提供了对XML文档中的元素和属性进行统一命名的机制,以避免不同标记词汇表的元素和属性的命名冲突。1999年1月14日XML Namespace成为W3C的推荐规范。官方网址:https://www.w3.org/TR/REC-xml-names/。DTD源于SGML,采用了非XML的语法规则,仅支持少量的数据类型,扩展性比较差,已经逐步被XML Schema所代替,因此本书不对DTD做详细介绍。中间一层是所支持的相关规范和工具,最上层是针对某一具体行业或领域的XML应用。图1-2 XML家族技术体系

下面先简要介绍其中的几个主要部分。

1)XML Schema

为了便于说明XML Schema,下面先看一个XML DTD文档:

这个DTD文档摘自网站http://www.vervet.com/,它定义了一个产品目录,可以看出,这个DTD文档由不同的标签组成,这些标签用来规划一个XML文档的结构。由于DTD文档不是一个XML文档,可扩展性差,并且不支持元素的数据类型,对属性的类型定义也有限,因此DTD最终被更规范、更开放的XML Schema取代。XML Schema支持命名空间(Namespace)机制,支持整体验证和局部验证,而这都是DTD所没有的。下面是一个简单的XML Schema文档:

这个文档来自网站https://www.w3schools.com,它描述了一个订单的结构,定义了一个根元素shiporder,这个根元素有一个必选的属性orderid以及三个子元素:“orderperson”“shipto”“item”。

2)XML Namespace(命名空间)

一个XML文档是由在XML Schema中定义的元素构成的;每个XML文档包含一棵由多个元素组成的树,每个元素由一个元素类型名称(标签名)和一些属性组成,每个属性由一个名称和一个值组成。处理XML文档的应用程序根据元素类型名称和元素的属性对每个元素进行处理。如果一个XML文档中出现名称相同而含义不同的元素,则会发生命名冲突,应用程序此时会不知所措。为了解决命名冲突问题,XML Namespace扩展了数据模型,用一个文档内独一无二的名称(一般用URI表示)来限定元素类型名和属性名(即在元素类型名称前添加前缀)。在上面所举的那个XML Schema订单例子中,第2行包含了一个XML Namespace命名空间 :

其中“xmlns”是用来声明命名空间的保留字;“xs”是命名空间的前缀,可由用户自定义;“http://www.w3.org/1999/xhtml”是命名空间的唯一标识符,由用户自定义。

随着基于XML的应用标准的不断增多,XML Namespace变得越来越重要,后面我们会进一步讨论XML Namespace。

3)XSL

XML文档的内容和展示格式是分离的,这种组织方式的优点是可以让使用者选择自己喜欢的格式来展示一个XML文档的数据或内容,满足定制化需求。XML文档本身并没有包含格式方面的信息,而是由扩展样式表语言XSL来提供格式。XSL包括以下三部分功能。(1)XSLT(XSL Transformations),用于将XML文档转换为其他格式的文档(例如XHTML文档),使数据应用于不同的系统中,转换规则采用XML语法存储在以.xsl为扩展名的文件中,称为样式表文件。完成这种转换的是XSLT处理器,在实际应用中,XSLT处理器接收一个XML文档和XSLT文档(或称为XSL样式表文件),输出特定格式文档,如图1-3所示。图1-3 XSLT处理器对XML文档进行转换原理图

目前,几乎所有的浏览器都支持XSLT,可以说它们本身也是一个XSLT处理器。

我们知道,CSS(Cascading Style Sheets,层叠样式表)也支持对HTML、XHTML及XML等文档的格式化处理,但是CSS适合输出结构固定的文档,不能判断并控制元素是否显示以及显示的顺序,更不支持元素中数据的统计计算等功能,所以很多应用系统都采用XSLT。另外XSLT也是W3C的标准之一。(2)XPath(XML Path),它基于XML文档的树形结构,用于在XML文档结构树中寻找节点数据,可对文档中的元素和属性进行遍历、识别、选择、匹配等。后面要讲述的XQuery和XPointer就是构建于XPath之上的技术。请看一个简单的XML实例文档:

我们知道,每个XML实例文档可以表示为一个树形结构,它发起于一个根节点,所有的子元素称为分支或子节点,图1-4所示即为以上XML实例文档的树形结构。图1-4 XML实例文档的树形结构

针对图1-4所示的树形结构,表1-1列出了其XPath表达式。表1-1 XPath表达式

表1-1中,XPath表达式通过绝对路径直接访问节点内容,当然也可以利用相对路径寻找节点。XPath使用轴(Axis)及坐标来表示节点间的相互关系,定位相关节点,见表1-2。表1-2 XPath的坐标及说明

图1-5通过图形说明了XPath坐标,结合表1-2可以更好地理解XPath的原理和使用方法。图1-5 XPath坐标的图形说明

除了路径表达式外,XPath还定义了四种数据类型:节点集合(本身无序的节点组)、字符串型、数字型和布尔型,并且定义了相应的运算符及函数,这里不一一讲述,对XPath详细内容感兴趣的读者可参考W3C的相关规范:https://www.w3.org/TR/xpath/all/。XPath1.0于1999年11月16日成为W3C标准。目前最新版为XPath 3.1,于2017年3月21日发布。(3)XSL-FO(XSL Formatting Objects),即可扩展样式表语言格式化对象,XSL-FO文档是一个带有输出信息的XML文件,包含了输出布局以及输出内容方面的信息,用于格式化输出XML文档数据,这点与CSS非常类似。XSL-FO文档存储在以.fo或.fob为后缀的文件中,当然也允许以.xml为后缀,这种形式更易被XML编辑器存取。

XSL-FO文档以fo:root为根元素,其中的命名空间前缀fo必须映射到“http://www.w3.org/1999/XSL/Format”。在实际应用中前缀fo是可改变的,但是其映射的URI不能变。典型的XSL-FO文档结构如下:

XSL-FO提供了流、区域、页面、块等概念,可进行精细化输出,例如把XML文档以PDF、Word等格式输出,感兴趣的读者可参考W3C网站:https://www.w3.org/TR/xsl/。

图1-6展示了将XML文档转换为PDF文档的流程。图1-6 将XML文档转换为PDF文档流程

XSL-FO 在 2001年10月15日被确立为W3C推荐标准。目前最新版本为1.1。

4)XQuery

XQuery(XML Query)起源于由W3C于1998年发起的XML查询语言研讨会,参会者来自工业界、学术界和研究团体,共同聚集到波士顿研讨XML查询语言的特性和需求。XQuery建立在XPath之上,可用来查询任何以XML格式呈现的数据,包括数据库。目前XQuery几乎被所有数据库引擎厂商所支持,包括IBM、Oracle、Microsoft等。XQuery与XML的关系等同于结构化查询语言SQL(Structured Query Language)与数据库的关系,XQuery还具有类似于 SQL的外观和功能。图1-7展示了XQuery在文档处理流程中的角色。图1-7 XQuery在文档处理流程中的角色

举个例子,用XQuery从books.xml文档中的书籍book集合中挑选出所有价格大于30元的书籍,输出书籍名称title,并按照title的升序排序,其对应的XQuery代码如下:

这段代码中,$x表示一个名称为x的变量,doc()是打开xml文件的函数。

XQuery使用路径表达式在XML文档中进行数据查询,例如表达式doc(“books.xml”)/bookstore/book可把books.xml中bookstore下的所有数据book查询出来。

这个例子中第二行、第三行语句中的where、order的功能类似于SQL语句中对应子句的功能。return关键字表示返回的内容:书籍名称title。最后返回的结果类似于以下格式:

XQuery包含七种节点:元素、属性、文本、命名空间、处理指令、注释、文档(根)。由于XQuery基于XPath,所以XML文档被作为节点树来对待,树的根被称为文档节点或根节点;XQuery定义了一系列运算符、函数以及表达式,用来实现丰富多样的数据查询功能,感兴趣的读者可参考W3C网站:https://www.w3.org/TR/xquery/all/。XQuery与XPath的关系可参考图1-8。图1-8 XQuery/XPointer/XLink与XPath的关系

可以看出,XQuery、XLink和XPointer都是基于XPath的语言,如果已经掌握了XPath,则很容易理解和掌握这三种语言。

XQuery 1.0于2007年1月23日被确立为W3C推荐标准,目前最新版本是2017年3月21日发布的3.1版。

5)XLink和XPointer

在HTML网页中,可以使用标签元素来定义超级链接(指向某个文档或文档的某处)。而在XML文档中,定义超级链接的方法是在元素上放置可用作超级链接的标记,用XLink和XPointer来实现。

XLink即XML Linking Language,是一种用于在XML文档中创建超级链接的语言,它定义了一套在XML文档中创建超级链接的标准,类似于HTML中的链接,但是功能更为强大。XML文档中的任何元素均可作为XLink标记。XLink不仅支持简单链接,还支持扩展链接,将多重资源链接在一起。下面是一个简单实例:

在XLink文档中,要使用XLink的功能和属性,必须在文档的顶端声明 XLink 命名空间。上面的例子中,XLink 的命名空间是″http://www.w3.org/1999/xlink″。

元素中的xlink:type和xlink:href属性定义了来自 xlink 命名空间的type和href属性。

xlink:type=″simple″表示创建一个简单的两端链接,类似于HTML中的标签功能,当然,XLink也支持多端(多方向)链接。

XLink于2001年6月27日成为W3C推荐标准。关于XLink的最新内容可参考其官方网址:https://www.w3.org/TR/xlink/。

XPointer即XML Pointer Language。我们知道,在 HTML中,可以使用标签及符号#创建一个指向某个HTML页面内某个书签的超级链接,而在XML文档中,使用XPointer能够指向更加具体的内容,例如要指向某个文档的某个类别的书籍列表的第几本书,可在xlink:href 属性中把 XPointer部分添加到URL后面,这样就可以通过XPath表达式定位到文档中的具体位置。下面的代码通过唯一的id=“statistics”使用 XPointer 指向类别为statistics的书籍列表的第7项:

XPointer于2003年3月25日成为W3C推荐标准。最新的XPointer内容可参考其官方网址:https://www.w3.org/TR/xptr/。1.1.4 基于XML的应用标准简介

目前基于XML创建的应用标准语言越来越多,如MathML、SVG、SMIL、XBRL、CML、X3D、OEB、XUL、XHTML、PMML等等,这充分反映了XML的应用价值。下面简单介绍其中的七种,这七种都为W3C标准语言。

1)MathML

MathML(Mathematical Markup Language),一种数学标记语言,可以说MathML是最“古老”的一种基于XML的语言,由Igalia(总部位于西班牙的一家软件咨询公司)发起设立。从1998年5月W3C发布其第一个版本起,至今已经有20多年的历史了,目前MathML最新版本是3.0。

利用MathML可在Web上展现高质量数学公式和数学符号。在MathML出现前,网页上的数学公式实际上都是以图片格式展现的,不仅制作起来烦琐,而且大大增加了网页的开销。MathML的出现克服了这个弊端,通过MathML的样式表,浏览器可以生成各种复杂的数学公式。假如要展示下面的数学公式:

MathML代码为:

2)SVG

SVG(Scalable Vector Graphics),是一种可缩放矢量图形语言,用来定义和描述矢量图形,矢量图形在放大和缩小时质量不会有任何损失。目前SVG最新版本是2.0。

SVG语言具有以下优点:(1)图像文件可读,易于修改和编辑;(2)可以与现有技术融合,例如可以嵌入脚本来控制 SVG 对象;(3)可以方便地建立文字索引,实现基于内容的图像搜索;(4)支持多种滤镜和特殊效果,例如可以在不改变图像内容的前提下实现文字阴影效果;(5)可以动态生成图形,例如可生成具有交互功能的地图,嵌入网页中显示。

例如要显示图1-9所示图形,在一个颜色渐变的椭圆上显示白色的“SVG”三个字符:图1-9 显示图形

对应的SVG代码为:

3)SMIL

SMIL(Synchronized Multimedia Integration Language),同步多媒体集成语言,它能把众多独立的多媒体对象,如文字、图片、声音、视频等在时间和空间上集成为一个具有同步多媒体内容的页面,实现对多媒体片段的有机智能组合。现在SMIL最新版本是3.0。

SMIL文档包括屏幕布局、媒体对象时间行为和媒体资源的链接三部分。通过 标签定义SMIL文档,文档内的各种资源存在于网络中,通过URL链接,无需编译即可使用,目前已经得到众多厂商的支持。下面是一个SMIL的例子:

4)XBRL

XBRL(Extensible Business Reporting Language),可扩展商业报告语言,是一种基于XML的开放性业务报告语言,通过它可以对业务报告(如财务会计报告等)中的数据添加特定标记,定义这些数据的相互关系,使计算机能够“读懂”这些业务报告,从而进行业务逻辑处理。现在XBRL最新版本是2.1。

XBRL也是最“古老”的应用标准语言之一,由美国注册会计师Charles Hoffman于1998年提出,后来在美国注册会计师协会(AICPA)的帮助下开发出第一个XBRL原型。XBRL广泛应用于财务会计报告、上市公司年报、金融机构监管报告、税务报告等领域,目前已在美国、英国、日本、澳大利亚等很多国家投入实际应用。在我国,XBRL也已被应用于上市公司信息披露报告和基金信息披露报告等领域,取得了良好的效果。

采用XBRL技术可以避免报告数据的重复性录入、报送、传输、转换、比对等人工操作,减少差错率,提高数据生成效率和传递效率,提升信息化水平。

下面是一个XBRL的例子:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载