天体光谱数据挖掘与分析(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-22 16:29:12

点击下载

作者:杨海峰

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

天体光谱数据挖掘与分析

天体光谱数据挖掘与分析试读:

※版权信息※书名:天体光谱数据挖掘与分析作者:杨海峰排版:skip出版社:电子工业出版社出版时间:2016-12-01ISBN:9787121307683本书由电子工业出版社授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —

随着LAMOST正式巡天的实施,已成功获取了600万条天体光谱及星表,并每天以海量的数字增长着,这给长期传统的人工分析、人眼证认等任务带来了巨大挑战。本书以河外星系和恒星光谱为研究背景,针对天文学研究中稀有天体的特征分析以及天体光谱的分类等任务,将新兴的数据挖掘技术应用到天体光谱规律的发现和研究中,并从天文物理学角度对挖掘结果进一步分析。主要包括特殊、稀有天体的挖掘与分析,光谱分类及后处理方法两个方面的内容。

本书可供从事数据挖掘、机器学习以及天文信息学等相关专业的科研人员参考,也可以作为高等院校计算机、天文学专业的高年级本科生与研究生的学习参考书。

仰望璀璨的星空,辽阔而深邃,自由而宁静,吸引着人们苦苦追寻与不断探索的向往。LAMOST是一架横卧南北方向的中星仪式反射施密特望远镜,在5度视场、直径为1.75米的焦面上放置4000根光纤,可以同时获得4000个天体的光谱,是当前世界上光谱获取率最高的望远镜。随着 LAMOST正式巡天的实施,已成功获取了 600万条天体光谱及星表,并每天以海量的数字增长着,这给长期传统的人工分析、人眼证认等任务带来了巨大挑战。而数据挖掘,作为一门新兴的学科分支,涉及人工智能、机器学习、模式识别等多个学科领域,主要任务是从大量的原始数据中提取潜在的、人们感兴趣的知识,其已被广泛地应用于科学、工程、商业等领域。将数据挖掘技术应用于海量的天体光谱数据中,获取潜在的、有意义的天体规律及性质,对更有效地使用巡天数据、进一步深入天文学理论研究都具有比较重要的应用价值。

近年来作者一直从事数据挖掘应用与天体光谱分析交叉领域的研究,在深入了解光谱分析任务、分析当前数据急剧增长特点的基础上,结合计算机技术优势,开展了一系列的研究工作,本书是近年来相关科研成果的总结。全书除绪论主要介绍天体光谱数据的主要特征以及数据挖掘技术的基本理论外,主要内容分为两篇共6章,具体章节编排如下。(一)特殊、稀有天体的挖掘及分析(包括第2~4章)。第2章针对星系光谱中呈现的双红移系统,提出了一种基于模糊识别的光谱特征线识别方法,并采用SDSS DR9和LAMOST DR2的星系光谱数据,系统地搜寻了具有双红移系统的星系光谱,并对其结果进行了光谱及图像分类、特例分析、前景星系消光测量等方面的讨论。第3章针对碳星光谱中存在的模板较少从而导致从海量数据中搜寻比较困难的问题,提出了一种新的高效的PU学习方法,并选择SDSS DR10中的10万余条光谱实验验证了该方法的搜寻质量和效率。第 4章针对LAMOST河外星系光谱分辨率及信噪比等特征,修正了[OII]、Hδ、Hα特征线边界,通过测量其等值宽度并按照经典(由 Goto.提出)的判定依据,从LAMOST DR2中系统搜寻了E+A星系,并对其结果进行了红移分布、空间分布、星等分布特征、图像特征及星族特征等方面的讨论。(二)光谱分类及后处理方法研究(包括第5~7章)。第5章针对巡天数据分析中最基本的光谱型分类问题,提出了一种基于贝叶斯支持微量机的光谱自动分类方法,选择SDSS DR10的M型恒星光谱,实验验证了该方法在光谱子型的分类上具有较高的准确率及效率,同时对预处理过程中噪声、归一化方法、特征提取方法对分类结果的影响进行了讨论。第6章针对恒星光谱分类任务,提出了一种基于分类模式树的恒星光谱分类规则挖掘方法。采用SDSS恒星光谱作为实验数据,验证了该方法的正确性,而且具有较高的分类正确率。第7章针对采用数据挖掘方法提取的光谱分类规则中存在的冗余严重影响分类效率和质量的问题,提出了基于谓词逻辑、集合运算的两种分类规则后处理方法,从而减小了分类器的大小。采用SDSS恒星光谱数据,实验验证了这两种方法在不降低分类准确率的前提下,可以有效提高分类效率。

本书的完成得到了太原科技大学人工智能实验室、计算机科学与技术学院、中科院国家天文台各位老师的大力支持,特别是张继福教授、罗阿理研究员为本书提出了许多宝贵的建议,在此一并致以诚挚的谢意。

本书所涉及的部分研究工作得到了国家自然科学基金项目(项目编号:61272263,61572343)、山西省科技攻关项目(项目编号:2015031009)和太原科技大学博士启动基金(项目编号:20162007)的资助,在此向相关机构表示深深的感谢。

由于作者水平有限,书中难免有不妥之处,欢迎各位专家和广大读者批评指正。编 者2016年11月第1章绪  论1.1 天体光谱

仰望璀璨的星空,辽阔而深邃,自由而宁静,吸引着人们苦苦追寻与不断探索的向往。自有人类文明以来,天文学就有着非常重要的地位,从盘古开天地、女娲补天等具有神话故事的宇宙演化观,到《步天歌》“北斗之宿七星明……”对星象变化的认识,再到屈原《天问》中对未知的星空提出的系列问题,中国古天文对世界天文学的发展起着重要的作用。那么,宇宙是如何形成和演化的?和银河系类似的星系在宇宙演化过程中是什么角色?它们又是怎么形成与演化的?人类是通过何种方式去认识宇宙的奥秘的?……伴随着这些有趣的问题,天文学作为一种特殊的基础学科,得到了推动与发展。近年来,随着各大光谱巡天项目的陆续实施,观测得到的各种波长范围、各种分辨率、各种类型天体的光谱急剧增长,为天文学研究提供了充足的样本,天体光谱已成为人类认识宇宙重要的手段之一,图1.1为一类F型恒星光谱示例。图1.1 F型恒星1D光谱1.1.1 LAMOST光谱巡天[1~3]

LAMOST(大天区面积多目标光纤光谱天文望远镜,也称为郭守敬望远镜)是一架横卧南北方向的中星仪式反射施密特望远镜,坐落在河北省承德市兴隆县的兴隆观测基地上(东经 7小时 50分,北纬40度23分,海拔960米),图1.2为LAMOST望远镜实景图。

LAMOST由反射施密特改正板MA(大小为5.72米 × 4.40米,由24块对角线长1.1米,厚度为25毫米的六角形平面子镜组成)、球面主镜MB(大小为6.67米 × 6.05米,由37块对角线长为1.1米,厚度为75毫米的六角形球面子镜组成)和焦面构成。球面主镜及焦面固定在地基上,反射施密特改正板作为定天镜跟踪天体的运动,望远镜在天体经过中天前后时进行观测。天体的光经MA反射到MB,再经MB反射后成像在焦面上。焦面上放置的光纤,将天体的光分别传输到光谱仪的狭缝上,然后通过光谱仪后的 CCD探测器同时获得大量天体的光谱。LAMOST所应用的薄镜面主动光学加拼接镜面主动光学技术,在曝光1.5小时内可以观测到暗达20.5等的天体,使其成为大口径兼大视场光学望远镜的世界之最。同时,采用并行可控的光纤定位技术,在5度视场、直径为1.75米的焦面上放置4000根光纤,可以同时获得4000个天体的光谱,成为当今世界上光谱获取率最高的望远镜。图1.2 郭守敬望远镜实景图

LAMOST巡天两个重要组成部分是LEGUE(LAMOST Experiment for Galactic Understanding and Exploration survey)和LEGAS(LAMOST ExtraGAlactic Survey),LAMOST河外巡天又包括河外星系巡天及类星体巡天两部分,而河外星系的选源主要有以下几部分:北银冠天区(主要是 SDSS legacy中由于光纤碰撞导致错过的那些天体,星等 r< 17.75),南银冠天区(星等r < 18,对于一些蓝星系r < 18.8,目前观测天区范围为45°< ra < 60°,0.5°<δ<9.5°),与红外巡天(如IRAS,WISE,HERSCHEL)交叉的亮红外星系,以及LCSSPA(位于南银冠的两个20 deg2完备小天区内)。

LAMOST自 2008年获得首条光谱以来,经过两年的任务观测及为期一年的先导巡天,于2012年9月开始正式巡天,截止到2016年1月,LAMOST DR3的观测任务已基本结束。表1.1列出了LAMOST河外源及pipeline分类为“Unknown”的统计情况,LAMOST 河外星系及类星体的观测光谱数已超过 8万条,同时被 pipeline分类为“Unknown”的光谱中也不乏有价值的星系及类星体光谱。同时越来越多的学者开始了对LAMOST河外天体光谱的相关研究,如Huo等人对仙女座及三角座星系近邻背景类星体的分析研究,Shi等人利用LAMOST光谱发现并证认了一个频谱射电类星体,并识别了20个双峰发射线星系等。表1.1 LAMOST巡天前三年观测天体光谱数统计1.1.2 SDSS光谱巡天

SDSS(Sloan Digital Sky Survey,斯隆数字化巡天)开始于2000年,是最有影响力的巡天项目之一,现已进入第四期巡天任务,旨在获取海量测光及光谱数据,以研究宇宙大尺度结构、星系的形成与演化等天体物理学领域的重大前沿课题。SDSS项目使用的是位于美国新墨西哥州阿帕奇波因特天文台(Apache Point Observatory)的 2.5米望远镜,该望远镜配备有一台120兆像素的成像用相机(一次覆盖1.5平方度,用于测光巡天)和一对连接了 640根光纤的光谱仪(用于光谱巡天)。每个光谱观测天区(spectral plate)指的是一个打了640个孔(对应观测目标及定标星)的焦面金属板,覆盖约7平方度。光谱的波长覆盖范围是3800~9200Å,分辨率λ/Δλ在1850~2200。

SDSS巡天的重要目标是星系及类星体红移巡天,前两期的巡天任务(Legacy巡天)对北银冠7500平方度天区以及南银冠三个strip超过 760平方度的区域进行了观测,获得河外源(星系+类星体)光谱超过100万条;第三期实施了旨在刻画亮红星系及类星体空间分布的巡天项目BOSS(Baryon Oscillation Spectroscopic Survey),获得了150万条红移z < 0.7的亮星系及16万条红移 2.2 < z < 3的类星体;第四期河外源的观测分别向更深、更细两个方向进行了扩展,设计了两个子巡天项目:eBOSS(the Extended Baryon Oscillation Spectroscopic Survey,见图1.3)和MaNGA(Mapping Nearby Galaxies at APO,见图1.4),截止到DR12数据发布,已获得星系光谱数据总量达2 599 191个。SDSS巡天的光谱分辨率、波长覆盖范围等特征与LAMOST很相似,数据及其相应的处理技术对我们的相关研究具有重要的借鉴作用。图1.3 eBOSS 河外源观测深度示意图图1.4 MaNGA IFU略图1.1.3 光谱分析

由于每种原子都有自己的特征谱线,因此可以根据光谱来鉴别物质和确定它的化学组成,这种方法叫做光谱分析。光谱分析在科学技术中有广泛的应用,历史上,通过光谱分析还帮助人们发现了很多新元素。19世纪初,在研究太阳光谱(见图 1.5)时,发现它的连续光谱中有许多暗线。最初不知道这些暗线是怎样形成的,后来人们了解了吸收光谱的成因,才知道这是太阳内部发出的强光经过温度比较低的太阳大气层时产生的吸收光谱,仔细分析这些暗线,把它跟各种原子的特征谱线对照,人们就知道了太阳大气层中含有氢、氦、氮、碳、氧、铁、镁、硅、钙、钠等几十种元素。

随着各种光谱巡天项目的实施,越来越多的研究致力于更深入的光谱分析,从各种分辨率光谱、从紫外到射电各波长范围的天体光谱中,可以从中获得越来越多的天体信息,如元素丰度、恒星大气参数、速度(红移)、星族、恒星形成率……通过光谱越来越能够还原各类天体演化的各种场景。图1.5 太阳光谱1.2 数据挖掘1.2.1 产生和定义[4]

计算机的诞生,对社会生活的各个领域都造成了巨大的影响。随着数据库技术的飞速发展以及获取数据手段的多样化,先进的现代科学观测仪器的使用使得每天都要产生巨量的数据,例如我国的LAMOST望远镜建成后,每晚将有2万~4万条光谱需要进行自动的分类识别及参数测量。数据的丰富加大了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”,快速增长的海量数据被收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已远远超过了人的能力,因此,如何从海量数据中提取有价值的信息已经成为巨大的挑战。换句话说,人们通过这些数据所获得的信息量仅仅是整个数据库中的很少一部分,而隐藏在这些数据背后的更重要的信息是关于这些数据的整体特征的描述及对其发展趋势的预测,这些信息具有更重要的价值。因此,在 1995年美国计算机年会(ACM)上,数据挖掘(Data Mining,DM)的概念应运而生。

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、潜在的有用信息和知识,为决策支持服务的过程。数据挖掘是数据库中知识发现(Knowledge Discovery in Database,KDD)不可缺少的一部分,而KDD是将未加工的数据转换为有用信息的整个过程,如图1.6所示,该过程包括一系列转换步骤,从数据的预处理到数据挖掘结果的后处理。图1.6 数据库中的知识发现(KDD)过程

目前,国内外学者已研究和开发出了一些数据挖掘系统,比较有代表性的通用数据挖掘系统有:IBM公司开发的Intelligent Miner、加拿大Simon Fraser大学开发的DBMiner、SGI公司和美国Standford大学联合开发的MineSet等。典型的数据挖掘系统具有以下几个主要部分(见图1.7)。图1.7 典型的数据挖掘系统结构

数据库、数据仓库或其他信息库:这是一个或一组数据库、数据仓库、电子表格或其他类型的信息库,可以在数据上进行数据清理和集成。

数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。

知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。

数据挖掘引擎:是数据挖掘系统基本的部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。

模式评估模块:通常,此成分使用兴趣度度量,并与数据挖掘模块交互,以便将搜索聚焦在有趣的模式上。

图形用户界面:在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。1.2.2 任务与分类

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两大类:(1)预测任务。这些任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量(target variable)或因变量(dependent variable),而用来做预测的属性称为说明变量(explanatory variable)或自变量(independent variable)。(2)描述任务。目标是导出概括数据中潜在的联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。

在实际应用中,数据挖掘发现的模式类型包括:概念/类描述、关联规则模式、分类和预测模式、聚类模式、孤立点模式、演变模式等。

概念/类描述:用户常常需要抽象的有意义的描述。经过归纳的抽象描述能概括大量关于类的信息。有两种典型描述:数据特征化和数据区分。

关联规则(association rule)模式:由 Rakesh Agrawal,Tomasz Imielinski,Arun Swami等人于1993年在对购物篮问题进行分析时提出,通过发现顾客放入其购物篮中不同商品之间的联系,分析顾客的购买习惯,这种关联的发现可以帮助零售商制定营销策略。关联规则挖掘任务是发现大量数据中项集之间有趣的关联或相关联系。规则的支持度和置信度是两个规则的兴趣度度量,满足最小支持度阈值和最小置信度阈值的规则称为有趣的。同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。

分类(classification)和预测(prediction)模式:分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散的类别之一。分类模型(或函数)可以通过分类挖掘算法从一组训练样本数据(其类别归属已知)中学习获得。

聚类(clustering)模式:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。聚类就是将数据对象分组成多个类或簇(cluster),在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。常用的聚类技术有:划分方法(partitioning method)、层次方法(hierarchical method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)和基于模型的方法(model-based method)等。

孤立点(outlier)模式:经常存在一些数据对象,它们不符合数据的一般模型。这样的数据对象被称为孤立点。孤立点可能是度量或执行错误所导致的。孤立点探测和分析的过程被称为孤立点挖掘。

演变模式:数据演化分析就是对随时间变化的数据对象的变化规律和趋势进行建模描述。这一建模手段包括:概念描述、对比概念描述、关联分析、分类分析、时间相关数据分析等。1.2.3 主要应用

数据挖掘技术从一开始就是面向应用的。目前在很多领域,数据挖掘(data mining)都是一个很时髦的词汇,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。数据挖掘原型系统和商业软件已开始在多个方面得到应用:(1)针对生物医学和DNA数据分析的数据挖掘。生物学的迅猛发展和 DNA分析的研究成果,促进了对许多疾病和残疾的基因成因的发现,以及对疾病的诊断、预防和治疗的新药物、新方法的发现。数据挖掘是DNA分析中的强有力的工具,并应用在以下几个方面:①异构、分布式基因数据库的语义集成;②同时出现的基因序列的识别;③发现在疾病不同阶段的致病基因等。(2)数据挖掘在市场营销中的应用。数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础的,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销。这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。如:美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到 54亿字符,并仍在随着业务的发展不断更新。运通公司通过对这些数据进行挖掘,制定了“关联结算(Relation ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以享受比较大的折扣,这样既可以增加商店的销售量,也可以增加运通卡在该商店的使用率。(3)电信业中的数据挖掘。随着许多国家对电信业的开放和新兴计算机与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好地利用资源和提高服务质量是非常必要的。如:采用数据挖掘技术对电信数据进行多维分析、盗用模式分析和异常模式识别等。(4)竞技运动中的数据挖掘。美国著名的国家篮球队NBA的教练,利用IBM公司提供的数据挖掘工具临场决定替换队员。传统的办法是靠什么带领球队取得胜利呢?当然,最容易想到的是全场紧逼、交叉扯动和快速抢断等具体的战术和技术。但是今天,NBA的教练又有了他们的新式武器:数据挖掘。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。例如魔术队就因为采用 Scout研究了队员不同的布阵安排,在与迈阿密热队的比赛中找到了获胜的机会。

数据挖掘的研究方兴未艾,具有非常广阔的前景。面向对象数据库、分布式数据库、文本数据库等的数据挖掘;贝叶斯网的兴起;面向多策略和合作的发现系统;结合多媒体技术的应用等都是新的研究方向。1.3 海量天体光谱数据挖掘

各种观测设备的投入运转,以及一些大型地面观测手段和新技术的应用,使得多波段天文学正处在一个蓬勃发展的新时期,已经并将继续取得一系列激动人心的发现。来自各个波段的数据量呈现指数量级增长,以TB甚至PB计量,如何有效科学地探索来自数字巡天和数据库的TB、PB级的数据?如何从具有几十亿甚至几百亿的天体或如此大的数据量的数组中进行科学发现?这是摆在天文学家面前不可回避的问题。为了有效地处理这些问题,天文学家们决定建立全球性的虚拟天文台,并且于2002年成立了国际虚拟天文台联盟(International Virtual Observatory Alliance,IVOA),以应对形势发展的需要。该联盟于 2010年在美国加州理工学院举办了首届 astroinformatics会议,此次会议决议数据挖掘是IVOA最近发展研究的重要方向之一。事实上,数据挖掘技术此前已经被引入天文数据信息处理并在其中大显身手,发展适合天文发展和需要的数据挖掘与知识发现技术,充分有效地从天文数据中挖掘出天文学家感兴趣的和有意义的天体或天文现象,已成为大规模巡天计划的研究内容之一。1.3.1 分类[5~13]

分类是天文数据处理pipeline的重要环节,从分类准确率、效率、分类召回率等不同的评价角度,各种数据挖掘方法在天体数据分类方面得到了广泛应用,如利用人工神经网络、贝叶斯概率、支持向量机等数据挖掘方法对天文数据进行分类,利用回归分析方法对河外星系、类星体红移测量。

天体光谱是确定天体的物质结构、性质和化学组成成分的重要手段。大型光谱巡天项目对光谱的自动分类和分析提出了更高的要求。天体光谱的自动分类包括恒星分成不同的光谱子型、星系分成活动星系和非活动星系,或星系的形态学分类、超新星分类、类星体、星系和恒星的分类等。恒星光谱类型识别代表性的成果是AutoClass方法,这是一种基于贝叶斯理论的非监督学习算法,其独特的分类结果发现了一些以前没有注意过的光谱类型和谱线,其理论还处于不断完善之中。Folkes等人应用主分量分析方法对低性噪比的模拟星系光谱数据降维,而后应用神经网络方法对降维后的星系光谱数据分类,发现精度高于 90%。Ibata等人应用主分量分析方法区分 K型星中的矮星和巨星,结果发现对高性噪比数据分类的精度与可视化分类比较可以达到 90%~95%的水平。Gulati等人,Von Hippel等人,Weaver & Torres-Dodgen,Singh等人,Vieira & Ponz,Bailer-Jones等人都采用了人工智能中的前向神经网络对恒星光谱进行了 MK系统分类的识别,适用于中低分辨率(0.1~1.5nm)的紫外和光学波段的光谱,不同的只是网络结构或神经元选取有所不同,分类精度能达到光谱次型。在上述方法中,如何避免神经网络的过度学习是一个不容忽视的问题。此外,对特殊光谱型的恒星识别尚未见有相关工作。

对于星系的识别,天文学家们习惯用哈勃分类法。由于河外天体的光谱都有红移,Connolly、Gaspar和 Zaritsky等都分别采用主分量分析对红移值已知的星系光谱进行自动识别。Folkes等将2dF红移巡天的光谱用三个主分量分为5个光谱类,分别对应于哈勃分类的E/S0,Sa,Sb,Sc和Irr的识别。Huertas-Company等人应用支持向量机将来自SDSS DR7的约700000星系样本自动分成了四大类E、S0、Sab和Scd,其最大的优点是不仅给出了类别,而且给出了每个样本属于某一类的概率。Andrae等人指出了一些分类算法的缺点并提出了一个有效的自动聚类方法,该方法应用于形态分类时显示出优于主分量分析的性能,可以得到较为合理的形态分类结果,而且在整个聚类过程中不需要先验概率。星系动物园项目(Galaxy Zoo project)是让志愿者参与星系的形态分类,志愿者的人数已经超过了100000,并产生了一些科学成果,该项目已进入二期。Banerji等人用神经网络方法对SDSS DR6的星系样本形态分类,并与星系动物园提供的形态分类信息对比,发现输入参数直接影响分类的效率,选择的参数合适,分类精度可以达到90%以上。Gauci A.等人利用星系动物园提供的形态分类数据作为训练和检测样本,着重考察了 CART、C4.5、随机森林和模糊逻辑算法在星系形态分类方面的分类效率。Shamir用费舍尔评分选出最有效的特征,并将费舍尔评分作为选择权重,然后用简单的加权近邻方法对来自星系动物园的样本形态分类,获得了约90%的精度。因此将星系动物园提供的数据作为训练样本,将机器学习方法用于未来的大型巡天项目的星系形态分类是可行的。目前,天文学家对于特殊星系,尤其是活动星系和活动星系核的研究日益深入,然而对这些特殊星系,诸如类星体、Seyfert 星系、蝎虎BL天体和LINEAR等特殊河外天体的光谱自动识别则鲜有报道。

国内较早开始光谱自动识别研究的是吴永东博士,他采用结合数学形态滤波器的证据累积方法,之后周虹博士采用结合神经网络的一维Hough方法,黄凌云博士采用结合PCA的二维Hough变换方法,邱波博士利用伪三角法,对类星体的红移自动测量问题进行了研究;薛剑桥博士采用自适应神经网络(SOFM)的方法,邱波博士采用粗集自动提取规则的方法对恒星的光谱型自动分类问题进行了研究。另外,罗阿理博士利用小波技术对滤波和提取连续谱的问题进行了研究。这些都对正在进行的自动识别和分类系统有重要的参考价值。李乡儒博士、赵梅芳博士、刘蓉博士等人都分别应用机器学习方法研究了活动星系核、类星体、星暴星系和正常星系的自动识别问题。这些方法都是针对流量已定标的光谱,并且都存在训练样本的选择和光谱样本较少的问题。屠良平博士提出了基于二元PCA特征谱的星系光谱成分快速扣除方法、海量星系光谱中的超新星候选范围自动约减方法。1.3.2 聚类及离群分析

聚类分析简称聚类[14],又称为群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。它把一些对象划分成子集,每个子集是一个簇,簇内的对象彼此相似,而簇间的对象不相似。主要的聚类分析方法有如下几种:(1)划分法。给定一个有N个元组或者记录的数据集,分裂法将构造 K个分组,每一个分组就代表一个聚类,K

聚类分析作为一种重要的无监督分类方法,在巡天数据中有着一定的应用。如Sánchez Almeida,J.等人利用K均值方法对SDSS DR7中的星系光谱进行了聚类,发现99%的光谱集中在18个主要分类中,而仍有1%的光谱落在其余11个小组中。随后,他们又利用K均值聚类方法对SDSS DR8中的恒星光谱进行无监督分类,特征分别采用原始光谱及去掉连续谱之后的光谱。Mahdi Bazarghan等人利用自组织映射将JHC恒星模板库中的158条恒星光谱进行无监督分类,得到9组不同的分组,分别对应于从O到M的光谱型。

离群数据[15~23]是一个或极少个数据对象,与其他数值相比差异较大,离群数据挖掘已被广泛应用于如欺诈检测、医疗处理、公共安全、入侵检测等方面。如果可以通过专家标记正常和离群数据的事例,则可以使用这些数据来建立离群检测模型,所使用的方法可分为监督方法、无监督方法和半监督方法三种。离群数据检测方法对离群数据与其他数据作了假设。根据所做的假设,可以把离群数据挖掘方法分为统计学方法、近邻方法和聚类方法。

巡天观测的数据集不可避免地会包含一些数据对象,这部分数据对象与数据的一般行为或模型不一致。天文学的一个重要目的是发现异常、稀少甚至未知类型的天体目标,而离群数据挖掘作为一种重要的手段可以很好地从巡天数据中有效地找出其中特征异常而且数据量稀少的数据。如Meusinger,H.等人对SDSS DR7中红移0.6

关联规则就是有关联的规则,形式是这样定义的:两个不相交的非空集合 X、Y,如果有 X–>Y,就说 X–>Y是一条关联规则。举个例子,在购物篮分析过程中,发现购买啤酒就一定会购买尿布,{啤酒}–>{尿布}就是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述。关联规则挖掘的定义:给定一个交易数据集 T,找出其中所有支持度 support >= min_support、自信度confidence >= min_confidence的关联规则。关联规则挖掘分两步进行:①生成频繁项集。这一阶段找出所有满足最小支持度的项集,找出的这些项集称为频繁项集。②生成规则。在上一步产生的频繁项集的基础上生成满足最小自信度的规则,产生的规则称为强规则。

相关性、关联规则挖掘是指发现数据集中反复出现的联系,在同一类天体中,线、分子带、连续谱等光谱特征之间可能会表现出相同的规律,这些规则不仅有助于光谱的分类,对目标天体的物理化学性质的研究也有重要的作用,如通过Balmer衰减的性质可以分析消光特性;通过线强比可以构造BPT图从而对 HII区、AGN进行有效的分类等。目前,大多天文学方面的规律都来自统计与专家证认相结合的方法,近些年也出现了机器学习、人工智能等算法,如利用频繁模式树方法来获取有效的关联规则,进而对光谱数据进行分类;利用信息熵方法搜寻关联规则进而进行变星光谱搜寻;等等。1.3.4 恒星大气参数测量[26]

天体数据分析的一个重要任务就是从观测数据(如光谱数据)中提取观测目标的参数,如恒星大气参数的测量、红移测量等。数据挖掘方法在恒星大气参数测量中应用也比较多,如Olac Fuentes在测量恒星光谱的大气物理基本参数的过程中,有效地利用了人工神经网络、自组织映射以及局部加权回归的方法;张健楠等人提出过一种基于主成分分析及可变窗宽的无参估计的方法来预测恒星大气物理参量,此后又采用偏最小二乘回归方法,对恒星大气物理参数进行了测量;Fiorentin等人针对SDSS/SEGUE光谱的特点,分别采用理论光谱和实测光谱训练不同的神经网络回归模型,来估计 SEGUE巡天中恒星光谱的大气物理参数;李乡儒等人对大气物理参数进行了特征提取等。1.3.5 预处理方法[14]

对数据挖掘和机器学习而言,连续数值属性离散化可以减少算法的时间和空间开销,提高算法的学习精度,提高系统对样本的聚类能力,增强系统抗数据噪声的能力。此外,许多数据挖掘和机器学习算法只能处理离散型信息,因此连续数值属性离散化具有非常重要的意义。

由于不同应用领域的要求不同,还没有统一的、通用的连续属性离散化方法。目前,连续属性的离散化方法主要分为两大类,即无监督离散化与监督离散化,其本质区别在于是否使用类信息。无监督离散化的主要缺陷在于它不适用于分布不均匀的数据,对异常点比较敏感,它主要包括分箱法、直观划分法、基于聚类分析的离散化等方法。监督离散化方法充分利用了数据集中的类标签,离散化效果要好于无监督方法,但由于没有考虑属性之间的相关性,会造成不合理的离散化值或太多的离散化取值,它主要包括 1R方法、基于熵的离散化方法、基于X2的离散化方法等。

基于聚类分析的离散化方法考虑到了属性相关性的信息,离散化效果较好,精确度也较高。但聚类分析方法存在容易陷入局部极值点,聚类过程只能针对单一属性的一些缺点。对于大多数离散化方法,把每一个待识别的数据对象严格地划分到某个区间,忽略了数据属性取值之间的模糊界限和亦此亦彼的性质。为了充分体现数据属性取值之间存在的模糊界限,基于模糊聚类分析的离散化方法是一种有效途径。第一篇特殊、稀有天体的挖掘与分析

由于人类认识宇宙能力限制,现有的科学理论未必完善或仍需进一步证实,从这个角度来看,目前的研究方向分成两个分支:一是获取更多的数据样本,从统计规律上去认识或证实现有理论和猜想。比如越来越多的理论、实测样本数据(BC03模型、MILES模型等)被应用到光谱分类、星族等的分析上,反映的是一般规律;二是获取稀有、奇异的数据样本,利用光谱分析、证认、后续(持续)观测等手段,验证其特殊性以及合理性。比如 LAMOST通过光谱发现的高速星、超高速星的存在,为银河系内存在黑洞提供了重要的证据;再如刘继峰等人通过异常光谱的发现提出新的喷流模型等。

本篇(包括第 2~4章)收集了作者针对双红移叠加光谱、E+A星系光谱、碳星光谱等稀少且特殊的天体光谱,采用数据挖掘技术在发现、搜寻以及结果分析等方面得到的相关研究成果。第2章基于模糊识别的双红移系统星系光谱搜寻与分析

河外星系光谱中包含两个独立红移系统的光谱,其表征的是目标天体在视线方向上重叠部分的性质,对研究前景星系的消光、尘埃分布具有重要价值,在本章中也称其为光谱星系对(Spectral Galaxy Pairs,SGPs)。本章针对星系光谱特征线的性质,定义了一种基于模糊集理论的隶属度函数,以刻画每条特征线的真实程度,并应用于斯隆数字巡天SDSS DR9及LAMOST DR1的星系光谱中,系统地搜寻了具有双红移系统的发射线星系光谱。在此基础上,按照隶属度及图像的形态特征,对光谱以及相应的测光图像进行了分类分析,对于高隶属度光谱,还依据Balmer衰减的性质进行了尘埃消光的测量。由于大部分双红移系统的第二套红移线的特征非常弱或背景星系较暗,单纯地从斯隆测光图像上很难识别,从而使其成为研究低亮度星系或低面亮度星系尘埃效应的独特的样本,是对按照形态识别的星系对的重要补充。此外,一组时间序列上的光谱特征可能意味着银河系内新出现的恒星形成区(HII区)[27]。2.1 引言

星系的演化基本上可以刻画为星系并合的历史,对丰富的周围环境有很强的依赖性,自从20世纪80年代初观测结果首次显示出周围环境可能会影响星系的性质以来,大量的后续证认研究陆续展开,因此对(超)Clusters(尤其是致密Clusters)环境中、Groups环境中、Pairs环境中的星系受其周围环境的影响的研究一直是该领域内的热门话题。研究表明,小尺度的致密环境呈现出对星系演化主要助推作用,而星系并合可能是最明显的演化机制,因此星系对的研究备受青睐。近十年来最有影响力的系列工作从不同的角度研究了星系对(Close Pairs)的相互物理作用对其性质的影响,如他们发现具有物理关系的星系对各自的恒星形成率(Star Forming Rate,SFR)有明显的增强,并且晚型星系的增强幅度比早型星系更大、主星系对(Major Pairs,质量相当的星系对)比普通星系对更大、距离近的比距离远的更大。最新研究还表明,星系对中活动星系核(Active Galactic Nucleus,AGN)的成分随着其视线方向上投影间隔的减小而增多[28]。一般而言,区分两个星系对成员间是否存在相互物理关系的依据是其距离 d(速度差异Δv或红移间隔Δz)。

进一步讲,视线方向上重叠星系对光谱是研究尘埃特征的珍贵材料,星系中尘埃虽然只占星际介质很小一部分,但对理解大量宇宙学参数起着重要的作用,而这些参数可以用来测量质量密度、宇宙学常数以及理解和测量早期宇宙、更高红移的原星系(proto-galaxies)的恒星形成率SFR。尘埃消光及尘埃质量可以采用掩食星系对的较差测光进行估算,该思想由White,Raymond E.和Keel,William C.于1992年首次提出并发表于Nature期刊上,其很快被接受并广泛应用在了已知的星系对上(这些早期已知的星系对来自基地望远镜图像、光谱、后期的基空望远镜HST图像)。同时,来自星云的Balmer发射线的流量比值(如Hα/Hβ)也可以用来测量尘埃消光。近年来,越来越多的星系对被科学家发现,如来自斯隆光谱巡天的86个星系对样本、来自星系动物园工程志愿者证认的1993个星系对样本,其样本选择证认的方法主要是借助于测光图像和人眼,而自动搜寻或识别此类目标,尤其是一些重叠(superimposed)星系对,是非常困难且耗时的[29,30]。目前,借助光谱中双红移系统的识别方法来选择星系对候选体的文献较少。斯隆巡天DR7曾发布了交叉相关(Cross-correlation)分析的结果,为每条光谱提供了一组可能的红移候选体,但因为其目的并不在此,而从搜寻的角度反而提高了搜索难度(增加了数据维度),因此更适合用来检验多红移系统光谱。文献也曾提出采用奇异矩阵分解的数学方法同时在不同红移处拟合光谱模板,该方法对训练模型及优化策略的选择具有很强的依赖性。幸运地,近邻宇宙的具有双红移系统的发射线星系可以借助于混合光谱进行识别,如光谱星系对SGPs。

本章提出一种新的基于模糊识别的 SGPs搜寻方法,特别致力于从SDSS DR9和LAMOST DR1星系光谱中搜寻“emission+emission”模式双红移系统。基于此,共获得了近200个SGPs,并对该样本分别按照隶属度值及图像特征进行了分类分析,对于高隶属度的天体光谱,给出了利用Balmer衰减估算的尘埃消光值。此外,一个天体目标的时间序列光谱可能预示着银河系一个新恒星形成区的出现。基于此,本章具体内容组织如下:第2.2节详细介绍了样本选择及自动搜寻方法;第2.3节列出了SGPs样本、结果分析以及对尘埃消光估算的初步分析;第2.4节给出本章主要工作的总结。2.2 基于模糊识别的搜寻方法2.2.1 样本选择

这项工作样本的数据源主要来自两部分:一是SDSS巡天DR9的星系光谱;二是LAMOST巡天DR1的星系光谱。SDSS DR9是SDSSIII BOSS(Baryon Oscillation Spectroscopic Survey)巡天发布的第一批数据,其中包含约 150万个(1 457 002)大质量星系光谱数据,LAMOST DR1是郭守镜望远镜正式巡天发布的第一批数据,也包含近1万(9359)星系光谱数据。考虑到SDSS与LAMOST光谱分辨率、波长覆盖范围等性质类似,LAMOST光谱信噪比SNR稍低且数据量也较小,本章采用 SDSS数据集去验证方法的有效性,成功测试后再应用到 LAMOST数据中。因此,为了较好地获得最终双红移系统样本集,首先针对初始数据集做以下预处理(以SDSS数据集为例)。(1)所有由pipeline分类为“galaxy”的SDSS(LAMOST)光谱组成初始样本集。这里是针对SDSS星系光谱数据,尽管目标是检索发射线系统光谱,为了避免由于光谱质量原因被 pipeline分类为其他子型或“null”型而导致丢失某些真SGPs的情况,在这里对光谱子型不做限制。换句话说,只要能检测到两组发射线系统的光谱都作为SGPs候选体。而对于LAMOST数据集,原本pipeline并没有提供光谱子型,因此此举也保证了两组数据集的一致性;(2)为了保证 Hα和 Hβ同时落在 SDSS(LAMOST)的光谱覆盖波长范围,在此设置光谱红移上限为0.4(0≤z≤0.4)。这样,其他发射线如 OII λλ3727,3730,OIIIλλ4960,5008,NIIλλ6550,6585等特征也可以在自动识别过程中使用;(3)为了更好地体现特征线区域的光谱质量,采用特征线的高斯拟合效果取代整条光谱的信噪比SNR,来作为搜寻方法中隶属度函数定义的重要参数,2.2.2节将具体介绍该方法细节。因此,不论SDSS还是LAMOST数据集,构造初始样本的时候均不限定信噪比范围。2.2.2 方法描述

在河外星系的光谱数据中,存在很多不确定、不精确、信息缺失等性质,极大地增加了计算机自动识别的难度。例如,不是所有的光谱正信号都是真正的发射线信号,也可能是噪声;不是所有的发射线线芯都有峰值,有的只有轮廓,峰值数据受别的因素影响丢失了;有些核发射线由于恒星吸收而变弱或淹没(如Hβ);等等。因此,这些天体的光谱形状(轮廓)由于不同的观测环境(如seeing)、致宽效果、红移以及处理过程误差等因素而千差万别。因此,寻找一种具有处理和分析不确定性数据能力的方法尤为重要。

数学上,模糊集理论[31]是由美国学者扎德创立的一种描述模糊现象的方法,集合中每一个元素都用隶属度来刻画隶属于该集合的可能程度,被广泛地应用于语言学、决策、聚类等领域。相比于经典的集合理论,模糊集理论借助于取值范围为[0,1]的隶属度函数,允许对成员属于该集合的程度进行渐近的评估。在此,将引入该思想并应用到光谱特征线的模糊证认过程中。简而言之,该方法的基本思想是首先模糊地证认具有不确定性质的光谱发射线,这是第一步,也是本方法的核心步骤;第二步将屏蔽被证认的第一组特征发射线,在残谱中重复第一步,直到发现至少两组发射线系统或找不到为止。

2.2.2.1 模糊识别与隶属度

设二元组为模糊集SGPs,其中,O为星系光谱集合,m为二元映射函数(O →[0, 1])。对于∀x ∈ O,m(x)称为x属于模糊集的隶属度,也即,O中每一个元素x都有唯一的隶属度值反映x属于SGPs的可能程度。而隶属度函数m可以利用光谱质量及其相关特征来定义,这里选择星系特征发射线集 L:{Hαλ6565, Hβλ4862, OIII λλ4960, 5008, NIIλλ6550, 6585, SIIλλ6718, 6733},通过式(2.1)定义L中每条发射线的质量。

这里 k1,k2,k3分别是 factor,fiterr,peak三个参数的加权系数,且Σ(k1,k2,k3) = 1,而m(x)取值为该光谱对应L中所有发射线的d的均值。参数factor,fiterr,peak的定义及说明如下:(1)参数 factor:利用谱线在静止波长下的波长间隔来判断谱线的真实程度,如式(2.2)所示。

这里x,y∈L,core和coreErr是对发射线进行高斯拟合的线芯及线芯误差,R = [core - coreErr, core + coreErr],是可接受该线芯为真的波长范围,R[0]和 R[-1]分别是该范围的左、右边界,而Δλ是两条特征线在静止波长下的波长间隔(取自SDSS)。

不妨设y是具有最佳拟合效果的特征线且假定已知,则factor(x,y)是判定x是否为L中另一条特征线的主要参数,factor(x,y)值越大,可能程度越高,反之亦然。举例说明,设Δλxy =(wavelengthy-wavelengthx) rest×(1+z),Hα是最佳拟合质量,Rα是Hα的线芯可接受范围,Hβ为待判定发射线。那么,Rα+Δλαβ就是Hβ理论上的可接受波长范围,按照式(2.2),当 coreβ∈Rα + Δλαβ时,Hβ为真的可能性最大,为1;而当Rβ∩ Rα + Δλαβ= Φ时,可能性最低,为 0;否则,Hβ的真实程度为factor(x,y),这个值与 coreβ偏离 Rα+Δλαβ的距离成反比,取值范围为[0,1]。(2)参数fiterr:在判断特征线是否真实的过程中,该方法依赖于线的拟合质量,因此隶属函数定义过程中应该考虑特征线的拟合误差fiterr。fiterr越小,可信度越高,反之亦然。当 fiterr≥99(99是当拟合误差χ2≥99时的缺省值)时,该特征线的真实程度为 0。fiterr(x)可通过式(2.3)进行定义。

这里,x∈ L,Errall是L中所有线的拟合误差总和。(3)参数peak:理论上,我们认为线越强,越容易识别,识别真实度也越高,因此隶属度函数定义过程中,我们也将发射线强考虑在内。在将流量按照标准差进行归一化以后,函数peak(x)定义如式(2.4)所示。

2.2.2.2 算法描述

光谱星系的搜寻算法描述如算法2.1所示。

算法2.1

INPUT:星系光谱集A;参数:N1、N2、m1、m2

OUTPUT:双红移系统光谱集B

BEGIN

1.选择 1D星系光谱集 A为初始样本,输入参数:N1,N2,m1,m2,其中N1,N2是光谱正信号(候选发射线)的阈值设定(≤|L|),m1,m2是隶属度阈值;

2.选择A中一条光谱,在波长范围(≥6000Å)内遍历每一个发射线信号;

3.选择强度最大的发射线信号作为 Hα发射线的候选体,如果在此波长范围内找不到发射线信号,则转向第1步选择下一条光谱[探 测 发 射 线 信 号 的 依 据 是 average(flux[linecore-3,core+3])≥average(flux[linecore-5,core+5])];

4.按该候选Hα线的波长位置计算临时红移z1,并按z1计算L中其他发射线波长位置,在这些线的线芯±5Å范围内计算流量峰值和积分流量;

5.置发射线数的初始值为N = 0;

6.检测这些波长位置是否为发射线,如果当前位置存在发射线,做以下两步:

a.使N=N+1;

b.利用高斯函数和二次多项式去拟合当前发射线信号,并计算参数 dcurrentLine。

7.检查以下几个条件(细节见2.2.2.3节):

average (d in L)≥m1;

N≥N1;

表2.1所设条件;

z1≤0.4。

如果结果为真,继续下一步(步骤 8);否则屏蔽当前假设的特征线Hα,转向步骤3;

8.扣除满足条件的发射线信号(Hα以及当前红移系统下其他的发射线);

9.采用相同的方法(重复步骤 3~步骤 8)搜寻另一套红移系统[这里步骤7中检验的条件改为:average(d in L)≥m2,N≥N2,0 ≤z2≤0.4,z2-z1≥0.005]。若成功,将该光谱加入到SGPs候选体集B中,转步骤10,否则的话,直接转步骤10;

10.选择下一条光谱,循环执行步骤 2~步骤 10,直到初始数据集A中所有光谱都被检测;

11.记录SGPs候选集B。

END

通过算法 2.1获得的双红移系统星系的其中一个红移与 SDSS pipeline估算的红移有很好的一致性。此外,所有SGPs候选体B集合中的光谱都需要通过人眼或不同的规则进一步检测,详细过程在2.2.2.3节阐述。

2.2.2.3 搜寻规则及对应结果

该方法分为两个基本部分:利用预处理规则对初始样本进行初步约简以及对特征发射线进行模糊识别。(1)预处理规则。原始数据集首先按照表 2.1中规则进行初步约简,目的是去掉不可能是SGPs的那些光谱,避免不必要的拟合运算。如表2.1所示,每条特征线(Hα和Hβ),同时考虑其积分流量和峰值流量,可以将由于噪声、减天光等处理误差导致的误判尽可能降到最低。值得注意的是,由于高阶Balmer线在一些光谱中非常微弱,而较强的氧线(如OII λλ3927,3930,OIIIλλ4960,5008)在星系光谱中没有确切的强弱关系,因此,在设计预处理规则的过程中没有作为约简规则。通过对 SDSS的初始数据集的每条光谱进行检测并约简后,剩余55092条光谱,可以在很大程度上提高下一步特征线证认的效率。表2.1 预处理规则

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载