生物信息学理论与医学实践(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-04 01:59:52

点击下载

作者:李霞

出版社:人民卫生出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

生物信息学理论与医学实践

生物信息学理论与医学实践试读:

版权页

图书在版编目(CIP)数据

生物信息学理论与医学实践/李霞主编.—北京:人民卫生出版社,2012

ISBN 978-7-117-16277-7

Ⅰ.①生… Ⅱ.①李… Ⅲ.①生物信息论 Ⅳ.①Q811.4

中国版本图书馆CIP数据核字(2012)第283419号人卫智网 www.ipmph.com 医学教育、学术、考试、健康,购书智慧智能综合服务平台人卫官网 www.pmph.com 人卫官方资讯发布平台版权所有,侵权必究!生物信息学理论与医学实践主  编:李 霞出版发行:人民卫生出版社有限公司       人民卫生电子音像出版社有限公司地  址:北京市朝阳区潘家园南里19号邮  编:100021E - mail:ipmph@pmph.com制作单位:人民卫生电子音像出版社有限公司排  版:人民卫生电子音像出版社有限公司制作时间:2019年3月版 本 号:V1.0格  式:mobi标准书号:ISBN 978-7-117-16277-7策划编辑:王云珊责任编辑:王云珊打击盗版举报电话:010-59787491 E-mail:WQ @ pmph.com注:本电子书不包含增值服务内容,如需阅览,可购买正版纸质图书。

序言

20世纪90年代初,人类基因组计划(human genome project,HGP)的启动推动了生物学、医学、药学与信息科学之间的紧密联系,海量数据的收集、存储、分析及解释促使全世界科学家思考生物学、医学和药学发展的新思路,生物信息学就是在这样的背景下产生并蓬勃发展起来的。生物信息学(bioinformatics)是以数理科学为理论基础、以计算机技术为工具,进行深层次生物医学海量数据挖掘与分析的多学科交叉的新兴学科。伴随着现代生物技术的发展,生物信息学在现代生物学、医学和药学的发展中发挥着重要作用。

随着新一代测序技术、生物芯片技术、药物筛选技术等的快速发展,现代生物学、医学、药学研究已经由单一因素、单个分子层面进入到高通量、大规模的组学研究时代。面对信息含量大、数理逻辑强的生物学、医学、药学资源,传统的实验方法遇到巨大挑战,已经难以独立解决众多复杂的生物学、医学、药学问题。在此基础上,以海量数据分析为研究内容的生物信息学逐渐成为生物学、医学、药学研究领域不可或缺的组成部分。生物信息学理论能够广泛地应用于生物学、医学、药学等研究领域,如人类疾病病因学研究、临床诊断标志物识别、疾病分型和预后预测、遗传调控机制和分子通路建立、药物靶标识别与药物设计、新兴生物大分子发现与功能分析、生理模拟与病理推断、动植物育种与分子进化等方面,并能够极大地促进个性化医疗的发展。由此,我们总结多年积累的学术思想、研究心得及结果,编著了《生物信息学理论与医学实践》一书。本书旨在为生物学、医学、药学研究领域的科学工作者及生物信息学领域的同行、学生等人员介绍生物信息学基础理论、数据分析方法及其在生物学、医学、药学领域中的应用成果。

本书不仅对生物信息学研究领域的基础知识及基本理论进行了详细介绍,如网络数据资源、序列比对、分子进化、基因芯片及蛋白质结构等;而且介绍了目前国内外生命科学研究应用的热门技术及热点领域,如新一代测序技术、富集分析技术、表观遗传学分析技术、microRNA与疾病研究及药物靶点筛查技术,并对书中涉及的各种分析技术给出详细的应用实例。我们希望能与感兴趣的读者交流,有机会完善本书。限于作者目前的水平,加之时间仓促,书中必有许多不足之处,希望能够得到读者的指正。

本书每一章的编者都有相关领域多年并丰富的研究经历,每一章都凝聚了他们的学术思想及科研成果。他们在百忙之中精心组织材料、字斟句酌编写本书,在此我们对全体编者的无私奉献表示衷心的感谢!多年来,我们的工作得到了哈尔滨医科大学各方面的大力支持与热情鼓励,同时也得到了国家自然科学基金的支持,谨在此一并表示诚挚的谢意!李 霞2012年12月

绪论

INTRODUCTION TO BIOINFORMATICS MOLECULAR第一节 生物信息学的产生及发展Section 1 The rise and development of bioinformatics一、生物信息学的产生

生物信息学的产生仅有几十年的时间,bioinformatics这一名词更是在1991年前后才在文献中出现的。事实上,早在1956年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会”上,便产生了生物信息学的概念,只不过最初常被称为基因组信息学。就生物信息学的发展而言,它还是一门相当年轻的学科。直到20世纪80~90年代,伴随着计算机科学技术的进步,生物信息学才有了突破性进展。

20世纪后期,生物科学技术、计算机科学技术和网络技术日益渗透到生物科学的各个领域,生物科学的数据资源获得迅猛发展。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去组织这些数据,以利于储存、加工和进一步利用。同时,海量的生物学数据中必然蕴含着重要的生物学规律,这些规律将是解释生命之谜的关键,人们同样需要一种强有力的工具对这些数据进行分析。20世纪80年代末期,生物学家认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。1987年,“生物信息学”(bioinformatics)这一学科名词诞生。此后,生物信息学的内涵随着研究的深入和现实的需要而几经更迭。1995年,在美国人类基因组计划第一个五年总结报告中,给出了一个较为完整的生物信息学定义:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的所有方面,它综合运用数学、计算机科学和生物学的各种工具,来阐明和理解大量数据所包含的生物学意义。

从生物信息学产生的历程可以看出,基因组信息是生物信息中最早的表现形式,并且基因组信息在生物信息中占有极大的比重。但是,生物信息并不仅限于基因组信息,生物信息学也不等同于基因组信息学。广义地说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉及基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。

因此,生物信息学是融合生物科学与数理科学的新兴学科,具体地说生物信息学是以核酸、蛋白质等生物大分子数据库为主要研究对象,以数学、信息学、计算机科学为主要研究手段,以计算机硬件、软件和计算机网络为主要研究工具,对浩如烟海的原始数据进行存储、管理、注释、加工,使之成为具有明确生物意义的生物信息。并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识。在大量信息和知识的基础上,探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中的重大问题。二、生物信息学的发展历史

生物信息学自产生以来大致经历了前基因组时代、基因组时代和后基因组时代三个发展阶段。三个阶段虽无明显的界限,却真实地反映了生物信息学整个研究重心的转移变化历程。(一)前基因组时期

从19世纪开始,人们逐渐认识到蛋白质在生命活动中的重要作用。1953年,沃森和克里克发现了DNA双螺旋的结构,开启了分子生物学时代,使遗传的研究深入到分子层次,“生命之谜”被打开,人们清楚地了解遗传信息的构成和传递途径。此后,一些新兴学科如雨后春笋般出现,这些学科的产生和发展为生物信息学的产生奠定了坚实的基础。1956年在美国田纳西州的盖特林堡召开了首次“生物学中的信息理论研讨会”,一些计算生物学家开始进行生物信息相关研究,尽管当时还没有具体地提出生物信息学的概念,但做了许多生物信息搜集和分析方面的工作。1962年,Zucherkandl和Pauling研究了序列变化与进化之间的关系,开创了一个新的领域——分子进化。随后,通过序列比较确定序列的功能及序列分类关系便成为序列分析的主要工作。1967年,Dayhoff研制出蛋白质序列图集,该图集后来演变为著名的蛋白质信息源(protein information resource,PIR)。20世纪60年代是生物信息学形成的萌芽阶段。

从70年代到80年代初期,随着生物化学技术的发展,产生出许多生物分子序列数据,而在这个阶段数学统计方法和计算机技术都得到较快的发展,于是促使一部分计算机科学家应用计算机技术解决生物学问题,特别是与生物分子序列相关的问题。他们开始研究生物分子序列,研究如何根据序列推测结构和功能,出现了一系列著名的序列比较方法,其中,Needleman和Wunsch于1970年提出的序列比对算法是对生物信息学发展最重要的贡献。同年,Gibbs和McIntyre发表的矩阵打点作图法也是进行序列比较的一个著名方法,该方法可用于寻找序列中的重复片段,从而推测其功能。Dayhoff提出的基于点突变模型的PAM(point accepted multation)矩阵是第一个广泛使用的比较氨基酸相似性的打分矩阵,它大大地提高了序列比较算法的性能。1981年,Smith和Waterman提出了著名的公共子序列识别算法,同年,Doolittle提出关于序列模式的概念。1983年,Wilbur和Lipman发表了数据库相似序列搜索算法。1985年,出现快速的蛋白质序列搜索算法FASTP/FASTN,1988年,Pearson和Lipman发表了著名的序列比较算法FASTA。1990年,快速相似序列搜索算法BLAST问世,1997年,BLAST的改进版本PSI-BLAST投入实际应用。

20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库。1982年,核酸数据库GenBank第3版公开发行。1986年,日本核酸序列数据库DDBJ诞生。1986年,出现蛋白质数据库SWISS-PROT。1988年,美国国家卫生研究所和美国国家图书馆成立国家生物技术信息中心NCBI。同年,成立欧洲分子生物学网络(EMBnet),该网络专门发布各种生物数据库。

20世纪90年代后,科学家们开始了大规模的基因组研究。1986年,出现基因组学genomics)概念,即研究基因组的作图、测序和分析。1990年,国际人类基因组计划启动,该计划被誉为生命科学的“阿波罗登月计划”。1993年,成立Sanger中心,该中心专门从事基因组研究。1995年,第一个细菌基因组被完全测序,1996年,酵母基因组被完全测序。1996年,Affymetrix生产出第一块DNA芯片。1998年,第一个多细胞生物——线虫的基因组被完全测序。1999年,果蝇的基因组被完全测序。1999年年底,国际人类基因组计划联合研究小组宣布人类第一次获得一对完整的人类染色体——第22对染色体的遗传序列。2000年6月24日,人类基因组计划协作组的6个国家研究机构在全球同一时间宣布已完成人类基因组的工作框架图。与此同时,生物信息学在人类基因组计划的推动之下迅速发展。(二)人类基因组计划

人类基因组计划(human genome project,HGP)是由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法国、前西德、日本和中国科学家共同参与了这一预算达30亿美元的人类基因组计划。按照这个计划的设想,在2005年,要把人体内约10万个基因的密码全部解开,同时绘制出人类基因的谱图。换句话说,就是要揭开组成人体4万个基因30亿个碱基对的秘密。人类基因组计划与曼哈顿原子弹计划和阿波罗计划并称为三大科学计划。

人类基因组计划(HGP)的目的是测出人类基因组DNA上30亿个碱基对的序列,发现所有人类基因,找出它们在染色体上的位置,破译人类全部遗传信息。进而解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供科学依据。在人类基因组计划中,还包括对五种生物基因组的研究:大肠埃希菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。

人类基因组计划(HGP)的主要任务是人类的DNA测序,包括下面四张谱图,此外还有测序技术、人类基因组序列变异、功能基因组技术、比较基因组学、社会、法律、伦理研究、生物信息学和计算生物学、教育培训等目的,利用HGP发展起来的这些技术和资源进行生物学研究的科学家,促进了人类健康。

1.遗传图谱(genetic map)

又称连锁图谱(linkage map),它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于1%)的遗传标记为“路标”,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,1%的重组率称为1cM)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。意义:6000多个遗传标记已经能够把人的基因组分成6000多个区域,使得连锁分析法可以找到某一致病或表现型基因与某一标记邻近(紧密连锁)的证据,这样可把这一基因定位于这一已知区域,再对基因进行分离和研究。对于疾病而言,找基因和分析基因是关键。

2.物理图谱(physical map)

物理图谱是指有关构成基因组的全部基因的排列和间距的信息,它是通过对构成基因组的DNA分子进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。DNA物理图谱是指DNA链的限制性酶切片段的排列顺序,即酶切片段在DNA链上的定位。因限制性内切酶在DNA链上的切口是以特异序列为基础的,核苷酸序列不同的DNA,经酶切后就会产生不同长度的DNA片段,由此而构成独特的酶切图谱。因此,DNA物理图谱是DNA分子结构的特征之一。DNA是很大的分子,由限制性内切酶产生的用于测序反应的DNA片段只是其中极小部分,这些片段在DNA链中所处的位置关系是应该首先解决的问题,故DNA物理图谱是顺序测定的基础,也可理解为指导DNA测序的蓝图。

3.序列图谱(sequence map)

随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。DNA序列分析技术是一个包括制备DNA片段化及碱基分析、DNA信息翻译的多阶段过程。通过测序得到基因组的序列图谱。

4.基因图谱(gene map)

基因图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。在人类基因组中鉴别出占2%~5%长度的全部基因的位置、结构与功能,最主要的方法是通过基因的表达产物mRNA反追到染色体的位置。

基因图谱的意义在于它能有效地反映在正常或受控条件下表达的全基因时空图。通过这张图可以了解某一基因在不同时间不同组织、不同水平的表达;也可以了解一种组织中不同时间、不同基因中不同水平的表达,还可以了解某一特定时间、不同组织中的不同基因不同水平的表达。

HGP对人类疾病基因的研究有重要意义,人类疾病相关基因是人类基因组中结构和功能完整性至关重要的信息。对于单基因病,采用“定位克隆”和“定位候选克隆”的全新思路,导致了亨廷顿舞蹈病、遗传性结肠癌和乳腺癌等一大批单基因遗传病致病基因的发现,为这些疾病的基因诊断和基因治疗奠定了基础。对于心血管疾病、肿瘤、糖尿病、神经精神类疾病(老年性痴呆、精神分裂症)、自身免疫性疾病等多基因疾病是目前疾病基因研究的重点。健康相关研究是HGP的重要组成部分,1997年相继提出:“肿瘤基因组解剖计划”“环境基因组学计划”“国际人类基因组单体型图计划(The International HapMap Project)”。(三)后基因组时代

随着人类基因组计划的完成,我们进入了“后基因组学”(post-genomics)时代。基因组学研究重心已开始从揭示生命的所有遗传信息转移到在分子整体水平对功能的研究上,这种转向的一个标志是产生了功能基因组学(functional genomics)这一新学科。功能基因组学是指在全基因组序列测定的基础上,从整体水平研究基因及其产物在不同时间、空间、条件的结构与功能关系及活动规律的学科。人类基因组计划在基因表达图谱方面已取得一定进展,但它有90%的功能尚不明确,功能基因组学将借助生物信息学的技术平台,利用先进的基因表达技术及庞大的生物功能检测体系,从浩瀚无垠的基因库筛选并确知某一特定基因的功能,通过比较分析基因及其表达的状态,确定基因的功能内涵,揭示生命奥秘,甚至开发出基因产品。功能基因组学在后基因组时代占有重要位置,其研究成果直接给人类健康带来福音。

在后基因组时代生物信息学的作用将更加举足轻重,要读懂人类基因组计划测序得到“天书”,仅仅依靠传统的实验观察手段无济于事,必须借助高性能计算机和高效数据处理的算法语言。只有如此,“天书”才能发挥它应有的价值。生命科学的革命性巨变已把生物信息学推到了前台,生物信息技术已成为后基因时代的核心技术之一,在蛋白质组学、功能基因组学、药物基因组学等领域必将更有用武之地,从而对生命科学的发展产生无法估计的巨大影响。三、生物信息学在未来生命科学研究中的作用

21世纪医学模式将发生革命性的变化,生物信息学也将发挥更重要的作用。首先,从19世纪末20世纪初以细胞病理学为基础的医学模式,正在向分子医学(以分子生物学、分子细胞学、分子药理学以及现代计算机技术等为基础)模式转变。人类基因组计划正在建立起人类基因与生理、病理之间关系的知识视图;生物领域的新技术(生物芯片、生物信息学)、新的研究方法(功能基因组学、蛋白组学)在临床中逐步得到应用,更新了医学科学基础。其次,医疗实践以循证医学为主,从基因、蛋白质等大分子水平研究疾病的发病机制,对疾病进行预防、诊断和治疗,目标是向特异性诊断、个体化治疗发展。21世纪,遗传信息在临床环境下的集成应用必将导致个性化医疗等新的临床实践。未来10年预防性基因检测会变得普遍,并将应用在具有家族遗传倾向的个体化监测中,2015年遗传信息将会对临床医学产生普遍影响,医生将通过患者的基因组数据与Internet上可获得的数据库(药物、群体数据、临床档案)进行比较来进行疾病诊断及指导患者治疗;临床医师将能够用计算机输出他们患者的遗传构成,从而能够个性化、有针对性地设计给药。基于遗传信息的决策支持系统、辅助临床医师解释分子标记数据的专家系统、智能化临床决策支持系统等将成为临床医生必不可少的工具。分子水平生物信息检测设备(基因芯片、蛋白质芯片、质谱仪等)将成为医疗领域的新需求。尤其是微流控基因芯片、蛋白质芯片技术将在21世纪成熟并应用于临床,因此生物芯片数据分析技术及分析系统将成为临床医生的常规工具。

此外,伴随着后基因组时代高通量组学(high-throughput omics)技术涌现与生物信息学的飞速发展,出现了大量潜在的生物标记(biomarker),其中一些可以用于疾病诊断和治疗。这些生物标记信息在临床上的应用潜力是巨大的,然而目前仅有少数的标记用于临床实践。如何将这些生物标记应用于临床诊断、疾病风险评估与预防模式、指导个体化治疗、开发新的药物靶点等将是未来生物信息学研究的热点问题,也是转化医学的核心内容。第二节 生物信息学的主要研究内容Section 2 The main research content of bioinformatics

生物信息学早期的研究内容主要局限于基因组序列的存储和分析,随着基因组测序数据迅猛增加及计算机技术快速发展,特别是人类基因组计划的顺利完成,产生了海量的生物学数据。这些数据具有丰富的内涵,其中隐藏着丰富的生物学知识。充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,得到对人类有用的信息,是生物信息学家所面临的一个严峻的挑战。因此,生物信息学的研究内容也在得到不断的丰富和补充。从目前生物信息学的研究内容来看,大致包括以下几个方面:基因组信息学、转录组信息学、蛋白质组信息学和代谢组信息学。一、基因组信息学

基因组是指一种微生物(包括细菌和病毒)或其他生物体细胞中的总DNA或RNA(反转录病毒),包括核DNA、细胞器DNA(动植物线粒体DNA和植物叶绿体DNA)和染色体外遗传成分(如细菌的质粒DNA)。随着人类基因组计划(HGP)的实施,产生了大量的基因组信息,分析这些信息是生物信息学的重要内容。人类基因组共有约30亿个碱基对,对如此大量的信息数据进行搜集、存储及分配是生物学领域从未遇到过的问题。这些数据中包括编码人类全部蛋白质和结构核糖核酸(RNA)的信息,以及调控这些蛋白质和核酸装配成生物体的信息。因此解读这些信息是一个很大的难题。基因组信息学的主要目标就是配合人类基因组计划的各项实验研究,测定人类基因组的完整核苷酸序列,确定约10万个人类基因在染色体上的位置,以及研究包括基因在内的各种DNA片段的功能,也就是“读懂”人类基因组。

基因组信息学涉及基因组信息的获取、处理、存储、分配、分析和解释等所有方面。具体而言,就是要构建研究基因组的数据库,发展包括算法、软件、硬件在内的有效的信息分析工具以及完善与基因组研究相关的国际互联网络。随着基因组信息学研究的不断完善和深入,目前生物信息学涉及的基因组信息学研究主要包括比较基因组学、功能基因组学和药物基因组学等。(一)比较基因组学

比较基因组学(comparative genomics)是基于基因组图谱和测序基础上,对已知的基因和基因组结构进行比较,来了解基因的功能、表达机制和物种进化的学科。利用模式生物基因组与人类基因组之间编码顺序上和结构上的同源性,克隆人类疾病基因,揭示基因功能和疾病分子机制,阐明物种进化关系,及基因组的内在结构。比较基因组学的基础是相关生物基因组的相似性。两种具有较近共同祖先的生物,它们之间具有种属差别的基因组是由祖先基因组进化而来,两种生物在进化的阶段上越接近,它们的基因组相关性就越高。如果生物之间存在很近的亲缘关系,那么它们的基因组就会表现出同线性(synteny),即基因序列的部分或全部保守。这样就可以利用模基因组之间编码顺序上和结构上的同源性,通过已知基因组的作图信息定位另外基因组中的基因,从而揭示基因潜在的功能、阐明物种进化关系及基因组的内在结构。

早期的比较基因组研究中,模式生物基因组被用于研究人类疾病基因的功能,利用基因顺序上的同源性克隆人类疾病基因。利用模式生物实验系统上的优越性,在人类基因组研究中的应用比较作图分析复杂性状,加深对基因组结构的认识。此外,通过对不同亲缘关系物种的基因组序列进行比较,能够鉴定出编码序列、非编码调控序列及给定物种独有的序列。而基因组范围之内的序列比对,可以了解不同物种在核苷酸组成、同线性关系和基因顺序方面的异同,进而得到基因分析预测与定位、生物系统发生进化关系等方面的信息。同种群体内的比较基因组研究则发现基因组存在大量的变异和多态性,而正是这种基因组序列的差异构成了不同个体与群体对疾病的易感性和对药物与环境因子不同反应的遗传学基础。目前最常见的变异和多态性包括单核苷酸多态性(single-nucleotide polymorphism,SNP)和拷贝数变异(copy number variant,CNV)。(二)功能基因组学

功能基因组学(functional genomics)又被称为后基因组学(post-genomics),它利用结构基因组所提供的信息和产物,发展和应用新的实验手段,通过在基因组或系统水平上全面分析基因的功能,使得生物学研究从对单一基因或蛋白质的研究转向多个基因或蛋白质同时进行系统的研究。这是在基因组静态的碱基序列弄清楚之后转入对基因组动态的生物学功能学研究。

功能基因组的一个重要任务是进行基因组功能注释(genome annotation),了解基因的功能,认识基因与疾病的关系,掌握基因的产物及其在生命活动中的作用。在使用全局方法进行研究时,研究人员同时检测大量基因的表达水平,从而在整体水平上获得关于基因功能及基因之间相互作用的信息。如果说生物信息学在人类基因组计划中的着重点是基因组序列的话,那么在功能基因组中,生物信息学的着重点则是序列的生物学意义,基因组编码序列的转录、翻译过程和结果,着重分析基因表达调控信息,分析基因及其产物的功能。在功能基因组时代,应用生物信息学方法,高通量的注释基因组所有编码产物的生物学功能是一个重要的特征。功能基因组学的研究主要包括以下几个方面的内容,并且这几方面都与生物信息学密切相关:①进一步识别基因,识别基因转录调控信息,分析遗传语言;②注释所有基因产物的功能,这是目前基因组功能注释的主要层次。序列同源性分析、生物信息关联分析、生物数据挖掘是进行功能注释的主要生物信息学手段;③研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。(三)药物基因组学

药物基因组学(pharmacogenomics)又被称为基因组药物学或基因组药理学,是生物信息学的一个重要分支,定义为在基因组学的基础上,通过将基因表达或单核苷酸的多态性与药物的疗效或毒性联系起来,研究药物如何由于遗传变异而产生不同的作用。药物基因组学根据患者的基因型来保证最大疗效的同时将不良反应降到最低,用于探索合理的方法来优化药物治疗方案。这样的方法使得个体化治疗(personalized medicine)出现,可以根据每个人独特的基因组成来制定最佳的药物或合并用药治疗方案。

药物基因组学可以说是基因功能学与分子药理学的有机结合,在很多方面这种结合是非常必要的。药物基因组学区别于一般意义上的基因学,它不是以发现人体基因组基因为主要目的,而是相对简单地运用已知的基因理论改善患者的治疗。药物基因组学以药物效应及安全性为目标,研究各种基因突变与药效及安全性的关系。正因为药物基因组学是研究基因序列变异及其对药物不同反应的科学,所以它是研究高效、特效药物的重要途径,通过它为患者或者特定人群寻找合适的药物,药物基因组学强调个体化,有重要的理论意义和广阔的应用前景。如当前对基因的研究可发现带有某种特定基因的人,会对某种特定的药物成分,产生某种特定反应。将这个基因、药物成分与服用后反应的一连串关联,运用在用药之上,就可知道带有某特定基因之人,不适合服用含有某特定成分的药物,进而降低药物副作用产生的风险;反之,也可以知道带有某特定基因之人,特别适合服用含有某特定成分的药物,进而提升治愈疾病的几率。二、转录组信息学

转录组学(transcriptomics)是一门在整体水平上研究细胞中基因转录的情况及转录调控规律的学科。转录组即一个活细胞所能转录出来的所有RNA的总和,是从RNA水平研究基因表达的情况,是研究细胞表型和功能的一个重要手段。转录组是连接基因组遗传信息与生物功能的蛋白质组的纽带,转录水平的调控是最重要也是目前研究最广泛的生物体调控方式。转录组信息学是生物信息学的重要分支,负责研究在特定细胞类型内所生产的RNA分子,探讨在一个特定的细胞群内的基因表达水平和调控情况,通常采用基于DNA芯片技术的高通量技术,最近发展起来的新一代测序技术也广泛用来研究转录组。人类基因组包含有30亿个碱基对,其中大约只有5万个基因转录成mRNA分子,而转录后的mRNA仅部分被翻译生成功能性的蛋白质。与基因组不同,转录组更有时间空间性。我们人体大部分细胞具有一模一样的基因,而即使同一细胞在不同的生长时期及生长环境下,其基因表达情况也是不完全相同的。所以,除了异常的mRNA降解现象(如转录衰减)以外,转录组反映的是特定条件下活跃表达的基因。同时,蛋白质组研究需要更多的转录组研究的信息。因为单一的蛋白质组数据不足以清楚地鉴定基因的功能,因此蛋白质组的数据也需要转录组的研究结果加以印证。因此,转录组的研究可以推断相应未知基因的功能,揭示特定调节基因的作用机制。通过对转录组的研究,科研人员还可以确定不同种类的细胞和组织的基因在何时何地被激活或进入睡眠,对转录本的定量可以了解特定基因的活性和表达量,用于疾病的诊断和治疗,比如与癌症相关的基因表达量的改变可以帮助我们揭开癌症的秘密。(一)基因表达图谱

以DNA为模板合成RNA的转录过程是基因表达的第一步,也是基因表达调控的关键环节。所谓基因表达,是指基因携带的遗传信息转变为可辨别的表型的整个过程。与基因组不同的是,转录组的定义中包含了时间和空间的限定。同一细胞在不同的生长时期及生长环境下,其基因表达情况是不完全相同的。通过测序技术揭示造成差异的情况,已是目前最常用的手段。人类基因组包含有30亿个碱基对,其中大约只有5万个基因转录成mRNA分子,转录后的mRNA能被翻译生成蛋白质的也只占整个转录组的40%左右。通常同一种组织表达几乎相同的一套基因以区别于其他组织,如脑组织或心肌组织等分别只表达全部基因中不同的30%而显示出组织的特异性。

转录组谱可以提供什么条件下什么基因表达的信息,并据此推断相应未知基因的功能,揭示特定调节基因的作用机制。通过这种基于基因表达谱的分子标签,不仅可以辨别细胞的表型归属,还可以用于疾病的诊断。同样对那些临床表现不明显或者缺乏诊断金标准的疾病也具有诊断意义,如自闭症。目前对自闭症的诊断要靠长达十多个小时的临床评估才能做出判断。基础研究证实自闭症不是由单一基因引起,而很可能是由一组不稳定的基因造成的一种多基因病变,通过比对正常人群和患者的转录组差异,筛选出与疾病相关的具有诊断意义的特异性表达差异,一旦这种特异的差异表达谱被建立,就可以用于自闭症的诊断,以便能更早地,甚至可以在出现自闭症临床表现之前就对疾病进行诊断,并及早开始干预治疗。转录组的研究应用于临床的另一个例子是可以将表面上看似相同的病症分为多个亚型,尤其是对原发性恶性肿瘤,通过转录组差异表达谱的建立,可以详细描绘出患者的生存期以及对药物的反应等。(二)转录调控网络

基因表达是指基因在生物体内的转录、剪接、翻译以及转变成具有生物活性的蛋白质分子之前的所有加工过程。人类基因组大约有两万多个基因,但是在单个细胞中,同时表达的基因往往只有几千甚至几百个,而且很多基因只在特定组织或发育阶段表达。从一套基本不变的基因组中产生出多元化的细胞类型是由调控基因活性的各种信号途径所控制。真核生物转录起始十分复杂,往往需要多种蛋白因子的协助,转录因子与RNA聚合酶Ⅱ形成转录起始复合物,共同参与转录起始的过程。作为基因表达的第一步——转录是调控机制的中心。转录调控因子(transcription factors,TFs),也称之为反式作用因子(trans-acting factor)有序地结合在目标基因启动子(promoter)序列中的特殊位点,启动基因的转录和控制基因的转录效率。这些位点被称为转录因子结合位点(transcription factor binding sites,TFBSs),又被称为顺式调控元件(cis-regulatory elements),其长度从几个到十几个碱基对不等。每个转录因子的结合位点通常都有特定的模式,被称为模体(motif)。找到这些特定的序列片段对研究基因的转录调控有着重要意义。(三)转录组测序

基于高通量测序平台的转录组测序技术使能够在单核苷酸水平对任意物种的整体转录活动进行检测,在分析转录本的结构和表达水平的同时,还能够发现未知转录本和稀有转录本,精确的识别可变剪接位点以及cSNP(编码序列单核苷酸多态性),提供最全面的转录组信息。相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更精确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具。

随着二代测序技术的发展,测序成本大幅度降低,大规模转录组测序将成为转录组研究的重要方法。多项研究已经表明,二代测序技术的应用,能有效改善诸如EST、SAGE、CAGE、MPSS、PET和全长cDNA测序等传统转录组研究方法的结果,使之得到大大的提升。基于转录组高通量测序的种种技术优势,此种技术应用范围较广,主要有转录本结构研究(基因边界鉴定、可变剪接研究等),转录本变异研究(如基因融合、编码区SNP研究),非编码区域功能研究(Non-coding RNA研究、microRNA前体研究等),基因表达水平研究以及全新转录本发现。三、蛋白质组信息学

20世纪90年代中期,在人类基因组计划研究及功能基因组学的基础上,产生了在整体水平上研究细胞内蛋白质的组成及其活动规律的学科——蛋白质组学(proteomics)。蛋白质组学以蛋白质组为研究对象,蛋白质组是某种生物所能表达的所有蛋白质,即包括一种细胞乃至一种生物所表达的全部蛋白质,它们都是由RNA从基因那里转录、剪辑信息后选择性拼接和修饰产生。而RNA转录或RNA剪辑的选择性拼接和转录后的修饰能够产生比基因编码数目多得多的蛋白质,从而成为该种生物巨大的蛋白质组。蛋白质组信息学通过对正常个体及病理个体间的蛋白质组比较分析,找到某些“疾病特异性的蛋白质分子”,它们可成为新药物设计的分子靶点,或者也会为疾病的早期诊断提供分子标志。蛋白质组信息学研究不仅能为生命活动规律提供物质基础,也能为众多种疾病机制的阐明及攻克提供理论根据和解决途径。(一)结构蛋白质组学

结构蛋白质组学又称组成蛋白质组学,是一种针对有基因组或转录组数据库的生物体或组织、细胞,建立其蛋白质或亚蛋白质组(或蛋白质表达谱)及其蛋白质组连锁群的一种全景式的蛋白组学研究,从而获得对有机体生命活动的全景式认识。大规模的全基因组测序计划正产生越来越多的序列信息,而理解这些信息的关键是理解基因产物——蛋白质的功能。在后基因组时代,蛋白质的三维结构解析是揭示生命密码的重要部分。随着技术进步和大量来自公共机构和私人企业的资金投入,结构蛋白质组学研究开始启动,它的目标是采用工业化生产的方式在基因组规模去大量测定蛋白质的结构。这将会改变结构生物学家的研究方式。蛋白质结构测定的流程,从cDNA的克隆到数据收集,大部分将实现自动化,结构蛋白质组学是实验和理论计算相结合的多学科交叉的领域。目前,结构蛋白质组学仍然面临着许多技术上的挑战,这些挑战也带来了很多机遇,结构蛋白质组学产生的大量结构信息将是一笔巨大的财富,它将给制药行业带来重大变化。近年来,基于蛋白结构的合理药物设计在制药行业非常流行。同时,它也必将给生物学领域带来一场革命。(二)药物蛋白质组学

将蛋白组学的概念用于药物研究领域,通过对比健康状态与疾病状态的细胞或组织的蛋白质组表达差异,用于药物研究或药物受体的研究或药物治疗前后蛋白质表达状况的总体,以评价药物类似物的结构与活性关系,寻找高活性的药物,由此发展起来的一门学科称之为药物蛋白质组学。药物蛋白质组学在药物研发过程中起着极其重要的作用,药物蛋白质组学的重要研究内容在临床前包括新药和靶的发现、药物作用模式、毒理学研究,在临床研究方面包括疾病特异性蛋白作为有效患者选择的依据和临床试验的标志。应用类似于药物遗传学的方法,按照蛋白质谱来分类患者,并预测药物作用疗效。蛋白质组学和药物蛋白质组学研究当前还处在一个初期发展阶段,甚至连定义还没有来得及完善,相关的技术手段及其配套应用还很不成熟。但这个领域研究之初,对基础研究和实际应用的期望就表现出强烈结合的趋势。随着蛋白质组学、药物蛋白质组学研究的兴起,人们将在蛋白质水平上重新认识诸如生长、发育和代谢调控等生命活动的规律,为研究重大疾病的机制、疾病诊断、防治和新药开发提供重要的理论基础,并正在成为生物技术药物发展的根本动力,并明显加快新诊断和治疗方法的开发。四、代谢组信息学

代谢组学(metabonomics or metabolomics)是效仿基因组学和蛋白质组学的研究思想,对生物体内所有代谢物进行定量分析,并寻找代谢物与生理病理变化相对关系的研究方式,是系统生物学的组成部分。其研究对象大都是相对分子质量1000以内的小分子物质。代谢组包括组织细胞代谢组和系统整体代谢组。其中组织细胞代谢组是指是指某个时间点上一个细胞所有代谢物的集合,尤其指在不同代谢过程中充当底物和产物的小分子物质,如脂质、糖和氨基酸等,可以揭示取样时该细胞的生理状态,人类中有上万亿个不同类型的细胞,它们具有潜在不同的组织细胞代谢组。基因和蛋白质只是为细胞发生的活动做准备,活动中大部分实际上是发生在代谢物上,如信号转导、能量转移、细胞间通信都受代谢物调控。进一步说,基因和蛋白表达紧密相连,但代谢物行为更密切地反映出细胞所处的环境,该环境依赖于细胞所摄取的营养状况,所接触的药物和污染物以及其他影响细胞健康的外在因子情况。也可以这么说,基因组学和蛋白质组学只是告诉人们细胞中可能发生的行为,而组织细胞组学告诉人们细胞实际中所发生的行为。而组织细胞代谢组学是研究生物样品,尤其是尿液、唾液和血液中的代谢物谱(主要是指含有哪些代谢物,丰度和分布状况等)变化规律的新学科。(一)疾病代谢组学

疾病代谢组学作为应用驱动的新兴科学,已在微生物和植物研究、药物毒性和机制研究、疾病诊断和动物模型、基因功能的阐明等领域获得了较广泛的应用,与疾病相关的代谢组学方法与应用研究是目前代谢组学研究的热点之一,广泛应用于病变标志物的发现、疾病的诊断、治疗和预后判断。任何疾病的发生和发展都会影响机体代谢,从而导致体液中代谢物质发生显著变化,通过比较机体生理与疾病状态,甚至是同一疾病不同分型的代谢物的不同,将能找到与疾病诊断及分型相关的标志性代谢物,从而发现表征这些疾病的化学特征模式,代谢组学正好适应这一发展趋势。

生物机体的代谢在正常情况下处于一种动态的平衡中,而当机体患病或出现某种病变,就会打破这种动态的平衡,引起机体内部代谢的紊乱,而这些代谢的紊乱,也通常会使机体的血液、尿液或其他组织液发生一定的变化。因为机体的正常生理活动需要通过体内的各个循环系统的平衡协作而得到保证,包括血液循环、尿的排泄。对尿液和血液等体液代谢组进行检测和分析,就有可能对疾病从发病到病情不断变化的整个过程进行了解和认识,就有可能发现与疾病发生相关的生物标志物并认识相关的病理发生机制,就可以对疾病在其发病之前或发病之初进行预防、诊断和治疗,或者根据疾病不同阶段的特征进行个性化的治疗,达到更好的治疗效果。(二)药物代谢组学

药物代谢组学(pharmacometabonomics)是研究药物作用于细胞靶分子之后所形成的代谢产物的分子特征的科学。从人类组织及体液,如汗液、血液、尿液等这些人类生命过程代谢物质中药物作用过程中的代谢物分子的分析可以推断药物作用于靶分子的过程,用于阐述药物作用的化学机制。不同于传统的药物代谢动力学,药物代谢组学不仅仅关注药物分子本身在作用于靶分子后的代谢产物,还关注药物与靶分子和非靶分子作用后的代谢产物,以及这些产物之间以及它们与无药物作用的代谢产物发生化学反应之后的产物。第三节 当前生物信息学研究的热点Section 3 The hotspot of current bioinformatics research

自从1987年出现bioinformatics这一词汇以来,生物信息学的研究任务随着科研和现实需要的变化而几经更迭。当前,一般认为,生物信息学主要是一门研究生物学系统和生物学过程中的信息流的综合系统科学,通过它独特的桥梁作用和整合作用,使我们能够从各生物学科中众多分散的观测资料中获得对生物学系统和生物学过程的运作机制的理解,最终达到自由应用于相关实践的目的。例如,就疾病而言,生物信息学就是要系统地理解导致机体功能异常的生物机制并从而得出科学的治疗方案;就生物演化而言,生物信息学就是要系统地解释生物界演化的从微观分子水平到宏观形体功能水平的根本原则,从而使人类更好地认识自己在自然界中的地位,科学地认识和改造人类的未来。因此与以往相比,生物信息学无论从认识水平上还是从实践水平上都开创了一种崭新的模式。一、新一代测序数据的生物信息学分析

DNA测序(DNA sequencing)作为一种重要的实验技术,在生物学研究中有着广泛的应用。早在DNA双螺旋结构(Watson and Crick,1953)被发现后不久就有人报道过DNA测序技术,但是当时的操作流程复杂,没能形成规模。随后在1977年Sanger发明了具有里程碑意义的末端终止测序法,同年A.M.Maxam和W.Gilbert发明了化学降解法。Sanger法因为既简便又快速,并经过后续的不断改良,成为迄今为止DNA测序的主流。然而随着科学的发展,传统的Sanger测序已经不能完全满足研究的需要,对模式生物进行基因组重测序以及对一些非模式生物的基因组测序,都需要费用更低、通量更高、速度更快的测序技术,新一代测序技术(next-generation sequencing)应运而生。新一代测序技术的核心思想是边合成边测序(sequencing by synthesis),即通过捕捉新合成的末端标记来确定DNA的序列,现有的技术平台主要包括Roche/454 FLX、Illumina/Solexa Genome Analyzer和Applied Biosystems SOLID System。

随着高通量新一代测序技术的快速发展,DNA测序(DNA-seq)、RNA测序(RNA-seq)已成为基因组、转录组分析的新的重要手段,也为生物信息学研究开创了崭新的局面。新一代测序可一次性获得数百万甚至数十亿的序列数据信息,开发能够快速鉴定出不同组织、不同发育阶段、不同疾病状态下的转录本及其表达差异的生物信息学理论和方法,为基于新一代测序技术的复杂疾病研究提供有力工具,是当前生物信息学研究的重要任务之一。二、非编码区序列分析与功能识别

非编码DNA(或称“垃圾DNA”),是指不包含制造蛋白质的指令,或是只能制造出无转译能力RNA的DNA序列。此类DNA在真核生物的基因组中占大多数。有很长一段时间科学家们没有认识到这些非编码的作用,因此,这些重复的DNA片段被冠以垃圾DNA的称号。随着时间推移,科学家们对垃圾DNA的认识逐渐深入,慢慢地发现其实很多非编码DNA有着其独特的作用,它们在基因剪切等方面起重要的作用。

科学家们已经发现:“垃圾”DNA的功能之一就是调节基因的活动,如同一道指令一样,控制着基因。一些控制基因开和关的特殊蛋白(转录因子)能特异识别基因附近的非编码“垃圾”DNA,通过与它们相互作用参与基因的抑制与激活。科学家还发现,大多数基因的开启和关闭是由附近的“垃圾”DNA控制的。它们就像是基因的“分子”开关,调节基因的活动。许多“垃圾”DNA序列的变化与复杂疾病如关节炎、共济失调症等的发生息息相关。不同个体对药物的反应、对疾病易感性的差异在很多情况下也是由一些特殊的“垃圾”DNA调节的。甚至一些科学家猜想:可能正是“垃圾”DNA造成了人类个体间的差异。迄今为止,细胞中的rRNA、tRNA、snRNA、asRNA、snoRNA、miRNA、piRNA都非编码“垃圾”DNA合成。它们参与到基因活化、基因沉默、基因印记、剂量补偿、蛋白合成与功能调节、代谢调控等众多生物学过程中。

在过去十年里,与复杂疾病关联的微小RNA(microRNA,miRNA)的研究取得了不少成果。miRNA是一类非编码的小RNA分子,其长度约22个核苷酸(nucleotide,简称nt),通过和其靶基因3’非翻译区(3’untranslated region,简称3’UTR)结合引导RNA诱导的沉默复合体(RNA-induced silencing complex,简称RISC)促进其靶mRNA的降解或阻碍其靶mRNA的翻译。大量研究表明miRNA可以通过精细地调节基因的转录表达进而参与细胞的发育、分化、增殖、凋亡以及应激反应等生物学过程。研究人员发现其在复杂疾病的发生发展过程中起着巨大的作用,其功能异常能够导致各种人类复杂疾病(如癌症、心血管疾病等)的发生,这使miRNA成为疾病诊断、预后的新的生物学标记(biomarker),并为进一步揭示复杂疾病的发病机制提供了新的方向。随着对复杂疾病关联的非编码RNA研究的深入,近年来的研究逐渐转向长链非编码RNA(long noncoding RNA,lncRNA)。lncRNA是一类转录本长度超过200nt的RNA分子,它们并不编码蛋白,而是以RNA的形式在多种层面上调控基因的表达水平,如表观遗传调控、转录调控和调控蛋白活性,改变RNA的剪切模式以及转录后调控等。目前研究所展现出的lncRNA繁多的分子生物学功能,为人们研究调控领域提出了崭新的视角。lncRNA通过与DNA、RNA、蛋白质的相互作用,在生命活动调控网络中扮演着十分重要的角色。除了在基因表达调控方面发挥着十分重要的作用,lncRNA与物种进化、胚胎发育、物质代谢以及复杂疾病的发生等都有着紧密的联系。三、整合信息组学

当前,由各种“omics”组学技术,如基因组学、转录组学、蛋白质组学和代谢组学等技术,积累了大量的实验数据。我们面临的挑战是如何从这些组学数据中,利用已有的生物信息学的技术手段,在新的系统层次、多水平、多途径来了解生命过程。鉴于此,人们希望形成一个生物信息学的特定领域,以便解决这些很重要的问题,这就是“整合信息组学”。

用系统生物学的观点,整合各类“omics”组学信息,发展系统整合语言,提出细胞与组织乃至人体的生理和病理的数字化模型,运用系统整合语言发展与中心法则有关的模型与假说,并在实验和临床中加以验证,提出药物与靶点相互作用及其网络作用的模型与假说,并在实验和临床中进行验证,为重大疾病的防治、诊治提供理论依据。随着基因组研究的完成,以及向功能基因组研究的转化,将基因组、转录组、蛋白质组以及比较基因组学的数据综合集成,构建基因调控网络,从系统的角度来研究生物学,为系统生物学的研究提供工具,成为生物信息学的研究重点。此外,新一代测序等高通量技术的应用,产生海量的基因表达数据,这些数据中隐含了基因表达控制的信息,对这些的分析和挖掘,以及数据的标准化已成为生物信息学的研究热点。四、转化医学和临床生物信息学

转化医学(translational medicine),又被称作转化研究(translational research),是近年来国际医学科学领域出现的新概念,是基因组和生物信息学革命的时代产物,通过研究可诊断及监测人类疾病的新参数——生物标志物,为开发新药品、新诊断方法、新治疗方法开辟出一条具有革命性意义的新途径。转化医学研究的主要任务是,将基础研究所取得的成果尽快转化为临床问题的解决方法;将基础研究获得的知识、成果快速转化为临床上的治疗新方法,以及把临床医疗的实际情况反馈给实验室并以此来完善相关课题的基础研究并进一步开展新的研究的一种双向过程,即“从实验室到病房(bench to bedside)”和“从病房到实验室(bedside to bench)”双向通道研究,简称为B2B。

临床生物信息学的目的是应用生物信息学知识和技术来帮助诊断、治疗、预防和控制疾病,以及发展化学的、结构的和生化的方法来应用于临床研究。癌症研究中,在癌症发生的不同阶段,如起始、持续和发展时期,生物信息学工具被用于检测几种癌症的生物标记。根据NCI的解释:生物标记的定义是细胞的、生化的、分子的(遗传和表观遗传)改变。有了生物标记,一个正常的、异常的或简单的生物学过程就可以被识别或监测。生物标记可以通过生物媒介,如组织、细胞或流体来衡量,也可用于评估癌症的早期诊断、风险、癌症分类和预断癌症病情。五、生物信息学与新药研究

当前生物信息学的一个重要任务是辅助药物设计和新药研发。新药研究和开发是一项耗资巨大的工程。过去,每一种新药从研发到投入市场平均需要10~15年,耗费数十亿美元。而现在,生物信息技术为药物研究设计提供了崭新的研究思路和手段,生物信息学所提供的数据和软件可以指导对药物作用靶位的选定和药物分子的设计。这种方法有快速、高效的特点,它的研究范围包括大分子结构功能的模拟和预报、药物分子与大分子结合的模拟、生物分子在指定细胞的分布和位点等。生物信息学已经在新药设计的各个环节,如初始阶段、筛选及药物设计,以及新药开发阶段发挥着越来越重要的作用。利用强大的计算工具,新药开发平均费用时间都大大降低了。

传统药物研究中,可供筛选的化合物数量有限,新药发现的速度很慢,耗资巨大,成功率也很低。生物信息学在筛选及药物设计中的应用,给药物发现带来了新的机遇。在“人类基因组计划”完成后,药物筛选有了很大发展。主要是运用计算机技术,以药物靶标分子三维结构和蛋白质晶体结构为基础,对含有大量化合物结构的数据库进行模拟“筛选”,迅速高效地发现先导化合物及其新用途。这种药物设计的方法是根据靶标分子与药物分子相结合的活性部位的几何形状和化学特征,设计出与其相匹配的具有新颖结构的药物分子。使用这种方法需建立大量化合物的三维结构数据库,然后将库中的分子分别与靶标分子结合,通过不断优化小分子化合物的位置以及分子内部柔性键的二面角,寻找小分子化合物与靶标大分子作用的最佳构象,计算其相互作用及结合能。在库中所有分子均完成特异结合计算之后,即可以从中找出与靶标分子结合的最佳分子。

生物信息学不仅有助于药物靶基的发现、药物设计与药物筛选,而且还有利于药物开发的临床研究。这主要表现在单核苷酸多态(SNP)、药物基因学(pharmacogenomics)和药物遗传学的研究及结果的应用。例如,通过SNP与药物反应的相关分析能够显示出在不同个体的药物作用目标或药物代谢途径中存在某个酶的差异,揭示个体的基因组多态与疾病治疗药物反应之间的关系。这就让我们可以预测出哪种药或疫苗对哪些携带特殊基因型的个人最有效,因此医生就可以根据不同患者对药物的不同反应,进行个体化给药与个体化治疗,提高治疗效果,增加临床试验的成功率,促进个体化药物的开发。

综上,复杂疾病的治疗,逐渐走出实验室,迅速进入转化研究阶段,其重要标志,就是依据基因组学或蛋白组学的临床研究。复杂疾病的发生与发展是一个多基因参与、多步骤、复杂的生物学过程,仅

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载