互联网+基因空间:迈向精准医疗时代(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-03 14:06:16

点击下载

作者:罗奇斌

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

互联网+基因空间:迈向精准医疗时代

互联网+基因空间:迈向精准医疗时代试读:

前言

基因空间的“奇点”到来

在宇宙大爆炸理论中,“奇点”是指由爆炸形成宇宙的那一点;在美国著名科学家雷·库兹韦尔(奇点大学校长)的理论中,“奇点”是指计算机智能和人脑智能相互融合的那个美妙时刻。基因空间的“奇点”,是“基因+互联网+物联网”带来的人工智能时代,最终实现人性的进化。而这个“奇点”的临近,意味着生命数据化的开始,预兆着生命经济时代的到来。

把生命数据化,让每一个人通过一个平台能够浏览自己的各种生命数据,包括基因组数据、医疗纪录数据和生理数据等不同维度的数据。这个海量的生命解码数据库,让医疗健康变得更智能,并开启医学从“治疗”到“预防”的时代。

把生命数据化的第一人克雷格•文特尔(J.Craig Venter)(Human Longevity公司和Synthetic Genomics公司和创始人,曾是Celera公司的创始人)在奇点大学的医学会议上表示,目前基因组学的发展仍然停留在数量上的扩张,这是一件令人遗憾的事情。如果看看截至目前的基因组数据,就会发现全球范围内已经完成了超过22.5万个基因组测序数据。文特尔估计在2020年这个数目将达到500万。文特尔声称:“目前为止,我们能够理解的基因不到整个基因组的百分之一,但即便如此,我们所了解的信息也非常宝贵,我们可以利用这些信息开创新的预防医学范式。现有的信息能够帮助人们理解他们的健康风险,并有希望拯救许多生命。”

然而,并不仅仅只有文特尔懂得这些基因信息的价值所在。美国各大互联网巨头也已经布局生命数据化领域,包括谷歌、IBM、微软和亚马逊等信息时代的巨头。亚马逊的AWS云服务和基因行业的合作,可以一直追溯到NCBI提供的全球范围的基因信息比对搜索引擎。2012年,亚马逊的云服务已经接管了国际千人基因组计划的基因数据存储,当时这是世界上最大的人类遗传学数据库,并且数据是公开和免费的。

另一家信息时代的巨头——谷歌也在悄然布局这个领域。作为一家以搜索引擎发家的企业,谷歌每年在搜索领域的营收超过了600亿美金。这种独特竞争力,让谷歌在进入生命科学领域时看到了一般传统医疗企业无法看到的关键点,那就是可被挖掘的基因大数据。

目前,谷歌已经开始说服科学家和医生,将他们多年积累的基因数据上传到谷歌的云平台Google Genomics,其每年的费用远远低于将这些数据留在自己的私人电脑中。在生命科学领域尝到了甜头,谷歌的野心也开始膨胀,Project Calico提出要解决人类衰老问题,延长人类的寿命;Baseline研究希望构建一个虚拟的健康人来为疾病的预防和控制做指导;癌症纳米检测,顾名思义,就是通过磁性纳米粒子来检测早期阶段的癌症。这些项目都显露了互联网巨头对生命科学领域的日益重视。

成立Calico的初衷源于谷歌风投(Google Venture)的合伙人Bill Maris的想法。Maris曾观察过生命科学版图,发现没有一家专注于延长人类寿命的生物企业,而人类无法避免衰老,但是可以通过技术延长寿命。于是他找到了自己谷歌的老板布林,后来布林找到了合伙人佩奇,3个人进行了对话以后达成共识,让谷歌来赞助整个项目。在Maris找来Levinson征求意见让其推荐CEO人选时,当时已经从基因泰克离职的Levinson当场表示愿意担任Calico的CEO职位。就这样,Calico华丽的核心团队阵容基本奠定。

为什么叫Calico呢?这个词语有多重意思,Calico表示一种猫的毛色分类,其中有三色的含义,有的地方Calico也表示一种冲锋枪,是卡利科枪械系列的一种。Calico读起来有点像California Life Co的意思。据Calico公司的创始人称,Calico的宗旨是延长人的寿命。如果从猫具有九条命的含义来揣摩,Calico很像是取其California Life Co和猫的9命传奇结合而生。由此看来,Calico这个名字和公司的目标“让人类活得更长、更健康”相当吻合。

无独有偶,本书也在尝试通过9个章节把基因科学、基因检测、健康管理、基因产业、精准医学、生命数据化和人工智能等这些关键词放在产业背景下面进行解读。本书希望通过专业科普化的方式将“互联网+基因空间”带入创新创业的热浪中,将基因行业普惠大众的一面呈现给读者。

本书源于作者对基因行业的观察,对基因科学的研究,对互联网发展下的生命数据化趋势的预测。本书不仅从专业角度对基因技术和精准医学有全面而深入浅出的描述,也有对产业转化和商业模式的研究和探讨,基于基因行业的发展和政策动向预测对未来大健康前景做了较全面的分析。

本书既适合用于商界中有志于理解互联网和生命经济时代的人士,也适用于想要更深刻理解科技转产业的研究生和学者,还适用于在基因行业企业中制定战略的管理者,同时也适用于制定行业政策的政府决策领导和任何想要了解基因行业发展趋势的投资从业人员和创业者。希望这本书能为身在基因行业的从业人员及不同行业的跨界人士提供有价值的见解。

本书涉及诸多的专业术语和概念,对于非基因行业的读者来说,本书对大部分的专业术语都做了浅显易懂的解析。在一年多的时间里,作者与一群才华出众、敬业勤奋的学者和企业家合作开展行业研究,准备案例材料。在本书成稿过程中,获得了很多人的帮助和支持,也得到了同事及企业合作者的大力支持,没有他们的帮助和支持,就不会有本书的诞生。

生命的数据化并不是终点,这仅仅只是起点。人类迄今为止无法准确读懂基因密码中的信息。生成基因数据并不是难事,最难的在于人们对于基因信息的理解极度匮乏。要理解基因组和健康的关系,理解每个人之间在基因组上存在差异的意义,还有很长的一段路要走。生命能够被数据化,但是信息化和知识化的过程如此滞后,不得不让人们思考数据化存在背后的意义。罗奇斌奇云诺德CEO2016年12月10日第1章 基因与基因科学

马云曾经预测,下一个世界首富将出在健康产业。比尔·盖茨更具体地指出,下一个能真正超过我的世界首富,一定来自基因领域。基因行业不是“一夜春风就能开”,这是一个技术积累和人才沉淀的领域。基因是什么?基因科学包括哪些领域?带着这些问题,来看看基因科学给医疗、健康和生活带来哪些变革。

2015年年初,美国总统奥巴马在国情咨文演讲中宣布推出新的大规模研发项目“精准医学计划”(Precision Medicine Initiative),同时提议国家投入2.15亿美元进行“百万基因组测序计划”,旨在通过数年的时间,完成100万人的基因组测序,并将这些数据进行整合,打通从基因组数据到临床应用的道路。这项计划让美国继“人类基因组计划”(Human Genome Project,HGP)以后再次使人类医学迈入一个新的时代。

这里提到的“人类基因组计划”,便是继曼哈顿和阿波罗登月计划之后人类科学史上的又一个伟大工程。这个计划由美国科学家于1985年率先提出,于1990年正式启动的。美国、英国、法国、德国、日本和我国科学家共同参与了这一预算达30亿美元的人类基因组计划。

人类基因组计划是一项规模宏大、跨国跨学科的科学探索工程。其宗旨在于要把人体内约2.5万个基因的密码全部解开,测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的,基因组计划是人类为了探索自身的奥秘所迈出的重要一步。截至2005年,人类基因组计划的测序工作已经完成。其中,2001年人类基因组工作草图的发表(由公共基金资助的国际人类基因组计划和私人企业塞雷拉基因组公司各自独立完成,并分别公开发表)被认为是人类基因组计划成功的里程碑。

选择人类的基因组进行研究是因为人类是在“进化”历程上最高级的生物,对它的研究有助于认识自身、掌握生老病死规律、疾病的诊断和治疗、了解生命的起源,使人类长生不老。“人类基因组计划”的目的是解码生命、了解生命的起源、了解生命体生长发育的规律、认识种属之间和个体之间存在差异的起因、认识疾病产生的机制以及长寿与衰老等生命现象、为疾病的诊治提供[1]科学依据。1.1 基因信息无处不在1.1.1 基因的前生今世1.基因的概念和发展

基因一词来自希腊语,意为“种族、后代”,是指携带有遗传信[2]息的一段DNA(脱氧核糖核酸)或RNA(核糖核酸)序列。基因是控制性状的基本遗传单位,如人的身高、体重、皮肤颜色甚至寿命都部分或全部由基因控制。每个人都和他人不同(所谓的个体差异),也是由基因序列上的差异控制的。

第一个发现基因是控制性状基本遗传单位的人是遗传学的奠基人格雷戈尔·约翰·孟德尔(Gregor Johann Mendel,1822年7月20日—[3]1884年1月6日),奥地利人。不过,在孟德尔口中,基因被称为“遗传因子”,因为那时基因一词还没有被创造出来。约从1856—1863年,他在布吕恩(现为捷克的布尔诺)技术学校任物理学和植物学的代理教师期间进行了8年的豌豆杂交实验。他于1866年发表了著名的《植物杂交试验》论文,阐述了遗传学的一些基本规律,包括经典的遗传学第一(分离,见图1-1)和第二(自由组合)定律,为现代遗传学奠定了基础。图1-1 孟德尔的分离定律

其中比较重要的概念有以下几个。(1)生物的所有性状都是通过遗传因子来传递的,遗传因子是一些独立的遗传单位。(2)每一个控制豌豆性状的基因都有两个拷贝,一个来自父方,一个来自母方。这两个拷贝在传给下一代时,首先会分开,每一个子代只接收一个拷贝;它们在遗传上有高度独立性,在分离时互不干扰。(3)来自父母的同一基因的两个拷贝控制着同一性状,如豌豆的高矮,因此称为等位基因。在豌豆中,高矮之间是有主导关系的,也就是说,只要父母中的一个拷贝是长高的,不管另一个拷贝是什么,豌豆就长得比较高。而只有两个拷贝都是长矮的拷贝,豌豆才长得比较矮(见图1-1)。这种关系被称为显性和隐性,显隐性关系在其他物种中也是普遍存在的。(4)显性的等位基因一般用大写字母表示,如A,而对应的隐性则用小写字母a表示。以豌豆为例,如果父母方都是Aa,即它们都长得比较高,其后代中出现aa(矮子)的可能性为25%。Aa的这种基因型被称为杂合,而AA和aa则称为纯合。

之所以重点介绍这种现象,是因为人的许多遗传病都是隐性的。两个健康的个体,如果都是杂合体,其后代患病的可能性就有25%,因此杂合体又称为携带者。在群体当中,两个不相关的个体都是某一特定遗传病的携带者的可能性是非常小的。但如果两人来自同一家族,是近亲,这种可能性就大大增加,后代患病的可能性也急剧上升。这就是为什么近亲结婚在法律上不被允许的原因。

孟德尔的遗传学第二定律是“自由组合定律”,它是指两个性状(如花色和株高)之间的遗传是相对独立的,因而在遗传给下一代时其组合也是随机的。比如父母双方分别是红色高株和白色矮株,那么后代经过分离后的性状就可能有4种,分别是红色高株、红色矮株、白色高株和白色矮株。但由于显隐性关系的存在,这4种组合的比例也不尽相同,而且自由组合并不绝对,是有一定条件限制的。

孟德尔的研究发表后,并没有受到重视。直到19世纪末,他的研究才被三位植物学家,荷兰的德弗里斯、德国的科伦斯和奥地利的切尔马克通过各自的工作分别予以证实,并逐渐被人们所重视。

不过,当时的孟德尔及其他三位植物学家还不知道遗传因子是以怎样的方式存在的,也不了解它的结构。

在这个背景下,1909年丹麦遗传学家约翰逊(W.Johansen 1859—1927年)在《精密遗传学原理》一书中提出“基因”概念,以此来替代孟德尔假定的“遗传因子”。从此,“基因”一词一直在遗传学中被沿用至今。同时,约翰逊还提出了“基因型”,比如上面提到的纯合、杂合、Aa、aa都是基因型,以及“表现型”,上面提到的高矮等。这两个含义不同的术语,初步阐明了基因与性状的关系。不过此时的基因仍然是一个未经观察佐证的、仅靠逻辑推理得出的概念。

孟德尔的工作激发了许多遗传学家的兴趣,经过他们的努力,又产出了一系列重要成果。比如美国实验胚胎学家、遗传学家托马斯·亨特·摩尔根和他的学生们于1908年起开始用果蝇做实验,揭示了遗传学的第三个基本规律——连锁互换规律。摩尔根还认为基因是以线性的方式排列在染色体上的,染色体是孟德尔式遗传性状传递机制的物质基础。他绘制了果蝇的基因在染色体上的位置图,即基因图谱。

后人的研究发现,基因与性状之间的关系并不都像孟德尔所做的那样,是一一对应的关系,而是一对多、多对一和多对多的关系。即存在多个基因控制同一个性状、一个基因控制多个性状等复杂的关系。

随后,又有人提出了数量性状的概念,用以量化多个基因对于同一性状的影响,比如小麦的产量就是数量性状。人的性状通常是由多基因控制的,如人的身高、体重和寿命等都是多基因性状,单基因控制的性状很少见。

人的全部遗传信息的组合称为基因组。碱基是基因和基因组的基本组成部分,DNA有4个碱基:A、T、G、C。DNA在基因组中以双链形式存在,其中A和T配对,G和C配对,如图1-2所示,双链结构有助于DNA的稳定。图1-2 DNA的碱基、互补规则及双链结构

可以把基因比喻为工厂里生产用的图纸,是指导最终产品的蓝图。但比图纸更为有用的是,基因上还有一些用于调控的入口,用以调节产量,以适应不同的内外部环境。例如,吃过饭之后,与消化相关的酶在食物的刺激下会被大量生产出来,这个过程称为基因的表达。等到食物被消化得差不多后,酶的产量会相应减少。这是一个经典的基因调控过程,即一些负责感知的基因产物在其他因素(如食物或食物内的成分)的刺激下,将这些信息传递到负责生产酶的基因那里,激活后者以生产出酶;酶消化食物,刺激物因而逐渐消失,基因的表达也跟着停止。当然,这只是一个简单的例子,真实情况远比其复杂。

基因还可以比喻为有许多控制按钮的、专门为生产某种产品而设计的车床,当然,这种比喻不见得精确。能生产两种产品的基因也是存在的,而且,在高等动植物中,多数基因都能通过所谓的选择剪切产生多个核心功能相同但细节上有微调的终产物。按钮可以控制车床的开和关,开关的条件,以及是全负荷运转还是半负荷运转等。而按钮的启动则需要一定的前提条件,就好比车床需要某些材料准备齐全了才能开动一样。

人的基因组(指全部遗传信息的集合)共包含20000~25000个基因。基因可以单独发挥作用,但大多数情况下仍然与其他基因一起共同发挥作用。后者类似于车间的流水线:一个产品经由多个步骤一步步加工成为最终产品。

一个基因通常由多个其他基因的产物进行调控。这种调控关系是由基因本身或其附近的序列决定的,但也有更为复杂的远端调控序列。因此,当基因序列发生突变时,可能会生成不合格的最终产物,或者调控关系会发生紊乱,这些情况下就可能会导致疾病的出现。

基因发生突变的原因有很多,包括外界环境和内部因素。外界环境通常包括环境污染、经常性的辐射、紫外线照射或者直接接触某些化学物质等,它们都会引发基因突变;而内部因素则主要是衰老和正常代谢产生的活性氧类,已知包括氧离子、过氧化物和含氧自由基等在内的正常代谢产物会直接损伤DNA,同时外界因素的诱导也会造成此类产物的增加。人体是由多个细胞组成的,细胞通常会死去,由新生的细胞取代。除了某些特殊的细胞外,每个细胞都包含一套完整的基因组,这套基因组是通过复制得来的。随着年龄的增加,细胞机能下降,复制过程中的纠错能力也随之下降,复制的错误也会相应增加。于是突变就产生了,并且会随着年龄而逐渐积累,这也是为什么老年人更容易患病的原因之一。图1-3所示为基因的结构、调控及突变。图1-3 基因的结构、调控及突变

通过检查病人的基因序列,科学家就能将某个疾病与特定的突变联系起来,这种联系就是基因检测的原理所在,即通过基因检测,发现某个特定的突变,那么携带者就很有可能患这种病或者对这种病易感。有些疾病是与年龄相关的,即人成长到一定年岁之后才会发病,如遗传性脱发多在中年以后发生。不过可以通过基因检测提前做好准备,或者在疾病还没有恶化之前就给予治疗。2.DNA就是遗传物质

一方面,科学家们努力寻找基因在细胞内的载体是什么,另一方面,DNA在细胞核中很早就被发现并研究,但直到人们把二者联系起来,还是经过了许多年。1944年,艾弗里和麦卡蒂等人发表了关于“转化因子”的重要论文,首次用实验明确证实:DNA是遗传信息的载体。1949年,鲍林与合作者推断基因决定着蛋白质的顺序。1952年,赫希和蔡斯进一步证明遗传物质是DNA而不是蛋白质。20世纪40年代末~50年代初,基因是通过控制蛋白质的合成以控制代谢并决定性状的原理,变得清晰起来。

1953年,美国分子生物学家詹姆斯·沃森和英国物理学家佛朗西斯·克里克根据威尔金斯和富兰克林所进行的X射线衍射分析,提出了著名的DNA双螺旋结构模型,进一步说明基因载体就是DNA。

更加深入的研究证明,基因就是DNA分子的一个区段。每个基因由成百上千个脱氧核苷酸(DNA)组成,多个基因又组成染色体,一个染色体可以包含几个乃至几千个基因。基因的化学本质和分子结构的确定具有划时代的意义,它为基因的复制、转录、表达和调控等方面的研究奠定了基础,开创了分子遗传学的新纪元。3.编码蛋白质的基因和非编码基因

早期发现的基因多数是编码蛋白质的基因,DNA序列通过一定的规则指导蛋白的合成。蛋白质是地球上大多数生物体的必要组成成分,参与了细胞生命活动的每一个进程。某些蛋白质,如上面提到的酶,可以视为细胞内的“工人”,是任务的执行者,此外,还有许多结构性或机械性蛋白质,用以维持必要的细胞结构。

DNA指导蛋白质合成的过程其实还有一个中间步骤,RNA(核糖核酸),也就是以DNA为模板合成RNA,然后由RNA指导合成蛋白质。这样做的部分原因是基因在细胞内的数量有限,大多只有两个拷贝(一个来自父方,一个来自母方);由DNA为模板合成RNA是一个扩增的过程:一个DNA可以指导合成成千上万的RNA,然后由RNA指导合成蛋白质,同时可以增加合成的速度。

除了用于指导合成蛋白的基因,通常所说的编码基因,还有终产物是RNA的基因;后者不指导生成蛋白质,而是以RNA的形式起作用,常被称为非编码基因。非编码基因通常起调控作用。图1-4所示为基因的类型及基因的转录和翻译。图1-4 基因的类型及基因的转录和翻译

以疾病防治为目标的基因检测通常针对蛋白编码基因,但随着对非编码基因研究的深入,针对它们的基因检测也会越来越多。

综合来讲,对于基因的理解可以总结为以下几点内容。(1)基因是遗传信息的载体,人们从父母那里获得这些遗传信息,并会传递给下一代。(2)大多数基因都有两个拷贝,一个来自父方,一个来自母方。二者有大体相同的功能。(3)其中一个拷贝有缺陷时,由于有另一个拷贝的存在,所以人并不一定会生病。但两个拷贝都有缺陷时,就可能会患疾病。(4)两个健康的父母,如果各有一个有缺陷的拷贝,那么后代患病的可能性就是25%。1.1.2 基因信息和生物信息1.什么是生物信息学

迈克尔·沃特曼(Michael Waterman)教授率先将数学和计算方法引入生物学研究,在生物信息领域有许多开创性的贡献,被誉为“生物信息学之父”。生物信息学(Bioinformatics)是一门跨专业的学科,它利用数学、统计、信息学和计算机科学的方法研究生物学问题。生物信息学研究的材料是越来越多的各种生物学数据,研究方法和内容涵盖以下几个方面。(1)数据收集、整理和筛选。(2)数据整合、管理和显示。(3)数据挖掘。

研究方向主要包括序列比对、基因识别、基因重组、蛋白质结构预测、基因表达、蛋白质反应的预测,以及建立进化模型等。

当然,开发应用于上述目的的工具也是生物信息学的研究内容之一。

生物信息学的兴起有两方面的原因。第一,计算机技术的发展使得其能够用于处理复杂的生物学计算。第二,生物技术的发展使得数据产生变得非常容易而且廉价,大量而复杂的数据必须使用计算机、很多时候甚至是大型服务器才能够处理。

生物技术的发展已经使得实验进入了自动化和高通量时代,使得科学家们能够在短时间内获得大量的数据。

以测序为例,所谓的第二代测序方法,成本低廉,可以用较小的成本快速获得大量的数据。用“边连接边测序”方法,一次运行需要1~2周,就可产生14亿碱基的测序量;存储在硬盘上需要3GB的硬盘空间(碱基加上质量数据;1GB大约相当于1小时1080p电影所占的硬盘空间)。而每10亿碱基的成本大约是800元(这里的成本并没有计入人工和硬件消耗)。而Illumina公司的边合成边测序技术每次运行则能得到最多30亿碱基的测序量;每10亿碱基成本与SOLiD相当,所需要的时间则更短。

相比之下,传统的Sanger测序法的成本大约是15000元,而且通量远远比不上二代测序技术。

以寻找人的致病基因突变为例,一个中型的实验就需要50~100个样品。以一个样品测序得到30亿碱基计算,最后能得到3000亿碱基的数据。这样大量的数据用眼睛去看当然是不可以的,必须使用大型服务器才能进行下一步分析。2.怎么用生物信息学方法分析基因信息?

高通量测序技术的诞生对于基因科学领域的研究具有里程碑意义。相关技术使测序的每碱基成本与传统Sanger测序相比急剧下降。如此低廉的成本不仅使得破解复杂疾病的基因密码成为可能,而且能让基因检测在价格上为大众所接受。

以基因检测为例,从测序得到基因序列再到健康状况评估和疾病的诊断,其中的每一个步骤都需要用到哪些生物信息学的工具呢?现代生物信息学的发展又为基因检测从学术到应用提供了哪些便利呢?

首先,收集、整理、存储疾病与基因突变的关系,需要生物信息技术。经过几十年的研究,许多疾病与基因突变之间的关系都是已知的。但是相关的信息可能散落在各处,由不同的实验室发表在不同的科学杂志上。信息科学里有一个方向称为“文本挖掘”,即计算机用一定的算法,根据研究的需要,自动在文献中寻找基因与疾病的关系。由于疾病研究的飞速发展,新的研究结果不断出现,就需要经常性地在新文献结果中进行“文本挖掘”。此外,整合已有的疾病基因关系数据库,分析不同数据之间不一致的地方,都是基因检测的基础。因此,这些生物医学数据收集整合自动化离不开生物信息学。

其次,基因检测结果的解析需要生物信息学。基因检测一般以寻找特定的基因突变为目的,所用技术可以是基因芯片或测序。以测序为例,得到全基因组或者目标片段的序列后,一般要经过质量检查、与标准序列比对、鉴定基因突变、搜索数据库以评估突变对健康的影响,以及最后出具检测报告等步骤。这其中的每一个步骤都需要生物信息学技术的支持。

最后,检测报告的存储、展示、转移,以及其中所涉及的用户数据安全和隐私保护,也都是生物信息学研究的内容。

当然,通过研究病人数据,找出新的致病基因就更离不开生物信息学了。由此可见,生物信息学是解读基因信息的必备工具,而且,以基因检测为目的的生物信息学需要做到以下三点,自动化、“云计算”化和标准化。

现阶段由于政策的限制,以诊断为目的的基因检测还只能通过医院开展,但并不排除将来面向大众用户的可能性。无论哪种用户,分析工具的易用性都是要优先考虑的。一些初创企业,都将成熟的分析流程搬到网上,允许用户通过网页提交他们的测序数据;然后由后台的服务器自动进行数据分析、解释并出具报告。给用户的报告也是以网页的形式呈现的,整个过程都基本实现了自动化。

也有一些初创企业提供全套的解决方案,他们专注于后台分析工具的开发,并允许用户在他们专有的服务器上运行这些工具,所谓的“云计算”解决方案。这有点像手机领域的联发科技,为手机生产企业提供软硬件结合的手机模板;手机企业可以根据自己的定位选择相应的模板,添加自己的特色功能,贴上自己的牌子就可以了。这种“云计算”方案使得基因检测更专业,门槛更低。

基因检测如果确认了某个致病突变的存在,就必须交到专业的医生那里,由后者提供专业的建议和治疗方案。但是,在这个过程中患者应该有选择医院和医生的自由;因此,检测报告的书写,特别是一些专业术语的使用,需要采取一定的标准。这样,不同的医疗保险机构才能正确理解并自动处理报告的内容,而“标准化”便是跨机构信息交流和自动处理的先决条件。1.2 基因科学的发展1.2.1 基因科学的崛起1.DNA双螺旋结构的破译

DNA双螺旋结构的发现,是现代分子生物学最重要的事件,它解决了当时横在人们心里几十年的疑问,引发了分子生物学的大爆发。DNA双螺旋结构于1953年被沃森(James D.Watson,美国分子生物学家)和克里克(Francis Harry Compton Crick,英国分子生物学家)发现,仅仅9年之后,他们就获得了诺贝尔奖。这种速度足见这项发现的划时代意义。

双螺旋发现的过程也很有趣。在沃森和克里克发表双螺旋之前,最有名的DNA结构模型是美国化学家鲍林(Linus Pauling)推崇的DNA三链结构模型。后者在双螺旋发表前夕实际上已经走到了死胡同,没有办法解决DNA如何在分子水平上复制等一系列问题。

1951年,罗沙琳德·弗兰克林(Rosalind Franklin)已经获得了DNA的清晰X射线衍射照片,X射线衍射是解释大分子3级结构的主要方法之一。1953年2月14日,在没有经过罗沙琳德同意的情况下,莫里斯·威尔金斯(Maurice Wilkins)把罗沙琳德未经发表的照片给了沃森和克里克,这两个人当时就眼前一亮。

1953年4月25日,《自然》杂志发表了沃森和克里克写的题为“DNA的结构”(Molecular structure of nucleic acids;a structure for [4]deoxyribose nucleic acid)的文章,而投稿的日期是4月2日。也就是说,在两个人看到X射线衍射照片之后的短短1个半月的时间内,就完成了对数据的解析、对DNA结构模型的破解,以及文章的撰写;而这篇文章从接收到发表,也只用了短短的24天。想想这篇文章在分子生物学历史上的重要科学价值,就让人觉得不可思议。

这篇文章也就一页多一点,只有一张DNA模型的线条图和6篇参考文献。沃森和克里克在文中首先驳斥了鲍林的DNA三链结构模型,然后描述了自己的DNA模型:两条多核苷酸链形成一个右手的、反向平行的双螺旋结构;碱基在内、磷酸与糖基在外。此外,他们还给出了碱基之间的距离、同链上核苷酸之间夹角的计算,以及两条链上碱基的互补配对关系。

在同一期杂志上,还刊发了另外两篇关于DNA模型的文章,作者[5]分别是莫里斯·威尔金斯和罗沙琳德·弗兰克林。9年后的1962年,沃森、克里克和威尔金斯也因此获得了诺贝尔奖。

DNA模型的成功构建,罗沙琳德·弗兰克林女士的工作功不可没,没有她的X射线衍射结果,沃森和克里克就解析不出来正确的模型。可惜的是,她1958年因癌症过世,年仅37岁。诺贝尔奖规定,不提名已过世的人;诺贝尔奖另一个不成文规定是不把奖授予3个以上的个人。她的去世,等于将机会给了沃森、克里克和威尔金斯这3人。否则,诺贝尔可能属于她。但无论如何,罗沙琳德·弗兰克林对科学的贡献也得到了科学界的广泛认可。

在编写本书之际,欣闻我国中医科学院终身研究员兼首席研究员屠呦呦女士,因其在抗疟药青蒿素和双氢青蒿素上的杰出工作,获得了2015年诺贝尔生理学或医学奖。这是诺贝尔奖历史上第一位以中国公民身份获得自然科学类奖项,而且主要工作是在中国完成的,实现了中国科学史上零的突破。在此恭喜屠呦呦女士,也祝愿我国在诺贝尔奖这条路上越走越远。

屠呦呦女士缔造了中华人民共和国科学家的若干纪录,包括首位拉斯克临床医学研究奖得主、华人暨亚洲女性首位诺贝尔医学奖得主,同时也是首位接受本土高等教育培养,且在中国进行研究工作的自然科学诺贝尔奖得主。

纵观诺贝尔奖的历史,获奖者大都来自经济强国;因此,国家的经济科研实力与诺贝尔奖是密不可分的。相信随着中国实力的不断增强,科研实力的不断进步,未来会有更多诺贝尔奖等着我们。2.从DNA到RNA到蛋白质:生命遗传密码的破译

细胞的功能主要由蛋白质来完成。在一个细胞内,一个基因对应的蛋白质可能有成千上万,但基因只有一份。如果直接由DNA指导合成蛋白质,效率低,很难完成一些需要即时反应的调控。因此,生命就“发明”了一套方法,先以目标基因DNA片段为模板扩增合成mRNA,即所谓的信使RNA,然后再以RNA为模板,将其中的信息翻译为蛋白质。这个过程即是所谓的“中心法则”。

中心法则的核心思想是扩增,把DNA中的遗传信息通过两轮扩增,以产生足够量的蛋白质。在这个过程中,由DNA到RNA的过程被称为转录。脱氧核糖核酸(DNA)与核糖核酸(RNA)是一一对应关系,所以“录”表示这是一个类似于“复印”的过程。从RNA到蛋白质称为翻译,因为每3个核糖核酸组合在一起决定一个氨基酸,后者是蛋白质的基本组成成分。

参与信息传递的RNA共有4个,分别是A、T、G、U,任意3个组合在一起,就有64种组合方式。其中的3种组合并不对应任何氨基酸,余下的61个3联体组合(又称为密码子)对应20种氨基酸,这种对应关系被称为密码子表。密码子表在不同物种中大体上是一样的,但也有细微的差别。

密码子的发现是基因科学历史上的重大事件。在它之前,科学家已经知道了DNA就是遗传物质,蛋白质就是细胞功能的执行者,但遗传信息是如何从DNA一步步传递给蛋白质的,曾经一度迷惑了很多科学家。密码子和密码子表的发现,实现了基因科学史上的重大跨越,可以说,密码子表的发现意味着现代遗传的拼图已经逐渐完整了。

这么重要的发现当然少不了诺贝尔奖的关注。Nirenberg,诺贝尔奖的获得者之一,对于密码子表的研究始于1961年。仅仅7年之后的1968年,他便和Khorana、Holley共同获得了诺贝尔生理医学奖。3.非编码基因的崛起

非编码基因根据其功能范围可以分为两类,主要起调控功能的调控RNA,以及在翻译中起实质作用的核糖体RNA和转运RNA,后者发现得比较早。这些基因的特点是经转录后形成RNA,以RNA为主要作用形式,而不是翻译成蛋白质后再起作用。

核糖体RNA在细胞内是最重要的一类大分子占细胞干重的60%;相对之下蛋白质只占不到40%。核糖体RNA与数十个蛋白质一起组成核糖体,负责在翻译时将单个氨基酸连接到合成中的肽链上。转运RNA是将编码基因翻译成蛋白质的重要分子,它的一端用于识别编码基因上的密码子,另一端则连着密码子相对应的氨基酸。这两类非编码基因拥有具体的功能,在基因科学史上也发现得较早。

另一类非编码基因主要起调控作用,它们大都通过序列互补与目标基因或序列结合,形成稳定的双链结构,从而抑制目标基因的活性或者稳定性。有些双链结构还能被酶识别和切割,然后释放出来非编码基因重新使用。相比蛋白质,非编码基因对目标的调控有着直接快速的特点;另外,有些非编码基因较短,可以一次识别较多的目标基因,因此也有广谱性的特点。

非编码基因的研究始于转基因静默(Transgene silencing)效应的研究。科学家们在1989年于植物中发现,外源基因转入到细胞内后,有一些不能发挥作用,被“静默”了。次年,科学家们就证明了这种调控的原理是序列互补(又称反义RNA),即细胞本身会产生一些与外源基因互补的序列,相互配对,以沉默外源基因。

事实上,大部分非编码基因都是通过这种方式行使其功能的。

1992年,与X染色体去活化相关的非编码基因XIST被发现了。在女性的细胞中有两个X染色体,但通常只有一条是活跃的,另一条活性被抑制并包装成异染色质,通常所说的失活。XIST参与了X染色体失活的过程。异染色质的特点是高度浓缩,染色后在显微镜下能被很明显地看到。女性细胞的这种特点被用来分辨胎儿的性别,先抽取孕妇羊水,再分离出胎儿细胞,然后进行染色,就能够通过有无异染色质化的X染色体来确定胎儿的性别。

20世纪最后的几年里,先后发现了一些重要的短非编码RNA基因,包括microRNA和smallRNA(比microRNA长一些,但一般长度也较短)。microRNA一般有22个碱基左右,存在于植物、动物和病毒中。与目标RNA(蛋白编码基因)以互补方式结合后,通过以下3种方式之一发挥作用:①结合的mRNA被切割;②降低结合的mRNA的稳定性;③降低目标mRNA的翻译效率。在植物中,microRNA全长与目标mRNA互补性结合,然后诱导目标的切割。但是在动物中,通常只由microRNA的5端6~8碱基与目标mRNA互补结合,这段碱基序列被称为种子区域,但结合后的双链结构不足以引发mRNA被切割。在动物中,两个以上microRNA同时作用相同mRNA的情况比较普遍。由于microRNA的种子区域较短,在mRNA序列中随机出现的可能性较高,因此一个microRNA通常有很多个目标基因,一个mRNA也可能由多个microRNA同时作用。

非编码基因是细胞的正常组成部分,其序列突变或者表达失调后可能会引起疾病。比如,miR-96基因的种子区突变时,可能引起遗传性的进行性听力丧失;miR-184的种子区突变时会引起遗传性的圆锥角膜和前部极白内障;miR-17~92家族成员的缺失会造成骨骼及生长方面的缺陷。此外,研究表明,许多microRNA与肿瘤有着密不可分的联系。

近些年,人们又发现了所谓的长非编码RNA,打破了传统上认为的非编码基因通常较短的认知,进一步扩展了非编码基因家族。长非编码RNA的调节方式及其具体功能目前还在进一步研究中。1.2.2 基因科学的未来1.基因科学的任务和挑战

基因科学的任务,从总体上来讲,包括鉴定基因组中所有的功能区域、鉴定所有疾病相关基因、评估基因突变的疾病风险、解析所有基因的功能、开发新的诊疗手段和治疗药物。

每一项任务都非常的艰巨。以鉴定基因组中所有的功能区域为例,就非常困难。虽然人类基因组测序已经完成了15年,但基因组中哪些区域是与功能相关的,其功能是什么,它们是在什么组织内、什么条件下有功能等问题还很难回答。近些年来,基因组中功能区域的概念一再延伸,从短非编码基因到近端和远端调控序列,再到现在正热门的长非编码基因。可以说,人是通过这些功能区域之间的相互作用来定义的,这种相互作用构成的网络的状态,定义了人的状态,如生老病死。但是,这种互相作用不仅受时间和空间的影响,而且是与环境互相作用的结果。从这种角度看,对于基因功能的研究,可能要上升到4维甚至5维的高度;这里3~5维分别指时间、空间以及与环境的互作。更为复杂的是,环境还可以分解为外部环境,如天气、辐射强度和粉尘状况等;以及内部环境,如人的心理状态、体内或体表微生物群的组成等。但是,知道人的基因组全部序列,也只是完成了破解生命密码的第一步,只能算是掌握了“生命天书”的只言片语,要把这些词语连成句子、段落和整篇文章,还有相当长的路要走。

况且,鉴定所有疾病相关基因不仅需要大量的人力和物力,还由于人类大多数疾病是由多基因控制的,解析相关基因时所需要的样品数量与基因的复杂度成正比;而且,还要考虑人种与地域间的差异。评估基因突变的疾病风险也存在巨大的挑战。多基因疾病的表现程度不仅取决于有多少个基因发生了突变,而且还与这些基因间的相互作用有关。要完整解析每一种突变组合的疾病风险,不仅需要大量的样品,而且需要复杂的算法处理突变与样品表现型之间的对应关系,这种复杂的计算必须要用超级计算机配合机器学习的算法才能处理得好。

截至2011年的数据,科学家们已经发现了2000种疾病,以及它们和基因突变的关系,但只有其中700种疾病有药可治。其主要原因是大多引发疾病的突变会使所在基因功能受损或者失活;要进行治疗,就必须用一定的方法恢复和重现基因功能,这在药物水平上是非常难以实现的。

不过,最近几年来的研究,特别是利用CRISPR系统进行基因编辑方面的研究,使得修复基因突变、从根本上治疗甚至治愈基因疾病成为可能。2.通过CRISPR基因编辑治疗基因疾病

常间回文重复序列丛集(Clustered Regularly Interspaced Short Palindromic Repeats,CRISPR),意为有一组回文短序列,之间由其他等长或类似长度的序列间隔,这些间隔序列又被称为“间区”。所谓回文序列是一段序列,从前向后看与从后向前看时是一样的,比如“上海自来水来自海上”。CRISPR系统存在于所有的古细菌和部分细菌中,是这些原核生物免费系统的一部分,被用来对付入侵的病毒和质粒。

CRISPR是指一段DNA序列。这段序列由Cas蛋白(CRISPR相关蛋白)进行识别和处理。现今所说的CRISPR,通常是指CRISPR/Cas这一套系统。

CRISPR的间区序列通常来源于前次入侵的病毒和质粒,CRISPR可以被转录为RNA。当相应的病毒和质粒再次入侵时,CRISPR RNA上的病毒和质粒片段能以互补的方式和入侵的DNA结合,在Cas蛋白的帮助下,将对应的互补片段切割。

科学家们研究发现,把Cas蛋白和一段指导RNA同时引入人细胞内,可以用来切除人基因组上与指导RNA互补的序列。此系统还可以提供一段模板,用于替换被切除的片段。因此,CRISPR系统在疾病治疗上有非常广阔的前景:它既可以使指定的目标片段失活,也可以将指定的基因突变替换为正常的序列,从而达到治疗甚至治愈相应疾病的目的。

CRISPR系统简单易用,功能强大,因此很快就被应用到了人身上。据媒体报道,截至2015年3月,已经有至少4家美国的实验室,不少中国和英国的实验室,以及一家美国生物技术企业将CRISPR技术应用到人类胚胎上去。2015年4月,广州中山大学的科学家们在《蛋白和细胞》杂志上发表了他们的人类胚胎实验结果。他们在受精卵发育早期引入CRISPR系统试图修复HBB基因上的一个突变。HBB突变可以诱发地中海贫血,当胚胎接收到的来自父母双方的HBB都突变时,胚胎是不能存活的。他们的研究发现,CRISPR系统可以有效地切除损坏的HBB基因。但是,修复的效率并不高。在少数有修复发生的胚胎内,也并不是所有的细胞都被修复了。这个研究是第一个公开将CRISPR系统应用于人类胚胎的案例,作者们试图将文章投往科学界最顶尖的杂志《自然》和《科学》,但都因伦理问题被拒了。但是,他们的文章还是受到了广泛的关注。1.3 基因科学带来的变革

基因科学的快速发展,首先为医疗行业带来了巨大变革。医生的诊疗方式会更有效,用药更有针对性,患者在寻医问药上也将有更多的选择。而且,基因科学的力量也将显现在整个健康行业的方方面面。比如,医疗保险行业,已经有许多公司开始拥抱基因检测产品了;面向大众的基因检测大多以疾病风险评估为目的,并依检测结果为个人提出个性化的预防性措施。当足够多的人接触到基因检测产品,并依其指导意见改变日常行为(更多健康的运动)或消费习惯(更健康的饮食)时,势必对相关行业产生巨大的影响。

例如,潜能基因检测开始慢慢走入人们的视野。在运动事业领域,基因检测已经应用于人类某些潜能的发掘,如运动体质、肌力爆发力和耐力潜能等;在少儿教育方面,还可以开展儿童天赋基因检测,评估孩子的天赋倾向,以便有针对性地进行教育培养。基因科学也会渗透到个人决策的各个层面,比如,肺癌易感基因携带者在从业时就应该避开高粉尘类企业。

现代医学研究证明,除外伤外,几乎所有的疾病都和基因有关系。像血液分不同血型一样,人体中正常基因也分为不同的基因型,即基因多态型。不同的基因型对环境因素的敏感性不同,敏感基因型在环境因素的作用下可引起疾病。另外,由遗传物质发生改变而引起的或者是由致病基因所控制的疾病,被称为为遗传病。

可以说,引发疾病的根本原因有三种:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载