大数据+医疗:科学时代的思维与决策(txt+pdf+epub+mobi电子书下载)

作者:动脉网蛋壳研究院

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据+医疗:科学时代的思维与决策

大数据+医疗:科学时代的思维与决策试读:

前言

伴随万物的行为逐步被数据所量化,医疗大数据的形式和数量将极大地丰富起来,整个医疗领域会迎来一个新的时期,即持久而深远的大数据革命。

健康医疗大数据作为国家的基础性战略资源和重要的生产要素,对它的深度挖掘能够为医疗健康领域的发展贡献非常大的价值,是一笔巨大的财富。医疗健康大数据已经在医疗辅助决策、疾病治疗、医院管理、医药研发等领域发挥价值,带动产业的发展。

医疗大数据行业的发展并不是一蹴而就的。自医疗信息化时代来临,我们就开始产生和积累健康医疗数据,但当时并没有大数据的概念,数据的应用价值低。那时候的数据量小、数据来源少、采样频率低、数据颗粒粗,还没有对医疗数据的下一步应用做好打算。医疗信息化行业主要解决的是数据的集成和共享问题,让系统之间实现互联互通。

随着信息化、物联网、传感器、云计算、人工智能等技术的进步,存储成本的降低,数据的价值逐步被挖掘出来,应用范围和领域也在扩展。汇集在医疗领域的数据就像一座矿山,在采集和冶炼之后,就变成了财富。

医疗大数据的价值,取决于使用者和应用场景。如果从使用对象来看,医疗大数据的应用者主要包含以下五个对象,现阶段中医生、医院是医疗大数据的主要产生者和使用者。

一是为医生服务。实现临床的辅助决策支持,优化诊疗方案。对医生的科研工作提供数据支持和帮助。

二是为医疗机构的管理者服务。帮助他们进行事务、人员、物资的管理,辅助管理决策。

三是为普通居民服务。通过疾病和健康大数据,结合患者基因学数据,能针对不同疾病建立个性化的治疗方案。为居民提供健康管理和健康数据监控,为慢病患者提供慢病管理方案,为患者提供健康行为指导。

四是为药企服务。药企通过医疗大数据和销售大数据,降低医药研发成本,制定精准的市场营销方案。

五是为保险服务。通过医疗大数据、医疗费用大数据,建立保险模型,降低保费的同时,提高利润率,扩大保险覆盖范围。

医疗大数据和其他领域的大数据不一样,有可能被人利用,损害社会公共利益,因此在数据形式、监管和安全方面有着自己的特点。健康医疗大数据已经成为关系国计民生和社会稳定的关键信息,直接关系着国家安全。

2016年,国务院办公厅发布47号文——《关于促进和规范健康医疗大数据应用发展的指导意见》,该意见的出台将医疗大数据正式纳入国家发展战略,并提出了行业发展基本原则和目标,对医疗大数据行业的发展产生了深刻的影响。国务院提出,到2020年,要建成国家医疗卫生信息分级开放应用平台,建成100个区域临床医学数据示范中心,医疗、医药、医保和健康各相关领域数据融合应用取得明显成效。

本书从医疗大数据的行业发展现状、医疗大数据的应用场景、企业布局、政策监管等方面进行探讨,对医疗大数据的行业发展做了全面的分析和展示。伴随着国家大数据战略的实施,医疗大数据领域迎来前所未有的发展机遇,医疗商业闭环也逐步形成,最终实现提高医疗服务效率、降低医疗成本、提高医疗服务水平的目的。第一章 医疗走进大数据时代“大数据”的概念从问世到现在,在全世界掀起了一次又一次的热潮。如今,各行各业都涉足大数据或深或浅的挖掘与研究,一个大规模生产、分享和应用数据的时代已然开启。与十年前相比,手机的计算能力、存储能力等都有了飞跃性的提升。数据存储量发生了指数级增长,通过数据的采集、传输和存储等,最终导致了大数据的形成。基于互联网以及大数据技术,对医疗领域中各层次的医疗信息和数据进行挖掘和分析,这样的大数据在医疗行业的应用已逐步受到市场的关注。医疗大数据作为医疗健康发展的核心价值之一,是医疗向数字化转型的有力抓手,也是助力医疗前行不可小觑的驱动力。1.1 大数据发展的基础

顾名思义,大数据就是数量极其庞大的数据资料。从20世纪80年代开始,每隔40个月世界上储存的人均科技信息量就会翻倍。[1]2012年,每天会有2.5EB的数据产生。2014年,每天会有2.3ZB的[2]数据产生。大数据产业是指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。

党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,全面推进大数据发展,加快建设数据强国。大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。“十二五”期间,我国信息产业迅速壮大,信息技术快速发展,互联网经济日益繁荣,积累了丰富的数据资源,技术创新取得了明显突破,应用势头良好,为“十三五”时期我国大数据产业加快发展奠定了坚实基础。

信息化积累了丰富的数据资源。我国信息化发展水平日益提高,对数据资源的采集、挖掘和应用水平不断深化。政务信息化水平不断提升,全国面向公众的政府网站达8.4万个。智慧城市建设全面展开,“十二五”期间近300个城市进行了智慧城市试点。政务化和信息化融合发展进程不断深入,正进入向纵深发展的新阶段。信息消费蓬勃发展,网民数量超过7亿,移动电话用户规模已经突破13亿,均居世界[3]第一。月度户均移动互联网接入流量达835MB。政府部门、互联网企业、大型集团企业积累沉淀了大量的数据资源。我国已成为产生和积累数据量最大、数据类型最丰富的国家之一。

大数据技术创新取得明显突破。在软硬件方面,国内骨干软硬件企业陆续推出自主研发的大数据基础平台产品,一批信息服务企业面向特定领域研发数据分析工具,提供创新型数据服务。在平台建设方面,互联网龙头企业服务器单集群规模达到上万台,具备建设和运维超大规模大数据平台的技术实力。在智能分析方面,部分企业积极布局深度学习等人工智能前沿技术,在语音识别、图像理解、文本挖掘等方面抢占技术制高点。在开源技术方面,我国对国际大数据开源软件社区的贡献不断增大。

大数据应用推进势头良好。大数据在互联网服务中得到广泛应用,大幅度提升网络社交、电商、广告、搜索等服务的个性化和智能化水平,催生共享经济等数据驱动的新兴业态。大数据加速向传统产业渗透,驱动生产方式和管理模式变革,推动制造业向网络化、数字化和智能化方向发展。电信、金融、交通等行业利用已积累的丰富数据资源,积极探索客户细分、风险防控、信用评价等应用,加快服务优化、业务创新和产业升级步伐。

大数据产业体系初具雏形。2015年,我国信息产业收入达到17.1万亿元,比2010年进入“十二五”前翻了一番。其中软件和信息技术服务业实现软件业务收入4.3万亿元,同比增长15.7%。大型数据中心向绿色化、集约化发展,跨地区经营互联网数据中心(IDC)业务的企业达到295家。云计算服务逐渐成熟,主要云计算平台的数据处理规模已跻身世界前列,为大数据提供强大的计算存储能力并促进数据集聚。在大数据资源建设、大数据技术、大数据应用领域涌现出一批新模式和新业态。龙头企业引领,上下游企业互动的产业格局初步形成。基于大数据的创新创业日趋活跃,大数据技术、产业与服务成为社会资本投入的热点。

大数据产业支撑能力日益增强。形成了大数据标准化工作机制,大数据标准体系初步形成,开展了大数据技术、交易、开放共享、工业大数据等国家标准的研制工作,部分标准在北京、上海、贵阳开展了试点示范。一批大数据技术研发实验室、工程中心、企业技术中心、产业创新平台、产业联盟、投资基金等形式的产业支撑平台相继建成。大数据安全保障体系和法律法规不断完善。1.2 医疗大数据的现状

研究医疗大数据之前,首先要了解什么是个人健康大数据。个人健康大数据是指个人从出生到死亡的全生命周期过程中,因免疫、体检、门诊、住院等健康活动所产生的大数据。按照数据的归属不同,可分为留存到医疗卫生领域的数据、金融保险领域的数据和公安领域的数据等。留存于医疗卫生领域的大数据,我们理解为医疗大数据。通过对医疗大数据的分析和加工,可以挖掘出和疾病诊断、治疗、公共卫生防治等方面的重要价值。

医疗大数据的应用,并不仅仅是在信息化时代才出现。早在19世纪,英国流行病学家、麻醉学家约翰·斯诺(John Snow)博士就运用近代早期的数据科学,记录每天的死亡人数和伤患人数,并将死亡者的地址标注在地图上,绘制了伦敦霍乱爆发的“群聚”地图。霍乱在过去被普遍认为是由“有害”空气导致的,斯诺通过调查数据并加以汇总,确定了“霍乱”的元凶是被污染的公共水井,这也奠定了疾病细菌理论的基础。

从最早的手工统计,到计算机的出现,再到各种传感器技术的普及,数据的收集和存储更加方便,变成了自动化、数字化、密集化的方式,来源也越来越广。在过去的十年里,随着电子病历的实施,医疗保健数据量呈指数级增长,再加上制药企业和学术研究机构档案,以及数万亿的数据流从智能化设备、可穿戴式设备的传感器中得到,医疗大数据洪流已经滚滚而来。

现阶段电子病历的广泛应用,使得有价值的医疗大数据实现了快速增长,可供医生、研究者和患者使用的数据量极大地提升。大数据分析可以帮助医生确定治疗方案、药物种类和剂量、公共卫生防疫等临床指导,也可以帮助医院的管理者制定更好的管理方式,帮助保险方制定更好的医疗保险支付模式。医疗服务的提供者获取了更多的大数据信息之后,从经验医疗向循证医学进行转变。我们需要不断引入新技术、新概念,提升对这些数据的管理和分析能力,为管理者和临床医务人员做出准确的工作决策提供依据。

1.2.1 医疗大数据的特征

医疗大数据呈现以下四个特点。

第一,数据量大。从TB到PB到EB,再到ZB,医疗大数据以48%的年增长率快速增长,这些数据早已超过了人力所能处理的极限。预计到2020年,全球数字将达到2314EB,已经达到了ZB级别。

第二,数据种类多。医疗数据中既有结构化的数据,也有非结构化的数据。结构化数据包括Oracle(甲骨文股份有限公司,是全球大[4]型数据库软件公司)、MySql等数据库的数据,半结构化数据如XML文档,非结构化数据包括Word、PDF文档、音视频、影像等。

第三,数据产生快,处理快。医疗信息服务中会存在大量在线或实时数据分析处理的需求。需对数据进行实时或准实时的处理、秒级的查询需求响应。例如临床中的诊断和处方数据、健康指标预警等。

第四,数据价值密度低。各个区域内不同医疗机构中患者的基础信息和各种临床信息资源分散、重复、孤立,导致有效信息闲置、信息重复或不一致,很难得到有效利用。

1.2.2 医疗大数据的优势

有效地整合和利用数字化的医疗大数据,对个体医生、康复中心、大型医院和医疗研究机构都有着显著的好处。潜在的利益包括:(1)更多、更准确的数据,使得疾病能在早期被监测到,从而使治疗更容易和有效。(2)通过对特定个体或人群的健康管理,快速有效地监测保健诈骗。(3)基于大量的历史数据,预测和估计特定疾病或人群的某些未来趋势,比如:预测特定患者的住院时间,哪些患者会选择非急需性手术,哪些患者不会从手术治疗中受益,哪些患者会更容易出[5]现并发症等。据麦肯锡估计,单单就美国而言,医疗大数据的应用可以为医疗开支节省3 000亿美元/年。

医疗大数据的应用,可以从以下几方面减少浪费和提高效率。

临床操作:相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法用来诊断和治疗患者。

研究和发展:在药品和医疗器械方面,建立更低磨损度、更精简、更快速、更有针对性的研发产品线。在统计工具和算法方面,改善临床试验设计和患者的招募,使得治疗方法可以更好地匹配个体患者的病症,从而降低临床试验失败的可能和加快新的治疗方法推向市场。分析临床试验和患者的病历,以确定后续的迹象,并在产品进入市场前发现患者对药物、医疗方法的不良反应。

公共卫生:分析疾病模式和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。更快、更准确地研制靶向疫苗,如开发每年的流感疫苗。

此外,医疗大数据的分析,还有利于以下几方面的发展。

循证医学:结合和分析各种结构化和非结构化数据,电子病历,财务和运营数据,临床资料和基因组数据,用以寻找与病症信息相匹配的治疗方案,预测疾病的高危患者或提供更多高效的医疗服务。

基因组分析:更有效和低成本执行基因测序,使基因组分析成为正规医疗保健决策的必要信息并纳入患者病历记录。

提前裁定欺诈分析:快速分析大量的索赔请求,降低欺诈成功率,减少浪费和滥用。

设备/远程监控:从医院和家庭医疗装置采集实时大容量的快速移动数据,用于安全监控和不良反应的预测。

患者的个人资料分析:全面分析患者个人信息(如分割和预测模型),从中找到能从特定健保措施中获益的个人。例如,某些疾病的高危患者(如糖尿病)可以从预防措施中受益。这些人如果拥有足够的时间提前有针对性地预防病情,那么大多数的危害可以降到最低程度,甚至可以完全消除。1.3 医疗大数据的发展

医疗大数据行业以数据规模为基础,且在政策和资本的鼓励下,部分应用场景进入市场启动期,如健康管理、辅助决策(全科辅助决策、影像病理辅助诊断等)、医疗智能化等。随着医疗大数据/AI技术长期的应用实践探索,产品不断更新完善,预估2~5年内,产品将首先在B端客户中进行推广。随后,伴随软件友好度和准确度的上升,在B端客户使用的影响下,C端市场将展开竞争。

医疗大数据主要分为院前数据、院中数据、院后数据三大部分内容。院前数据包括患者的诊疗行为、生活习惯等,这些数据通过移动端收集。院后数据,主要由诊后管理系统进行数据收集。电子病历毫无疑问属于院中数据,也就是临床诊疗数据中最核心的部分。

1.3.1 医疗大数据的发展阶段

电子化、结构化、标准化、区域化,是医疗大数据发展的四个阶段,如图1-1所示。图1-1 医疗大数据发展的四个阶段

第一阶段,纸质病历的电子化。在过去,纸质的病历必须由医生进行手工填写,只要有三处涂改,就要重写,耗时又耗力。数据的电子化,把原本手写的数据用电子化的方式储存起来。这样一来,医生便能通过计算机快速实现所有操作。

第二阶段,数据结构化。由于不同医生书写的病历各不相同,因此病历数据的规范成为重中之重。结构化电子病历的出现,能够很好地解决这个问题。不仅方便医生抓取一些字段做科学分析,同时也规范了医生书写电子病历的习惯,便于后期查阅。

第三阶段,数据标准化。随着医院信息化的发展,临床信息数据化逐渐成形,但是由于系统模块众多、标准不统一,使数据无法有效串联,在院内成为孤岛。各个科室系统之间存在着信息共享和相互利用的需求,而实现数据共享和互通的前提,是各个系统之间的数据交互必须遵循标准的规范。对此,国家相继发布了《电子病历基本架构与数据标准》《电子病历共享文档规范》等指导性文件。不少医院信息系统参与互联互通成熟度测评,为日后数据应用奠定基础。

第四阶段,数据区域化。建立区域医疗资源信息平台。过去,不同医院的电子病历系统各不相同。健康医疗大数据和云技术的发展,可以让单个医院摆脱数据孤岛的情况,数据区域化成为这个阶段的核心。不同医院不仅需要互联互通,还需要为患者建立全生命周期的健康大数据。这样一来,患者在不同医院诊疗过的数据,都可以融合在一起,如图1-2所示。

结构化电子病历,是健康医疗大数据应用的基础。医院在科研时,需要把数据按字段进行分类。如性别、年龄、疾病诊断,这些数据都是可以结构化的。在病历里,这类信息十分零散,不同的医生表达的方法也不尽相同。结构化电子病历不仅可以规范诊疗行为,还便于医生进行科研分析和利用人工智能进行数据识别、学习和数据的深度挖掘。图1-2 区域医疗大数据平台的架构

1.3.2 医疗大数据的爆发

在过去的十年里,随着电子病历的实施,以及数字化的实验室幻灯片,高分辨率的放射图像、视频的流行,医疗保健数据量呈指数级增长,整个医疗行业的数据量令人难以置信。再加上制药企业和学术研究机构档案,以及数万亿的数据流从可穿戴式设备的传感器中得到。据EMC和IDC发布的报告显示:2013年全球医疗保健数据量为153EB,预计年增长率为48%,这意味着到2020年,这个数字将达到2 314EB。如图1-3所示。一般计算机的硬盘存储数据是以GB或者TB为单位。1GB的容量可以储存约5.4亿个汉字,或者170张普通数码相机拍摄的高精度照片,或者300~350首长度为5~6分钟的MP3歌曲。

早期,大部分医疗相关数据以纸张化的形式存在,而非采用电子数据化存储,比如官方的医药记录、收费记录、护士医生手写的病例记录、处方药记录、X光片记录、磁共振成像(MRI)记录、CT影像记录等。随着强大的数据存储、计算平台,以及移动互联网的发展,现在的趋势是医疗数据的大量爆发及快速的电子数字化。据前瞻产业研究院发布的《2017—2022年全球健康医疗大数据行业发展前景预测与投资战略规划分析报告》显示,2015年,美国健康医疗大数据行业的市场规模达到102亿美元。预计到2021年,美国健康医疗大数据的市场规模有望接近1 000亿美元。图1-3 医疗保健数据量

凯撒健康计划医疗机构(Kaiser Permanente),一个在美国加州发展起来的医疗健康网络系统,就有900万的会员,被认为拥有26.5[6]~44PB的电子健康记录(IHTT,2013)。IT时代涌现的还有各种网络社交媒体数据,比如谷歌(Google)曾经用来预测流感的数据。基因数据也是非常庞大的,一次全面的基因测序,产生的个人数据达到300GB。公开发布的基因DNA微阵列达到50万之多,每一阵列包含数万的分子表达值。在生物医药方面,功能性磁共振影像的数据量也达到了数万TB级别,每一幅影像包含有5万像素值。此外,各种健身和健康可穿戴设备的出现,使得对血压、心率、体重、血糖、心电图等的监测都变为现实和可能,信息的获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”、按“秒”计算。比如,一家名为Blue Spark的科技公司已经生产出能24小时实时监测体温的新型温度计贴片temptraq。这种数据的扩展速度和覆盖范围是前所未有的,数据的格式也五花八门,可能是无格式文件(flat file)、逗号分隔值文件格式(CSV)、关系表、ASCII/纯文本文件等。同时,数据的来源也纷繁复杂,可能来自不同的地区、不同的医疗机构、不同的软件应用。不可否认,一旦理顺了多格式、多源头、呈爆炸性成长的大数据的整合和分析,医疗大数据将对提高医疗质量、强化患者安全、降低风险、降低医疗成本等方面发挥无与伦比的巨大作用。34[1] 一 1ZB=1 024EB=1 024PB=1 024TB=1 024GB。[2] 二 陈遵秋,陈漪.浅谈医学大数据(上)[EB/OL].(2015-03)[2018-11-19].https://vcbeat.net/MG M2NTZmNmU3MjZhNzQ0NWIwNzJkZGE2YjdiMTI2NDM=.[3] 一 工业和信息化部信息中心.工业和信息化部关于印发大数据产业发展规划(2016—2020年)的通知[R/OL].(2017-01)[2018-11-29].http://www.miit.gov.cn/n1146285/n1146352/n3054355/n3057267/index.html.[4] 一 MySql:MySQL是一种关系数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。MySql由瑞典MySQL AB 公司开发,目前属于Oracle旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在WEB 应用方面,MySQL是最好的RDBMS(Relational Database Management System,关系数据库管理系统)应用软件。[5] 二 麦肯锡:麦肯锡公司(McKinsey&Company)是由美国芝加哥大学商学院教授詹姆斯·麦肯锡(James O’McKinsey)于1926年在美国创建的,现在已经成为全球最著名的管理咨询公司。在全球44个国家和地区开设了84间分公司或办事处。[6] 一 陈遵秋,陈漪.浅谈医学大数据(上)[EB/OL].(2015.3)[2018-11-19].https://vcbeat.net/MGM 2NTZmNmU3MjZhNzQ0NWIwNzJkZGE2YjdiMTI2NDM=.第二章 医疗大数据的采集与治理[1]

原国家卫计委副主任、中国卫生信息与健康医疗大数据学会会长金小桃预测,在我国人口总量峰值达到15亿的时候,仅是我国的健康医疗大数据总量就会达到ZB以上。他认为,医疗健康大数据,因其宏大的数据总量,将产生宏大的产业规模,取得宏大的经济效益。

医疗大数据从数据形成知识,再形成行动指导,进一步推动医疗行业的发展。第一个重要的步骤,就是收集和存储医疗数据。巧妇难为无米之炊,要获得有价值的诊疗行动指导,需要增加医疗数据的来源,扩大数据覆盖的范围。2.1 医疗大数据的采集

通常和医疗行为相关的数据才被称为医疗大数据,但是现在这一概念已经扩展到健康人群的健康数据,以及和医疗健康相关的行为、物资数据。所以,医疗大数据按类型可以分为两种,个人医疗健康数据和物资数据,如图2-1所示。

2.1.1 医疗大数据的来源

医疗大数据主要来源于以下几个方面。

第一,患者就医过程中产生的信息。从患者进入医院开始,挂号环节便将个人姓名、年龄、住址、电话等信息输入完全了;随后在医生就医环节,患者的身体状况、医疗影像等信息也将被录入数据库;看病结束以后,患者缴费结算的过程中,又将费用信息、报销信息、医保使用情况等信息添加到医院的大数据库里面。这将形成医疗大数据最基础,却也是最庞大的原始资源。图2-1 医疗大数据的类型

第二,临床医疗研究和实验室数据。临床和实验室数据整合在一起,使得医疗机构面临的数据增长非常快,一张普通CT图像含有大约150MB的数据,一张标准的病理图则接近5GB。如果将这些数据量乘以人口数量和平均寿命,仅一个社区医院累积的数据量就可达数万亿字节甚至数千万亿字节(PB)之多。

第三,医疗大数据是因健康活动而产生的数据,从出生、免疫、体检、门诊、住院和其他活动中产生。从数据来源上看,可以将数据划分为三类,分别为全员人口数据库、电子健康档案数据库和电子病历数据库。

全员人口数据库:主要包含人口信息,数据来源于各大部门(卫计委、公安、民政、统计、人力社保、教育等)交互共享。

电子健康档案数据库:主要包含定期或不定期的健康体检记录、卫生服务过程中的各种服务记录、专题健康或疾病调查记录。数据来源于体检机构、医院和基层卫生机构。

电子病历数据库:主要包含医院诊断治疗全过程原始记录,数据来源于医院,其商业化价值最高。

除了以上的三个传统来源之外,医疗大数据还包含通过“物联网”所收集的数据—医疗器械收集的健康数据、APP、远程监控、传感器提供的连续临床数据。云端的临床数据让医生可以方便地获得远在100公里外的患者的信息,也可以和其他医生进行远程互助。

医院是医疗大数据的主要来源,而医院的基础数据可以分为以下三个类别:(1)临床基础数据。包括疾病、临床路径、用药等。(2)医院的资源数据。包括销售成本、治疗费用等人、财、物的资源数据。(3)患者院内、院外数据。包括用户的行为数据、饮食数据、运动数据等相对零散的数据。

医疗大数据按场景分为院内数据和院外数据,如图2-2所示。图2-2 医疗大数据按场景分为院内数据和院外数据

院内数据是在医院所产生的数据。医院的信息化程度日趋成熟,医院信息系统(HIS)、电子病历系统(EMR)、影像采集与传输系统(PACS)、实验室检查信息系统(LIS)、病理系统(PS)、医疗器械等信息化系统和设备所记录下来的疾病、体征数据都属院内数据。还包括医院物资管理、医院运营系统所产生的数据。

院外数据主要是人们在日常生活中所产生的数据。比如,通过体检机构、智能穿戴设备获取的人体体征数据。还包括医药流通数据、移动问诊等行为数据。物联网和互联网的发展,也让和医、药相关的行为数据量大大提升。

基因数据的产生环境可能在院内,也可能在院外,根据其产生的目的,用于疾病的诊断、预测,或者判定健康人群的个体特征。

国内医疗系统相对较为封闭,公立医院的医疗数据单独存储在院内,数据存储单元之间互不流通、不开放。大量优质的患者健康数据封闭在医院的围墙之内,难以有效利用。这固然有对患者健康信息安全性进行考虑的因素,但大量数据躺在医院,也造成了数据的浪费。[2]

针对医院的资源数据,通过HRP系统进行管理。而针对患者行为数据,则可以通过各种移动终端或采集设备,进行数据的收集。比如,医生要关注某一疾病消耗了多少社会资源,国家应该在保险支付体系为它报销多少比例,这就涉及HRP系统的数据。

利用互通互联的信息系统获取病种相关的临床与财务数据,根据临床路径对病种进行精准的成本测算,再将医院病种成本与医保支付标准进行比对,就能得出疾病的报销比例。如果医生关注的是临床的诊疗行为,想要提高糖尿病的治疗效果和临床疗效,那么更应该关注疾病的诊断、治疗、药物以及诊后随访的数据。这就需要EMR等系统的支撑,利用病种成本分析,优化医院科室服务,为医院科室发展提供量化建议,为医院病种绩效管理提供参考指标。

总之,针对不同的应用场景,医疗信息化(Healthcare Information Technology,HIT)企业收集的数据内容与医疗研究者的研究内容都是不同的。数据的价值大小,既取决于它的使用者,又取决于具体的应用场景。当数据积累到一定规模后,大数据产品可以被商业化,应用到医疗健康服务产业,最终提升医疗行业效率和医疗服务的精准度。

2.1.2 医疗大数据采集来源

1.电子病历数据

这是患者就医过程中产生的数据,包括患者基本信息、疾病主诉、检验数据、影像数据、诊断数据、治疗数据等,这类数据一般产生及存储在医疗机构的电子病历中,这也是医疗数据最主要的产生地。电子化的医疗病历方便了病历的存储和传输,但是并未达到进行数据分析的要求。大约80%的医疗数据是自由文本构成的非结构化数据,其中不仅包括大段的文字描述,也包括包含非统一文字的表格字段。通过医学自然语言理解技术,将非结构化医疗数据转化为适合计算机分析的结构化形式,是医疗大数据分析的基础。

电子病历中所采集的数据是数据量最多、最有价值的医疗数据。通过和临床信息系统的整合,内容涵盖了医院内的方方面面的临床数据集。在电子病历的互通互联上,出于各自的利益(限制患者转诊),各大电子病历企业也不愿意使数据互通互联。根据美国政府相关报告显示,其电子病历共享比例也仅为30%左右。

案例联众电子病历系统

联众电子病历系统集成各种临床医疗系统的数据,以最终建立完整、共享的临床数据中心(CDR)为软件的核心思想。系统以患者为中心,全面整合HIS、LIS、PACS、RIS、病理、超声、内镜、病案、输血、手麻、院感、医保、体检、合理用药等系统,实现医院业务数据的共享,消除医院内部信息孤岛。联众电子病历涵盖患者在诊疗过程中的图片、文字、表格、语言等多媒体信息的实时采集、传输、存储、处理、整合和利用。

2.检验数据

医院检验机构产生了大量患者的诊断、检测数据,也大量存在第三方医学检验中心产生的数据。检验数据是医疗临床子系统中的一个细分小类,但是可以通过检验数据直接了解患者的疾病发展和变化。目前临床检验设备得到迅速发展,通过LIS系统对检验数据进行收集,可以对疾病的早发现、早诊断,以及正确诊断做出贡献。

案例东软LIS系统

东软LIS系统由检验工作站系统、报告查询系统、采血系统、质量控制系统、微生物系统、试剂管理系统组成。以“服务临床”为核心,实现了基于TAT检验样本全流程管理,具备了智能化的临床支持和精细化的检验科室管理能力。东软LIS系统拥有电子病历、LIS、EMR等齐全的医疗信息化系统,并在其基础上组建了东软医疗大数据科研分析平台。借助这个平台,整合全院来自不同医疗业务系统的各类临床数据,借助大数据平台的海量数据并发处理能力,为科研医生提供一个集数据获取、探索、处理、分析、挖掘于一体的自助式分析平台,支持PB级医疗数据的存储管理、查询分析,特别适合大型三甲医院的科研用户使用。

3.影像数据

随着数据库技术和计算机通信技术的发展,数字化影像传输和电子胶片应运而生。医疗影像数据是通过影像成像设备和影像信息化系统产生的,医院影像科和第三方独立影像中心存储了大量的数字化影像数据。医学影像大数据是由DR、CT、MR等医学影像设备所产生,并存储在PACS系统内的大规模、高增速、多结构、高价值和真实准确的影像数据集合。与检验信息系统(LIS)大数据和电子病历(EMR)等同属于医疗大数据的核心范畴。

医学影像数据量非常庞大,增速快,标准化程度高。影像数据和临床其他数据比较起来,它的标准化、格式化、统一性是最好的,价值开发也最早。案例锐珂医疗

锐珂医疗的前身是美国柯达医疗集团。锐珂医疗推出了全新的云网信息化解决方案Carestream Vue Solution,涵盖了全面的专业影像处理和流程管理应用,为医院的所有医技临床科室提供“一站式”的全Web工作平台。锐珂医疗从2011年开始,就从传统PACS逐渐转型到影像云。迄今为止,锐珂在全球已经建设了14个影像云数据中心,管理的数据高达3亿人次,而且数据量每天都在飞速增加。

4.费用数据

包括医院门诊费用、住院费用、单病种费用、医保费用、检查和化验收入、卫生材料收入、诊疗费用、管理费用率、资产负债率等和经济相关的数据。除了医疗服务的收入费用之外,还包含医院所提供医疗服务的成本数据,包含药品、器械、卫生人员工资等成本数据。在DRGs按疾病诊断相关组付费模式中,需要详细的成本数据核算。通过大样本量的测算,建立病种标准成本,加强病种成本核算和精细化成本管理。

案例东软望海

东软望海作为1 600余家医院HRP与成本核算软件和服务的提供商,获得了CN-DRG官方授权,通过DRG智能管理平台帮助中国医疗在支付方式上进行改革。东软望海DRG平台可以灵活支持全国各地不同编码类型的病案数据进行分组,为医疗机构、支付方和卫生部门提供成本监管、绩效评估、审核等功能。DRGs医院绩效评价通过目标管理、绩效方案、绩效考核和绩效分析等模块,可灵活设置绩效方案及其评价指标,促使医院提高医疗工作效率和整体医疗技术水平;DRGs医院控费则依托大数据,建立病组医疗费用和成本的动态分析模型,提供区域、机构及病组有效控费指标及参考值;而DRGs财政补偿可以精准测算医院补偿金额和政策性亏损,有效防止重复补偿,提高补偿资金使用效率和投放准确性;DRGs智能审核与支付可以实现从患者入院到出院的全程信息跟踪,可帮助社保和商保提升其基金使用的有效性,同时,其对基金使用情况进行实时监控,可针对异常病历进行深入挖掘分析和反馈。

5.基因测序数据

基因检测技术通过基因组信息以及相关数据系统,预测个人罹患多种疾病的可能性。基因测序会产生大量的个人遗传基因数据,一次全面的基因测序,产生的个人数据达到300GB。一家基因测序企业每月产生的数据量可以达到数百TB甚至1PB。

测序技术的发展让基因数据以远超摩尔定律的速度在积累,海量的数据亟待深度解读和挖掘。基因大数据的价值非常巨大,但是现在的数据利用和解读还处在初级阶段。

案例华大基因

资料显示,华大基因目前拥有超过200台测序仪,是世界上最大的基因测序机构。其中新生胎儿NIPT基因测序每天大约产生10 000个样本,需要与数万个正常胎儿几十TB的基因组数据进行差异统计分析,数据计算量巨大。每月产生的基因数据高达300TB~1PB,目前累计基因库数据22PB。

6.医药研发数据

制药公司在新药研发及临床过程中产生的数据。制药公司主要对临床试验数据进行系统分析,收集和解读非结构化数据,从而优化生产流程,最大限度地利用研发潜力。

案例拜耳

拜耳公司依靠大数据分析,在2017年年底推出了既重点突出又多样化的开发战略,将50多个项目几乎同期投入临床开发,最大限度地利用了研发潜力。拜耳公司的研发重点项目在肿瘤学、心血管疾病和妇科学领域,同时在营销方面也利用大数据进行推广的辅助决策。

7.药品流通数据

指药品和疫苗的运输、流通、存储、销售、接种数据。药品运输、销售数据虽然和疾病的诊治无关,但是医药流通企业可以通过物流数据、库存数据、销售数据进行挖掘,获取药品流向、用户健康等关键信息,实现系统智能化引导,满足顾客准确选药、合理用药、健康保健的多元化服务需求。

案例国药集团

国药集团通过大数据平台,搭建医药流通全过程的电子化追溯平台,探索实现医药产品从生产完成到销售终端机构(医院、药房、诊所等合法经营机构)之间的全程追踪、追溯与召回,有效地提高医药流通的监管水平。同时,探索基于药品流通领域追溯大数据的应用,为药品紧急调拨配送、药品流动趋势、医药储备可视化等提供数据支撑。

8.智能穿戴数据

各种智能可穿戴设备的出现,使得对血压、心率、体重、体脂、血糖、心电图等健康体征数据的监测都变成可能,患者的单一体征健康数据以及运动数据被快速上传到云端,而且数据的采集频率和分析速度大大提升。除了生命体征之外,还有其他智能设备收集的健康行为数据,比如每天的卡路里摄入量、喝水量、步行数、运动时间、睡眠时间等。

智能穿戴设备虽然在这两年遇冷,用户很难形成黏性,但是并不意味着智能穿戴设备所产生的数据没有意义。提供健康数据和服务,可能是智能穿戴厂商未来的转型之路。健康大数据的收集必须依靠硬件载体,智能穿戴设备还将会迎来自己的第二春。

9.移动问诊数据

指通过移动设备端或者PC端连接到互联网医疗机构,产生的问诊数据和行为数据。动脉网蛋壳研究院就曾经通过互联网问诊企业春雨医生的数据,分析各地医生互联网问诊的活跃度、细分疾病种的问诊行为。对这些数据的分析,对行业发展、互联网问诊企业的决策有着非常重要的帮助。

10.体检数据

体检数据是体检机构所产生的健康人群的身高、体重、检验和影像等数据。这部分数据来自医院或者第三方体检机构,大部分是健康人群的体征数据。随着亚健康人群、慢病患者的增加,越来越多的体检者除了想从体检报告中了解自己的健康状况,还想从体检结果中获得精准的健康风险评估,以及了解如何进行健康、慢病管理。

案例美年大健康

美年大健康是中国知名的专业健康体检和医疗服务集团,全国布局400余家体检中心,2017年完成2 160万人次健康体检服务,2018年体检人次突破3 000万大关。美年大健康是中国最大的个人体检数据平台,通过建立美年大健康研究院,开展基于健康大数据的科研创新和公共卫生服务,加强在人工智能、基因检测、肿瘤早筛、智能诊断、健康服务、健康保险等核心赛道的控制力。

2018年6月,美年大健康和北大医学部共同发起成立“北京大学医学部美年公众健康研究院”,意在打造国际顶尖的公众健康与大数据研究和实践平台,通过这个数据研究平台,承担国家健康领域科研项目、开展健康大数据挖掘分析等工作。2.2 医疗大数据的治理

医疗机构的信息化建设以业务流程、医保支付和医管政策为核心驱动力,产生的数据是有客观限制的。如医保处方规定的出院带药最长天数、跨科开药限制等因素导致开单医生不能如实开具反映实际情况的处方;分工细化,数据价值链路过长,导致前端缺乏数据生产动力;数据生产者缺乏对数据对象进行完整和精确描述的能力,导致关键信息缺失,以及标准化程度差的特点;信息系统难以学习和使用,缺少防错设计,导致人为差错问题。因此,在二次利用的价值充分体现之前,数据的完整性、准确性、一致性、关联性、规范性等方面的质量挑战将长期存在。

如果数据不能及时进行结构化、标准化的治理和分类存储,那么带来的存储成本也是巨大的。前面已经提到过,到2020年,数据存储将达到44ZB,而其中有价值的数据仅有1.5%。如果不能及时发掘出其他数据的有效价值,那么垃圾数据将会过多地占据企业的存储成本。

医疗数据的治理分成两种,一种是前治理,一种是后治理。

后治理是将已经存储在数据平台的医疗数据质量问题,通过清洗、校验、脱敏等常见方法,结合二次应用需求,对数据的结构化、标准化进行数据质量的提升和优化。基于海量存储和计算平台的集成能力,大数据平台应覆盖元数据管理、文件管理、检索设计、节点任务、流程任务、任务调度、运行监控等功能,支撑后治理过程中数据的基础处理。

在治理过程中,需要基于通用标准和临床基础字段集,把症状、疾病生命体征、家族史、婚育史、检验、检查、手术、输液、药品医嘱等文字内容进行结构化处理,对结构化和非结构化数据、集中式和分布式数据进行统一建模,提取临床、科研分析所需特征,同时完成重点概念的标准化和统一描述。后治理数据基础差、要求高、流程和环节复杂,涉及的自动化和人工处理的工作量极其巨大,二次污染难以避免,需建立针对数据处理环节的质控流程和工具。通过溯源工具,追溯每个处理后数据与原生数据的血缘关系,以及定位和处理过程中引入的新问题。

前治理是后治理能力、经验和治理工具到医疗机构的向前延伸,以原生数据质量问题的评价为基础,解决数据在医疗业务信息系统中生产、传输、转化、存储等环节中产生的质量问题。前治理可以显著提升医疗数据质量。

案例医渡云数据智能平台DPAP

医渡云利用数据人工智能技术,构建了可追溯、可监管的医学数据智能平台,该平台数据处理量大、数据完整度高、开发流程透明,帮助政府、医院和整个产业界充分挖掘医疗大数据智能化政用和民用价值,建立可覆盖全国、统筹利用、统一接入的医疗行业大数据生态平台,如图2-3所示。

医渡云已与全国700余家医疗机构、近100所顶级医院建立战略合作,为医院集成融合了跨越10余年的3 亿多名患者、12 亿人次的医学数据,覆盖了30余类重大病种,建立了3 000多个专科疾病模型、2 000万个标准化字段,实现了医院近200种系统、几百个厂商的多种数据、全量全周期的采集与数据结构化、标准化处理,可以说是在充分发挥“医疗大脑”的作用下,构建了中国数据处理量最大、数据完整度最高、开发流程最透明的可追溯、可监管的医学数据智能平台。

在与数十家顶级医院的建设合作中,医渡云数据智能平台形成了一套成熟可控的方法论和一支经验丰富的数据抽取、清洗、汇聚的团队,能做到在完全可控的实施成本和周期的要求下,以人工和自动的方式适配多源异构的数据源,自定义数据处理流程以及智能映射等工作。

该平台支持并行计算基础架构或混合式架构,可以基于传统分布式网络和云计算平台等多种模式部署,支持大数据计算资源管理,支持资源预约、排队、按优先级抢占,支持资源占用分析、计算瓶颈分析,使资源得到更充分利用。另外,架构还配备了多种算法库,具备大数据存储访问及分布式计算任务调度等功能,支持多维索引数据的深度搜索、过滤、聚合、统计分析和全文检索等功能,支持图形化界面大数据查询引擎,方便非技术人员利用大数据平台进行统计分析工作。图2-3 医渡云数据智能平台

案例阿里云数据中台

海量的医疗大数据来自于各个业务信息子系统,数据的标准化程度低,在完成数据收集之后,随后就面向后续的数据清洗和加工步骤。如何把这些海量数据按照统一的标准进行清洗,是很多行业和企业现在面临的最大困境。阿里云数据中台的数据ODS层设计包含了三个特性:其一,数据同步功能,支持结构化数据增量或全量同步到[3]ODPS;其二,实现全结构化数据转换,能够将非结构化数据(如日志)进行结构化处理后再存储;其三,支持历史数据的积累和清洗,能根据数据业务需求及稽核审计要求保存信息。总结阿里云数据中台的作用和功能如下,如图2-4所示。

全域数据采集与引入:以需求为驱动,以数据多样性的全域思想为指导,采集与引入全业务、多终端、多形态的数据。

标准规范数据架构与研发:统一基础层、公共中间层、应用层的数据分层架构模式,通过数据指标结构化、规范化的方式实现指标口径统一。

连接与深度萃取数据价值:形成以业务核心对象为中心的连接和标签体系,深度萃取数据价值。

统一数据资产管理:构建元数据中心,通过资产分析、应用、优化、运营四方面来看清数据资产、降低数据管理成本、追踪数据价值。

统一主题式服务:构建服务元数据中心和数据服务查询引擎,面向业务统一数据出口与数据查询逻辑,屏蔽多数据源与多物理表。图2-4 阿里云数据中台的医疗大数据解决方案2.3 医疗大数据沙漏模型

我们从数据采集、数据治理和数据应用三个方面描述了医疗大数据的发展流向,绘制了医疗大数据的沙漏模型,如图2-5所示。数据的采集、治理和应用,反映了大数据的状态变化,以及从数据形成知识、从知识指导行动的过程。图2-5 医疗大数据的沙漏模型

更细分一些,医疗大数据领域可以分成数据采集、数据存储、数据清洗加工、数据分析、数据应用五个方面。医疗大数据的输入端是各种信息化系统、传感器、智能设备所产生的医疗健康数据。庞大的医疗大数据在收集完成后存储在数据中心,然后经过清洗加工之后,挖掘其内在有用的数据。最后,通过大数据分析后产生的知识来指导医疗行为,从而产生价值。

通常人们只认识到医疗大数据的数据来源越来越丰富,也认识到医疗大数据可以为医疗服务提供有价值的参考意见。前面已经提到,大数据量虽大,但是垃圾数据居多,有价值的数据比例不高。医疗大数据如果能够经过中间步骤的清洗和加工,那么所能发挥的价值会更大。所以,医疗大数据的三个重要步骤缺一不可。如图2-6所示。图2-6 医疗大数据的三个重要步骤

医疗大数据行业不是一开始就形成的,在大数据解决方案出现之前,医疗大数据所能发挥的价值很低。随着信息化、物联网、云计算、人工智能等技术的发展,大数据的利用价值在增大。从数据获取时代,逐步向信息挖掘时代和价值输出时代过渡。而数据的价值,也从医疗行为的总结,逐步升级为医疗决策的支持和全方位医疗辅助决策。2.4 大数据在医疗中的应用需求“健康中国”是中国医疗卫生事业发展的远景目标,是医疗产业内各环节努力和奋斗的宏大愿景。国内医疗大数据研究与应用起步稍晚,总体来看还未形成整体力量,但近几年也出现了蓬勃发展的态势,医疗大数据分析逐渐成为医疗模式转型的应用需求。现阶段,我国的

试读结束[说明:试读内容隐藏了图片]

下载完整电子书

若在网站上没有找合适的书籍,可联系网站客服获取,各类电子版图书资料皆有。

客服微信:xzh432

登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?