面向智能医疗的大数据分析框架
本文提出了一种集成化的智能医疗大数据分析框架SmartHealth,旨在应对医疗系统中数据量激增的挑战。通过整合传感技术、物联网、云计算与大数据分析,该框架支持描述性、预测性与处方性分析,提升医疗服务的效率、个性化与预防能力,并为远程监测、临床决策和基因组分析等应用提供技术支持。
面向智能医疗服务的全面数据分析框架
摘要
随着通过患者监测系统收集的信息量不断增加,医生在利用每位患者所收集的各类数据进行复杂分析决策方面面临着日益增大的压力。这种数据集持续增长的现象正在多个应用领域中出现并加速发展,目前已被商业界公认为是大数据挑战。本文定义并讨论了医疗系统中存在的若干主要挑战,并探讨如何利用信息与通信技术(ICT)的最新进展有效应对这些挑战。特别地,我们关注传感技术、云计算、物联网以及大数据分析系统等新兴技术,这些技术得益于网络通信速度、计算能力和数据存储容量等多个方面的显著进步,具备多种优势和特性,有助于提升医疗保健服务的效率和有效性。此外,我们描述了所提出的用于大数据分析服务的框架——SmartHealth的架构组件,并阐述了其在医疗领域的各种应用。
1 引言
在过去十年中,由于缺乏锻炼、饮食不健康、污染以及吸烟成瘾等多种因素,我们目睹了生活方式相关疾病持续增加。例如,最近一项研究估计,2008年全球9%的死亡是由身体活动不足引起的,而仅通过改善身体活动水平,就可使全球人口的预期寿命增加0.68年[23]。此外,当前关于健康生活的指南建议,成年人每周应进行约150分钟的身体活动。然而,该研究指出,有三分之一的成年人未能达到足够的身体活动水平,从而增加了患心脏病和糖尿病等特定疾病的风险。过去几十年中,我们的饮食结构也发生了深刻变化。例如,全球范围内快餐和加工食品的消费量持续上升,导致盐、脂肪、简单糖类和甜味剂的摄入量不断增长[41]。此外,肉类消费量显著增加,而蔬菜、全谷物食品和非柑橘类水果的消费量则相应减少。所有这些变化共同导致了生活方式相关疾病的大幅增加,摄入的卡路里数量增加,导致肥胖水平上升,并引发严重健康威胁。因此,心血管疾病、癌症和糖尿病已成为全球主要死因。
总体而言,医学进步、传染病防控能力的提升以及更好饮食使人们的预期寿命得以延长。例如,一些报告估计,21世纪以来,预期寿命已增加了13年3。联合国预计,全球预期寿命将从2005‐2010年的68岁上升至2095‐21004年的81岁。因此,全球老龄化及其对卫生服务运行表现的影响,已被视为过去几十年中日益显著的现象。许多国家正面临老龄化人口的挑战,老年人在总人口中所占比例越来越大。特别是,65岁及以上人口的数量预计将从2010年的5.24亿增长到 2050[13]年的约15亿。此类人口结构变化因而导致对医疗服务的需求不断上升,政府支出也随之增加,因为普遍认为老年人天然更容易受到健康问题和慢性疾病的困扰。医疗保健服务支出的不断增长,几乎对所有政府都构成了重大挑战。
原则上,由于全球人口结构的当前动态,医疗体系经济学正受到广泛关注。特别是,医疗卫生支出通常是几乎所有国家国内政治议程和讨论中的高度优先事项。预计到 2050[17,21],,一些国家的医疗成本将占国内生产总值的20‐30%,这一比例在财政上是不可持续的。原则上,成本持续上升,导致必须将医疗服务模式的重点从被动反应型转向利用预测性医疗机制的模式。各国政府认为更智能的医疗是提高质量同时最小化服务成本的有效途径。建立此类模型需要监测和诊断各种数据源,以实现准确有效的预测。此外,提供支持家庭锻炼计划的应用程序,以改善老年人的平衡能力与力量,可作为预防跌倒等健康相关问题的预防措施。其他应用程序包括活动监测、通过重要体征进行体能测量以及热量摄入追踪,其中各种产品功能与关于活动、锻炼、管理饮食及观察健康相关问题早期迹象的主要公共卫生建议相互重叠。随着政府长期面临医疗支出不断增加的压力,此类迹象将显著增强,从而增加基于传感的医疗平台和解决方案的采用机会。
原则上,上述挑战证实了当前医疗保健系统的被动反应模式已变得不可持续。因此,人们越来越呼吁对医疗服务的提供机制进行各种重大变革。例如,医疗服务需要具备预测性和主动性,以限制昂贵的急性健康事件的发生[37]。此外,为了确保服务的有效传递,医疗服务需要实现个体化,而非群体化正确的治疗。此外,医疗服务的提供需要从医院分散到社区和家庭。实际上,信息与通信技术(ICT)可以在实现所有这些目标方面发挥主要作用,并可作为在家庭和社区环境中提供可管理的患者服务模式的有效解决方案。例如,传感技术[41]可以通过对日常模式进行环境监测,直接或间接地在个体健康状况指标监测中发挥重要作用,其中居家医疗已成为物联网(IoT)[30]的主要组成部分。此外,可穿戴传感技术[49]旨在全天候(24/7)监测个体的生命体征,当达到某一限定值或观察到异常事件(如患者跌倒)时,可向医务人员或护理人员发送警报。大数据分析服务[57]可以监测并检测生命体征及其他各种测量数据,并将这些数据提供给医生或医疗保健服务提供者,以支持其诊断过程。此外,这种诊断甚至可以实现自动化,从而减少或免除因流感等简单疾病和其他常见疾病而前往医生处就诊的需求。
本文重点分析如何有效利用和集成ICT的最新进展,以应对上述挑战,并推动医疗服务的前沿水平发展。具体而言,我们关注利用传感器技术、云计算、物联网和大数据分析系统等新兴技术领域的进步,这些技术得益于网络通信速度、计算能力和数据存储容量等多个互补领域的显著进展,具备多种优势和特性,有助于提升医疗服务的效率和有效性。
本文的主要贡献有两个方面:首先,分析上述关键使能领域和技术的最新研究进展,并确定实现集成且全面的智能医疗数据分析解决方案所面临的挑战和差距;其次,基于该分析研究的成果,我们提出了一种面向智能医疗网络中大数据分析服务的集成且全面的框架——SmartHealth,该框架能够应对已识别的挑战并弥补现有差距。该框架为智能医疗应用程序中大数据分析领域的研究提供了路线图。
本文的其余部分组织如下:分析研究从第2节开始,通过介绍和分析智能医疗系统领域的相关工作与开放性挑战,揭示了一组推动实现集成化、全面的数据分析智能医疗解决方案的使能技术。随后,我们分别用独立的章节讨论和分析这些使能技术。具体而言,第3节阐述了传感技术,第4节讨论了云计算及其在医疗保健领域的应用。接着,第5节探讨了大数据存储与处理系统。基于这一综合分析研究,第6节提出了一个面向医疗保健中的大数据分析的集成化且全面的框架,这是本文的第二个主要贡献。第7节展示了所提出框架的应用场景和用例示例。最后,第8节对全文进行总结,并指出了未来研究方向。
2 相关工作与开放性挑战
术语Cyber Physical System是一个总括性术语,它整合并利用了信息与通信技术(ICT)在感知计算、云计算、物联网以及大数据存储与分析方面的最新进展,在医疗保健、制造业、交通、物流等多个领域具有广泛应用。信息物理系统(CPS)是由协同工作的计算元素组成的系统,用于控制物理实体[58]。它是感知、计算和通信领域的一场新革命,整合了从网络化嵌入式计算机和移动设备到包括传感器和社交数据在内的多模态数据源等多种资源;涵盖医疗、地理、环境、交通和行为等多个领域;并应用于系统健康监测、慢性病管理、灾害响应和威胁评估等多样化场景和应用领域[58]。信息物理系统(CPS)于2008年被美国国家科学基金会(NSF)确定为关键研究领域5,并被美国总统科学技术顾问委员会列为首要研究优先事项[67]。
一个完整的CPS通常被设计为由包含物理输入和输出的相互作用元素组成的网络,而嵌入式系统通常是独立设备的集合[33]。科学与工程的持续进步增强了计算元素与物理元素之间的联系,显著提高了信息物理系统的适应性、自主性、效率、功能性、可靠性、安全性和可用性[33]。预计这将推动信息物理系统在多个维度上的应用显著增加,包括:干预(例如碰撞避免)、精度(例如机器人手术、纳米级制造)、在危险或难以进入的环境中运行(例如搜救、消防、深海探索)、协调(例如空中交通管制、战争作战)、效率(例如零净能耗建筑)以及人类能力增强(例如医疗监控与服务)。

每个组件都基于一项或多项信息物理系统的使能技术(即:传感技术、物联网、云计算、大数据存储与处理)。该场景的主要组件如下[22]:
1. 感知组件:该组件包括在患者所处环境(即医疗机构、医院、家庭)内部使用各种固定式和可穿戴传感设备。传感器持续监测并收集代表患者生命体征的大量数据,并将这些数据传输到专用的数据中心,从而实现实时查询处理和各类大数据分析。
2. 大数据中心:这是一个利用云计算技术(参见第4节)负责存储和处理来自各类传感器数据的数据中心。该组件是下一节第6节中将要提出的医疗保健框架的主要重点。
3. 观察中心:临床医生通过观察中心访问并查询患者数据。根据数据分析类型和查询结果,可能会触发警报可以生成并发送到观察中心(如有必要)。这将使观察中心团队能够做出有依据的决策,其中部分决策是自动化的。
4. 医疗系统:根据生成的警报类型,观察中心的临床医生可能会决定联系其他医疗系统进行咨询。其他医疗系统随后将响应临床医生的请求。
5. 控制应用:根据大数据中心组件提供的信息,结合临床医生和专家来自医疗系统组件的医学知识,观察中心的临床医生可能会决定将某些决策发送至控制/执行组件,这可能涉及触发警报/提醒、通知护理人员或配置智能设备。最后,将根据调用的控制应用程序对患者采取必要的措施。
迄今为止,提出的医疗领域的信息物理系统应用还很少[24,72],而且它们缺乏技术和数据集成的灵活性[22]。尽管文献中已提出了许多信息物理系统架构,但直接针对医疗保健所面临问题的架构却寥寥无几:[8,35,68]。Arami 等[35]提出了一种基于面向服务的架构(SOA)的医疗信息物理系统,但该架构缺乏完整的结构框架[22]。CPeSC3[68]被提出作为一种用于医疗保健的安全信息物理系统架构,其采用无线传感器网络‐云集成框架。班纳吉等人[8]提出了一种建模和分析医疗信息物理系统的方法,然而,它同样缺乏完整的结构框架,例如与安全与隐私相关的问题。
一些显著的信息物理系统应用程序[7,16,44,66,77]应用于医疗保健领域。电子病历( EMR)[44]构成了用于自动化采集生命体征读数的信息物理接口设计。这种方法是生命体征读数的一种解决方案,这通常容易出错且耗时。这是一种信息物理接口的设计,通过有线网络集成传感器,能够将信息以结构化数据的形式检索并存储到电子病历(EMR)系统中。文献[66]提出了CYPSec,这是一种具有环境耦合安全解决方案的信息物理系统(CPS),通过结合传统安全原语与环境特征来运行。文献[77],提出了一种基于社交网络的无线体域网(WBAN)系统,采用基于博弈论的功率控制方法,利用人们的社交交互信息来减轻WBAN的通信干扰。文献[16],提出了医疗信息物理系统(MCPS)与大数据平台,该方案为MCPS设计了一个大数据处理框架,将物理世界与动态可变、完全弹性的网络世界相结合,用于医疗保健领域的决策系统。文献[7]提出了智能检查表(Smart Checklist),用于支持和指导人员完成任务。该系统还支持与设备和软件应用程序的交互。智能检查表有望协助重症监护中的医务人员完成药物治疗准备、数据收集以及患者的其他日常活动。
从数据管理的角度来看,[32]中的研究提出了一种新颖的以信息为中心的方法,使得支持网络的实时嵌入式数据库能够处理原始数据,相互之间进行通信,并以安全及时的方式控制和与无线传感器通信。[27]通过提出一个分为综合与独立两个部分的数据集成过程,解决了数据融合与集成的问题。在综合数据集成中,从多个传感器收集的数据可以被集成以进行进一步处理。来自单个传感器的大量数据则在独立数据集成中被收集和集成。
在[68],中,本研究使用了涉及人类健康数据或人类活动检测数据的感知数据。[77],提出了一种用于无线体域网(WBAN)的基于社交网络的干扰缓解感知方法,该方法利用配备扬声器和麦克风的手机发送和接收声波。结合蓝牙技术的声学信号处理技术被用来测量作为WBANs网关的手机之间的物理距离。
Wiki‐Health[74]是一个用于健康传感器数据管理的大数据平台。Wiki‐Health利用云计算进行传感器数据管理与处理,并设有查询与分析层。我们在此项目中提出的工作与Wiki‐Health非常相似,但我们旨在针对并语义集成来自异构传感器、患者信息、上下文信息、电子健康记录和健康文档的多模态数据。随后,多模态的患者信息将被集成到患者治疗过程中,以帮助医生做出更知情的决策。
医疗状态监测应用程序包括[26,29,53,59,71]。MobiHealth [29] 代表了从人们全天携带的可穿戴传感器设备中收集数据的努力。该项目是最早尝试通过传感器监测医疗状态的项目之一。它试图收集音频和视频信号,以便在发生事故时提供早期响应。CodeBlue [59] 是一个由集成的生物医学传感器(如双导联心电图、脉搏血氧仪和运动传感器)组成的平台,采用基于发布/订阅的路由软件架构。CodeBlue 在医疗设备之间进行管理和通信。该系统在其早期使用网络内聚合和智能路由方面是一项开创性项目。AlarmNet [71] 是一个无线生物传感器网络系统,由心率、脉率、血氧饱和度和心电图组成的生命体征类型。温度和湿度等环境参数提供空间上下文数据。系统还考虑了隐私、电源管理和查询管理。类似地,移动心电图[26]系统使用智能手机作为心电图测量和分析的基站。在预测生命体征[53]中,已开发出一种系统,能够比以往提前约20秒预测心率、血压和其他生命体征。
信息物理系统使能技术依赖于多种关键使能技术之间的交互与协同作用。更具体地说,一个主要的关键使能因素是传感技术的进步(如图1中的“感知组件”)。在医疗监控背景下,一个密切相关术语是参与式感知(也称为群智感知、城市感知、以人为中心的感知或机会式感知),它指的是社区(或其他人群群体)贡献感官信息以形成知识体系[20]。随着智能手机和各种低成本可穿戴设备和织物的出现,许多市民长时间随身携带传感器。在医疗领域,患者可以积极参与其日常健康监测,这为他们提供了独立生活、保护隐私并最终提高生活质量的手段。正如[61],所指出,“健康与健身”是参与式感知在实践中最具前景的主要应用之一。传感技术将在第3节中进一步详细讨论。
物联网 (IoT) 是信息物理系统的另一项使能技术(参见图1中“感知”与“大数据中心”组件之间的连接)。物联网被定义为“通过互联网连接实现唯一可识别的计算设备之间的互连”[30]。在实践中,物联网有望在设备、服务和系统之间提供丰富的连接性。这些对象的连接性有望实现众多应用领域的自动化[6]。事物在医疗系统背景下,指的是各种各样的设备,例如心脏监测植入物以及农场动物身上的生物芯片应答器等。
云计算是推动信息物理系统成功发展的另一关键因素,它使得计算服务/资源可以通过网络(通常为互联网)以公用设施的形式提供[62]。如图1中的“大数据中心”组件所示,云计算技术被用于存储和处理采集的感知数据。第4节将详细讨论云计算及其在实现信息物理系统方面的作用,特别是其在医疗保健领域的应用。除了预计涌现大量新颖的应用领域外,物联网还预计将从不同地点以及来自异构来源产生大量数据,这带来了许多挑战,本文第5节将对此进行更详细的讨论。
由于存在如此广泛且具有各种设计决策的系统,系统设计人员和开发人员很难决定使用哪种系统来满足当前应用的需求。图1中由虚线标出的部分,即 “大数据中心”,代表了我们在第6节中提出的框架的主要关注点。这包括异构多模态传感器数据(大数据)的预处理、存储、维护、语义集成,以及由云计算技术支撑的高效处理与分析。我们的全面的数据分析框架基于此项综合分析研究而得出,旨在解决本文中识别出的挑战并弥补存在的差距。
3 传感技术
传感技术被广泛应用于医院服务的各个方面,从最简单的数字温度计到复杂的激光引导手术工具[41]。例如,成像传感技术(如磁性、X射线)、正电子发射断层扫描(PET)、计算机断层扫描(CT)和超声波是医疗人员常用的技术,可为每位患者的健康状况提供多种洞察。这些传感器在转变诊断医学方面发挥了关键作用。特别是,这些信息使医生能够识别损伤或异常区域,实施微创手术,并评估医疗操作的成功与否。例如,在产科护理中,超声波使医生能够追踪和检查发育中的胎儿,并确定可能影响母亲或婴儿健康的胎儿或其他异常情况。此外,病理学家在医院实验室中使用先进的传感设备进行血液学、免疫学、生物化学、组织病理学和微生物学检测。传感器在医疗治疗过程中也可发挥重要作用。例如,它们能够检测漏搏等情况。此外,通过确定给药的最佳时间,传感器可在优化药物递送过程中发挥主要作用。可穿戴和一次性生命体征传感器正在兴起,无论患者身处何地或健康状况如何,均可实现低成本的生命体征连续监测。据估计,到2018年,此类传感器的销量将达到500万台6。例如, LifeShirt系统7就是一个用于收集、分析和报告患者健康数据的多传感器连续监测系统的实例。它捕捉的是患者持续的数据流,而非仅在患者定期就诊医生诊所时获取的数据快照。图2左侧展示了这些可穿戴设备的不同示例,例如智能鞋、智能手表、智能手环等,用于生命体征的连续监测。
一般来说,传感器被定义为一种将物理测量转换为由观察者或仪器读取的信号的装置[65]。原则上,传感器利用了广泛的换能器和信号转换方法,相应地在技术复杂性上存在差异。这些差异范围从基于双金属热电偶的相对简单的温度测量,到使用复杂的光学系统检测特定细菌种类。在医疗保健与健康领域,有多种传感方法,如光学传感器、机械传感器、微机电系统(MEMS)、电化学、半导体和生物传感[41]。实际上,传感器技术在医疗保健领域具有多种应用程序,例如促进生理监测(如血压、心率)以及筛查应用(如血液生物化学和跌倒风险评估)。此外,在家庭和社区健康领域,远程监控、远程医疗和移动健康传感器应用实现了远程监测。

管理患有糖尿病和充血性心力衰竭(CHF)等慢性疾病的患者。此外,在医院和初级医疗机构中,传感器应用更侧重于医学筛查与诊断应用,如电解质水平测量、床旁血液化学检测以及血液气体浓度分析。进行妊娠检测、胆固醇监测、食物过敏检测和DNA检测的诊断传感器市场正在持续增长。特别是,传感器在临床医疗保健中的关键应用领域示例如下[41]:
– 成像:低成本的CCD和超声波传感器用于医学成像[45]。智能药丸可用于肠道成像[40]。
– 筛查与诊断:光学和生物化学传感器用于诊断应用程序和床旁监测[73]。此外,生物传感器可用于测定生物样本中的药物、蛋白质水平、细菌感染和激素[42]。
– 运动与运动学:加速度计和陀螺仪是可穿戴无线传感器的例子,可用于确定平衡和跌倒风险,并跟踪医疗干预的影响。运动学传感器用于假肢替换的评估过程[4]。它们还用于中风康复,以跟踪指定身体锻炼的状态[63]。
– 生理学:血压和心电图等主要生理指标可用于衡量和跟踪健康状况[39]。
随着人们对自身健康的意识不断提高,用于监测和跟踪健康促进计划(如肥胖预防)进展的各类传感器市场也随之增长[12]。在此不断扩大的应用领域中,血压监测仪、可穿戴心率和集成活动监测仪以及脉搏血氧仪等传感器正被越来越多地使用。传感器在健康领域的另一个关键应用是个人安全,尤其是在家庭环境中。例如,烟雾探测器的应用已十分广泛且历史悠久[46]。家用一氧化碳传感器通常采用半导体或电化学传感器。
此外,广泛可用和使用的通用定位跟踪传感器(GPS)(例如智能手机中的加速度计)通常用于娱乐目的,使慢跑者或个人安全应用程序能够使用实时配速、海拔、位置和方向信息。例如,GPS传感器可用于跟踪和识别儿童或老年人的位置。
在实践中,普适感知技术依赖于分布式网络传感器来监测用户活动,同时对用户保持透明[48]。例如,在行为监测中,射频识别和无线传感器被用来检测人类及其环境之间的交互。原则上,传感器系统通过支持更多功能(包括通信(有线和无线)、数据收集与处理、显示、外壳和安装、安全和远程管理能力)来增强智能传感器的功能。系统能力的需求组合通常由应用需求决定。例如,现代智能手机和平板电脑配备了多种集成传感器,操作系统利用这些传感器来改善用户体验[19]。此外,此类设备通常包含位置和运动传感器(如压力传感器、陀螺仪、加速度计)、光学传感器(环境光传感器、图像传感器、接近传感器和显示屏传感器)、硅麦克风以及各种其他环境传感器。这些传感器被集成到使用最频繁的设备之一中,从而保证了高用户依从性。此外,目前最受欢迎的移动操作系统(如安卓、iOS 和 Windows 8)提供了基于传感器的开发框架(例如Run Keeper8),使程序员能够轻松地在其应用程序中访问这些传感器的数据流。将传感器框架集成到软件开发过程中极大地促进了应用程序的开发,特别是因为单个传感器的读数并不总是可用于提供决策所需目标动作的综合测量数据。在各种场景下,可能需要来自多个传感器的测量数据,以完全理解感兴趣的测量值,或理解测量的情境敏感性以实现情境意识。例如,非接触式步态速度测量需要在固定距离处使用多个传感器,才能计算个体经过时的速度。运动分析应用(如 Wii 和 Kinect)已在其解决方案中利用了3D陀螺仪、3D加速度计和3D磁力计。利用和融合传感器数据的机制取决于应用程序的需求和可用的计算资源。
我们认为,传感器技术可以在开发医疗保健服务中发挥主要作用,通过智能软件功能提供数据分析与解释层,从而协助医生和医疗人员的工作。实际上,当前的技术进步已逐步实现了传感技术的快速且日益广泛的利用。例如,截至本文撰写时,已售出超过十亿部智能手机9。2013年,智能手机销量首次超过传统移动设备的销量10。3G移动宽带连接已变得更加广泛可访问,而更快的4G宽带连接正在投入使用。已引入。原则上,无论是通过3G、4G、通用分组无线服务(GPRS)、 Wi-Fi还是蓝牙,连接性都已变得无处不在。此外,云服务 increasingly 被广泛使用,以提供不断增强的数据共享、存储、处理和聚合能力。因此,传感技术与信息与通信技术的全面集成将为患者提供更多机会,使其能够生成有关自身健康状况的信息,并积极参与到与医生共同管理自身健康状况的过程中。此外,这还将使他们具备以前无法实现的信息利用和控制能力。实际上,来自这些各种传感设备的数据将为医生提供超出其手动分析能力的更多信息。
因此,医生需要配备适当的服务,以支持他们实现基于预测性、主动性和预防性以及个性化治疗的患者护理模式,从而能够有效且准确地确定患者状况并开具适当的治疗方案。
4 云计算
云计算已被高德纳列为未来几年十大最具颠覆性技术之首[1]。它代表了信息与通信技术领域的一次范式转变,正在逐步改变企业处理其存储和计算资源的方式[18]。从根本上讲,云计算是一种新兴的范式,用于提供计算资源和基础设施。该范式将计算资源和基础设施的位置转移到网络中,旨在降低管理和维护软硬件资源的成本。因此,用户和企业能够随时随地按需远程访问应用程序服务。因此,云计算被视为实现“将计算视为一种效用”这一长期愿景的重要一步[5],其中规模经济原则有效降低了计算基础设施的成本。在实践中,大型科技公司(如亚马逊、微软、谷歌、IBM)已积极在全球建立自己的数据中心,通过为最终用户提供基础设施、平台和应用程序的冗余来确保可靠性。因此,基于云的服务提供了诸多优势,例如:存储、计算和应用程序资源的灵活性与可扩展性,基础设施的最优利用以及降低成本。因此,云计算为基于传感器的医疗数据提供了强大的存储、处理和可视化资源支持。特别是,医疗传感器可以是独立设备,也可以构成地理上分布的网络。这些基于云的资源能够适应动态工作负载。
事实上,行业和学术界经过了一段时间的讨论,才得以制定出定义云计算实际含义的路线图[64,51,60]。美国国家标准与技术研究院(NIST)发布了一个定义,反映了业界对云计算最普遍认同的特征。该定义将云计算技术描述为:“一种能够方便地按需通过网络访问共享池中的可配置计算资源(例如网络、服务器、存储、应用程序和服务)的模式,这些资源可以快速供应并且通过最少的管理努力或服务提供商交互来发布”。原则上,云计算技术提供的一个重要功能是,计算硬件和软件能力可以通过网络访问,并通过可支持异构瘦客户端或胖客户端平台(例如笔记本电脑、手机和平板电脑)的标准机制进行访问。
在云计算中,提供商的计算资源被集中起来,通过多租户模型为多个消费者提供服务,其中各种虚拟和物理资源会根据应用工作负载的需求动态分配和重新分配。因此,实现了位置无关性。此类共享计算资源的示例包括存储、内存、网络带宽、处理能力、虚拟网络和虚拟机。在实践中,数据中心技术的一个主要原则是利用虚拟化技术来提高计算资源的利用率。因此,它以较低的单位成本将中央处理器、存储和网络带宽等计算资源作为商品提供。因此,云服务用户无需担心资源可扩展性问题,因为所提供的资源几乎可以被视为无限。特别是,公共云提供商的商业模式依赖于大规模采购IT资源,并通过各种有吸引力的定价模型和租赁套餐向云消费者提供这些资源。这使得应用程序或企业有机会访问强大的基础设施,而无需自行购买。
在实践中,多个云用户共享并使用的池化IT资源可提高甚至最大化共享资源的利用率。通过采用优化云架构、治理及其云资源管理的最佳实践和模式,也可以显著降低运营成本和低效率。此外,云平台配备了专门设计的工具和技术,可根据应用程序的需求动态且即时地按需向云用户分配计算资源。此功能使云用户能够扩展计算资源,以弹性应对工作负载中的峰值和波动。该功能通过自动化缩减规模、确保计算资源持续满足不可预测的使用需求,并避免在处理波动工作负载时可能出现的应用请求丢失或性能下降,从而增加了依赖云资源所能获得的经济效益。云计算资源的可用性和可靠性是直接带来切实商业利益的另一个重要因素。特别是,典型云平台的一个标志性特点是其能够保证为提高基于云的计算资源的可用性提供广泛支持,以最小化甚至消除中断情况,同时提高其可靠性,以减轻运行时故障条件的影响[3]。例如,Microsoft HealthVault11已被推出作为用于存储和维护健康与健身信息的基于网页的平台。特别是,该平台连接了大量医疗设备、消费类电子产品和应用程序,以自动导入数据。此外,用户可以手动添加数据,包括体重、实验室结果、药物、月经日期、免疫接种、医疗程序等。此外,医生还可以将患者的数据和文件直接发送到其HealthVault账户。因此,HealthVault提供实现在线且广泛可访问的个人医疗记录的服务。传感器云[75]作为一种基础设施被引入,旨在通过将物理传感器连接到云来管理它们。特别是,传感器云将物理传感器捆绑为虚拟传感器,用户可以将其组合在一起以实现更高级的结果。SenaaS(Sensor‐as‐a‐Service)[2]是另一种被提出的方法,它根据面向服务的架构(SOA)方法将物理和虚拟传感器封装为服务。SenaaS主要侧重于提供传感器管理即服务,而不是提供传感器数据(采集与传播)作为服务。
实际上,我们认为基于传感的技术融入到我们日常活动的各个方面将产生海量数据,随着越来越多的传感器数据被输入医疗保健平台的数据存储系统,这些数据量还将持续增长。原则上,大数据这一概念近年来受到越来越多的关注,这是对每天利用信息与通信技术[55]的最新进展所生成的海量数据的回应。基于传感的技术有望成为这一大数据时代的基本贡献者之一,特别是随着物联网(IOT)在我们的日常活动中开始受到关注[69]。预计大型传感器数据将大量依赖云计算资源来存储、处理和可视化海量数据,从而使得对生成数据的访问变得更加普遍,尤其是通过智能手机和小型设备。此外,它还促进了以创新机制将基于传感器的医疗数据与其他来源的传感器数据结合的能力,以发现新的洞察。图2描绘了患者/公民配备各种可穿戴(医疗)设备(例如心电图和呼吸、运动传感器等)的总体架构,这些设备通过云与临床医生、急救服务提供商和护理人员连接。关于患者生命体征以及患者信息和病史的收集到的传感器数据随后可以被抽象化并分析,以生成有意义的信息,使临床医生能够做出更明智的决策并预测潜在威胁。
5 大数据存储与处理系统
一般来说,使用采矿的比喻,数据代表新的黄金,而分析系统则是用于开采、塑造和铸造它的机械。实际上,全球医疗系统在照护患者时正面临着信息过载的挑战。医疗分析被定义为一组基于计算机的方法、流程和工作流,用于将原始健康数据转化为有意义的洞察、新发现和知识,从而帮助做出更有效的医疗决策[11]。近年来,医疗分析的重要性日益增加,不仅因为它有助于改善患者和医疗服务,还被视为降低医疗成本的有效工具。特别是由于大数据现象在医疗领域的爆发,医疗分析如今正变得越来越受欢迎。
通常,大数据以其三个关键的3V特征(图3)而为人所知:Volume(指数据规模大小),Velocity(代表流式数据和大规模数据流动)以及 Variety(指数据复杂性,涵盖从关系型数据到日志再到原始文本等多种不同结构)[55]。例如,在医疗数据中,结构化数据可以以电子病历(EMRs)或电子健康记录(EHRs)的形式存在,包括常见的输入记录字段,如患者姓名、出生日期、地址、医院名称、地址以及其他基于字段的信息。半结构化数据包括仪器读数以及通过纸质记录持续转换为电子健康和医疗记录所产生的数据。此外,来自健身设备、遗传学和基因组学、社交媒体及其他来源的结构化和非结构化数据流可能不断涌入医疗系统。因此,医疗机构迫切需要高效的方法来整合和转换这些不同类型的数据,包括实现从结构化数据到非结构化数据的自动转换。

在实践中,我们现在处于数据丰富但信息贫乏的状态。因此,大数据技术为此海量数据中提取可操作信息提供了强大的基础设施。根据麦肯锡报告,大数据分析是向医疗保健领域传递五大价值的平台:正确的生活方式、正确的护理、正确的服务提供者、正确的价值和正确的创新[28]。这些价值一方面为改善医疗服务提供了无限机遇,另一方面有助于减少浪费和降低成本。例如,医疗分析不仅可根据性别、年龄和生活方式等简单的传统人口统计学属性进行患者分类,还可依据与健康状况、风险倾向、遗传倾向及治疗可能性相关的健康和临床特征进行分类。医疗分析能够基于定义患者医疗护理方案的多种因素——既往病史、注意事项、过敏史、遗传特征、个人风险因素、工作和生活方式等——优化并个性化每位患者的治疗过程安全管理。医疗分析还可以揭示患者群体或特定患者中多个质量指标与影响这些健康指标的因素之间的因果关系。此外,医疗分析可用于计算更精确的患者风险分层指标,确定健康并发症程度、共病影响以及患者健康状况严重性对治疗结果的影响。通过此类计算,可以确定患者的风险档案,从而帮助为具有相同档案的患者群体设计护理计划。此类分类对于任何责任医疗组织的计划和定价都将非常有帮助。在实践中,实现这些目标需要具备强大的大数据存储、处理和分析平台的可用性。
在过去的十年中,我们见证了大数据技术领域的持续进步。在接下来的部分中,我们将这些技术分为两大类进行概述:大数据存储系统(第5.1节)和大数据处理系统(5.2)。
5.1 大数据存储系统
通常,关系型数据库管理系统(例如 MySQL、PostgreSQL、SQL Server、甲骨文)几十年来一直被视为数据持久化和检索的通用解决方案。经过广泛的研究与开发,它们已经日趋成熟,并成功地在不同的商业领域中建立了庞大的市场和众多解决方案。然而,日益增长的可扩展性需求以及新的应用要求为传统的关系型数据库管理系统带来了新的挑战。特别是目前,我们正见证着由用户驱动和用户生成数据的持续增长,导致所产生、存储和分析的数据类型和体积急剧增加。例如,各种较新的数据生成技术,如传感器技术、自动跟踪器、全球定位系统(GPS)和监控设备,正在产生大规模数据集。除了数据快速增长外,数据本身的性质也变得越来越稀疏和半结构化。这些变化使得传统的数据管理技术——依赖于预先模式定义和基于关系的数据组织——在许多场景下显得力不从心。因此,为了应对这一挑战,近年来我们见证了新一代可扩展数据存储系统的兴起,即 NoSQL(不仅仅是SQL)数据库系统。这类数据库系统主要分为四种类型:
– 键值存储:这些系统使用最简单的数据模型,即由对象组成的集合,其中每个对象具有唯一的键以及一组属性/值对。
– 可扩展记录存储:它们提供可变宽度的表(列族),可在多个服务器上进行垂直和水平分区。
– 文档存储:这些系统的数据模型由具有可变数量属性的对象组成,并且可能包含嵌套对象。
– 图存储:这些系统的数据模型使用图结构,通过节点、边和属性来表示和存储数据。
通常,可扩展性表示系统通过增加分配的资源以应对不断增长的工作负载来提高吞吐量的能力。在实践中,可扩展性通常通过为满足不断增长的需求而配置额外资源(垂直可扩展性)来实现,或者通过将多个系统分组来实现商品机集群充当集成的工作单元(水平可扩展性)。原则上,垂直扩展选项通常成本高昂且依赖专有技术,而水平扩展则通过添加更多节点来管理额外的工作负载,这与新兴云计算模型的pay-as-you-go定价理念非常契合。此外,无论增加多少资源或花费多少钱,垂直可扩展性通常都会面临无法逾越的绝对上限。再者,水平可扩展性使得存储系统对工作负载波动更具弹性,因为单独请求的处理方式避免了在共享硬件资源上的竞争。
在实践中,尽管有许多系统12被归类为NoSQL系统,但这些系统差异很大,每种系统都有其独特的功能和价值主张[56]。例如,键值(KV)数据存储代表了NoSQL系统中最简单的模型,它以类似于标准编程语言中映射(或哈希表)的方式将键与值配对。已有多种开源项目实现了键值NoSQL数据库系统,如 Memcached13,Voldemort14,Redis15和Riak16。列式(或面向列的)是另一种类型的 NoSQL数据库。在这类系统中,来自特定列的数据被集中存储,而不同于面向行的数据库(例如关系型数据库系统),后者将每一行的信息集中存放。在列式数据库中,添加新列非常灵活,可以逐行动态进行。特别是,每一行可能具有不同的列集合,从而允许表结构稀疏化,且不会因空值带来额外的存储开销。从原理上讲,列式NoSQL系统介于关系型数据库和键值存储之间。Apache HBase17是目前此类中最流行的开源系统。另一类NoSQL系统是文档导向型数据库存储。在此类别中,文档类似于哈希表,包含一个唯一ID字段,其值可以是多种类型中的任意一种,包括更多的哈希结构。特别是,文档可以包含嵌套结构,因此提供了高度灵活性,支持可变域。MongoDB18和CouchDB19是当前该类别中最流行的两个系统。最后,NoSQL图数据库是另一类擅长处理高度互联数据的系统。原则上,图数据库由节点和节点之间的关系组成,而节点和关系都可以通过描述性信息和属性(键值对)进行描述。从根本上说,图数据库的主要优势在于它们为遍历图结构中的节点提供了便捷的功能以下关系。目前,Neo4J20数据库系统是这一类别中最受欢迎的。
5.2 大数据处理和分析系统
一般来说,数据本身并不具备直接的有用性。只有当能够从中提取出意义和价值时,数据才具有效用。因此,鉴于其效用和价值,人们始终持续不断地投入努力来生成并分析数据。原则上,大数据发现使数据科学家和其他分析师能够通过分析大量且多样的数据来揭示模式和相关性。从大数据发现中获得的洞察可为企业带来显著的竞争优势,例如更成功的营销活动、降低客户流失率以及减少欺诈造成的损失。实际上,对大规模数据处理和数据分析应用日益增长的需求,激发了行业和学术界开发出新型解决方案。原则上,在过去十年中,MapReduce框架[15]已成为大数据技术的事实标准,并被广泛用作一种基本机制,以利用商用机器集群的强大能力。通常来说,MapReduce框架的基本原理是将分析移动到数据所在的位置,而不是将数据移动到能够分析它的系统中。此外,MapReduce框架的一个主要优势在于,它使应用程序无需关注分布式程序运行的具体细节,例如数据分布、调度和容错等问题。特别是,它允许程序员以一种data-centric的方式进行思考,专注于对数据记录集实施转换,而分布式执行和容错的细节则由MapReduce框架透明管理。在实践中,Hadoop项目21 ,作为MapReduce框架的开源实现取得了巨大成功,并在研究和商业领域不断增强了势头。例如,由于其成功,许多大型企业已对其提供支持它们的大数据商业平台,例如Microsoft22,IBM23和Oracle24。此外,一些成功的初创公司,如MapR25,Cloudera26,Platfora27和Trifcata28,已经基于Hadoop项目构建了他们的解决方案和服务。图4展示了谷歌网络搜索趋势中两个搜索关键词: Big Data和Hadoop,数据来源于谷歌趋势分析工具29。原则上,图4显示搜索关键词Hadoop已超过搜索关键词Big Data,并在2008年至2012年期间一直主导着网络用户的搜索请求;而自2013年以来,这两个搜索关键词开始并驾齐驱。

通常,发现过程经常采用多种类型的分析技术,例如时间序列分析、文本分析、统计学和机器学习。此外,该过程可能涉及来自传统事务源的结构化数据的分析,以及来自其他来源的多结构化数据的分析,例如点击流、呼叫详细记录、应用程序日志或呼叫中心记录中的文本。实际上,在过去几年中,学术界和工业界都认识到MapReduce/Hadoop框架[57]存在一些主要局限性,并且已经公认它不能成为所有大数据处理问题的one-size-fits-all解决方案。例如,在处理大规模结构化数据时,多项研究指出Hadoop框架存在显著的低效率。特别是,这些研究表明,对于目标响应时间为几秒或毫秒级的交互式查询, Hadoop并不是合适的选择[50]。此外,许多程序员可能不熟悉Hadoop框架,他们更倾向于使用SQL作为高级声明式语言来实现其任务,同时将执行过程中的所有优化细节委托给底层引擎[57]。因此,谷歌设计了Dremel系统[43],,并通过BigQuery30,系统将其商业化,以提供对嵌套数据的交互式分析。其他为应对这些挑战而设计的项目包括Apache Hive31和Cloudera Impala32,它们被引入以在Hadoop基础设施之上支持SQL风格的语言,并在处理大规模结构化数据时提供具有竞争力且可扩展的性能。
如今,包含数百万乃至数十亿个节点和边的图已变得非常普遍。图规模的巨大增长需要大量的计算能力来进行分析。通常情况下,图处理算法是迭代的,需要以某种特定方式遍历图。在实践中,图处理任务可以被实现作为一系列链式的MapReduce作业,需要将图的整个状态从一个步骤传递到下一个步骤。然而,这种机制并不适用于图分析,由于通信开销和相关的序列化开销,以及链式MapReduce[57]各步骤之间协调的需求,导致性能低下。因此,2010年,谷歌推出了Pregel系统[36],,后开源为Apache Giraph33,,该系统采用基于全同步并行(BSP)的编程模型,利用商用机器集群高效且可扩展地处理大规模图。此外,还有其他一些项目(例如,Trinity34和GraphLab35)被提出以应对大规模图处理的问题。
通常,流计算是一种新的范式,由新的数据生成场景所推动,例如移动设备的普及、位置服务和传感器的广泛应用。一般来说,流处理引擎支持一大类应用程序,这些程序的数据来自各种来源,并异步传输到处理节点。因此,流式应用通常被配置为连续任务,其执行从创建时开始,直到取消时结束。特别是,在静态数据计算中,查询针对的是静态数据;而在流式数据计算中,数据则持续不断地被静态查询所评估。原则上,Hadoop框架的基本架构设计假设每个映射和归约步骤的全部输出都必须先存储到本地存储中,然后才能被下一个节点处理。这一物化步骤使得可以实现简单直接的检查点/重启容错机制。因此,在流式数据的可扩展分析中,Hadoop已被证明是一个不合适的平台,同样[57]。
因此,推特发布了Storm系统36,通过提供一个分布式且容错的平台,填补了流式数据连续实时处理应用程序的空白。Storm编程模型中的主要抽象是流,它表示一个无界元组序列。支持实现流处理操作基本功能的Storm基本编程抽象是Spout和Bolt。Spout代表流的源头。Bolt可以接收任意数量的输入流,根据应用逻辑进行处理,并可选择性地生成新的流。复杂的流处理操作(例如,通过分析推文流来确定热门话题)需要多个步骤,从而需要多个Bolt。Storm拓扑被表示为流操作符图,其中每个节点是一个Spout或Bolt。图中的边描述了哪些Bolt与哪些流相关联。一旦Spout或Bolt向流发送一个元组,它就会将该元组发送给与该流关联的所有Bolt。拓扑中节点之间的连接说明了数据元组应在集群节点之间如何传输。需要注意的是,Storm拓扑的所有节点都是并行执行的。对于任何拓扑,我们可以确定每个节点所需的并行度,然后Storm将在集群上创建相应数量的线程以执行任务。图5展示了示例Storm拓扑。该领域的其他系统包括IBM InfoSphere Streams37和ApacheS438。在实践中,大规模流处理系统非常适合处理由各种类型的传感设备生成的数据流。

Apache Mahout39是一个开源项目,旨在解决非常实际且可扩展的机器学习问题。特别是,Mahout 实质上是一组与 Apache Hadoop 高度集成的 Java库,旨在使机器学习应用程序更易于构建。Mahout 使用户能够快速开始处理常见的用例。类似于 Apache Hive 为查询 Hadoop 中的数据提供类 SQL 接口, Mahout 将用 Java 表达的机器学习任务转换为 MapReduce作业。AMPLab 是来自加州大学伯克利分校的一组研究人员,他们开发了一个名为 MLbase[31]的通用机器学习库,其目标与 Mahout 类似,即为应对大规模机器学习任务提供可行的解决方案。R40是一个开源软件包,有助于对数据执行统计分析。特别是,R提供了一种编程语言,供统计学家、数据科学家及其他希望通过对数据进行聚类、回归、分类和文本分析等机制开展统计分析并从数据中发现新洞察的人使用。R支持丰富的统计、机器学习和图形技术。R为统计、机器学习和可视化任务(如:数据抽取、数据清洗、数据加载、数据转换、统计分析)提供了大量内置及扩展功能。统计分析、预测建模和数据可视化。目前,R被认为是用于统计分析的最流行 的开源跨平台软件,拥有非常广泛的社区支持。最近,深度学习[70]作为一种新技术逐渐兴起,它通过学习多层次的表示和抽象,帮助理解各种类型的数据,如文本、图像和声音。图5展示了大数据系统部分领域的概览。关于这些系统的全面综述,我们建议读者参考[76]。
6 智能健康框架
一般来说,由于传感器设备及其他相关技术的最新进展,数据采集的成本已大幅降低。原则上,尽管初始设置成本相对较高,但持续的数据采集成本仍然非常低廉。此外,随着传感器技术的不断进步,这些初始成本也在持续下降。实际上,基于传感的患者监测所产生的数据量远远超过医疗保健专业人员能够手动解读的能力。因此,为了检测任何感兴趣的事件,对大数据进行自动化处理至关重要。
通常,电子病历系统(EMR)并非设计用于处理大量、高速且多样化的数据。此外,EMR系统也未针对复杂的分析操作进行优化,例如异常检测、发现数据中的模式、机器学习,以及构建用于预测建模的复杂算法。因此,数据分析系统正在卫生信息学领域中发挥着日益重要的作用,不仅用于改善患者护理结果,还用于提高医疗质量、降低成本并提升患者群体健康水平。特别是,医疗分析提供了一系列方法和流程,能够将原始医疗数据转化为有意义的洞察、新发现和知识,从而支持高效且有效的医疗决策。具体而言,医疗分析超越了主要出于报告质量指标需求而驱动的线性和描述性分析,涵盖更广泛、更深入的数据研究与分析方法,如机器学习、非线性算法,以及多分析方法的引入。
总体而言,分析技术通常可分为以下几类[52]:
– 描述性分析用于解释在特定情况下正在发生的事情。这些技术通常用于回答 “发生了什么?”这类问题。常用的分析方法包括使用直方图、图表、箱线图或数据聚类的描述性统计。
– 诊断性分析用于理解某些事件发生的原因以及关键驱动因素。例如,为什么疾病感染在增加?或者为什么一些患者每月都会再次入院?诊断性分析的常用技术包括聚类、分类、决策树或内容分析。
– 预测性分析用于预测未来可能发生的情况,也可用于预测不确定结果的概率。例如,可用于预测某位患者是否可能患上某种疾病。统计学和机器学习提供了许多优秀的预测技术。
– 处方分析用于建议采取最佳行动方案,以优化决策结果。通常,处方分析会将预测模型与业务规则相结合(例如,如果药物副作用的概率超过给定阈值,则拒绝该药物治疗)。决策树、线性与非线性规划以及蒙特卡洛模拟等技术在此类分析中非常有效。
为了有效支持上述分析形式,我们引入了SmartHealth,这是一个用于存储和处理大型医疗相关数据的分析处理框架。SmartHealth 的关键设计目标之一是在适当环境中集成各种临近的患者大数据源(例如医院信息系统(HIS)、放射科信息系统(RIS)、实验室信息系统(LIS)、影像归档和通信系统( PACS)),以应用各种强大的分析功能。图6展示了SmartHealth框架的分层架构,该架构利用智能传感器、云计算和大数据处理技术等方面的最新进展,构建了一个新颖的可扩展的数据管理和分析平台,支持针对医疗数据源的各类分析功能。

如图6所示,SmartHealth框架由以下主要层次组成(从底层到上层):
– 数据连接层:该层建立数据感知、采集、摄取和数据流水线,以实现向集中式基于云的数据存储的传输。利用大数据的主要挑战集中在如何应对数据的多样性、异质性和复杂性方面,由于大数据的体积和速度,传统的用于较小数据集的机制(例如手动集成或数据的手动整理)已不再适用。这种语法和语义不兼容通常会导致数据冗余和不一致这些因素会显著影响感知数据的质量,进而影响基于这些数据所做决策的质量。语义网技术(例如本体)是解决这些问题的手段。通过语义网技术整合异构多模态医疗数据,包括各种异构传感器、上下文信息、患者反馈、健康文档、电子健康记录(EHR)以及所有连接数据源(如传感器、数据流和其他存储库)的元数据,是该层需要解决的主要问题之一。这包括开发和集成相关的语义本体,这些本体构成数据表示和注释的基础。该层的最终目标是实现异构数据源的即插即用兼容性。
– 数据存储与管理层:该层提供一种可扩展、可用、可靠且广泛可访问的数据存储介质,能够处理海量的医疗数据。该层可通过组合多种数据存储系统来实现。例如,可以利用可扩展的基于云的关系型数据库服务(如亚马逊RDS41, SQL Azure42)来存储结构化医疗数据,同时依赖基于云的NoSQL存储服务(如亚马逊DynamoDB43,谷歌Datastore44)来存储和处理半结构化及非结构化数据源。
– 分析层:该层将提供多种引擎以实现分析功能。根据任务需求,该层可使用一个或多个引擎来执行分析工作。例如,机器学习引擎(如 Apache Mahout、 SystemML45,BigML46)将负责构建和建立自适应模型与算法,这些模型和算法能够从数据中学习,并在数据随时间变化时调整其性能,从而适用于不同人群(例如,能够自动将患者分类为患病组或无病组的模型)。预测建模引擎将支持各种统计和数学模型,基于历史数据进行预测。模式匹配引擎将提供工具,用于识别数据中的形状和模式,执行相关性分析以及多维度的数据聚类。该层可以利用各种大数据分析系统,如:Hadoop栈、Spark栈、Mahout 和 R 语言。
– 展示层:该层将使用工具(例如,Tableau47, Infogram48, Plotly49)来构建用户友好型仪表板和应用程序,以显示分析引擎的结果。所支持的仪表板需要支持各种可视化方案,并能够动态显示和更新分析工作的结果。此外,这些结果推动患者治疗过程(由业务流程管理技术赋能),使医生获得关键的深刻洞察,从而能够及时做出知情决策。
在实践中,智能健康框架的设计旨在通过多种方式支持修改和改进医疗保健服务模式的过程,例如:
– 依靠家庭和社区环境中的基于传感的筛查与评估技术,以减轻医院环境的物理压力,并将其转化为电子信息流。
– 将药物治疗过程从被动反应模式转变为积极主动和预防性的模式,从而显著降低因急性事件住院所产生的住院费用。
– 提升医疗保健过程的个性化,使个人能够监测并识别自身的风险因素、实施预防性干预和治疗,同时在得到照护的前提下实现独立生活,这对其心理状态产生显著的积极影响,并继而改善其生理状态。
– 实现对临床工作量的更好管理,使医疗系统能够有效优先处理需求最高的患者。
– 支持自我护理诊断过程,用于监测生命体征及其他各种测量数据,这些数据可与医生通过面对面或远程会诊方式共享,以进行诊断。此外,对于流感等简单疾病,诊断有时可实现自动化。
– 通过减少送检样本的需求来优化即时检验,缩短诊断时间。例如,使用血压袖带和数字温度计进行自动检测,可在记录测量数据的同时帮助医生回顾患者病史。
7 使用案例和应用场景
总体而言,医疗数据量预计将在未来几年继续急剧增长。实际上,利用信息与通信技术(ICT)的最新进展,有效分析和利用这些大数据,可在多种用例和应用场景中为医疗保健机构带来显著益处,涵盖从单医生诊所、多提供商机构到大型医院网络等各类机构。特别是,医疗保健分析可用于多种应用程序,旨在将大量数据转化为可操作信息,从而用于识别需求、提供服务、预测问题并预防患者群体的危机。这些用例和场景的示例包括[37,47,54]:
– 大数据驱动的决策:决策过程基于对大规模数据分析,这种分析更能代表现实世界,而非单纯依赖直觉。例如,美国医疗保健大数据项目[9]包含了超过五千万患者的记录。这些数据被用来发现医疗行业的挑战,而针对如此庞大的数据,为此目的提出正确的查询是非常复杂的。除了临床数据外,医疗数据还包括医药数据(例如,药物分子和结构‐习惯)、个人实践数据(例如锻炼模式、饮食习惯、环境因素)以及账单/ 财务记录。有效整合所有这些数据是显著改善干预措施、服务交付和健康状况的关键。
– 患者档案分析:这涉及对患者档案应用高级数据分析,以识别哪些患者将从主动护理或生活方式改变中受益。例如,应用预测建模技术来建模并识别有患特定疾病(如糖尿病)风险的患者档案,并对这些患者实施预防性护理。
– 有效的公共卫生策略:此场景包括对疾病模式应用数据分析技术,以识别疾病暴发和传播情况,从而提升公共卫生监测系统的性能及其响应速度。该方法还可用于制定更快、更有针对性的疫苗接种计划。此外,大数据分析系统可用于采集和分析社交媒体数据,基于消费者的搜索行为、社交内容和查询活动来预测疾病暴发。例如,目前许多研究人员正在使用Google Trends服务50研究搜索引擎查询的时间和地理位置,以预测疾病暴发[10,14]。
– 人群管理:此场景涉及识别感染和再入院的潜在原因。例如,识别出风险最高的患者群体,并合理分配资源以帮助这些患者(例如,10万名患者中的1%产生了30%的医疗费用)。即使使用结构化数据,传统的集中式数据挖掘也可能效率低下且耗时。因此,在此类场景中,需要采用分布式处理来扩展并加速数据挖掘过程。
– 成本降低:根据美国的报告,大约5%的患者占所有医疗支出的约50%51。因此,有效预测并识别这些患者并加以更有效的管理,可带来显著的成本降低。同样,多项研究报道了医院再入院的高发频率及其高昂成本[25]。因此,帮助医疗保健机构有效预测哪些患者可能再次入院,可提供一种有效的解决方案,以降低此项成本。
– 患者社交网络:PatientsLikeMe52是一个患者社交网络的示例,该网络提供了一个在线数据共享平台,始于2006年;目前已有超过20万名患者加入,并跟踪1500种疾病。在此类平台上,人们可以与患有相同疾病或状况的其他人建立联系,持续记录并分享自己的经历,查看哪些治疗对其他类似患者有所帮助,获得洞察并识别任何共同模式。此外,患者会持续提供有关其个人病情、治疗历史、副作用、住院情况、症状、疾病特异性功能评分、体重、情绪、生活质量等方面的数据。随着从社交网络获取和处理健康相关信息的需求不断增加,大数据分析系统将在消化和分析此类不断增长的数据集方面发挥重要作用。
– 可扩展的流行病学研究:此类研究使临床医生和流行病学家能够跨患者群体和医疗场所进行大规模分析,以帮助识别疾病趋势。
– 循证医学:医生在做出治疗决策时传统上依赖于自身判断,但近年来出现了一种转向循证医学的新趋势。这一新趋势旨在通过强调使用设计良好且实施严谨的研究证据来优化决策过程。该趋势可通过整合和分析多种结构化和非结构化的健康相关数据、财务数据以及基因组数据,将治疗与结果相匹配,预测有患病风险的患者,并提供更高效的医疗照护,从而得以支持和实现。
– 基因组分析:最近,基因测序过程的执行效率已显著提高,成本也大幅降低。例如,千人基因组计划53作为一个由75家公司和组织组成的联盟协调开展的国际研究项目,旨在建立最详尽的人类遗传变异目录。该项目现已积累超过1700人的200太字节基因组数据,研究人员可免费在亚马逊网络服务上访问并分析这些数据,用于疾病研究。因此,高效的基因组分析技术可使基因组分析成为常规医疗决策过程以及不断增长的患者病历[38]中的主要组成部分。特别是,基因组分析在识别疾病与其遗传、环境和/或健康相关的风险因素之间关系方面可发挥重要作用。此类分析能够深入揭示疾病和障碍的潜在机制,并展现不同类型风险因素之间的相互作用。识别基于风险的基因是发现直接治疗干预生物通路的关键途径,而个人风险因素则有助于制定可由患者实施以降低特定疾病发病风险的纠正性干预措施。因此,通过实时利用DNA序列信息,可实现基于有效个性化医疗服务的目标,从而为患者突出最佳治疗实践。这使得医疗模式得以从群体层面的流行病学方法转向基于个体生化和遗传特征定义的小群体或个体层面。此外,这也促进了当前正在进行并逐步推进的从以疾病为中心的医疗向以患者为中心的医疗的转变。在此场景下,单个患者可能拥有包括基因组、蛋白质组和代谢组数据在内的多种形式的千兆字节的数据,这些数据量大且复杂。NoSQL技术适合有效应对此类复杂的大规模数据集。
– 改进的远程患者监测:传感技术在改进从医院内和家庭设备中采集和分析实时、快速变化的患者数据过程中正发挥着重要作用。对这些数据的实时分析可以显著改善患者安全监测,并提高事件预测过程的准确性。此外,了解如何检测从传感设备获取的信号中的可重复模式,对于提出一种无创方式来学习潜在的生理过程具有积极作用。大数据流在实现可构建用于应对这些场景的应用程序类型的处理系统中,可以发挥重要作用。
– 非结构化数据分析:如今,根据高德纳和IBM54,,大多数数据(80%)存在于非结构化或半结构化来源中,其中可以提取大量信息。在医疗系统中,许多信息以临床记录的形式被收集,但难以提取。此外,医务人员和专家需要及时了解医学文献。大数据处理系统可被有效利用,从非结构化文本中识别出高度相关的数据和文献,并将其转换为易于处理的数据。
– 支持临床决策系统:随着医疗机构和管理机构致力于更好地管理其数据以实现高效、有效的医疗服务和质量保证的结果,临床决策支持系统正受到广泛关注。分析技术可用于处理大量数据,理解、分类并从中学习,以便在诊疗点向临床医生和患者预测结果或推荐替代治疗方案。此外,可实施比较效果研究,以确定更具临床相关性和成本效益的诊断和治疗患者的方法。
8 结论与未来工作
在本文中,我们分析了如何有效利用和集成ICT的最新进展,以应对上述挑战,并推动医疗服务达到前沿水平。具体而言,我们重点关注利用传感器技术、云计算、物联网和大数据分析系统等新兴技术领域的进展,这些技术可显著提升医疗服务的效率和有效性。此外,我们提出了一个面向智能医疗网络的大数据分析服务集成且全面的框架——SmartHealth,该框架解决了已识别的挑战并弥补了存在的差距。该框架还可作为智能医疗应用中大数据分析领域未来研究工作的路线图。文中讨论了多个用例和应用场景,以突出我们所提出框架的重要性。未来的工作将集中于设计适当的编程抽象,以支持针对各类医疗相关复杂数据源(如图像、流数据)的分析过程。
更多推荐
所有评论(0)