您现在的位置: 首页 >> 人才杂志 >> 热点新闻
心血管领域大数据的应用与挑战
赵韡  2017-06-15

在医疗领域,各国医疗卫生信息化建设进程的不断加快,以及传感器、物联网、移动医疗等新兴技术的不断发展,使得医疗数据正在以前所未有的速度迅猛增长,这为开展医疗大数据应用奠定了基础。

从全国大数据商业投资市场的调研情况中可知,目前医疗业务因为数据存储相对集中,在临床科研、生物组学以及精准医疗方面均具有强烈的应用需要,且处理相关数据的技术已经在互联网领域广泛应用,因此,将医疗业务定义为需要优先关注的行业,已经具备大数据商业化应用的可能。由于医疗业务具有事业特征,且医疗机构在全国呈现较为均衡的分布态势,市场投资领域认为目前医疗大数据业务还处于市场不成熟的阶段。但也正因为如此,医疗大数据业务具有巨大的创新和成长机会。

 

大数据给医疗领域带来的影响

维克托·迈尔·舍恩伯格在其著作《大数据时代》中指出,在大数据时代思维方式要有三个转变:要总体不要抽样,要效率不要绝对精度,要相关不要因果关系。那么大数据思维给医疗领域带来哪些思维转变呢?

第一,医疗大数据研究对象变成了总体。传统医学研究中,由于条件所限,研究者往往对数据进行抽样,用少量的样本进行研究从而得出总体事物的规律,但是抽样的质量对研究的结果影响很大,这就是为什么会出现“同一疾病,不同样本,不同方法,而结论也不同”的现象。大数据时代,无需对样本抽样,直接将总体作为研究对象。

第二,接受数据的纷繁复杂,而不再追求绝对精度。传统的医学研究中,往往根据研究内容提出假设,然后再采集数据用统计检验来验证假设。这种结论在精度上很高但存在严重的脆弱性,往往换一批数据、换几个变量或者换个数学模型结论就变了。在大数据时代,由于有足够的数据和变量,采用大数据进行数据分析和知识发现,得到的结论是多样且可靠的。

第三,不再一味地追求因果关系,而是更加注重相关性。医学研究重在对临床症状和发病机制进行解释,了解它们的因果关系。而在众多错综复杂的影响因素中,大数据并没有改变因果关系,而是使因果关系变得不太重要,通过大数据可以发现事物发展的潜在规律以供医学研究人员参考和借鉴,某种程度上相关性比因果关系更有价值。

大数据在医疗行业不断渗透,对医疗行业产生了巨大的影响:大数据使得医疗数据安全问题更加突出,而医疗机构在患者隐私保护和数据安全应对方面准备明显不足;相对而言,大数据带来的更多是积极的影响,全球管理咨询公司麦肯锡预测,如果充分利用大数据的潜力及其在医疗健康价值链中的作用,仅在美国就能创造3000亿美元的价值,减少8%的美国国家医疗卫生支出。

 

心血管领域大数据的典型应用

大数据相关技术对改善心血管诊疗质量具有巨大的潜力。然而,医疗大数据的整体应用尚处于起步阶段,迄今为止,还没有足够证据表明利用大数据分析技术能够改善心血管诊疗和患者结局。心血管诊疗相关的大数据应用主要集中在6个方面:风险预测模型,精准医学和临床决策支持,药品和医疗设备安全监控,诊疗差异性分析和临床质量评价,公共卫生,以及临床研究应用。

精准医学和临床决策支持

利用广泛的网络资源和数据共享平台,辅助快速获得与患者疾病、症状等相似患者的病历信息,有利于医师制定最优的诊疗方案。基因组学的复杂性和巨大的数据量十分适合应用大数据分析。大数据可以促进组学数据与其他数据源的融合,为患者提供针对性的药物治疗,提供最小伤害的治疗基于大数据分析方法开发的决策支持系统,能够适用于任何场景,提供更为准确、个性化的辅助支持。但基于临床数据分析的模型,可能存在数据内在的局限性(例如,治疗选择偏好等)。目前,主要的实际应用方式是利用互联网,将大量的患者信息、相似患者病历共享,较具代表性的网站包括PatientsLikeMe、AgileDiagnosis和23andMe。

PatientsLikeMe是一个在线的患者病例数据共享平台(见图),通过分享、研究和病例数据分析,来为世界各地的患者提供相似病例搜索和相关治疗的服务网站,该网站服务宗旨是患者至上,提供最有效的方法来帮助患者恢复健康。

AgileDiagnosis平台收集的数据不仅包括标准的医疗数据,同时还包括其他医生的诊断案例数据。医生通过这个平台不仅可以实时获得标准的医疗数据来判断病例,更重要的是可以获得其他医生对类似病例进行的已有诊断数据。这就使得医生们能够减少对患者进行不必要的化验,并且更快地作出准确诊断。AgileDiagnosis平台采用树图的表现形式,医生们可以大大提高查找有用信息的效率,从而加快诊断速度,缓解医生资源的紧张。该平台提供移动端和PC端的应用。与PatientsLikeMe这类的病历数据聚集不同,AgileDiagnosis依靠的是通过临床支持的积累辅助医师做出最终的决定。

23andMe平台2007年起开始提供个人基因检测服务,患者只需在试管里吐口唾液,然后按有关要求寄给这家公司,大约6周之后患者就可以通过网站查询到个人基因报告。他们的测试可以告诉你的祖先起源,头发质量和肌肉等体征情况,93种疾病的风险因素,对药物的反映预测等。人们还可以登录该服务网站探索新的基因数据。目前23andMe已经提供了针对第三方开发者的API(应用程序编程接口),需要引用23andMe数据时,须征得用户个人同意。而被批准的开发者会收到一个认证密钥,安全接入平台。然后就可以开始熟悉23andMe的API并在这个基础上做些什么。你也可以选择提交你的DNA数据,用于遗传学研究。一般来说,同意提交DNA的人可以参加230多项研究,主要集中于寻找疾病治疗和治愈方式。

大数据在心血管诊疗领域的应用,除相似病历推荐、知识聚集外,还多应用于患者的差异性诊断,利用数据分析患者多参数的变化,而不是通过单一的参数判定,来降低错误诊断的发生。例如,通过影像数据分析,实现差异预测患者心肌功能。人类的心脏在病理情况下会发生形状和运动的改变,但是在生理情况下,随着年龄增加或体能运动强度的增加,心肌形状和运动也会发生改变,这些改变都会表现为影像结果中一些参数的改变。但患者前来就医时,凭借统一的数值,很难区分患者心肌影像学参数改变是否因疾病导致。另外,对于不同生活背景、民族的人群,某个参数在一定范围内时,可能并不代表存在疾病,但是对于另一个种族的人群来说,相同的改变可能提示存在疾病。因此,针对不同的人群,将心脏影像学数据与其他临床及检验数据结合,得出该人群特有的心脏疾病发展过程中影像学参数的改变规律,有助于特定人群心脏疾病治疗中量化治疗效果,研究心肌重塑病变发展过程中的危险因素。

药品和医疗设备安全监控

大数据提供了广泛安全性监控的可能,针对电子病历自然语言描述内容的分析、临床注册研究、患者个人报告/健康记录,以及社交媒体中关于药物或设备的安全性的讨论,提供了更多的安全问题、不良事件的观察维度。

心血管疾病作为最为常见的慢性疾病,其显著特点就是长期服药,以及大量器材的使用,随着心血管疾病诊疗新技术的应用及死亡率的降低,通过社交媒体预计会获得越来越多的检测数据,使得该类应用成为心血管领域潜力最大的一个应用方向。

本领域的一项典型应用是波士顿大学、美国食品药品监督管理局、哈佛医学院及其他机构的研究人员,在7个月的时间里分析了Twitter的690万条发帖,研究“不良事件”。研究发现,有关肠胃问题或者精神影响等特殊类型症状的投诉占比与FDA的数据基本吻合。这证明了社交媒体研究不良反应的可行性。

诊疗差异性分析和临床质量评价

本领域是与医院中临床实际应用最为紧密的大数据方向,但目前的多应用辅助临床科研,倾向于利用大数据进行患者分类。

心血管疾病患者存在巨大的差异,为此需要将患者在治疗时分为不同的亚型,以提升患者治疗的准确性。调研发现,目前本部分工作是国外的研究热点,近5年共查找到的97个相关项目,其中心血管相关项目为11个,在全部相关研究中排第3位。在心血管研究中,数据源利用情况如下:患者信息4项,用药数据3项,检验数据4项,生命体征2项,诊断7项,治疗方案2项,文字记录4项。调研发现,国外的数据标准遵从性较高,在本研究的97个项目中,52个使用了ICD标准,15个使用了SNOMED-CT,13个应用了RxNorm,13个应用了CPT,7个应用了LOINC。整体上,国外认为疾病分析研究的重点包括:数据源越多效果越好,建议使用标准数据集;发展整体电子病历有助于患者信息统一;应用自然语言识别技术处理数据,处理病历中的自由文本,提取数据并处理书写错误,提升数据的可用性;将大数据方法(如机器学习)和统计方法结合。

公共卫生

互联网搜素引擎、社交媒体等提供的公共数据,为新型健康相关商品的评价提供了新的方法和视角,可以监控潜在危险因素的扩散。利用搜索引擎可以监控的内容主要包括:行为、关注信息以及在网上表现出的心理状态,调研中发现,本领域中有两项极具代表性的应用案例。

第一,利用社交媒体,能够以较低成本获得准确的人群情绪等心理特征数据,从而实现对于心血管疾病死亡率的准确预测。该研究利于语言模式分析人群情绪状况,发现负面的社会关系,如脱离人群和消极的情绪,特别是愤怒成为心血管疾病的主要危险因素;积极的情绪和心理干预成为保护因素。在排除收入、教育影响后,仍可发现语言模式与心血管病死亡率具有显著影响。该案例证明了通过社交媒体获取社会心理特征是可行的,这些特性是在社区一级心血管疾病的死亡率强的标志。使用美国疾控中心调研数据与社交媒体数据的死亡率预测比较,发现死亡率预测高度吻合。

第二,利用谷歌提供的公开检索数据,实现电子香烟使用的实施监控,跟踪电子尼古丁使用的兴起与心血管风险的联系,发现电子香烟的使用与心血管疾病存在着显著的相关性。采用搜索引擎数据,大幅降低了公共卫生的研究成本。

临床研究应用

心血管领域最多的应用主要集中于医疗数据共享网络的建设和临床研究领域,目前已经完成了众多具有广泛影响力的项目建设,在建设过程中也十分重视临床电子病历数据与基因数据的整合。以美国为代表的发达国家,数据共享网络领域的建设时间已经超过15年,在建设伊始就十分重视数据标准的使用和数据质量的管理,并采用授权开放的方式实现了网络内的数据共享。比较有代表性的共享网络包括:电子病历与基因结合数据库、单纯病历数据库、公卫信息数据库。

 

心血管领域大数据的挑战

利用大数据分析技术改善心血管诊疗质量和患者结局的潜力是巨大的。然而,医疗大数据的应用尚处于起步阶段,心血管大数据应用还存在3项重要挑战。

第一,有效性和安全性证据不足以满足循证医学的要求。目前,关于大数据在诊疗方面应用的文章主要集中在概念和大数据分析的潜在影响层面,展示了大数据分析工具在心血管病实践的潜在应用发展可行性;另外,几乎没有直接的证据证明大数据应用能够或将会改善心血管病治疗质量和治疗结果。对高风险或高花费患者的识别导致减少风险、减低成本或改善预后等干预措施的观点不能被支持。

第二,缺乏方法学保证临床数据质量。国内外均认为,缺乏保证数据质量的方法学手段,目前最为明显的问题包括:因系统变动带来的数据不一致、不稳定问题;缺乏数据质量控制部门;大数据方法的结果严重依赖于数据质量,数据的局限性、片面性有可能导致系统性的抽样误差。

第三,临床中的实际应用。目前,缺乏成功融入临床工作流程和实现临床实际应用的案例报告;现有的基于大数据分析的心血管风险模型和评分很少应用于日常的临床护理工作中,并且他们能够改善预后的证据有限;大多数已发表研究结果的大数据分析模型预测精度较低,并且这些模型是否和已存在的风险模型同样好或者高于他们的结论也不明确;大数据分析方法利用所有可用的数据去构建模型,存在信息重复的风险;技术层面包括(准)实时预测分析、(半)自动化决策支持系统、可扩展的信息提取技术。

 

结语

当前,国内外医疗大数据得到了前所未有的重视,各类应用层出不穷,也极大地促进了临床科研的发展,但整体上还是处在相对初级的阶段,尚存在着技术层面(包括数据获取能力不足,大数据技术储备不足,缺少数据与业务结合思路等)与非技术层面(如数据安全政策、隐私保护、分享文化、数据所有权、资金、人才等)的各种障碍,但我们可以通过利用制度的优势,更好地解决非技术层面问题,实现健康大数据领域的弯道超车。

 

作者系中国医学科学院阜外医院信息中心主任

本网(www.21wecan.com)所刊载的所有信息,包括文字、图片、软件、声音、相片、录像、图表,广告、商业信息及电子邮件的全部内容,除特别标明之外,版权归中国卫生人才网所有。未经本网的明确书面许可,任何单位或个人不得以任何方式作全部或局部复制、转载、引用,再造或创造与该内容有关的任何派生产品,否则本网将追究其法律责任。
本网凡特别注明稿件来源的文/图等稿件均为转载稿,本网转载出于传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如对稿件内容有疑议,请及时与我们联系。
如本网转载稿涉及版权等问题,请作者在两周内速来电或来函与我们联系,我们将及时按作者意愿予以更正。