目前,大数据技术最具实际意义的应用在于健康档案数据的管理和服务。健康档案是个人全生命周期的医疗健康数据的管理。例如,对于慢性病患者,以往病程的变化,治疗的过程都对医生诊断和处置有着重要的辅助作用。过敏史,不良反应这些数据对避免出现医疗差错和事故也有着积极的作用。
传统的临床科研往往基于抽样调查进行,而随着健康档案数据的丰富可以大幅减轻工作量,同时提高科研数据的质量和数量以及数据处理的效率。
要解决的问题:
1. 数据量庞大。区域卫生数据中心以城市为单位,分为存储健康档案、电子病历、卫生管理三大数据库,300 万人口的中等规模城市卫生数据中心的规模在 20 年后预计会达到PB级。传统关系型数据库在大数据存储实现中存在局限性,在一张表中存储500GB 之上的数据就会存在性能方面的问题。
2. 数据类型复杂多变。区域卫生数据中心,将会存储大量的非结构化数据和半结构化数据。如果采用传统关系型数据库,则面临众多不易解决的问题:PACS 影像、B 超、病理分析等业务产生的非结构化数据大小不一,从数百 KB 到数百 MB 都有,病人的一次诊断活动中需要存储、调阅数百张影像数据;由于医疗卫生行业的业务复杂性,很难制定统一的数据标准,这就给数据访问和交换带来新的挑战。
3. 另外,未来的数据处理也将面临巨大挑战,譬如未来海量数据的存储,备份,扩容等,快速的检索特定数据,以及高效的数据交换等等。
实施后的效果:
1. 海量数据存储:应对超过一亿条记录(文档)的存储需求。
2. 数据格式动态扩展:Hyperbase 提供的列式存储方式,可以轻松应对数据格式的灵活调整。
3. 海量数据快速检索:高并发的并行海量数据检索,满足居民和医生实时检索健康档案的需求。
4. 统计分析:开放的统计分析框架,接近实时的统计分析能力。
5. 平滑扩容:横向扩展性能卓越,应对未来业务和数据量的不断增长。
6. 使得医生可以快速检索就诊患者的个人基本信息、既有病史、就诊及处方等重要信息,通过辅助信息,帮助医生做出更准确的诊断,并且有效避免重复用药、药物不良反应等。