需求简要说明及主要技术参数 |
---|
(1) 基于Hadoop构建区域医疗卫生数据中心,用以解决数据存储水平扩展的挑战。利用MapReduce并行处理批量事务的能力,从多个数据源(主要是医疗机构的各个业务系统)抽取数据、转换格式、并导入基于HBase的数据存储模型。
(2)利用HBase数据库将多维医疗数据有效地组织在一起。而在索引技术上,结合关系性数据库的成熟技术,用以进一步提高HBase的查询性能。并且采用结构化和非结构化数据混合存储的形式,相互弥补缺陷,c 达到最灵活和最高效的设计。
(3)为了保留医疗数据中大量的语义关系,采用结构化数据+XML文档混合存储的方式。在数据导入的同时,提取XML文档中特定的元数据,(比如:患者主索引、就诊科室、主治医师等),并将XML文档根据不同粒度打散成大小不一的子文档。根据不同粒度的查询条件,系统将自动选择相应的子文档进行进一步信息的解析,从而避免为提取少量信息而不得不解析大量XML文档的问题。
(4)数据模型的接口将采用Hive提供的类SQL查询的方式。这样更有利于数据分析人员设计分析算法。同时,系统中将嵌入多种数据挖掘算法供数据分析师使用。
|
企业名称 | 对接成功后可查看 | 企业类型 | 对接成功后可查看 |
---|---|---|---|
所在地区 | 对接成功后可查看 | 详细地址 | 对接成功后可查看 |