4 数据仓库及挖掘分析
临床诊疗数据是符合中医理论的中医诊疗方法和疗效的直接证据,采用结构化采集系统完成数据采集之后,进行面向临床研究的数据利用研究是基地临床科研信息共享的核心内容和任务。
在该阶段,基地临床研究人员需要基于临床诊疗和研究积累,提出新颖合理的分析目标。同时也需要根据临床研究需求进行数据清理、数据整理与转换,以达到可靠数据分析的数据质量要求。本阶段的研究过程分两个交叉的研究步骤:数据仓库及挖掘分析平台的构建与临床数据利用分析研究。本技术与实施要求用于结构化临床诊疗数据形成后,进行数据利用和挖掘分析时,在实施步骤和任务安排方面提供指导与参考。
4.1技术要求
参照国家中医药管理局中医医院信息化建设基本规范中的中医临床研究分析分系统,名老中医经验传承分系统和中医辅助诊疗分系统的功能规范,结合国家中医临床研究基地临床科研信息共享的要求,数据仓库及挖掘分析须达到的技术要求如下。
4.1.1基本要求
(1)数据抽取、转换与导入(ETL)
①数据清理
对结构化病历数据进行清理,去除关键信息如大病历症状体征、诊断、中药处方等与关键疗效指标缺失的患者记录;
②数据抽取与转换
从结构化病历数据库中抽取适合科研分析的数据,设定抽取和代码转换规则,实现对来源病历数据的筛选,并到数据仓库数据的自动转换;
③数据导入
支持大规模病历数据到数据仓库数据的自动批量导入与汇总处理。
(2)数据仓库
①细节数据模型
建立囊括中医病历数据中患者人口统计学信息、大病历、病程、方药、理化检查等信息,面向科研分析的关系数据模型,主要用于从病历数据导入汇总的大规模数据存储;
②细节数据的规范模型
具有与细节数据模型类似但较为简化的数据模型结构,用于存储规范整理后的科研分析数据集;
③大规模数据管理
以大型数据库管理软件如Oracle为依托,建立数据仓库的安全访问、结构化查询、增删改处理的客户端软件环境与机制。
(3)数据整理与数据导出
①数据整理
结合中医临床术语系统和临床信息标准词典,具有对症状体征、诊断、方药和理化检查等进行规范和标准化处理的功能;
②数据审核
支持对规范处理前后数据的人工审核,并对规范处理后数据进行数据补充与修改;
③数据格式转换
将整理后数据转换成适合挖掘分析的数据格式;
④数据导出
将规范整理后的数据导出为常用挖掘分析软件能够识别的数据输入格式。
(4)多维查询检索
分别对症状体征、诊断、方药和理化指标等从时间、患者人口统计学信息、医生等不同维度进行即席查询(由用户自定义条件的查询),实现面向病种研究需求的临床数据探索性分析。
(5)数据挖掘分析
①专用挖掘分析平台
具备基于实际临床诊疗数据,面向重点病种临床研究分析需求的专用挖掘分析功能,能够实现辨证经验、有效处方和随症加减规律等分析,支持进行基于临床数据的有效方药发现、临床优化治疗方案形成和名老中医经验传承研究等各种临床研究的数据挖掘分析任务;
②适宜挖掘分析算法
以中医临床症-证-治-效为分析主线,具备数据预处理、混淆因素检验、分类、聚类、相关分析、复杂网络分析等适宜挖掘分析算法。
4.1.2 扩展要求
(1)多维主题数据模型
需要构建面向主题的多维数据模型,以支持高效的多维查询检索功能。多维数据模型以ROLAP或MOLAP模式实现,对主题以事实表和维表形式进行建模。
(2)多源动态数据整合
除结构化电子病历数据源之外,在数据仓库平台建立针对医院其他信息来源如HIS,LIS和现代临床试验数据库的动态数据汇总和整合技术,整合基地个性化科研分析数据源到数据仓库中。
(3)临床决策与循证支持