天津中医药  2024, Vol. 41 Issue (4): 526-531

文章信息

葛泉希, 李礼, 孙思涵, 等.
GE Quanxi, LI Li, SUN Sihan, et al.
基于区域健康医疗大数据脑卒中专病库的构建在中医药研究中的应用
Application of construction on stroke database based on regional health care big data in traditional Chinese medicine
天津中医药, 2024, 41(4): 526-531
Tianjin Journal of Traditional Chinese Medicine, 2024, 41(4): 526-531
http://dx.doi.org/10.11656/j.issn.1672-1519.2024.04.21

文章历史

收稿日期: 2023-08-29
基于区域健康医疗大数据脑卒中专病库的构建在中医药研究中的应用
葛泉希1,2 , 李礼1,2,3 , 孙思涵1,2 , 王文慧1,2 , 薛静1,2 , 王舒2,4,5     
1. 天津中医药大学第一附属医院针灸研究所, 天津 300381;
2. 国家中医针灸临床医学研究中心, 天津 300381;
3. 北京大学前沿交叉学科研究院, 北京 100871;
4. 国家中医药管理局脑病针刺疗法重点研究室, 天津 300381;
5. 天津市中医药研究院附属医院, 天津 300120
摘要:目前国内基于区域诊疗数据构建的单病种数据库在中医药领域应用较少,本研究依托天津健康医疗大数据平台建立脑卒中专病库,探讨区域诊疗数据从形成专病库到深入挖掘临床问题所具有的独特优势和缺陷,为后续中医药领域区域诊疗数据下专病库的构建和应用提供参考。专病库构建需要经过跨机构数据采集、整合和治理,同时需兼顾数据安全,以此作为研究开展基础。建设完成后通过描述人群现状和预后情况,总结专病库概况和可开展的研究方向。最后对研究中数据治理、分析时存在的问题和解决方案进行梳理,从方法学角度讨论专病库应用与中医药研究的适配性。专病库覆盖天津市81家医院2016~2020年24万首发脑卒中患者诊疗数据,并链接公卫系统死亡登记数据,可进行人群特征分析、发病影响因素探查、诊疗路径优化、预测模型构建和卫生经济学研究。但也存在数据覆盖度不全和记录不完善的问题,并伴随真实世界研究中常出现的各种偏倚,需要在研究设计及方法学应用上加以调整。真实世界下的诊疗数据应用是探索和提升中医药疗效的必由之路,但正如脑卒中专病库展现出的研究优势和不足,数据挖掘是循序渐进的过程,需要通过将研究需求反哺于临床电子病历的记录以提升专病库质量,为承载后续更多高质量的中医药研究奠定基础。
关键词脑卒中    真实世界研究    诊疗数据    专病库    

脑卒中为全球第二大致死疾病,中国脑卒中的年龄标准化发病率和卒中终生发病风险均高于全球平均水平,脑卒中的防治已成为医疗行业的重大问题[1-2]。脑卒中专病库的建立有助于明确脑卒中发病情况、影响因素和预后特征,为脑卒中患者的诊疗路径优化和慢病管理提供证据支持[3]。目前专病库的构建多依托单中心诊疗数据,覆盖患者就诊经历有限,存在数据孤岛问题[4]。由于数据开放度不足,依托区域内多机构诊疗数据构建专病库在国内少有开展,且较少讨论构建过程中暴露出的数据问题[5]。而融合跨机构诊疗数据的真实世界研究,在观察全生命周期下中医治疗的接受情况以及长期应用的获益情况(死亡、复发风险)方面具有独到的研究意义和价值[6-7]

本研究依托于天津健康医疗大数据公司,平台覆盖天津市81家医院(42家二级、39家三级医院)和天津公卫系统死亡登记数据,构建了首发脑卒中患者专病队列,对于专病库可开展的研究方向和构建中存在的数据问题进行分析。本研究同时突出了中医诊疗方案在脑卒中患者长期随访治疗中的应用现状,以“醒脑开窍”为代表的针刺法在天津地区脑卒中患者中应用较为广泛,通过建立区域脑卒中专病队列,可以对针刺及其他中医疗法的远期获益进行探究。以本专病队列构建过程及数据分析路径为例,希望为基于区域诊疗数据下专病库的构建与实施提供参考。

1 脑卒中专病库构建 1.1 数据采集与整合

本研究数据库覆盖天津市42家三级医院、39家二级医院的诊疗数据,分别采集各医院病案系统(EMR)、管理信息系统(HIS)、实验室(检验科)信息系统(LIS)、影像归档和通信系统(PACS)、护理系统等数据,将不同来源数据进行解析、关联、映射、整合。源数据经过解析后根据患者身份证号进行关联,将1例患者不同诊疗机构多次就诊经历以及1次就诊中不同信息系统进行数据整合,过程中映射为不同字段。

为了确保数据的完整性,选择2016~2020年的首发脑卒中患者建立队列,并纳入患者从2003年1月1日至2022年9月28日的全部就诊经历,包括但不限于脑卒中首发、复发诊次。

首先根据诊断关键词筛选2016年以前没有脑卒中住院记录的患者,诊断关键词包含:“脑梗死”“脑卒中”“脑梗塞”“脑出血”“脑缺血”“蛛网膜下腔出血”“蛛网膜下出血”“脑干出血”“脑室出血”“脑内出血”“脑干梗死”“大面积脑梗死”“出血性脑梗死”“小脑梗死”“基底节脑梗死”“短暂性脑缺血发作”“缺血性脑血管病”“脑血管供血不足”“高血压脑病”“脑内出血”“脑动脉畸形伴蛛网膜下腔出血”“脑动脉瘤破裂伴蛛网膜下腔出血”“脑实质出血继发蛛网膜下腔出血”“脑动脉瘤破裂”“硬膜下血肿”“硬膜外血肿”“脑栓塞”“脑肿瘤卒中”“烟雾病”“创伤性脑梗死”“创伤性脑内血肿”“创伤性脑出血”。诊断编码包含I60-I64。再从中筛选出以上述诊断作为主诊断或第一顺位诊断的首发脑卒中患者。

筛选患者后提取相关HIS、LIS、PACS、EMR系统信息,具体信息包含就诊信息、诊断信息、医嘱信息、费用信息、检验信息、影像学检查及电子病历信息。具体包含内容如下图(图 1)。

图 1 数据库表结构及字段内容 Fig. 1 Database structure and field content
1.2 数据标准化治理

在区域健康医疗专病队列的相关研究中,笔者最常获取信息的途径主要通过就诊信息、诊断信息、医嘱信息、费用信息及检验信息等结构化数据,以及影像检查和电子病历等本文信息为主的非结构化数据。对于结构化数据,由于不同医院间诊断和医嘱书写方式差异、理化指标单位不统一等问题,笔者需要对不同研究字段进行标准化治理;非结构化数据需要根据研究需求对相关字段进行提取并转化为分析用数据格式,主要通过自然语言处理(NLP)算法工具进行实现[8]

1)结构化数据的治理,主要包括诊断、医嘱、实验室检查、费用数据的标准化。首先对于脑卒中(包括缺血性脑卒中、出血性脑卒中及蛛网膜下腔出血等)诊断书写方式进行统一,并对其中提到的病灶部位进行整理。同时对于脑卒中后遗症状进行整理,如肢体活动障碍、吞咽障碍、认知障碍进行归纳,发现明确书写脑卒中后遗症诊断的患者较少。其他脑卒中基础病或合并病则按照出现频次由高到低的顺序对排在前100的诊断名称进行标准化处理,形成诊断数据字典。医嘱则根据研究需求对治疗类或药品类信息进行整理,已形成脑卒中二级预防用药和高血压、冠心病、糖尿病等基础病用药的药品字典,并对中医类治疗方案,如针刺、活血化瘀类中成药的使用进行识别,可用于判断不同患者某类治疗方案的应用情况。实验室检验数据存在不同医院同一指标名称、单位不统一的现象,构建检验指标数据字典,将指标名称进行归一并形成相应检验字典,同时对于填充率过低的理化指标核实数据异常原因,并进行人工校正填补。

2)非结构化数据的治理,主要包括影像检查和电子病历中长文本字段的信息提取。脑卒中专病电子病历有常用的命名实体,如对于症状体征、检验检查、治疗及诊断的描述应用NLP算法识别相关信息[8]。本阶段研究仅关注影像结论中病灶性质、病灶部位,以及电子病历中既往是否脑卒中和本次发病症状。并将影像检查结论中包含软化灶及梗死灶或出血灶等两种及以上病灶定义为影像学角度的脑卒中“复发”,同时需结合患者的入院方式(是否急诊入院)和是否给予溶栓药物或取栓等急性期特异性用药进行核实。

数据治理过程中涉及疾病、症状和治法等有中医临床术语标准的需多加参考,最终形成更为完善的中医临床术语集,进一步推动中医临床术语标准在科研中的应用,才能为后续更多高质量研究的开展奠定基础[9]

1.3 数据安全

在进行跨机构诊疗数据整合时,保护患者的隐私安全也是重点考虑问题。数据安全主要体现在:在收集信息之初进行脱敏、去隐私化,设置堡垒机对患者信息进行加密,仅能在内网环境下访问,以确保登录环境及登录设备安全可靠,研究开展前需要通过医院的伦理审查,研究结束后仅能导出图表等研究结果,不能导出包含患者信息的相关文件。

1.4 专病库人群现状

本专病库纳入2016~2020年首发脑卒中患者24万例,缺血性脑卒中患者20万例(占脑卒中患者83.88%),出血性脑卒中及未特指脑卒中类型患者39 376例(占16.12%),其中遗留功能异常且明确诊断的患者,肢体活动障碍14 565例,认知障碍10 569例,言语障碍1 028例,吞咽障碍357例。其中68 215例脑卒中患者发病后接受了针刺治疗。随访时间截止至2022年9月28日,21 113例发生死亡事件(占总人数9.07%)。死亡人群最长随访时间为5.81年,中位随访时间为1.15年。未发生死亡事件的人群最长随访时间为6.43年,中位随访时间为2.25年。

该部分人群发病时间分布情况(图 2)可看出,每年冬春季节或季节更替气温变化明显时脑卒中发病率较其他时间段增高。脑卒中患者在首次发病时多数能及时就诊于三级医院,就诊医院多为综合类医院。就诊区域除发病所在地,患者也会前往规模大、等级高的医院所在地,或某区域内医院数目较多患者就诊量也会相应增加,具体分布情况如下图(图 3)。天津市环湖医院位于津南区,天津医科大学总医院空港院区和天津市第五中心医院位于滨海新区,上述医院是首发脑卒中患者常选择的就诊医院,因此津南区、滨海新区的首诊患者较多。

图 2 2016~2020年首发脑卒中患者发病时间分布情况 Fig. 2 Distribution of onset time of patients with first-episode stroke from 2016 to 2020
图 3 首发脑卒中患者就诊医院区域特征分布 Fig. 3 Region distribution of the first-episode stroke patients
2 专病库研究方向

基于区域健康医疗数据库建立的脑卒中专病库,在呈现区域内广泛开展的诊疗方案的特性以及观测远期预后的方面具有独特优势,进一步可做不同诊疗模式间疗效差异评估、诊疗方案优化以及疾病卫生经济负担研究。结合诊疗数据特征,结局指标为理化指标是否变化、疾病是否发生、患者是否死亡等客观性指标时研究可行性较强,功能评分等主观性强的指标可用性差。综合以上信息,专病库可开展的研究方向如下:

1)人群基本特征分析。明确脑卒中人群常见基础病、合并病在天津区域分布情况,通过关联、聚类分析确定常见合并病模式;

2)脑卒中发病的影响因素分析。脑卒中发病除受患者自身生活方式和身体状况的影响,还与气候、环境等外界因素的影响[10],可联合其他类型数据对影响脑卒中发病的因素进行探究。

3)临床诊疗路径优化。首先可以对临床上中医、卒中治疗方案进行归纳总结,对综合疗法下的不同诊疗措施进行识别,如能够总体归为几类可比较不同类治疗方案的疗效差异,同时可对临床中存在的指南推荐外的治疗方式和超适应症用药进行探索[11]。脑卒中患者在发病及后续治疗过程中,当病情变化或出现其他合并病时,目前治疗多为针对不同病种的方案叠加的方案推荐[12]。探讨不同治疗方案对远期预后的影响是否存在差异,可能会为脑卒中及合并病临床诊疗方案的优化提供参考。

4)结局预测模型。通过建立脑卒中人群的远期结局预测模型,可探索不同人群特征、发病特征和干预措施等对脑血管病复发或死亡风险影响,寻找判断疾病诊断和预后的最佳指标[13-14],进一步推动脑卒中人群的二级预防开展、强化脑血管病患者的疾病管理。

5)疾病负担等卫生经济学研究。先需要确定不同方案的治疗成本,分析不同发病和诊疗因素对住院费用的影响[15],并计算潜在减寿年数(PYLL)和伤残(DALY)等指标用于评价疾病负担的动态变化,从卫生经济学获益角度分析,不同治疗方案对于平衡疗效与疾病负担之间差异的影响[16-17]

3 数据治理分析中的常见问题

应用脑卒中专病队列进行研究前,需要判断研究问题是否可依托数据措施在区域内施行是否广泛,如果仅有某类医院(如专科医院或中医医院)应用,选择区域诊疗数据开展研究也会带来偏倚,以及疗效评价指标记录情况和填充率是否足够,都会影响研究的可行性。其中涉及到的数据问题归纳后主要包括数据覆盖度不全以及诊疗记录不完善,对结果的影响及解决方案具体说明如下。

图 4 研究架构 Fig. 4 Study structure
3.1 数据覆盖度不全

人群覆盖率不全,本研究数据库仅囊括天津市81家医院诊疗信息,数据覆盖范围仍然不全,可能导致脑卒中疾病负担被低估。真实世界数据存在不同程度的数据缺失导致患者就诊记录覆盖不全(不同医院病历系统的更换或其他原因导致),需要根据数据情况和临床实际应用情况,对比既往区域内相关报道及临床经验总结进行判断,进一步探查数据缺失原因以及对结果的可能影响。如果会对研究结论产生本质上的影响,仍需调整方案设定或进行敏感性分析等多角度判定结果稳定性。

真实世界研究中不可避免存在偏倚,不同队列需要根据干预措施判断偏倚的类型单独分析[18-19]。以探讨针刺对缺血性脑卒中患者死亡风险研究为例,结合天津市针刺在脑卒中后患者中的应用情况,记录可能存在一定程度的缺失,探查数据情况后对结果分析如下:针刺记录的缺失会导致一些实际针刺过的患者被错分至非针刺组,针刺保护效应会被低估,但这一偏倚并不影响对针刺可能降低缺血性脑卒中死亡风险的推论;针刺治疗次数划分偏差,可能会导致针刺效应更好的患者被错分至低频次针刺组,导致低频次组的远期获益被高估。在分析针刺效果时,需要考虑患者病情越轻、接受针刺可能性越大、预后越好所带来的偏倚,需要应用,如时间依赖性生存分析等,在统计学方法上进行校正[19]

研究中需注意突发公共卫生事件对数据的影响,如2020年1月—3月受新型冠状病毒疫情影响首发脑卒中就诊患者人数明显减少,而2022年11月—2023年3月期间死亡人数也会受新型冠状病毒疫情影响,应选取数据质量稳定且受突发公共卫生事件影响小的时间段进行研究。

3.2 数据记录不完善

临床诊疗中部分指标记录缺陷导致无法应用,如本研究在建立针刺队列时,针刺处方、针刺频率和手法量学参数均未记录,且针刺方案具有高度一致性,因此无法展现不同疗法及流派、师承背景的差异。临床常用日常功能恢复判断预后,患者的日常功能恢复主要通过NIHSS评分、改良Barthel指数、改良Rankin量表等进行评价,但很少有患者在诊疗前后均有上述量表数据,数据填充率低,选取量表评分作为结局指标可行性差。

部分指标存在其他数据补充途径,如影像检查中的病灶部位,受限于记录方式,存在一定的提取难度,部分患者的诊断中包含病灶部位可进行补充。需要研究者在了解数据情况后适当调整研究方案。

4 小结

目前国内应用区域诊疗数据开展的中医药研究较少,与本类数据库的研究优势仍未被关注到有关。在循证医学证据等级分层中,证据金字塔顶端为随机对照试验,真实世界证据质量等级较低,但实际上随机对照试验、真实世界研究针对不同研究问题适用方向不同,两者在证据等级上不具有简单的可比性[6-7]。真实世界证据质量的高低,主要体现在数据来源的可靠性、研究过程中的数据透明度以及分析方案是否合理要在使用中逐渐进行规范化,应用时间越久,细化程度越好,产出证据质量相应越高,需要不断的研究积累,数据库才能用于更多临床问题的探索。同时研究过程中如果发现既往数据不能满足研究需求,也会反馈到临床工作中电子病历的记录上,使得诊疗记录更为完善,进一步支持后续相关研究。

脑卒中专病队列在开展中医类研究时,独到的优势在于呈现不同诊疗方案的潜在特征规律和观察远期疗效,如果中医的疗效通过短时间的治疗难以被凸显,那么对长时间的生存获益的观测有可能为中医治疗提供更有力的研究证据[20]。但是本类数据库在名医经验挖掘或单机构治疗特色探究方面不具评价优势。以针刺治疗方案为例,在临床实践、不同治疗者会采用相对有差异的针刺方法,但在数据治理过程中,发现针刺治疗方案的医嘱记录普遍存在方案缺失或方案均一性过高的问题,因此,应用本数据库无法对不同疗法、不同治疗者、不同流派或师承背景等进行细化分析。除此之外,在呈现某位名医或某家医院诊疗特色方面,应用区域诊疗数据会存在选择偏倚从而对结果产生影响,这方面单机构诊疗数据更具有评价优势。后续可以考虑根据不同数据库的特征细化研究,以便更好提出改善中医总体疗效的方案,指导医疗质量管理和中医临床实践。

参考文献
[1]
GBD LIFETIME RISK OF STROKE COLLABORATORS, FEIGIN V L, NGUYEN G, et al. Global, regional, and country-specific lifetime risks of stroke, 1990 and 2016[J]. The New England Journal of Medicine, 2018, 379(25): 2429-2437. DOI:10.1056/NEJMoa1804492
[2]
GBD MORTALITY AND CAUSES OF DEATH COLLABORATORS. Global, regional, and national life expectancy, all-cause mortality, and cause-specific mortality for 249 causes of death, 1980-2015:A systematic analysis for the Global Burden of Disease Study 2015[J]. Lancet, 2016, 388(10053): 1459-1544. DOI:10.1016/S0140-6736(16)31012-1
[3]
WU S M, WU B, LIU M, et al. Stroke in China: Advances and challenges in epidemiology, prevention, and management[J]. The Lancet Neurology, 2019, 18(4): 394-405. DOI:10.1016/S1474-4422(18)30500-3
[4]
周茂君, 潘宁. 赋权与重构: 区块链技术对数据孤岛的破解[J]. 新闻与传播评论, 2018, 71(5): 58-67.
[5]
李嘉兴, 王雷, 宋士杰, 等. 重大突发公共卫生事件驱动的医疗数据开放治理模式研究[J]. 图书情报工作, 2022, 66(4): 23-32.
[6]
孙鑫, 谭婧, 唐立, 等. 重新认识真实世界研究[J]. 中国循证医学杂志, 2017, 17(2): 126-130.
[7]
王雯, 谭婧, 任燕, 等. 重新认识真实世界数据研究: 更新与展望[J]. 中国循证医学杂志, 2020, 20(11): 1241-1246.
[8]
王世民. 基于深度学习的中文电子病历命名实体识别研究: 以脑卒中为例[D]. 武汉: 华中科技大学, 2020.
[9]
郭玉峰, 谢琪, 周霞继, 等. 构建中医临床术语标准真实世界规范化应用技术体系的思考[J]. 中医杂志, 2015, 56(7): 557-561.
[10]
GAO J J, YU F, XU Z H, et al. The association between cold spells and admissions of ischemic stroke in Hefei, China: Modified by gender and age[J]. The Science of the Total Environment, 2019, 669(5): 140-147.
[11]
胡思源. 儿科疾病中药真实世界研究设计指南[J]. 药物评价研究, 2023, 46(4): 743-751.
[12]
张冉, 路云, 张闪闪, 等. 中国老年人慢性病共病患病模式及疾病相关性分析[J]. 中国公共卫生, 2019, 35(8): 1003-1005.
[13]
MOONS K G, KENGNE A P, GROBBEE D E, et al. Risk prediction models: Ⅱ. External validation, model updating, and impact assessment[J]. Heart, 2012, 98(9): 691-698. DOI:10.1136/heartjnl-2011-301247
[14]
秦雪妮, 陈维生, 邵华, 等. 真实世界研究在医药领域的应用及研究方法[J]. 药学进展, 2021, 45(7): 512-523.
[15]
何从源, 潘先鍪, 刘永婧, 等. 四川省脑卒中患者住院费用影响因素分析[J]. 现代预防医学, 2023, 50(8): 1441-1445.
[16]
姬祥, 李述刚, 张学飞, 等. 2010—2011年新疆生产建设兵团第八师居民肝癌疾病负担研究[J]. 中华肿瘤防治杂志, 2016, 23(1): 10-14.
[17]
刘乐, 余超, 廖逸文, 等. 1990—2019年中国缺血性脑卒中疾病负担变化分析[J]. 中国循证医学杂志, 2022, 22(9): 993-998.
[18]
VAN WALRAVEN C, DAVIS D, FORSTER A J, et al. Time-dependent bias was common in survival analyses published in leading clinical journals[J]. Journal of Clinical Epidemiology, 2004, 57(7): 672-682. DOI:10.1016/j.jclinepi.2003.12.008
[19]
SUISSA S. Immortal time bias in pharmaco-epidemiology[J]. American Journal of Epidemiology, 2008, 167(4): 492-499. DOI:10.1093/aje/kwm324
[20]
冯晓红, 王秀云. 早期针灸介入综合治疗急性缺血性脑卒中的进展[J]. 陕西中医学院学报, 2013, 36(4): 124-127.
Application of construction on stroke database based on regional health care big data in traditional Chinese medicine
GE Quanxi1,2 , LI Li1,2,3 , SUN Sihan1,2 , WANG Wenhui1,2 , XUE Jing1,2 , WANG Shu2,4,5     
1. Institute of Acupuncture and Moxibustion, The First Teaching Hospital of Tianjin University of Traditional Chinese Medicine, Tianjin 300381, China;
2. National Clinical Research Center for Traditional Chinese Medicine Acupuncture and Moxibustion, Tianjin 300381, China;
3. Academy for Advanced Interdisciplinary Studies, Peking University, Beijing 100871, China;
4. State Administration of Traditional Chinese Medicine Key Research Laboratory of Acupuncture and Moxibustion of Encephalopathy, Tianjin 300381, China;
5. Tianjin Academy of Traditional Chinese Medicine Affiliated Hospital, Tianjin 300120, China
Abstract: At present, the specific disease database based on regional diagnosis and treatment data is rarely used in the field of traditional Chinese medicine in China. Our study relies on Tianjin Health Big Data Company to establish a special disease database for stroke, to explore the advantages and defects of regional diagnosis and treatment data from the formation of a special disease database to in-depth exploration of clinical problems, and provide references for the subsequent construction and application of a special disease database under regional diagnosis and treatment data in the field of traditional Chinese medicine. The construction of the special disease database needs to go through cross-institutional data collection, integration and governance, while taking into account data security as the basis for research. After the establishment, the general situation of the special disease database and the possible research direction were summarized by describing the population status and prognosis. Finally, the problems and solutions of data governance and analysis in the study were sorted out, and the adaptation of the application of special disease database to the research of traditional Chinese medicine was discussed from the perspective of methodology. The special disease database covers the diagnosis and treatment data of 240 000 first-episode stroke patients in 81 hospitals in Tianjin from 2016 to 2020, and is linked to the death registration data of the public health system. It can analyze the characteristics of the population, explore the influencing factors of the disease, optimize the diagnosis and treatment path, construct the prediction model and research in health economics. However, there are also problems of incomplete data coverage and incomplete records, accompanied by various biases that often occur in real-world research, and need to be adjusted in research design and methodological application. The application of diagnosis and treatment data in the real world is a necessary method to explore and improve the efficacy of traditional Chinese medicine. However, just as the advantages and disadvantages getting along with the research of stroke special database, data mining needs a gradual process. It is necessary to improve the quality of the special disease database by filling the clinical electronic medical records entirely according to research requirement, and lay the foundation for undertaking more high-quality Chinese medicine research in the future.
Key words: stroke    real world study    diagnosis and treatment data    specific disease database