天津中医药  2021, Vol. 38 Issue (5): 560-564

文章信息

徐佳君, 雷黄伟, 高新皓, 罗志明, 李绍滋, 翁慧, 李灿东
XU Jiajun, LEI Huangwei, GAO Xinhao, LUO Zhiming, LI Shaozi, WENG Hui, LI Candong
人工智能与中医诊断技术
Artificial intelligence and traditional Chinese medicine diagnostic technology
天津中医药, 2021, 38(5): 560-564
Tianjin Journal of Traditional Chinese Medicine, 2021, 38(5): 560-564
http://dx.doi.org/10.11656/j.issn.1672-1519.2021.05.04

文章历史

收稿日期: 2020-12-26
人工智能与中医诊断技术
徐佳君1,2 , 雷黄伟1,2 , 高新皓3 , 罗志明3 , 李绍滋3 , 翁慧1,2 , 李灿东1,2,4     
1. 福建中医药大学中医学院, 福州 350122;
2. 福建省中医健康状态辨识重点实验室, 福州 350122;
3. 厦门大学信息学院人工智能系, 厦门 361005;
4. 福建中医药大学李灿东岐黄学者工作室, 福州 350122
摘要:人工智能技术将有助于推动中医诊断技术的发展与进步,尤其在解决中医四诊信息客观化采集和术语规范化研究瓶颈问题上。文章阐述了人工智能技术与中医四诊以及四诊合参的研究现状和问题,论述了课题组利用人工智能技术进行诊断术语规范化的研究进展,并进一步总结提出中医诊断人工智能化的发展方向和研究重点。
关键词中医诊断    人工智能    中医四诊    诊断术语    规范化    

中医诊断学是中医学的基础学科,它的发展影响着中医各临床学科的诊疗,尤受临床及科研学者的重视,因此也是现代中医学发展的前沿学科。目前,制约中医诊断学发展的瓶颈主要有四诊信息规范化客观化采集、中医诊断术语规范化等方面[1]。中医四诊信息采集过程具相对主观性的问题由来已久,在许多中医学者坚持不懈的努力下,取得了一定进展,但仍存在采集过程不规范、标准不统一等问题。中医诊断术语规范化工作近几十年来亦受到高度重视,制定了相应的标准,但所制定标准与历版教材又有一定出入;中医工作者受教育时养成的既定习惯更改不易,推广较难;且在历代中医典籍医案中,术语普遍存在一词多义、多词一义等情况,以上种种情况造成了中医诊断术语仍较难统一,不利于传承和发展。

人工智能(AI)是当前全球研究热点,AI不仅能替代有逻辑性、规律性的人工,提高工作效率,还能在某些极精细领域中完成人类无法完成的任务,中国已将AI与医学的结合上升到国家战略的高度。而早在20世纪六七十年代,许多学者已经开始了中医诊断的AI化研究,主要方法是建立基于专家知识库的逻辑推理系统,取得了一定成绩,在特定的条件下有较好的应用效果。但基于象思维的中医诊断学强调整体性与运动性,因而,单纯的逻辑规则并不完全适用中医诊断的推理过程[2]。2016年,Google公司的AlphaGo横空出世,击败了多名围棋世界冠军,这一历史性事件标记着以大数据与深度学习算法为代表的新一代AI的兴起。与传统相比,新一代AI基于大数据的特性显然更适合中医学的整体性,其经深度学习而产生的预判也更适合中医学的运动性。因此,将新一代AI技术运用于中医诊断学,应有助于其突破前述发展瓶颈。

1 AI与四诊信息规范化客观化采集 1.1 AI与望诊

AI望诊,目前研究较多地集中在望面及望舌两个领域,其主要数据来源为图像,需要通过图像分割、图像识别两个步骤进行。近年来AI望诊的研究取得了一定的突破,如基于力场的轮廓变形算法,使舌象分割不易受初始轮廓影响,提升分割准度[3];再如偏最小二乘法在Lab颜色空间对面部光泽的判别准确率可达89.06%[4];又如联合运用最大类间方差算法及分水岭算法能够实现对舌紫斑的自动识别[5]。然而,AI望诊离真正的临床要求尚存在较大差距,目前亟待解决的是光源问题,AI望诊的图像数据几乎均基于固定角度、固定强度光源,真实世界光源多变,如何使AI算法适应复杂的光源环境仍需进一步探索。

1.2 AI与闻诊

在听声音的研究中,目前主要研究方法有空气动力学法、频谱分析法等。AI声诊不但能够分辨出诸如咳嗽、声嘶、声低等病理性声音[6],研究者们还运用样本熵、小波包变换的近似熵等算法,通过声音得出病位、病性证素等诊断信息[7]。然则,目前中医AI声诊研究仍存在采集仪器规格不统一、采样环境要求较高等问题,从科研到落地仍有一段距离。

气味是气体所含分子作用于受体所产生的刺激过程,气味特征可以通过红外光谱、直接顶空分析、气相-液相色谱分析等方法直接判别气体所含的刺激性分子。目前中医电子鼻技术已具有较高的稳定性和灵敏度,不仅能较准确地识别2型糖尿病患者口腔气味判断其虚实病性[8],在胃病及外感疾病中也得到较好的应用[9-10],未来有望参与各个系统疾病的诊断。但相较于声诊,嗅诊更难以量化,暂无太多临床运用的研究报导,尚存在气味特征图谱知识库不够全面等问题,有待进一步研究[11]

1.3 AI与问诊

问诊AI化的研究起步较早,早期多是基于专家经验、文献梳理的量表研究,随着新一代AI的发展,越来越多学者开始关注问诊模型的研究。如基于极值随机森林算法、极限学习机算法的慢性胃炎中医问诊模型[12];基于隐结构法的启发式双重爬山算法中医脾系病问诊模型[13]等。然而笔者认为,制约AI问诊的瓶颈或许不在于算法模型,传统的贝叶斯网络已能较好地揭示证候之间复杂的联系[14],中医诊断术语不能统一规范应才是当前AI问诊的研究难点[15]

1.4 AI与切诊

切诊的AI化研究主要集中在脉诊,研究方向有脉象波形采集(传感器)、特征提取分类(脉象识别)两方面。传感器有压力脉搏型、多普勒超声脉搏型、光电脉搏型等类型[16];在脉象识别模块,采用线性插值算法对三维脉冲图进行处理,可辨别出平脉、滑脉及弦脉[17];基于BP神经网络的脉诊则可直接得出体质等诊断信息[18]。而目前各类传感器研究虽然取得一定突破,但仍未成熟,尚不能真实、完整、客观地提前脉搏信息[19];此外,由于脉象信息量巨大的特性,如何有效筛选有用信息的降噪处理,也是研究的难点之一。

在中医四诊AI化的研究中,除了各诊存在上述问题外,也存在“通病”,主要是:1)原始资料采集人员中医临床水平参差不齐,归纳、标注不统一、不规范,信息数据可信度未能达到最佳。2)除问诊外的其余三诊,其信息采集皆需检测设备,然而,基于不同工作原理设计的设备,其采集的信息参数和表达方法均不相同,没有统一的规范标准,测量结果表达也不同。3)虽然四诊AI化研究在各自领域取得了一定进展,但呈现“各自为战”的特点,未发挥中医“四诊合参”的特色和优势。

1.5 AI与四诊合参

目前关于四诊合参AI化的文献报导较为少见,说明该研究仍处于初步阶段[20]。AI四诊合参可通过两个途径实现:1)规范统一四诊采集标准,分别辨识四诊所采集信息后再进行归纳分析,但如前所述,目前各家研究原理和采集标准不同,因此较难实现。2)直接采用多格式、多来源(文字、数字、图片、声音等)的原始数据直接进行分析,其优点是数据丢失率低,因而相应准确率高,缺点是对深度学习的算法要求更高,目前尚处于探索状态。由于各诊设备尚未成熟,故而直接分析具有异构性的原始四诊信息是现阶段较为可行的办法,这就需要多模态的机器学习。值得一提的是多核学习方法,各子特征空间组合成多个核函数的高维空间,因此高维组合空间也具备各子空间的映射能力,异构数据中不同的特征分量也由此得以分别经最优单函数映射到知识层,使之更准确地表达。在此基础上,采用协同训练方法迭代出最佳分类器,对训练数据进行预测,设计基于知识层和决策层的最优化算法[20-21]

2 AI与中医诊断术语规范化

对于AI而言,规范化的中医诊断术语是极为重要的,其意义在于“使中医数据说普通话”,统一的术语才便于结构化中医数据,从而转化为计算机能够理解的语言。进入21世纪以来,中医术语规范化取得了令人瞩目的成果,但仍存在诸如标准不统一、各科研组织机构未协调统一等问题。因此,有学者提出在协调各机构的基础上,采用术语学方法并构建同义词库是针对目前问题的解决对策[22]。中国中医科学院信息所从2002年开始,借鉴统一医学语言系统(UMLS)的结构应用于中医药领域,构建了基于本体论的、建立了多层次语义关联的中医药学语言系统(TCMLS),即包含了大型同义词库,然而即使是如此耗时十数年、人力物力投入巨大的工程,仍不能说已完全涵盖历史长河中浩瀚如烟的中医典籍中出现的术语[23]。因此,进行基于基准术语库的AI自然语言处理(NLP),以便实现对各时代的医案、文献进行智能读取,是目前中医诊断术语范畴内较为可行的方法之一。

目前中医诊断进行NLP的对象主要是医案及文献,其中包含了许多临床诊断基础数据。为通过NLP实现中医诊断术语规范化,那么对信息的充分利用是非常必要的,故而要对医案进行信息抽取和中文分词。目前对中医文本数据进行智能分析的NLP方法主要有隐马尔科夫模型(HMM)、条件随机场模型(CRF)等,然而经常面临数据标注缺失、训练数据集少造成的准确率不足的情况[24]

如今人工神经网络已经被广泛使用,其中循环神经网络(RNN)在处理自然语言任务上有着极大的优势,RNN是一种特殊的神经网络结构,它是根据“人的认知是基于过往的经验和记忆”这一观点提出的。不仅考虑前一时刻的输入,同时具有对前面的内容的一种“记忆”功能。长短期记忆(LSTM)[25]是一种特殊的RNN,更是解决了长期依赖问题。LSTM主要设置了门结构来实现重要“记忆”的保留与取舍,内部主要有3个门,遗忘门即忘记阶段,这个阶段主要是对上一个节点传进来的输入进行选择性忘记,简单来说就是会“忘记不重要的,记住重要的”。输入门即选择记忆阶段,这个阶段将这个阶段的输入有选择性地进行“记忆”。输出门即输出阶段,这个阶段将决定哪些将会被当成当前状态的输出。而为了对语句的分析更加准确,使用两个LSTM模型,其语句的输入方向相反,由此可结合成为双向长短期记忆(BI-LSTM)[26]。基于此再使用CRF则可以用于构造在给定一组输入随机变量的条件下,另一组输出随机变量的条件概率分布模型。例如在词性标注任务中,输入序列为一串单词,输出序列就是相应的词性。

因此,本团队也利用BI-LSTM-CRF模型对中医医案进行自然语言处理。初期的训练数据集是由团队带头人李灿东教授十余年的临床医案构成,并由中医专家博士团队进行了医案分词标注。通过训练相应的分词模型,得到分词准确率可达到97%以上,远高于例如Jieba、PKUseg等开源分词工具,为后续的医案信息的自动抽取与理解奠定坚实基础。

分词后可得到包括部位、性质、程度等最小粒度的中医诊断术语,基于此的同义词匹配可使计算机更好地理解医案信息,以此完成中医诊断术语的NLP工作,而非陷入近似无穷尽的同义词库构建。该部分可以通过中文相似度计算来实现,中文相似度技术是自然语言处理中的一个重要研究方向,其技术有基于统计的相似度计算方法、基于词向量的相似度计算方法等。基于统计的相似度计算方法最常用的方法为词频-逆文件频率(TF-IDF)计算方法,将文本转化为向量。TF(Term Frequency)是词频,即一个词在文中出现的次数。IDF(Inverse Document Frequency)是逆向文件频率,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。基于词向量的相似度计算方法最常见的就是使用Word2Vec词向量,通过网络模型获得词向量。由此将文本向量化后,再通过余弦相似度测量两个向量之间的夹角的余弦值,度量两词语之间的相似度。基于统计的相似度计算方法是字浅层面的方法,而基于词向量的相似度计算方法考虑词语语义的深层面方法。因此对两种方法进行加权,结合起来进行对词语进行相似度计算,综合考虑词语的深浅层面,由此完成相似度计算,实现同义词匹配。

3 小结

综上所述,基于大数据的新一代AI技术很好地契合了中医的整体性与动态性,运用于中医诊断领域,将有望助推中医诊断技术实现新的跨越与发展。虽然诸多研究者从不同角度进行了许多研究,并取得进展与成就,但仍存在种种问题。首先,原始信息客观、准确、全面、规范的采集标准缺失,造成临床数据虽大,但却不能发挥大数据应该有的作用,形不成数据驱动的效力。其次,中医四诊信息采集过分依靠医者,或者采集设备不成熟,试图建立采集设备标准,反而造成了新的标准不统一,制造了新的瓶颈问题。最后,AI重点在于算法的优势上,四诊的AI化虽然取得了进展,但仍处于“各自为战”阶段,真正体现中医思维的四诊合参算法仍需要很长时间进行优化与完善。

参考文献
[1]
杜含光, 李灿东. 中医诊断学研究的瓶颈与对策[J]. 中华中医药杂志, 2015, 30(4): 971-974.
DU H G, LI C D. Bottlenecks and countermeasures in the research of traditional Chinese medicine diagnostics[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2015, 30(4): 971-974.
[2]
李婷, 陈晓东. 中医学唯象理论的思维方式及意义考辨[J]. 中医药学刊, 2001, 20(6): 563-565.
LI T, CHEN X D. A Textual research on the thinking mode and meaning of phenomenological theory in traditional Chinese medicine[J]. Chinese Archives of Traditional Chinese Medicine, 2001, 20(6): 563-565. DOI:10.3969/j.issn.1673-7717.2001.06.016
[3]
颜建军, 徐姿, 郭睿. 基于力场活动轮廓模型的舌图像分割研究[J]. 中华中医药杂志, 2019, 34(8): 3725-3727.
YAN J J, XU Z, GUO R. Research on tongue image segmentation based on active contour model of force field[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2019, 34(8): 3725-3727.
[4]
李福凤, 李国正, 周睿. 基于PLS、LDA的中医面诊光泽识别研究[J]. 世界科学技术(中医药现代化), 2011, 13(6): 977-981.
LI F F, LI G Z, ZHOU R. Research on gloss recognition of traditional Chinese medicine Facial Diagnosis Based on PLS and LDA[J]. Modernization of Traditional Chinese Medicine and Materia Medica-World Science and Technology, 2011, 13(6): 977-981.
[5]
陈飞飞, 夏春明, 张胜利. 基于最大类间方差法与分水岭的舌图像瘀斑提取[J]. 中华中医药杂志, 2018, 33(7): 2836-2841.
CHEN F F, XIA C M, ZHANG S L. Tongue image ecchymosis extraction based on maximum between-class variance method and watershed[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2018, 33(7): 2836-2841.
[6]
鲁法庭, 张学娅, 杨梅. 声诊研究现状及开展咳嗽中医声诊客观化研究新思路[J]. 辽宁中医杂志, 2010, 37(7): 1231-1232.
LU F T, ZHANG X Y, YANG M. Current status of acoustic diagnosis research and new ideas for developing objective acoustic diagnosis of traditional Chinese medicine for cough[J]. Liaoning Journal of Traditional Chinese Medicine, 2010, 37(7): 1231-1232.
[7]
陈春凤, 王忆勤, 郭睿. 803例五脏病变患者语音的客观化采集与分析[J]. 中华中医药杂志, 2012, 27(5): 1455-1457.
CHEN C F, WANG Y Q, GUO R. The objective collection and analysis of speech in 803 patients with five organ diseases[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2012, 27(5): 1455-1457.
[8]
林雪娟, 郑哲洲, 吴青海. 基于电子鼻的2型糖尿病虚实病性间的气味识别分析[J]. 中华中医药杂志, 2015, 30(8): 2687-2691.
LIN X J, ZHENG Z Z, WU Q H. Recognition and analysis on smell between deficiency and excess syndromes of patients with type 2 diabetes mellitus based on electronic nose[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2015, 30(8): 2687-2691.
[9]
林雪娟, 梁丽丽, 刘丽桑. 基于证素辨证的慢性胃炎常见病位间的气味图谱特征研究[J]. 中华中医药杂志, 2016, 31(10): 3966-3969.
LIN X J, LIANG L L, LIU L S. Study on the characteristics of the odor profile of common diseases of chronic gastritis based on syndrome differentiation[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2016, 31(10): 3966-3969.
[10]
林雪娟, 李灿东, 吴青海. 基于电子鼻技术的表证患者气味图谱研究[J]. 中华中医药杂志, 2013, 28(1): 52-56.
LIN X J, LI C D, WU Q H. Study on odor response patterns of patients with exterior syndrome based on electronic nose technology[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2013, 28(1): 52-56.
[11]
夏淑洁, 周智慧, 李佐飞. 四诊现代化研究原理与应用[J]. 天津中医药, 2020, 37(3): 259-265.
XIA S J, ZHOU Z H, LI Z F. Research principle and application of modernization of four diagnosis[J]. Tianjin Journal of Traditional Chinese Medicine, 2020, 37(3): 259-265.
[12]
胡宗杰. 基于极值随机森林的慢性胃炎中医问诊证候分类研究[D]. 上海: 华东理工大学, 2017.
HU Z J. Research on syndrome classification of Inquiry diagnosis for chronic gastritis in traditional Chinese medicine by extremely randomized forest algorithm[D]. Shanghai: East China University of Science and Technology, 2017.
[13]
刘国萍, 邓峰, 夏春明. 基于隐结构的中医脾系问诊信息客观化分析[J]. 中医杂志, 2011, 52(16): 1372-1375.
LIU G P, DENG F, XIA C M. Analysis of the objective analysis of the information of the spleen department of traditional Chinese medicine based on the hidden structure[J]. Journal of Traditional Chinese Medicine, 2011, 52(16): 1372-1375.
[14]
马梦羽, 沈璐, 文天才. 数据挖掘技术在中医诊疗数据分析中的应用[J]. 中国中医药信息杂志, 2016, 23(7): 132-136.
MA M Y, SHEN L, WEN T C. Application of data mining technology for data analysis of traditional Chinese medicine diagnosis and treatment[J]. Chinese Journal of Information on Traditional Chinese Medicine, 2016, 23(7): 132-136.
[15]
刘国萍, 王忆勤, 许朝霞. 中医问诊规范化研究的难点[J]. 中华中医药学刊, 2010, 28(6): 1191-1193.
LIU G P, WANG Y Q, XU Z X. Difficulties in the standardized research of Chinese medicine consultation[J]. Chinese Archives of Traditional Chinese Medicine, 2010, 28(6): 1191-1193.
[16]
李雪, 李福凤. 脉象信息分析法的研究进展[J]. 中华中医药杂志, 2017, 32(10): 4558-4561.
LI X, LI F F. Research progress on pulse manifestation analysis method[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2017, 32(10): 4558-4561.
[17]
CUI J, TU L P, ZHANG J F, et al. Analysis of pulse signals based on array pulse volume[J]. Chinese Journal of Integrative Medicine, 2019, 25(2): 103-107. DOI:10.1007/s11655-018-2776-y
[18]
王颖纯, 白丽娜. 基于BP神经网络的中医脉诊体质类型判定[J]. 中医杂志, 2014, 55(15): 1288-1291.
WANG Y C, BAI L N. Determination of constitution type in traditional Chinese medicine pulse examination based on BP neural networks[J]. Journal of Traditional Chinese Medicine, 2014, 55(15): 1288-1291.
[19]
汪南玥, 于友华, 刘佳. 脉诊客观化研究的思考[J]. 中华中医药杂志, 2015, 30(8): 2655-2657.
WANG N Y, YU Y H, LIU J. Thoughts on the objective research of pulse diagnosis[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2015, 30(8): 2655-2657.
[20]
赵文, 张佳, 徐佳君. 四诊合参智能化发展现状及实现路径[J]. 中医杂志, 2020, 61(1): 58-62, 67.
ZHAO W, ZHANG J, XU J J. The current situation and realization path of intelligent development of four-diagnostics[J]. Journal of Traditional Chinese Medicine, 2020, 61(1): 58-62, 67.
[21]
李灿东, 辛基梁, 雷黄伟. 中医健康管理与人工智能[J]. 中华中医药杂志, 2019, 34(8): 3586-3588.
LI C D, XIN J L, LEI H W. Health management of traditional Chinese medicine and artificial intelligence[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2019, 34(8): 3586-3588.
[22]
朱建平. 中医药名词术语规范化现状问题与对策[J]. 中华中医药杂志, 2017, 32(4): 1633-1637.
ZHU J P. Current situation, problems and countermeasures of standardization of terms in traditional Chinese medicine[J]. China Journal of Traditional Chinese Medicine and Pharmacy, 2017, 32(4): 1633-1637.
[23]
ZHOU X Z, WU Z H, YIN A N, et al. Ontology development for unified traditional Chinese medical language system[J]. Artificial Intelligence in Medicine, 2004, 32(1): 15-27. DOI:10.1016/j.artmed.2004.01.014
[24]
柴华, 路海明, 刘清晨. 中医自然语言处理研究方法综述[J]. 医学信息学杂志, 2015, 36(10): 58-63.
CHAI H, LU H M, LIU Q C. Summary of research methods of natural language processing in traditional Chinese medicine[J]. Journal of Medical Informatics, 2015, 36(10): 58-63.
[25]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735
[26]
金宸, 李维华, 姬晨, 等. 基于双向LSTM神经网络模型的中文分词[J]. 中文信息学报, 2018, 32(2): 29-37.
JIN C, LI W H, JI C, et al. Chinese word segmentation based on bidirectional LSTM neural network model[J]. Journal of Chinese Information Processing, 2018, 32(2): 29-37.
Artificial intelligence and traditional Chinese medicine diagnostic technology
XU Jiajun1,2 , LEI Huangwei1,2 , GAO Xinhao3 , LUO Zhiming3 , LI Shaozi3 , WENG Hui1,2 , LI Candong1,2,4     
1. College of Traditional Chinese Medicine, Fujian University of Traditional Chinese Medicine, Fuzhou 350122, China;
2. Key Laboratory of Traditional Chinese Medicine Health Status Identification in Fujian Province, Fuzhou 350122, China;
3. Department of Artificial Intelligence, School of Information, Xiamen University, Xiamen 361005, China;
4. LI Candong Qihuang Scholar Studio, Fujian University of Traditional Chinese Medicine, Fuzhou 350122, China
Abstract: Artificial intelligence technology will help to promote the development and progress of traditional Chinese medicine (TCM) diagnostic technology, especially in solving the bottleneck problem of the objective collection of the four diagnostic information of TCM and the standardization of terminology research. The article expounds the research status and problems of artificial intelligence technology and the four diagnosis of traditional Chinese medicine and the joint of four diagnosis, discusses the research progress of the research group using artificial intelligence technology to standardize diagnostic terms, and further summarizes and proposes the development direction and research focus of artificial intelligence of TCM diagnosis.
Key words: traditional Chinese medicine diagnosis    artificial intelligence    four diagnostic methods of traditional Chinese medicine    diagnostic term    standardize