天津中医药  2026, Vol. 43 Issue (5): 571-578

文章信息

王东军, 魏凯, 田之魁, 等.
WANG Dongjun, WEI Kai, TIAN Zhikui, et al.
基于肺癌患者舌象图像与中医临床症状的肺癌临床分期预测模型
A prediction model for clinical staging of lung cancer based on tongue image parameters and traditional Chinese medicine clinical symptoms of patients
天津中医药, 2026, 43(5): 571-578
Tianjin Journal of Traditional Chinese Medicine, 2026, 43(5): 571-578
http://dx.doi.org/10.11656/j.issn.1672-1519.2026.05.05

文章历史

收稿日期: 2025-12-28
基于肺癌患者舌象图像与中医临床症状的肺癌临床分期预测模型
王东军1,2 , 魏凯1 , 田之魁3 , 孙璇4 , 张颖5 , 王泓午2     
1. 华北理工大学中医学院,唐山 063210;
2. 天津中医药大学公共卫生与健康科学学院,天津 301617;
3. 齐鲁医药学院康复医学院,淄博 255300;
4. 山东医药大学中医学院,烟台 264003;
5. 唐山市丰南区 中医医院内五科,唐山 063000
摘要:[目的] 构建基于肺癌患者基本信息、舌象图像参数与中医症状的肺癌临床分期预测模型。[方法] 参照临床流行病学横断面调查研究方法,探索肺癌舌象图像参数及相关影响因素,对肺癌患者舌象参数与中医症状调查问卷进行自变量筛选,将具有统计学意义的变量纳入二元Logistic回归分析,并应用Logistic回归、支持向量机、随机森林、极端梯度提升、K近邻分类算法、反向传播神经网络机器学习智能算法评价肺癌临床分期模型的预测能力。[结果] 相关性分析结果显示经单因素分析20个变量与肺癌临床分期进展存在相关性,分别为年龄(OR=1.618,P<0.001)、卡氏功能状态(KPS)评分(OR=2.416,P<0.001)、既往病史(OR=2.104,P<0.05)、吸烟史(OR=2.275,P<0.001)、饮酒史(OR=1.357,P<0.05)、病程(OR=1.257,P<0.001)、放疗(OR=0.631,P<0.001)、苔色(CC)-B5(OR=1.807,P<0.001)、腻苔(OR=1.612,P<0.001)、裂纹舌(OR=1.988,P<0.05)、自汗(OR=1.775,P<0.05)、视物昏糊(OR=1.495,P<0.001)、口干(OR=1.691,P<0.001)、干咳少痰(OR=1.443,P<0.01)、胸痛(OR=1.849,P<0.05)、少神(OR=1.561,P<0.05)、面色晦暗(OR=2.081,P<0.001)、唇色淡白(OR=1.184,P<0.05)、皮肤甲错(OR=1.299,P<0.05)、喘息(OR=1.194,P<0.05)。以肺癌临床分期为因变量,判别模型预测概率为自变量绘制受试者工作特征(ROC)曲线,Logistic回归模型ROC曲线下面积(AUC)为0.946;Logistic回归模型Ⅰ~Ⅳ期AUC分别为0.901、0.960、0.953、0.971。Logistic回归预测概率的AUC面积为0.946,95%CI(0.877,0.973);随机森林(RF)算法预测概率的AUC面积为0.945,95%CI(0.802,0.977);支持向量机(SVM)预测概率的AUC面积为0.942,95%CI(0.864,0.952)、极端梯度提升(Xgboost)预测概率的AUC面积为0.931,95%CI(0.814,0.948)、反向传播神经网络(BP)神经网络预测概率的AUC面积为0.930,95%CI(0.793,0.965)、K近邻分类算法(KNN)预测概率的AUC面积为0.927,95%CI(0.775,0.946)。[结论] 基于患者基本信息、舌象图像参数与中医症状,应用Logistic回归和机器学习方法构建肺癌临床分期预测模型可行,具有较好预测能力和分类效能,具有促进辅助诊疗、判断预后等临床价值。
关键词肺癌    舌象图像    预测模型    Logistic回归    机器学习    

肺癌为中国发病率和病死率居首位的肿瘤,患者5年生存率不足20%,其发病率和病死率呈上升趋势[1],与诊断不及时、治疗延误等有关[2]。李媛等[3]基于性别、年龄、临床分期、治疗手段、外周免疫评分等因素建立了肺癌预后(中药治疗)风险预测模型。石玉琳等[4]基于舌象特征属性筛选及决策树算法构建了肺癌气虚证、阴虚证中医证候分类模型,为良性肺结节和肺癌的鉴别诊断提供参考。目前,应用舌象图像参数及中医症状构建的肺癌临床分期预测模型尚未见报道。

1 资料与方法 1.1 研究对象

2019年4月—2021年12月天津中医药大学第一附属医院住院及门诊肺癌患者。该项目经天津中医药大学医学伦理委员会审核,伦理审批号为TJUTCM -EC20190004。

1.2 肺癌诊断标准

西医诊断标准参照《中华医学会肺癌临床诊疗指南(2018版)》诊断标准[5],X线、电子计算机断层扫描(CT)影像学、病理学、细胞学检查明确诊断为肺癌;临床分期参照2018年国际抗癌联盟(UICC)第八版[6]分期标准。肺癌中医诊断标准参照《恶性肿瘤中医诊疗指南》[7]相关内容由3名副主任医师及以上对肺癌中医证候与舌象进行判别。

1.3 纳入标准

1)符合肺癌中医、西医诊断标准。2)年龄18~85岁。3)了解研究产生的风险和受益,并签署知情同意书。4)受试者能够配合舌象采集,并能够接受问卷调查。

1.4 病例排除标准

1)意识不清,语言表达障碍及精神异常患者。2)舌象编码错误。3)舌象图像模糊,影响参数判读。

1.5 变量赋值

基本信息:对患者性别、年龄、籍贯、职业、身体质量指数、既往病史、吸烟史、饮酒史、治疗史、卡氏功能状态(KPS)评分、临床分期等相关影响因素进行分析。舌象宏观、微观特征:舌色、舌形、苔色、苔质分布。舌苔面积、点刺数量、瘀斑数量、裂纹数量、齿痕数量;点刺面积、齿痕面积、裂纹长度、瘀斑面积等;舌象R、G、B参数。本研究纳入变量包括基本信息(自变量)、中医临床症状(自变量)、舌象参数(自变量)及肺癌临床分期(因变量)。舌象图像参数:舌色(TC)指标包括:TC-R1、TC-G1、TC-B1、TC-R2、TC-G2、TC-B2、TC-R3、TC-G3、TC-B3、TC-R4、TC-G4、TC-B4、TC-R5、TC-G5、TC-B5;苔色(CC)参数包括:CC-R1、CC-G1、CC-B1、CC-R2、CC-G2、CC-B2、CC-R3、CC-G3、CC-B3、CC-R4、CC-G4、CC-B4、CC-R5、CC-G5、CC-B5,舌苔面积、点刺面积、齿痕面积、瘀斑面积、齿痕数量、瘀斑数量、点刺数量、裂纹长度、裂纹数量等。对相关自变量进行赋值,见表 1

表 1 自变量赋值情况 Tab. 1 Assignment of independent variables
变量 赋值情况
临床分期 1=肺癌Ⅰ期;2=肺癌Ⅱ期;3=肺癌Ⅲ期;4=肺癌Ⅳ期
性别 1=男性;2=女性
年龄(岁) 1=18~40;2=40~50;3=50~60;4=60~70;5=70~85
既往病史 1=无;2=有
吸烟史 1=无;2=有
吸烟年份(年) 0=0;1=1~5;2=5~10;3=10~15;4=15~
饮酒史 1=无;2=有
职业
1=机关人员;2=农林牧渔从业人员;3=商业、服务业、个体人员;4=技术人员;5=退休人员;6=其他人员
病理类型 1=腺癌;2=鳞癌
体质指数 1=<18.5;2=18.5~23.99;3=24~27.99;4=28~
病程(年) 1=0~;2=1~;3=3~;4=5~
KPS评分(分) 1=90~100;2=70~90;3=50~70;4=0~50
中医症状 0=无症状;1=症状较轻或偶发;2=症状较重或经常发生
1.6 预测模型与分类实验

应用Python3.6在anaconda3和pycharm环境下开展肺癌临床分期中医智能预测模型数据集分类实验。筛选肺癌临床分期模型相关因素,构建基于基本信息、中医症状、舌象客观化参数的肺癌中医临床分期预测模型。肺癌患者基本信息、中医症状、舌象分布进行描述性统计分析。筛选预测方程相关自变量采用单因素Logistic回归,为避免因素遗漏,单因素分析设定α=0.20,将单因素分析中P<0.20因素纳入多因素Logistic;确定预测方程变量采用有序多因素Logistic回归:Forward Stepwise(LR);将通过单因素分析筛选的变量纳入有序多分类Logistic回归模型,构建预测模型。将支持向量机(SVM)、随机森林(RF)、极端梯度提升(XGBoost)、K近邻分类算法(KNN)、反向传播神经网络(BP)算法作为分类器训练识别数据,根据测试集结果,模型预测测试集得分;根据sklearn.metrics中roc_curve,auc函数绘制受试者工作特征(ROC)曲线,计算曲线下面积(AUC),对比5种机器学习模型准确率(Accuracy)、精确率(Precision)、F1-score(F1值)、灵敏度(Specificity)、特异度(Secificity),通过AUC指标评价肺癌临床分期中医预测模型性能。采用5折交叉验证法和验证集评估机器学习模型效能,评价指标为准确率、精确率、召回率、F1值。准确率越高则分类器效能越好,AUC越大,分类效果越好。被模型预测正确阳性样本为真阳性(TP);模型预测正确的阴性样本为真阴性(TN);被模型预测为阳性样本的阴性样本为假阳性(FP);被模型预测为阴性的阳性样本为假阴性(FN)。

1.7 统计学方法

采用SPSS 26.0统计软件对肺癌患者症状分布、舌象参数进行描述性统计分析。计量资料若满足正态分布且方差齐数据用均数±标准差(x±s)表示,两独立样本t检验进行两组间比较,单因素方差分析(ony-way ANOVA)进行多组间比较;计量资料若不服从正态分布,用中位数和上下四分位数[MQLQU)]、最小值(min)和最大值(max)表示,采用Wilcoxon秩和检验进行两组间比较,Kruskal-Wallis H检验进行多组间比较。计数资料采用频数、频率、构成比表示,采用Pearson卡方检验或Fisher精确概率检验进行组间比较,P<0.05为差异有统计学意义。

2 结果 2.1 一般情况

课题组2019年4月—2021年12月开展调查研究,发放调查问卷4 300份,回收4 300份;因调查内容缺失、基本信息不全、未填写内容超过问卷10%等原因剔除135份调查表,纳入4 165份调查表,占回收问卷96.86%。4 165例肺癌患者男性2 288例(54.93%),女性1 877例(45.07%)。

2.2 舌象参数与肺癌临床分期单因素Logistic回归

本研究基于患者基本信息、中医症状、舌象客观化参数进行肺癌临床分期风险因素分析,建立临床分期风险预测模型。经过单因素分析,从基本信息、中医症状、舌象客观化参数筛选出与肺癌临床分期相关的变量年龄(OR=1.020,P<0.001)、KPS评分(OR=1.990,P<0.001)、既往病史(OR=1.155,P<0.05)、吸烟史(OR=1.645,P<0.001)、饮酒史(OR=1.402,P<0.05)、病程(OR=1.243,P<0.001)、病理类型(OR=1.697,P<0.05)、放疗(OR=0.648,P<0.05)、乏力(OR=1.051,P<0.05)、左脉细(OR=1.172,P<0.05)、胸痛(OR=1.0511.852,P<0.05)、干咳少痰(OR=1.489,P<0.001)、面色晦暗(OR=1.877,P<0.05)、多梦(OR=1.257,P<0.001)、视物昏糊(OR=1.598,P<0.001)、自汗(OR=0.842,P<0.05)、喘息(OR=1.278,P<0.05)、得神(OR=0.846,P<0.05)、皮肤甲错(OR=1.229,P<0.05)、听力减退(OR=1.140,P<0.05)、少神(OR=1.137,P<0.05)、皮肤干燥(OR=1.168,P<0.05)、眼胞肿(OR=0.848,P<0.05)、声低无力(OR=1.115,P<0.05)、目干涩(OR=1.140,P<0.05)、唇色淡白(OR=1.150,P<0.05)、淡紫舌(OR=1.948,P<0.05)、裂纹舌(OR=1.993,P<0.05)、腻苔(OR=1.997,P<0.05)、TC-R4(OR=1.007,P<0.05)、TC-G4(OR=1.018,P<0.05)、TC-B4(OR=0.978,P<0.05)、CC-B2(OR=1.014,P<0.05)、CC-B4(OR=1.017,P<0.05)、CC-B5(OR=1.013,P<0.05)。详见开放科学(资源服务)标识码(OSID)。

2.3 肺癌临床分期有序多分类Logistic回归

将年龄、既往病史、KPS评分、吸烟史、饮酒史、病例类型、病程、放疗、中药治疗、TC-R1、TC-G1、TC-R5、CC-R5、CC-B2、CC-B5、淡紫舌、裂纹舌、腻苔、左脉细、自汗、听力减退、目干涩、视物昏糊、口干、干咳少痰、胸痛、少神、面色晦暗、眼睑肿、唇色淡白、皮肤干燥、皮肤甲错、声低无力、喘息无力等变量纳入多因素有序多分类Logistic回归分析。平行性检验为0.564,平行性假设成立,满足有序多分类Logistic分析条件。在α=0.05检验水准下,36个变量经多因素分析后,最终20个变量与肺癌临床分期存在相关性,年龄(OR=1.618,P<0.001)、KPS评分(OR=2.416,P<0.001)、既往病史(OR=2.104,P<0.05)、吸烟史(OR=2.275,P<0.001)、饮酒史(OR=1.357,P<0.05)、病程(OR=1.257,P<0.001)、放疗(OR=0.631,P<0.001)、CC-B5(OR=1.807,P<0.001)、腻苔(OR=1.612,P<0.001)、裂纹舌(OR=1.988,P<0.05)、自汗(OR=1.775,P<0.05)、视物昏糊(OR=1.495,P<0.001)、口干(OR=1.691,P<0.001)、干咳少痰(OR=1.443,P<0.01)、胸痛(OR=1.849,P<0.05)、少神(OR=1.561,P<0.05)、面色晦暗(OR=2.081,P<0.001)、唇色淡白(OR=1.184,P<0.05)、皮肤甲错(OR=1.299,P<0.05)、喘息(OR=1.194,P<0.05);将以上20个变量纳入方程。见表 2

表 2 肺癌临床分期有序多分类Logistic回归 Tab. 2 Ordinal multinomial logistic regression for clinical staging of lung cancer
自变量 回归系数 标准误 Z P OR 95%CI
下限 上限
年龄 0.160 0.004 4.353 <0.001 1.618 1.009 2.023
KPS评分 0.512 0.084 6.009 <0.001 2.416 1.407 3.455
既往病史 0.126 0.063 1.761 0.038 2.104 1.988 2.264
吸烟史 0.422 0.183 2.142 0.032 2.275 1.471 2.967
饮酒史 0.332 0.116 2.627 0.009 1.357 1.082 1.707
病程 0.229 0.019 12.079 <0.001 1.257 1.212 1.306
放疗 -0.507 0.073 -6.704 <0.001 0.631 0.414 0.882
CC-B5 0.227 0.003 2.330 0.020 1.807 1.001 2.213
裂纹舌 0.128 0.164 0.186 0.042 1.988 1.873 2.119
腻苔 0.112 0.161 0.197 0.044 1.612 1.098 1.938
自汗 0.238 0.080 3.174 0.002 1.775 1.663 2.907
视物昏糊 0.517 0.087 4.588 <0.001 1.495 1.257 1.767
口干 0.330 0.063 5.845 <0.001 1.691 1.614 1.782
干咳少痰 0.366 0.066 5.531 <0.001 1.443 1.267 2.643
胸痛 0.163 0.064 2.565 0.010 1.849 1.752 2.962
少神 0.149 0.069 2.153 0.031 1.561 1.013 2.329
面色晦暗 0.210 0.064 3.299 <0.001 2.081 1.716 2.318
唇色淡白 0.186 0.082 2.060 0.039 1.184 1.008 1.392
皮肤甲错 0.247 0.083 3.166 0.002 1.299 1.105 1.528
喘息 0.177 0.077 2.302 0.021 1.194 1.027 1.389

可建立Logistic回归方程:ln=p1/(1-p1)-2.850+0.16×年龄+0.229×病程+0.126×既往病史+0.442×吸烟史+0.512×KPS评分+0.332×饮酒史-0.507×放疗+0.227×CC-B5+0.128×裂纹舌+0.112×腻苔+0.238×自汗+0.517×视物模糊+0.330×口干+0.366×干咳少痰+0.163×胸痛+0.149×少神+0.210×面色晦暗+0.186×唇色淡白+0.247×皮肤甲错+0.177×喘息;ln=p2/(1-p2)-0.690+0.16×年龄+0.229×病程+0.126×既往病史+0.442×吸烟史+0.512×KPS评分+0.332×饮酒史-0.507×放疗+0.227×CC-B5+0.128×裂纹舌+0.112×腻苔+0.238×自汗+0.517×视物模糊+0.330×口干+0.366×干咳少痰+0.163×胸痛+0.149×少神+0.210×面色晦暗+0.186×唇色淡白+0.247×皮肤甲错+0.177×喘息;ln=p3/(1-p3)-0.657+0.16×年龄+0.229×病程+0.126×既往病史+0.442×吸烟史+0.512×KPS评分+0.332×饮酒史-0.507×放疗+0.227×CC-B5+0.128×裂纹舌+0.112×腻苔+0.238×自汗+0.517×视物模糊+0.330×口干+0.366×干咳少痰+0.163×胸痛+0.149×少神+0.210×面色晦暗+0.186×唇色淡白+0.247×皮肤甲错+0.177×喘息。

2.4 机器学习算法构建肺癌临床分期预测模型

经模型系数综合测试χ2=34.524,P<0.001;模型Hosmer-Lemeshow拟合优度检验,χ2=4.834,P=0.465,表明拟合的模型较为理想。ROC曲线,以假阳性率(1-特异度)为横坐标,真阳性率(敏感度)为纵坐标绘制ROC曲线,分层分组测定数据,将各点联成曲线绘制ROC曲线。AUC用于评估该试验诊断价值。AUC接近1.0最理想,AUC 0.7~0.9准确性较高,AUC0.5~0.7准确性一般,AUC<0.5预测价值较低。以肺癌临床分期为因变量,判别模型预测概率为自变量绘制ROC曲线,Logistic回归模型ROC曲线下面积为0.946;logistic回归模型Ⅰ~Ⅳ期AUC分别为0.901、0.960、0.953、0.971。结果表明logistic回归模型预测价值较理想,见图 1。经重新纳入300例肺癌患者进行外部验证,其敏感度为91.68%,特异度92.45%,κ系数为0.815,一致性较高。

注:macro-avearges ROC curve,宏平均ROC曲线;Class0,Ⅰ期;Class1,Ⅱ期;Class2,Ⅲ期;Class3,Ⅳ期。 图 1 基于Logistic回归肺癌临床分期预测模型ROC曲线 Fig. 1 ROC curve of the clinical stage prediction model for lung cancer based on logistic regression
2.5 基于机器学习肺癌临床分期中医预测模型

将多因素Logistic筛选的基本信息、中医症状、舌象参数变量纳入数据池,应用Python3.6在anaconda3和pycharm环境下开展肺癌临床分期中医智能预测模型数据集分类实验,将SVM、RF、XGBoost、KNN、BP神经网络算法作为分类器训练识别数据,根据测试集结果,模型预测测试集得分;被模型预测正确阳性样本为真阳性(TP);模型预测正确的阴性样本为真阴性(TN);被模型预测为阳性样本的阴性样本为假阳性(FP);被模型预测为阴性的阳性样本为假阴性(FN)。将基本信息、中医症状、舌象图像参数纳入数据池,基于不同数据集对肺癌临床分期进行识别。4 165例肺癌中医临床数据进行Max标准化,统一量纲;将数据按照8∶2划分训练集和测试集。5种机器学习分类算法对肺癌临床Ⅰ~Ⅳ分期预测准确度由高到低依次为Xgboost(89.97%)、随机森林(88.63%)、BP神经网络(86.43%)、SVM(84.47%)、KNN(84.23%);5种机器学习分类算法对肺癌临床Ⅰ~Ⅳ分期预测精确度由高到低依次为Xgboost(86.13%)、BP神经网络(83.95%)、随机森林(83.94%)、KNN(83.08%)、支持向量机(79.38%);5种机器学习分类算法对肺癌Ⅰ~Ⅳ分期预测召回率(查全率)由高到低依次为随机森林(91.51%)、Xgboost(91.34%)、支持向量机(88.08%)、BP神经网络(84.14%)、KNN(80.75%)。F1值兼顾查准率和查全率,使两者达到平衡,同时达到最高。5种机器学习分类算法对肺癌Ⅰ~Ⅳ分期预测模型F值由高到低依次为Xgboost(88.29%)随机森林(86.81%)、BP神经网络(83.81%)、支持向量机(82.51%)、KNN(81.78%)。整体而言,Xgboost算法准确度、精确度均为最高、F1值较高。见表5。机器学习分类对肺癌临床分期预测模型ROC曲线,见图 2-6

注:macro-avearges ROC curve,宏平均ROC曲线;Class0,Ⅰ期;Class1,Ⅱ期;Class2,Ⅲ期;Class3,Ⅳ期。 图 2 基于SVM算法肺癌临床分期预测模型ROC曲线 Fig. 2 ROC curve of the clinical stage prediction model for lung cancer based on the SVM algorithm
注:macro-avearges ROC curve,宏平均ROC曲线;Class0,Ⅰ期;Class1,Ⅱ期;Class2,Ⅲ期;Class3,Ⅳ期。 图 3 基于KNN算法肺癌临床分期预测模型ROC曲线 Fig. 3 ROC curve of the clinical stage prediction model for lung cancer based on the KNN algorithm
注:Cmacro-avearges ROC curve,宏平均ROC曲线;lass0,Ⅰ期;Class1,Ⅱ期;Class2,Ⅲ期;Class3,Ⅳ期。 图 4 基于随机森林算法肺癌临床分期预测模型ROC曲线 Fig. 4 ROC curve of the clinical stage prediction model for lung cancer based on the random forest algorithm
注:macro-avearges ROC curve,宏平均ROC曲线;Class0,Ⅰ期;Class1,Ⅱ期;Class2,Ⅲ期;Class3,Ⅳ期。 图 5 基于XGboost算法肺癌临床分期预测模型ROC曲线 Fig. 5 ROC curve of the clinical stage prediction model for lung cancer based on the XGBoost algorithm
注:macro-avearges ROC curve,宏平均ROC曲线;Class0,Ⅰ期;Class1,Ⅱ期;Class2,Ⅲ期;Class3,Ⅳ期。 图 6 基于BP神经网络肺癌临床分期预测模型ROC曲线 Fig. 6 ROC curve of the clinical stage prediction model for lung cancer based on the BP neural network

SVM算法对肺癌临床分期数据集分类效能较好,AUC值为0.942。SVM对肺癌Ⅰ~Ⅳ期均有较好的分类效能,Ⅰ期AUC值为0.935,Ⅱ期AUC值为0.948,Ⅲ期AUC值为0.938,Ⅳ期AUC值为0.947。KNN算法对肺癌临床分期数据集分类效能较好,AUC值为0.927。KNN对肺癌Ⅰ~Ⅳ期均有较好的分类效能,Ⅰ期AUC值为0.933,Ⅱ期AUC值为0.918,Ⅲ期AUC值为0.915,Ⅳ期AUC值为0.942。RF算法对肺癌临床分期数据集分类效能较好,AUC值为0.945。RF算法对肺癌Ⅰ~Ⅳ期分类效能较好,Ⅰ期AUC值为0.890,Ⅱ期AUC值为0.960,Ⅲ期AUC值为0.955,Ⅳ期AUC值为0.976。XGboost算法对肺癌临床分期数据集分类效能较好,AUC值为0.932。XGboost对肺癌Ⅰ~Ⅳ期均有较好的分类效能,Ⅰ期AUC值为0.945,Ⅱ期AUC值为0.943,Ⅲ期AUC值为0.933,Ⅳ期AUC值为0.905。BP神经网络对肺癌临床分期数据集有较好分类效能,AUC值为0.930。BP神经网络对肺癌Ⅰ~Ⅳ期有较好分类效能,Ⅰ期AUC值为0.886,Ⅱ期AUC值为0.938,Ⅲ期AUC值为0.932,Ⅳ期AUC值为0.962,如图 2-6所示。比较几种预测模型AUC结果表明Logistic回归的预测效果最好,Logistic回归分析模型系数的解释性强,结果比较稳定。见表 3表 4

表 3 肺癌临床分期机器学习预测模型识别结果 Tab. 3 Prediction performance of machine learning models for clinical staging of lung cancer
分类方法 准确率(%) 精确率(%) 召回率(%) F1值
SVM算法 84.47 79.38 88.08 0.825 1
KNN算法 84.23 83.08 80.75 0.817 8
RF算法 88.63 83.94 91.51 0.868 1
Xgboost算法 89.97 86.13 91.34 0.882 9
BP神经网络 86.43 83.95 84.14 0.838 1
表 4 6种模型预测概率的曲线下面积 Tab. 4 Area under the curve(AUC) of prediction probabilities for the six models
检验结果变量 AUC面积 标准误 P 95%CI
下限 上限
Logistic回归 0.946 0.024 <0.001 0.877 0.973
SVM算法 0.942 0.035 <0.001 0.864 0.952
BP神经网络算法 0.930 0.023 <0.001 0.793 0.965
RF算法 0.945 0.037 <0.001 0.802 0.977
KNN算法 0.927 0.041 <0.001 0.775 0.946
XGboost算法 0.931 0.019 <0.001 0.814 0.948
3 讨论

“肺癌”隶属于中医“肺积”“胸痛”“劳咳”“息贲”“咳嗽”“喘息”等病证范畴。中医认为肺癌发生与正气虚损和邪毒入侵关系密切,正气亏虚,脏腑阴阳失调是罹患肺癌基础。肺癌病因病机复杂,致病因素多兼夹为患。癌毒侵肺致宣发肃降不及、输布津液气机失司;气血不畅致癌毒与瘀血痰饮搏结,形成肿块;肺为清虚之体,不耐寒热袭扰,痰浊、邪毒、邪热、瘀血搏结于肺,耗伤气血、劫烁阴津,久则形成阴阳两虚,痰浊癌毒内侵的本虚标实之证。中医学者在肺癌中医临床实践过程中,不断完善肺癌中医药防治,国内多个研究团队采用横断面调查、病例对照研究、队列研究、随机对照试验等流行病学研究方法,采集肺癌人群中医四诊参数,将肺癌中医临床研究与分子生物学等技术相结合,实现肺癌中医药临床研究客观化、定量化发展。

本研究经过单因素、多因素分析,从基本信息、中医症状、舌象客观化参数筛选出与肺癌临床分期相关的变量年龄(OR=1.618,P<0.001)、KPS评分(OR=2.416,P<0.001)、既往病史(OR=2.104,P<0.05)、吸烟史(OR=2.275,P<0.001)、饮酒史(OR=1.357,P<0.05)、病程(OR=1.257,P<0.001)、放疗(OR=0.631,P<0.001)、CC-B5(OR=1.807,P<0.001)、腻苔(OR=1.612,P<0.001)、裂纹舌(OR=1.988,P<0.05)、自汗(OR=1.775,P<0.05)、视物昏糊(OR=1.495,P<0.001)、口干(OR=1.691,P<0.001)、干咳少痰(OR= 1.443,P<0.01)、胸痛(OR=1.849,P<0.05)、少神(OR=1.561,P<0.05)、面色晦暗(OR=2.081,P<0.001)、唇色淡白(OR=1.184,P<0.05)、皮肤甲错(OR=1.299,P<0.05)、喘息(OR=1.194,P<0.05)。研究表明放疗是肺癌临床分期进展的保护因素;肺癌临床分期进展的危险因素有年龄、既往病史、病程、吸烟史、饮酒史、KPS评分、腻苔、裂纹舌、自汗、口干、胸痛、面色晦暗、干咳少痰、少神、视物昏糊、喘息、唇色淡白、皮肤甲错、苔色参数CC-B5。这可能提示肺癌临床分期的进展可能与气虚、血瘀、痰湿、阴虚等证素关系密切,尤其是气虚血瘀是肺癌临床进展的核心证素。张茜敏[8]研究也证实NSCLC患者TNM分期与中医证型存在相关性,Ⅰ、Ⅱ期以痰湿证、血瘀证、气虚证多见,尤以痰湿证多见;Ⅲ、Ⅳ期以气虚证、痰湿证、阴虚证多见。随着临床分期进展,D-二聚体(D-D)、纤维蛋白原(FIB)水平表达升高。

基于机器学习方法建立肺癌临床分期中医预测模型,机器学习分类算法对肺癌临床分期预测准确度由高到低依次为Xgboost(89.97%)、RF(88.63%)、BP神经网络(86.43%)、SVM(84.47%)、KNN(84.23%),提示中医症状和舌象客观化参数结合基本信息在肺癌临床分期预测中发挥作用。中医症状作为疾病诊断基本元素,是肺癌临床分期预测重要依据,舌象参数在肺癌临床分期预测中具有重要价值。Logistic回归预测概率AUC面积为0.946高于RF(0.945)、SVM(0.942)、XGboost(0.931)、BP神经网络(0.930)、KNN(0.927)。SVM对肺癌Ⅰ~Ⅳ期均有较好的分类效能,Ⅰ期AUC值为0.935,Ⅱ期AUC值为0.948,Ⅲ期AUC值为0.938,Ⅳ期AUC值为0.947。KNN算法对肺癌Ⅰ~Ⅳ期均有较好的分类效能,Ⅰ期AUC值为0.933,Ⅱ期AUC值为0.918,Ⅲ期AUC值为0.915,Ⅳ期AUC值为0.942。随机森林RF算法对肺癌Ⅰ~Ⅳ期分类效能较好,Ⅰ期AUC值为0.890,Ⅱ期AUC值为0.960,Ⅲ期AUC值为0.955,Ⅳ期AUC值为0.976。国外学者将随机森林分类器应用于肺癌数据集,分析了性别、年龄、空气污染、体质量下降等与肺癌发生的关系,数据集准确率高达96.31%[9]。本研究中XGboost对肺癌Ⅰ~Ⅳ期均有较好的分类效能,Ⅰ期AUC值为0.945,Ⅱ期AUC值为0.943,Ⅲ期AUC值为0.933,Ⅳ期AUC值为0.905。BP神经网络对肺癌Ⅰ~Ⅳ期有较好分类效能,Ⅰ期AUC值为0.886,Ⅱ期AUC值为0.938,Ⅲ期AUC值为0.932,Ⅳ期AUC值为0.962。本研究机器学习算法对肺癌临床分期预测准确度由高到低依次为Xgboost(89.97%)、RF(88.63%)、BP神经网络(86.43%)、SVM(84.47%)、KNN(84.23%);精确度由高到低依次为Xgboost(86.13%)、BP神经网络(83.95%)、随机森林(83.94%)、KNN(83.08%)、SVM(79.38%)。Xgboost极端梯度提升算法是梯度提升思想高效系统实现,具有防过拟合特性、计算效率高特点,适用范围广泛,在处理不平衡数据集XGBoost模型有效性较高。

研究表明中医症状、舌象参数是肺癌临床分期进展预测的重要依据。与本研究相比,国外学者Ghuriani等[10]研究通过使用机器学习智能算法识别肺癌相关的生物标志物,模型具有高度的预测性能准确性超过90%,利用其特征的重要性排名来确定的生物标志物,可以有效地捕获特征相互作用,并能照顾基因组数据中的非线性效应。紧密连接蛋白(CLDN18),海马区水通道蛋白4(AQP4)被确定为肺癌的重要生物标志物,这对于开发针对癌症患者的靶向疗法具有重要的指导意义。李玲等[11]基于神经元特异性烯醇化酶(NSE)癌胚抗原(CEA)、鳞状细胞癌抗原(SCC)、细胞角蛋白19片段(CYFRA21-1)、胃泌素释放肽前体(ProGRP)5项肿瘤标志物,构建了肺癌预测模型预测肺癌的曲线下面积(AUC)为90.2%,联合多种肿瘤标志物的预测模型具有更好的预测效果。目前,相关报道肺癌预测模型AUC多数能达到85%以上,而本研究通过中医症状与舌象图像参数构建的预测模型对肺癌临床分期具有重要的指导作用。在今后的研究中可将患者舌象参数与肿瘤标志物、环境污染等指标相结合,以构建更加符合中西医临床的肺癌临床分期预测模型。

基于定性与定量相结合数据,应用Logistic回归及机器学习智能算法构建肺癌临床分期预测模型可行,具有较好预测能力和分类效能,具有促进辅助诊疗、判断预后、风险预警等临床价值。挖掘肺癌患者舌象参数规律,有利于提高中医舌诊诊察肺癌的精准性。今后应基于人工智能、中医药及精准医学等多学科方法、技术,开展多中心、大样本流行病学调查研究,进一步明确肺癌患病人群舌象宏观分布特征、舌象微观参数特征、相关影响因素,为肺癌中医诊断分类提供了定量的舌象参数及肺癌患病人群舌象客观指标参照范围,结合舌象形态特征与量化参数、人工智能特征分析指标预测肺癌患者的病理类型及临床分期进展,有助于评估患者临床状态及辅助诊疗。

参考文献
[1]
WANG M, HU Y L, CAI F, et al. Jmjd2c maintains the ALDHbri+ cancer stemness with transcription factor SOX2 in lung squamous cell carcinoma[J]. Cancer Biology & Therapy, 2024, 25(1): 2373447.
[2]
CAO W, CHEN H D, YU Y W, et al. Changing profiles of cancer burden worldwide and in China: A secondary analysis of the global cancer statistics 2020[J]. Chinese Medicine Journal, 2021, 134(7): 783-791. DOI:10.1097/CM9.0000000000001474
[3]
李媛, 朱广辉, 李杰. 中医药治疗对Ⅲ、Ⅳ期老年肺鳞癌患者生存状况的影响及预后相关因素分析双向性队列研究[J]. 中医杂志, 2021, 62(12): 1059-1064.
[4]
石玉琳, 刘嘉懿, 胡晓娟, 等. 基于舌脉象数据的决策树算法的非小细胞肺癌证候分类方法[J]. 世界科学技术-中医药现代化, 2022, 24(7): 2766-2775.
[5]
中华医学会. 中华医学会肺癌临床诊疗指南(2018版)[J]. 中华肿瘤杂志, 2018, 40(12): 935-964.
[6]
LIU G, ZHEN H, WANG Z. The 8th edition of the union for international cancer control and the American joint committee on cancer gastric cancer TNM staging system: Explanation and elaboration[J]. Journal of Abdominal Surgery, 2018, 32(11): 1324.
[7]
林洪生. 恶性肿瘤中医诊疗指南[M]. 北京: 人民卫生出版社, 2014: 249-250.
[8]
张茜敏. 非小细胞肺癌TNM分期与中医证型及凝血、炎症指标的相关性分析[D]. 南宁: 广西中医药大学, 2023: 20-27.
[9]
ARAJINI M A, JABBA R. Lung cancer prediction using random forest[J]. Recent Advances in Computer Science and Communications, 2021, 14(5): 4580.
[10]
GHURIANI V, WASSAN J T, TRIPATHI P, et al. XGB-BIF: An XG boost-driven biomarker identification framework for detecting cancer using Human genomic data[J]. International Journal of Molecular Sciences, 2025, 26(12): 5590. DOI:10.3390/ijms26125590
[11]
李玲, 徐海燕. 基于多种肿瘤标志物的预测模型对肺癌的预测价值[J]. 医疗装备, 2025, 38(12): 5-8.
A prediction model for clinical staging of lung cancer based on tongue image parameters and traditional Chinese medicine clinical symptoms of patients
WANG Dongjun1,2 , WEI Kai1 , TIAN Zhikui3 , SUN Xuan4 , ZHANG Ying5 , WANG Hongwu2     
1. School of Traditional Chinese Medicine, North China University of Science and Technology, Tangshan 063210, China;
2. School of Public Health and Health Sciences, Tianjin University of Traditional Chinese Medicine, Tianjin 301617, China;
3. School of Rehabilitation Qilu Medical University, Zibo 255300, China;
4. School of Traditional Chinese Medicine, Shandong Medical and Pharmaceutical University, Yantai 264003, China;
5. Department of Internal Medicine Ⅴ, Fengnan District Hospital of Traditional Chinese Medicine of Tangshan City, Tangshan 063000, China
Abstract: [Objective] To construct a clinical stage prediction model of lung cancer based on the basic information of lung cancer patients, tongue image parameters and traditional Chinese medicine(TCM) symptoms. [Methods] With reference to the cross-sectional investigation and research method of clinical epidemiology, the macro and micro characteristics of lung cancer tongue image and related influencing factors were explored. Independent variables were screened for tongue image parameters of lung cancer patients and TCM symptoms questionnaire, and statistically significant variables were included in binary Logistic regression analysis. Logistic regression, support vector machine, random forest, extreme gradient lifting, K-nearest neighbor classification algorithm and backpropagation neural network machine learning intelligent algorithm were used to evaluate the predictive ability of lung cancer clinical stage model. [Results] Correlation analysis results showed that 20 variables were correlated with the clinical stage progression of lung cancer through univariate analysis. They were age(OR=1.618, P<0.001), KPS score(OR=2.416, P<0.001), medical history(OR=2.104, P<0.05), smoking history(OR=2.275, P<0.001), drinking history(OR=1.357, P<0.05), and course of disease(OR=1.257, P<0.001), radiotherapy(OR=0.631, P<0.001), CC-B5(OR=1.807, P<0.001), greasy coating(OR=1.612, P<0.001), cracked tongue(OR=1.988, P<0.05), spontaneous sweating(OR=1.775, P<0.05)Blurred vision(OR=1.495, P<0.001), dry mouth(OR=1.691, P<0.001), dry cough with little sputum(OR=1.443, P<0.01), chest pain(OR=1.849, P<0.05), oligopsia(OR=1.561, P<0.05), dull complexion(OR=2.081, P<0.001), pale lip color(OR=1.184, P<0.05) skin onychia(OR=1.299, P<0.05), wheezing(OR=1.194, P<0.05). The ROC curve was drawn with the clinical stage of lung cancer as the dependent variable and the prediction probability of the discriminant model as the independent variable. The area under the ROC curve of the Logistic regression model was 0.946. In Logistic regression model, the AUC of stages Ⅰ to Ⅲ were 0.901, 0.960, 0.953 and 0.971, respectively.The AUC area of Logistic regression prediction probability was 0.946, 95%CI(0.877, 0.973). The AUC area of RF algorithm prediction probability is 0.945, 95%CI(0.802, 0.977). The AUC area of SVM prediction probability is 0.942, 95%CI(0.864, 0.952) and XGboost prediction probability is 0.931, 95%CI(0.814, 0.948) and BP neural network prediction probability is 0.930.The AUC area of 95%CI(0.793, 0.965) and KNN prediction probability is 0.927, 95%CI(0.775, 0.946). [Conclusion] Based on patients' basic information, tongue image parameters and traditional Chinese medicine symptoms, it is feasible to construct lung cancer clinical stage prediction model by using Logistic regression and machine learning methods, which has good prediction ability and classification efficiency, and has clinical value of promoting auxiliary diagnosis and treatment, judging prognosis and risk early warning.
Key words: lung cancer    tongue image    prediction model    Logistic regression    machine learning