基于视觉模型的智能中医舌诊辅疗系统研究与实现

摘要

本研究利用人工智能技术与中医舌诊相结合,开发一种新型智能舌诊方法,使用 U-Net 模型提取舌部图像,ViT(Vision Transformer) 模型进行特征分类诊断。通过 805 张舌部图像 的训练与验证,该方法在提高诊断准确性和客观性方面展示了显著成效,有望在医疗诊断领域实现重要突破,为传统中医舌诊方法提供现代科技支持,促进中医知识的传承与发展。

关键词:中医;智能舌诊;人工智能


一、引言

本研究通过结合 U-NetViT 模型,提出了一种智能化中医舌诊方法,旨在利用人工智能技术提高诊断的准确性和客观性。通过 805 张舌部图像的深度学习,该方法不仅提升了中医舌诊的现代化水平,也为医疗诊断领域带来了创新,展示了人工智能在传统医学应用中的潜力。


二、U-Net 网络提取舌体部位

(一)舌象数据的获取与预处理

在本研究中,获取了 805 张包含舌体特征的图像。通过数据增强与统一调整图像尺寸至 256×256 像素,提升模型训练效率和稳定性。同时,依据中医理论进行精细化人工标注,准确提取舌体信息,有效消除背景与干扰因素。

(二)U-Net 网络搭建与舌体分割实现

U-Net 网络首先通过特征提取获得 5 个基础特征层,随后通过上采样与跳跃连接进行特征融合,生成包含所有关键信息的特征层,用于精确预测舌体像素。

U-Net 架构主要由 编码器、解码器和预测层 三部分组成:

  • 编码器:输入为 224×224 像素的 3 通道图像,通过卷积与下采样逐步将特征图尺寸降至 14×14,通道数增加至 1024
  • 解码器:通过上采样与跳跃连接逐步恢复特征图至 224×224,通道数逐渐减少至 3
  • 预测层:使用 Sigmoid 函数输出 224×224×3 的分割结果,实现像素级舌体分割

(三)模型训练

实验环境采用 RTX 3080 GPU2.50 GHz CPU。在多组实验对比后,确定:
- 批次大小(Batch Size):8
- 学习率(Learning Rate):0.0001

采用 交叉熵损失函数 以缓解类别不平衡问题。模型在 1500 次迭代 后损失率降至 18%,继续优化 500 次 后进一步降低至 9%,模型收敛效果良好。


三、ViT 模型进行舌部特征提取与分类

ViT 模型通过 Transformer 结构直接建模图像全局特征,适用于 舌色、舌苔和舌形 等多特征识别任务。结合 预训练与迁移学习策略,在小样本舌象数据集上表现出良好的泛化能力,为中医智能辅助诊断提供了新的技术路径。

(一)ViT 网络架构

图片描述

ViT 作为特征提取网络,主要流程包括以下四个阶段:

  1. 图像分块(Patch Embedding)
  2. 图像块嵌入与位置编码
  3. Transformer 编码器
  4. MLP 分类头

模型输入尺寸为 224×224 像素,划分为 16×16 像素 的 patch,共 196 个。每个 patch 经线性投影后映射为 768 维向量

在前向传播过程中:
- 图像块序列表示为
$X = [X_1, X_2, X_3, \dots, X_n]$

  • 在序列前端加入可学习的分类标记 (X_{cls})
  • 引入位置编码形成 Transformer 输入 (z_0)
  • 经过多层 Transformer Encoder(包含 LN、MSA 与 MLP 模块)提取舌体特征

相关公式如下:

图片描述

其中:
- n 为图像分块数
- P 为图像分块大小
- C 为通道数
- D 为嵌入维度
- Y 为最终输出的舌体特征


(二)ViT 模型训练

训练过程中:
- 224×224 舌体图像 → 划分为 196 个 16×16 patch
- 每个 patch 投影为 768 维向量
- 加入一维位置编码与 [class] token
- 输入 Transformer Encoder,输出形状保持为 ([N+1, D])

最终使用 [class] token 对应向量作为全局特征,经 MLP Head 输出分类结果。

实验环境为 RTX 3080 GPU + 2.10 GHz CPU。针对初期过拟合问题,采用:
- 数据增强
- 混合数据训练
- 余弦退火学习率调度

关键参数设置如下:
- 初始学习率:0.001
- 批量大小:4
- 训练轮数:600

有效提升模型泛化性能。

图片描述


(三)ViT 模型评估

采用 准确率(Accuracy)召回率(Recall)F1 值 作为评估指标,结果如表 1 所示:

表 1:模型评估指标表

类别 准确率 召回率 F1
舌面 0.88 0.92 0.90
舌外形 0.90 0.95 0.93
舌颜色 0.82 0.84 0.83

分析表明:
- “舌外形”识别效果最佳,准确率与召回率均较高
- “舌颜色”识别相对较弱,漏检率偏高
- 整体模型在三类任务上均达到 80% 以上准确率


(四)诊断分析与系统实现

图片描述

基于 Streamlit 构建可视化系统界面,支持用户上传舌部图像。系统可自动完成:
1. 舌体分割
2. 特征提取
3. 舌象分类
4. 结合中医理疗知识进行综合分析

诊断结果以可视化形式呈现,并给出健康状态评估与养生建议,同时提供拍摄与使用提示,以保证图像质量和诊断可靠性。


五、结束语

本文提出了一种融合 U-Net 舌体分割ViT 特征分类 的智能中医舌诊方法,实现了中医舌诊的科学化与自动化。实验结果表明,该方法在舌体图像分析精度与效率方面均取得显著提升,为中医临床辅助诊断与智能医疗系统的发展提供了新的研究思路。

作者:Eason
日期:2026 年 1 月 7 日