CN120992425B

CN120992425B - 一种单囊泡颗粒电化学信号的识别分类方法及识别系统

Info

Publication number: CN120992425B
Application number: CN202511511521.8A
Authority: CN
Inventors: 丁显光; 苏靖城; 于汝佳
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2025-10-22
Filing date: 2025-10-22
Publication date: 2026-01-27
Anticipated expiration: 2045-10-22
Also published as: CN120992425A

Abstract

本发明公开了一种单囊泡颗粒电化学信号的识别分类方法及识别系统，方法包括：S1.制备碳纤维超微电极，并在膜片钳系统恒电位模式下施加电压，采集单个囊泡内容物在电极表面氧化所产生的皮安级电流响应；S2.对采集的原始电流信号进行平滑滤波，并使用基于阈值的多参数峰值识别方法，实现特征峰识别与多维物理/统计特征提取；S3.对提取的峰值特征数据进行缺失值处理、标准化、主成分分析降维及类别均衡在内的预处理操作；S4.基于预处理后的特征数据，构建并训练至少一种机器学习模型，用于对囊泡颗粒的粒径类别进行自动识别。本发明结合了单囊泡电化学高灵敏测量和智能算法分类优势，具备识别效率高、重复性好、适用性广等优点。

Description

一种单囊泡颗粒电化学信号的识别分类方法及识别系统

技术领域

本发明涉及电化学检测技术领域，具体涉及一种基于膜片钳技术获取电流信号，并结合机器学习算法对囊泡粒径分布进行自动识别和定量分析的方法及识别系统。

背景技术

囊泡广泛应用于生物标志物检测、疾病诊断及药物递送等领域，其粒径分布直接影响其生物学功能与作用效果。传统的粒径分析方法如动态光散射（DLS）、透射电镜等虽能够有效表征粒径，但这些方法通常操作复杂、成本较高，并且缺乏实时性和智能识别能力。另一方面，膜片钳等电化学技术具有毫秒级的时间分辨率，能够检测氧化还原反应。

然而，电化学信号通常存在较强的噪声、非结构化及事件波动性大的问题，这使得通过传统方法对信号进行分类和解析变得困难。因此，如何将信号处理、统计特征提取与机器学习相结合，实现囊泡粒径的快速、智能化识别和检测，成为亟待解决的技术难题。

为此，本申请提出了一种单囊泡颗粒电化学信号的识别分类方法及识别系统，通过结合膜粒径调控、电极微结构设计、电流特征建模和机器学习训练流程，构建了一套高效、可复用的识别系统，能够提升囊泡及其他纳米结构体的测量与识别水平，以解决当前的技术问题。

发明内容

本发明的主要目的在于提供一种单囊泡颗粒电化学信号的识别分类方法及识别系统，通过制备超碳纤维超微电极，结合膜片钳系统对挤膜结合离心纯化获得的不同粒径分布的囊泡样本进行电流信号采集，随后利用信号处理与特征提取算法获得多维特征参数，并进一步通过主成分分析（PCA）、过采样算法（SMOTE）及多种机器学习模型实现对囊泡粒径的自动分类与识别，以及囊泡所含分子数的定量计算，以解决背景技术中所提出的技术问题。

本发明采用以下技术方案解决上述技术问题：

一种囊泡颗粒电化学信号的识别分类方法，具体包括：

S1.制备碳纤维超微电极并连接膜片钳系统，施加设定电压采集囊泡在电极表面引起的氧化电流信号；

S2.对采集电流信号的原始数据进行平滑滤波，并使用基于阈值的多参数峰值识别方法，实现特征峰识别与多维物理/统计特征提取；

S3.对提取特征数据中的峰值特征数据进行缺失值处理、标准化、主成分分析（PCA）降维（保留95%方差贡献率）及类别均衡在内的预处理操作；

S4.基于预处理后的特征数据，构建并训练至少一种机器学习模型，用于对囊泡颗粒粒径类别进行自动识别。

优选的，所述S1步骤中碳纤维超微电极的制备流程包括：通过指定微米级别的碳纤维丝与铜丝使用导电银浆连接后嵌入玻璃毛细管中，填充环氧树脂并确保碳纤维丝露出，所述碳纤维超微电极的前端经剪切与打磨形成表面光滑的微孔型结构，用于作为膜片钳系统的工作电极。

优选的，所述S1步骤中将提取的囊泡通过挤出器连续挤出并结合离心纯化，在挤出过程中采用指定nm系列滤膜进行多次挤压，其孔径逐渐减小：800nm、400nm、200nm、100nm，每份通过过滤器进行了至少10轮挤压，以获得粒径分布差异明显的样本群体，并做好对应标签。

优选的，所述电流信号以碳纤维微电极为工作电极，使用AxonMultiClamp700B膜片钳系统采集，在+600mV偏压下进行，采样频率为100kHz，数据导出为CSV格式。

优选的，所述S2步骤的具体操作流程包括：

S21.对原始电流信号进行高斯滤波平滑处理，基于峰高（＞均值+20pA）、显著性（≥30pA）、宽度（≥3时间点）、间距（≥10时间点）在内的多参数联合识别特征峰，按显著性排序选取前N个峰；

即存在条件限制：峰高超过基线均值加指定阈值，显著性大于30pA，峰宽不小于3个时间点，峰间距离不少于10个时间点；

S22.进行物理和统计特征计算，包括进行电荷积分（单位换算为nC/C）及分子数换算，计算峰高、峰宽、电流统计量（均值、标准差、偏度、峰度），之后计算峰面积时间归一化值与基线电流比值；

即特征提取包括至少以下一项：电荷积分、峰高、峰宽、平均电流、标准差、偏度、峰度、电荷换算的转化分子数及归一化面积；

S23.生成含峰位标记的信号总览图及单峰分析图。

优选的，所述S21特征峰识别过程中对每组特征峰左右分别截取固定宽度信号区间，同时在区段外侧提取短区间估计基线平均电流；

若特征峰左右无数据，则使用相对侧估计值。

优选的，所述S22步骤中物理和统计特征计算过程中：

电荷积分公式为：

其中，是总电荷量，为随时间变化的电流，与分别为每个峰段指定的起始时间和结束时间；

依据法拉第常数与阿伏伽德罗常数计算将电荷转换分子数，公式为：

其中，N为单个电流峰所对应的囊泡包裹的分子数，Q为电荷，为阿伏伽德罗常数，F为法拉第常数，n为电子转移数；

按照驻留时间计算峰面积时间归一化值；

基线电流比值为峰间电流差ΔI与基线比值。

优选的，所述S3步骤中主成分分析降维的过程中保留不少于95%的累计方差贡献率，用于特征维度压缩与噪声去除，进一步提升数据质量。

优选的，所述S4步骤中机器学习模型包括以下五类模型的任一或多种：决策树、随机森林、支持向量机、K近邻或XGBoost，且采用多模型集成分类方案进行验证。

优选的，所述机器学习模型的构建及训练过程中采用以下优化策略：分层抽样划分训练集/测试集（80%:20%），网格搜索调优关键超参数，5折交叉验证确保泛化能力。

优选的，所述S4步骤的模型训练过程中，使用SMOTE算法对交叉验证过程中的训练数据进行少数类过采样，确保训练数据的平衡。

优选的，所述S4步骤中模型评估包括构建混淆矩阵、分类报告、多类ROC曲线及AUC值的计算与可视化展示，以评估机器学习模型的识别分类性能。

优选的，所述S4步骤执行过程中构建有一组阈值化关联公式，存在比值参数为：

当所述比值参数处于不同阈值区间时，分别调用不同的机器学习模型对指定样本进行分类；

从训练集的一部分中提取包括峰高与峰宽在内的物理与统计特征；

计算所述峰高与峰宽的比值参数k，用于表征所述检测信号的峰形态特征；

基于所述阈值化关联公式，在不同阈值条件下对各所述机器学习模型的分类结果进行性能比较，并确定针对所述比值区间的最优模型；

输出所述最优模型的预测结果，以实现对囊泡粒径类别的最优判别。

一种单囊泡电化学信号的识别系统，用于执行上述任一所述的囊泡电化学信号的识别分类方法，具体包括：

电流采集模块，包括碳纤维电极、膜片钳放大器和数据采集卡，用于记录囊泡氧化反应引起的电信号；

信号处理与特征提取模块，用于基于电流采集模块的电信号数据，执行信号平滑、峰值检测及多维特征构建操作，以获取处理后的特征提取数据；

数据预处理模块，用于基于信号处理与特征提取模块的特征提取数据，执行缺失值处理、特征标准化、PCA降维与类别均衡处理操作；

分类与预测模块，加载训练模型，用于采用加载训练模型对数据预处理模块处理后的数据进行粒径预测分类。

优选的，所述分类与预测模块支持图形界面显示ROC分析图，且通过Python语言实现数据的多模型网格搜索自动调参优化，以提高分类效果。

由上述技术方案可知，本发明提供了一种囊泡电化学信号的识别分类方法及识别系统。与现有技术相比，本发明具有以下优势：

1.本发明在数据特征提取过程中通过结合多参数动态阈值法和高斯滤波，能够显著降低电流信号的噪声干扰，提高信号峰值识别精度，确保从电化学信号中提取的特征更加准确和可靠。

2.本发明通过融合电荷积分、分子数换算等物理特征，并结合机器学习模型进行深度学习和分类，增强了分类模型的可解释性和精准度，特别是在复杂信号分析任务中，能够结合机器学习技术有效提升囊泡粒径的分类精度。

3.本发明通过结合PCA降维与SMOTE数据增强策略，能够显著提升小样本类别的识别鲁棒性，尤其是在面对数据不平衡问题时，进一步结合机器学习方法能够有效提升模型的适应性和泛化能力，从而能够适应不同实验环境下数据的多样性。

4.本发明通过集成多种机器学习模型进行分类任务，通过交叉验证和超参数调优等优化手段，显著提高了模型的分类精度和鲁棒性，不仅增强了信号分类的准确性，还能够处理复杂的电化学信号数据，提升了系统的智能化水平和自动化程度，适用于大规模的囊泡粒径分类任务。

5.本发明结合了电化学高灵敏测量和智能算法分类优势，具备识别效率高、重复性好、适用性强等优点，能够适用于纳米载体、膜通道机制、生物医学材料分析等领域。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的整体操作流程示意图；

图2为本发明特征提取步骤中的峰值分布总览图；

图3为本发明特征提取步骤中提取出的电流峰的单峰分析可视化示意图；

图4为本发明数据预处理步骤中的特征相关性热力分析示意图；

图5为本发明数据预处理步骤中的PCA累积方差解释图；

图6为本发明模型训练与预测步骤中不同模型的精确度对比示意图；

图7为本发明模型训练与预测步骤中决策树模型的混淆概率矩阵；

图8为本发明模型训练与预测步骤中随机森林模型的混淆概率矩阵；

图9为本发明模型训练与预测步骤中SVM模型的混淆概率矩阵；

图10为本发明模型训练与预测步骤中XGboost模型的混淆概率矩阵；

图11为本发明模型训练与预测步骤中KNN模型的混淆概率矩阵；

图12为本发明模型训练与预测步骤中决策树模型的ROC曲线图；

图13为本发明模型训练与预测步骤中随机森林模型的ROC曲线图；

图14为本发明模型训练与预测步骤中SVM模型的ROC曲线图；

图15为本发明模型训练与预测步骤中XGboost模型的ROC曲线图；

图16为本发明模型训练与预测步骤中KNN模型的ROC曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例中，详细参见图1至图16。

如图1所示，本发明实施例所提出的单囊泡颗粒电化学信号的识别分类方法，在具体实施过程中包括以下操作流程：

S1.制备碳纤维超微电极并连接膜片钳系统，施加设定电压采集囊泡在电极表面引起的氧化电流信号。

在具体实施过程中，本实施方式采用直径约为4μm的碳纤维丝，通过玻璃毛细管封装制备微电极，具体步骤包括：

（a1）选取商业化碳纤维丝，截取约1cm；

（a2）其一端用导电银浆连接铜丝导电，后高温烘干箱80℃20min烘干；

（a3）将连有碳纤维丝的铜丝插入毛细玻璃管中，将环氧树脂填充入玻璃管中，直至完全覆盖铜丝部分，并确保碳纤维丝一部分露出玻璃管，后高温烘干箱80℃40min烘干；

（a4）前端碳纤维用砂纸打磨平整，以形成光滑的电极面结构；

（a5）可选地对电极进行电化学活化处理（酸处理或碱处理），以提高灵敏度；

（a6）所制电极连接膜片钳系统作为工作电极使用。

进一步的，本申请采用囊泡作为被识别对象，此处囊泡通过挤出器（Genizer）进行挤出分离，具体样本获取流程包括：

（b1）通过挤出机（Genizer）连续挤出囊泡样品，采用一系列不同规格的滤膜，其孔径分别为：100nm、200nm、400nm、800nm，每份样品通过过滤器进行至少10轮挤压，而后进行梯度离心纯化，以得到主峰粒径差异显著的四份样品，作为后续机器学习模型训练的分类依据。

此外还需要注意的是，该囊泡样品的各级挤出组分保存于独立样本中，粒径主要分布分别集中于小、小中、大中、较大颗粒，并做好标签作为目标变量列，例如VC_50、VC_100、VC_150、VC_200，使其分别对应100nm、200nm、400nm、800nm的囊泡样本组。

此外，在信号采集过程中，对应使用的电信号由AxonMultiClamp700B膜片钳系统采集，主要设置参数如下：

（c1）使用4μm±碳纤维微电极；

（c2）与放大器系统连接，配套数据采集卡；

（c3）在室温下，将囊泡样品滴加至离心管中；

（c4）系统施加+600mV偏压，记录囊泡在微电极表面发生氧化反应产生的电流信号；

（c5）采样频率设为100kHz；

（c6）所采信号导出为文本格式（.txt/.csv），用于后续数据分析。

S2.对采集电流信号的原始数据进行平滑滤波，并使用基于阈值的多参数峰值识别方法，实现特征峰识别与多维物理/统计特征提取，其特征峰识别（提取出的电流峰）的单峰分析参考图2。

其中在本申请的一种优选实施方式中，针对膜片钳或磨片线测得的原始电流信号，采用如下步骤进行峰值识别与特征提取处理：

（S21）从电化学信号采集设备中导入原始电流－时间序列数据，数据格式为双通道文本（时间/ms、电流/pA）。为减小噪声干扰，对原始信号使用高斯滤波（σ=3）进行平滑处理。

（S22）动态阈值法进行峰值识别，其中使用以下条件进行多峰识别：（1）峰高大于平滑信号均值加阈值（如+20pA）；（2）峰值显著性（prominence）不小于30pA；（3）峰宽度不少于3个时间点；（4）相邻峰之间距离不少于10个时间点；（5）在候选峰数大于指定上限时，根据prominence选取最显著的前N个峰。

（S23）对每个峰左右分别截取一段固定宽度信号区间，同时在区段外侧提取短区间估计基线电流（取平均）。如左右无数据，使用相对侧估计值，确保基线稳定。

（S24）特征值计算：对每个峰段进行如下物理和统计特征计算：

（a）阈值化关联公式，存在比值参数为：

当所述比值参数处于不同阈值区间时，分别调用不同的机器学习模型对所述样本进行分类；

电荷转化分子数的换算公式如下：

Q是总电荷量（单位：pA·s）；

电荷转化分子数的换算公式如下：

其中，N为单个电流峰所对应的囊泡包裹的分子数，Q为电荷（单位C），为阿伏伽德罗常数，F为法拉第常数，n为电子转移数，是随时间变化的电流（单位：pA），和是积分的起始和结束时间（单位：s）。

（b）峰高、峰宽、平均电流、标准差；

（c）偏度（skewness）、峰度（kurtosis）；

（d）电流峰面积归一化（按驻留时间）；

（e）峰间电流差（ΔI）与基线比值；

（f）电荷转换分子数（依据法拉第常数与阿伏伽德罗常数计算）。

（S25）对每个峰进行独立的图形绘制，标记峰起止时间、电流曲线，并以图像形式保存，如图3所示的单峰分析可视化示意，之后将所有峰的特征数据保存为结构化CSV文件，为后续机器学习模型提供训练输入。

（S26）绘制原始信号与平滑信号的重叠图，标记各峰位及编号，实现对整体信号识别效果的可视化评估。

S3.对提取特征数据中的峰值特征数据进行缺失值处理、标准化、主成分分析降维及类别均衡在内的预处理操作。

具体在本申请的另一实施方式中，对提取出的囊泡电流信号特征值数据进行进一步的预处理和特征工程，提升后续机器学习模型的鲁棒性与判别能力。具体包括如下步骤：

（S31）对采集得到的囊泡峰值特征数据进行缺失值检测，并使用数值型列的平均值进行填充处理，以消除样本不完整对模型性能的影响。

（S32）采用皮尔逊相关系数矩阵分析各特征之间的线性相关性，并采用如图4所示的热力图形式展示高相关特征对，为后续冗余特征处理和降维提供参考。

（S33）所有输入特征均为数值型，采用Z-score标准化方法（StandardScaler），确保不同量纲的特征具有统一的分布，有利于距离敏感型模型（如SVM）训练。

（S34）将数据集按80%/20%的比例划分为训练集和测试集，并采用标签分布均衡的分层抽样方式（stratified split），防止类别不均造成偏倚。

（S35）使用主成分分析法（PCA），保留95%的累计方差贡献率，将原始高维特征数据映射到较低维空间中，降噪同时压缩特征维度，结果参考图5，展示了不同主成分对累积解释方差的贡献。该过程自动选择合适维数，无需人工设定。

（S36）使用绝对相关系数大于0.85作为阈值识别高冗余特征对，可作为可选性特征精简依据，在保持模型性能的前提下降低特征冗余度。

（S37）将经过预处理并完成降维的训练数据集保存为结构化CSV文件，供模型训练与部署模块调用。

S4.基于预处理后的特征数据，构建并训练至少一种机器学习模型，用于对囊泡粒径类别进行自动识别。

进一步的该部分面向囊泡电化学信号特征数据的多模型集成训练与分类识别方法，其核心是构建多种主流机器学习模型，并采用统一接口进行训练、优化、评估和部署，具体包括以下步骤：

（S41）数据加载与预处理接口，包括：

（S411）数据加载：加载由前述特征工程阶段生成的CSV格式数据。

（S412）特征选择：选择主成分分析（PCA）后的若干个特征分量作为输入特征，保留有用信息并去除冗余。

（S413）标签提取：提取目标分类标签，如依据囊泡尺寸类别标签化的VC_50、VC_100、VC_150、VC_200。

（S414）标签编码：采用LabelEncoder将类别标签从字符串转化为整数，确保数据兼容性。

（S415）缺失值填充：使用SimpleImputer的均值策略填充数据中的缺失值，确保数据完整性。

（S416）标准化：采用StandardScaler对所有特征维度进行标准化处理，消除不同特征尺度带来的影响。

（S42）数据集划分策略

（S421）训练集与测试集划分：使用train_test_split方法将数据集按80%：20%的比例划分为训练集与测试集。

（S422）分层抽样：启用stratify参数，确保训练集和测试集中的囊泡尺寸类别分布一致，避免模型偏倚。

（S423）过采样增强：为解决样本不平衡问题，使用SMOTE方法对训练集进行过采样增强。

（S43）模型选择与训练框架：为了提高分类准确率并增强系统的适应性，该实施例分别构建并训练以下五类机器学习模型。每种模型均定义明确，并结合具体场景作了针对性实现。

（S431）设计并构建了一组基于物理与统计特征的关联公式，以实现囊泡粒径类别的智能化判别。具体而言，以信号峰高与峰宽之比作为关键判别特征，构建阈值化公式进行模型分流。当所述比值参数k处于不同阈值区间时，分别调用不同的机器学习模型对所述样本进行分类。

此时需要补充说明的是，如图6所示，在模型的训练与预测过程中，不同的机器学习精确度不同。

因此可以通过不同阈值的组合，构建多套二值化公式，从而在物理和统计特征与机器学习模型之间建立动态关联。以k取值为0.25至2.25的实验结果为例，如图6所示，在k=0.25时，支持向量机、XGboost与随机森林的准确率均达到约0.905，而K近邻的准确率略低，为0.895。随着阈值的增大，K近邻准确率逐渐下降，而随机森林和XGBoost始终保持在0.905左右的稳定水平。该结果表明，通过构建合理的阈值公式并在不同条件下调用不同模型，可以在保证分类精度的同时提升模型的鲁棒性与泛化能力。

根据实验结果在k ∈[0.25,2.25]区间的规律，建立如下分流与优先级判别策略：

当k≤1.0时，允许使用包括K近邻与决策树在内的五类模型，以兼顾低阈值区间的灵活性。

当k>1.0时，禁用K近邻，避免准确率快速下降。

当k>1.25时，进一步禁用决策树，仅保留随机森林、支持向量机与XGBoost，以确保分类精度稳定在0.90以上。

在k>1.0的各阈值区间内，优先调用随机森林与XGBoost，因其在该区间内表现出最高的稳定性与鲁棒性。

（S432）超参数调优（Hyperparameter Tuning）

超参数调优是模型优化过程中不可或缺的部分，通过网格搜索（GridSearchCV）对模型的超参数进行调节，以提升每个模型的性能。超参数调优的目标是通过搜索不同的参数组合，找到能够提升模型表现的最佳超参数集。

（1）决策树模型：通过调整树的最大深度（max_depth）、最小分割样本数（min_samples_split）和最小叶子节点样本数（min_samples_leaf）等参数优化决策树结构。

（2）随机森林模型：优化树的数量（n_estimators）、树的最大深度（max_depth）及每棵树的最小分割样本数（min_samples_split）。

（3）支持向量机模型（SVM）：调节核函数类型（kernel）、惩罚系数（C）和核宽度（gamma）参数。

（4）XGBoost模型：优化学习率（learning_rate）、最大树深度（max_depth）和树的数量（n_estimators）。

（5）K近邻模型（KNN）：优化邻居数量（n_neighbors）、权重策略（weights）和距离度量方式（p）。

（S433）交叉验证（Cross-Validation）

为了确保每个模型在不同数据子集上的表现稳定，避免因数据划分的偶然性造成模型过拟合或表现偏差，本发明采用K折交叉验证（例如5折交叉验证）。具体步骤如下：

L1.将数据集分成K个子集，每个子集都作为验证集一次，剩余K-1个子集作为训练集。

L2.对每个模型进行训练和评估，通过计算多个训练和验证集上的性能平均值，确保模型（3）的泛化能力。

通过交叉验证，能够有效评估模型的稳定性，并减少由数据划分带来的偶然性错误。

其中针对囊泡尺寸类别分布不均问题，还通过在交叉验证过程中引入SMOTE（合成少数类过采样技术），通过在特征空间中插值合成新样本，增强小类别代表性，提高模型泛化能力。

此时在模型训练阶段，首先将原始数据集划分为多个折以进行交叉验证。在交叉验证的每一轮中，仅对当前轮的训练折数据采用SMOTE算法进行过采样处理，生成均衡的训练样本集；验证折数据不进行过采样处理，以保持评估的客观性。随后，使用经SMOTE处理后的训练样本集训练模型，并利用对应的验证折数据评估模型性能。

（S434）模型训练与评估

在模型选择和训练阶段，本发明分别构建了五种机器学习模型，并对每个模型进行训练与评估。每个模型的训练过程都结合了超参数调优和交叉验证，以确保获得最佳性能。

（1）决策树模型（Decision Tree）

模型定义：决策树是一种树状结构分类器，通过特征条件的分裂构建多个决策路径，在叶节点输出分类结果。

实现方式：使用DecisionTreeClassifier，并结合网格搜索优化超参数（如max_depth、min_samples_split和min_samples_leaf）来选择最优的决策树结构。此模型具有较强的可解释性和计算效率，适合囊泡粒径分类任务。

（2）随机森林模型（Random Forest）

模型定义：随机森林是由多棵决策树组成的集成学习模型，通过“Bagging”技术提高模型的泛化能力。

实现方式：使用RandomForestClassifier，通过网格搜索优化树的数量、最大深度和最小分裂样本数等超参数，增强模型的鲁棒性。该模型能够有效应对噪声和数据的不平衡问题。

（3）支持向量机模型（Support Vector Machine,SVM）

模型定义：SVM旨在构建一个能最大化类间间隔的超平面。对于非线性问题，借助核函数将输入映射到高维空间。

实现方式：使用SVC模型，并开启概率预测选项，适配多类别分类任务。通过调节核函数类型（linear、rbf）、惩罚系数C及核宽度参数gamma，优化分类效果。

（4）K近邻模型（K-Nearest Neighbors,KNN）

模型定义：KNN是一种基于实例的学习方法，根据样本与训练集的距离进行分类。

实现方式：使用KNeighborsClassifier，并通过优化邻居数量n_neighbors及加权方式（等权/距离加权）来增强模型的鲁棒性。适用于特征分布清晰的分类任务。

（5）XGBoost模型（eXtreme Gradient Boosting）

模型定义：XGBoost是基于树结构的集成学习方法，结合了正则化项和高效的特征选择。

实现方式：通过XGBClassifier进行训练，并对学习率、最大树深度、树的数量等超参数进行调优，确保模型在高维、稀疏数据中的优越性能。

进一步的，基于上述五种机器学习模型，还需要对囊泡粒径分类方法进行了多维度的评估，具体指标包括准确率、混淆矩阵、分类报告、ROC曲线及AUC值等，用于全面评估模型的表现，其中：

（a）准确率（Accuracy）为最终得到终端各模型输出结果，各模型在测试集上的准确率如下：

决策树模型：0.8875

随机森林模型：0.9062

SVM模型：0.9234

XGBoost模型：0.9187

KNN模型：0.9142

以上准确率表明，本发明的囊泡粒径分类方法能够有效区分不同粒径类别。

（b）混淆矩阵（Confusion Matrix）是一个用于评估分类模型性能的工具。它是一个方阵，其中行表示实际类别（真实标签），列表示预测类别（预测标签）。每个元素表示某一类别的预测结果与真实标签的对比情况。在二分类问题中，混淆矩阵通常包含四个值：真正例（TP）、假正例（FP）、真反例（TN）和假反例（FN）。

对于多类分类问题，混淆矩阵则扩展为方阵，包含多个类别，每个元素表示实际类别与预测类别的匹配情况。对角线上的元素表示正确分类的比例，而非对角线上的元素则表示错误分类的比例。

混淆矩阵不仅能够提供分类的准确性，还能帮助评估模型在各个类别上的表现，特别是在类别不平衡的情况下，可以通过如F1分数、精确率和召回率等其他指标来进行更全面的评估。

每个模型的混淆矩阵分别展示了分类结果，对混淆数量矩进行归一化形成混淆概率矩阵，详见图7-图11，用于表示在本申请囊泡电化学信号特征数据的多模型集成分类在一具体实施方式中执行模型训练与预测操作的具体实际结果，其中，图7为决策树模型的混淆概率矩阵，图8为随机森林模型的混淆概率矩阵，图9为SVM模型的混淆概率矩阵，图10为XGboost模型的混淆概率矩阵，图11为KNN模型的混淆概率矩阵，通过对比不同类别的预测结果和实际类别，可以清晰地看出模型的分类性能，提供了每个类别在各模型下的预测准确性。

（c）分类报告（Classification Report），用于显示各模型每个类别的precision、recall、f1-score，在一具体实施例中，对于本申请的囊泡粒径分类操作，各模型的分类报告如下：

决策树分类报告：

随机森林分类报告：

SVM分类报告：

XGboost分类报告：

KNN分类报告：

综上，决策树模型的宏平均f1-score为0.89，表明模型具有均衡的分类性能，随机森林模型的宏平均f1-score为0.91，具有较强的分类能力，SVM模型的宏平均f1-score为0.92，展示了优异的分类表现，XGBoost模型的宏平均f1-score为0.92，证明了该集成模型在囊泡粒径分类中的卓越效果，KNN模型的宏平均f1-score为0.92，展示了良好的稳定性和准确性。

（d）ROC曲线与AUC指标（多类）

ROC曲线是用来评估分类模型性能的工具，它展示了不同决策阈值下，分类模型的假阳性率（FPR）与真正率（TPR）的关系。ROC曲线越接近左上角，模型的分类效果越好，意味着高真阳性率和低假阳性率。

假阳性率（FPR）：在所有实际为负样本的情况下，错误地被预测为正样本的比率，有，其中，FP为假阳性数，TN为真阴性数。

真阳性率（TPR）：在所有实际为正样本的情况下，正确预测为正样本的比率，也称为灵敏度（Sensitivity）或召回率（Recall），有，其中，TP为真阳性数，FN为假阴性数。

AUC（Area Under the Curve）：值是ROC曲线下的面积，表示模型分类性能的一个综合指标。AUC值的范围为0到1，值越接近1，模型的分类能力越强；AUC值为0.5时，说明模型的分类能力与随机猜测相当。宏平均AUC是通过计算每个类别的AUC并求平均值，反映模型在多类别分类任务中的整体性能。

各模型的ROC曲线展示了每个类别的AUC值，以及宏平均AUC值，详见图12-图16的对比，用于表示在本申请囊泡电化学信号特征数据的多模型集成分类在一具体实施方式中执行模型训练与预测操作的具体实际结果，其中，图12为决策树模型的ROC曲线图，图13为随机森林模型的ROC曲线图，图14为SVM模型的ROC曲线图，图15为XGboost模型的ROC曲线图，图16为KNN模型的ROC曲线图，基于此可以得出：

决策树模型：宏平均AUC为0.96。

随机森林模型：宏平均AUC为0.98。

SVM模型：宏平均AUC为0.97。

XGBoost模型：宏平均AUC为0.98。

KNN模型：宏平均AUC为0.96。

综上，在训练多个模型后，对各模型的准确率和宏平均AUC值进行了横向对比。根据测试集的评估结果，随机森林模型和XGBoost模型表现突出，均达到了宏平均AUC值0.98，同时XGBoost模型也在测试集上取得了较高的准确率0.9187。SVM模型紧随其后，宏平均AUC为0.97，并且测试集准确率为0.9234，展示了其优异的分类性能。KNN模型和决策树模型的宏平均AUC值分别为0.96，虽然略低于前述模型，但仍展示了较好的分类稳定性和准确性。

综合来看，所有模型在囊泡粒径分类任务中均表现出色，特别是在宏平均AUC和准确率方面的表现，证明了本发明方法在多种机器学习模型下具有广泛的适用性和优越的分类能力。

另一方面，本发明还公开一种单囊泡电化学信号的识别系统，用于执行上述实施例中的囊泡电化学信号的识别分类方法，具体包括：

（1）电流采集模块，包括碳纤维电极、膜片钳放大器和数据采集卡，用于记录囊泡氧化反应引起的电信号；

（2）信号处理与特征提取模块，用于基于电流采集模块的电信号数据，执行信号平滑、峰值检测及多维特征构建操作，以获取处理后的特征提取数据；

（3）数据预处理模块，用于基于信号处理与特征提取模块的特征提取数据，执行缺失值处理、特征标准化、PCA降维与类别均衡处理操作；

（4）分类与预测模块，加载训练模型，用于采用加载训练模型对数据预处理模块处理后的数据进行粒径预测分类，此外，分类与预测模块还支持图形界面显示ROC分析图，且通过Python语言实现数据的多模型网格搜索自动调参优化，以提高分类效果。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一单囊泡颗粒电化学信号的识别分类方法。

可理解的是，本发明实施例提供的系统与本发明实施例提供的方法相对应，相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。

本申请实施例还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信，

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述单囊泡颗粒电化学信号的识别分类方法。

上述电子设备提到的通信总线可以是外设部件互连标准总线或扩展工业标准结构总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器，也可以包括非易失性存储器，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线）或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如固态硬盘）等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

此外需要说明，若本发明实施例中有涉及方向性指示（诸如上、下、左、右、前、后……），则该方向性指示仅用于解释在某一特定姿态下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，全文中出现的“和/或”的含义，包括三个并列的方案，以“A和/或B”为例，包括A方案、或B方案、或A和B同时满足的方案。另外，本发明实施例中，“多个”指两个以上。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

Claims

1.一种单囊泡颗粒电化学信号的识别分类方法，其特征在于，包括：

S1.制备碳纤维超微电极，并在膜片钳系统恒电位模式下施加电压，采集单个囊泡内容物在电极表面氧化所产生的皮安级电流响应；

S2.对采集的原始电流信号进行平滑滤波，并使用基于阈值的多参数峰值识别方法，实现特征峰识别与多维物理/统计特征提取；

S3.对提取特征数据中的峰值特征数据进行缺失值处理、标准化、主成分分析降维及类别均衡在内的预处理操作；

S4.基于预处理后的特征数据，构建并训练至少一种机器学习模型，用于对囊泡颗粒的粒径类别进行自动识别；

所述S2步骤的具体操作流程包括：

S21.对原始电流信号进行高斯滤波平滑处理，基于峰高、显著性、宽度、间距在内的多参数联合识别特征峰，按显著性排序选取前N个峰；

S22.进行物理和统计特征计算，包括电荷积分及分子数换算，计算峰高、峰宽、电流统计量，之后计算峰面积时间归一化值与基线电流比值；

S23.生成含峰位标记的信号总览图及单峰分析图。

2.如权利要求1所述的单囊泡颗粒电化学信号的识别分类方法，其特征在于，所述S1步骤中碳纤维超微电极的制备流程包括：通过指定微米级别的碳纤维丝与铜丝使用导电银浆连接后嵌入玻璃毛细管中，填充环氧树脂并确保碳纤维丝露出，所述碳纤维超微电极的前端经剪切与打磨形成表面光滑的圆盘结构，作为单囊泡电化学测量系统的工作电极。

3.如权利要求1所述的单囊泡颗粒电化学信号的识别分类方法，其特征在于，所述S21特征峰识别过程中对每组特征峰左右分别截取固定宽度信号区间，同时在区段外侧提取短区间估计基线平均电流；

若特征峰左右无数据，则使用相对侧估计值。

4.如权利要求3所述的单囊泡颗粒电化学信号的识别分类方法，其特征在于，所述S22步骤中物理和统计特征计算过程中：

电荷积分公式为：

按照驻留时间计算峰面积时间归一化值；

基线电流比值为峰间电流差ΔI与基线比值。

5.如权利要求1所述的单囊泡颗粒电化学信号的识别分类方法，其特征在于，所述S4步骤中机器学习模型包括并行训练决策树、随机森林、SVM、XGBoost、KNN五类模型；

所述机器学习模型的构建及训练过程中采用以下优化策略：按照80%:20%分层抽样划分训练集与测试集，网格搜索调优关键超参数，5折交叉验证确保泛化能力；

所述S4步骤中采用混淆矩阵评估机器学习模型的识别分类性能。

6.如权利要求5所述的单囊泡颗粒电化学信号的识别分类方法，其特征在于，所述S4步骤执行过程中构建有一组阈值化关联公式，存在比值参数为：

当所述比值参数k处于不同阈值区间时，分别调用不同的机器学习模型对指定样本进行分类，以实现对囊泡粒径类别的最优判别。

7.一种单囊泡电化学信号的识别系统，其特征在于，用于执行上述权利要求1-6任一项所述的囊泡电化学信号的识别分类方法，具体包括：

电流采集模块，包括电流放大器和模数转换器，将碳纤维超微电极作为工作电极，用于记录囊泡内容物的氧化产生的电信号；

8.如权利要求7所述的单囊泡电化学信号的识别系统，其特征在于，所述分类与预测模块支持图形界面显示ROC分析图，且通过Python语言实现数据的多模型网格搜索自动调参优化，以提高分类效果。