CN106909767B - 乙肝相关肝硬化分类的系统 - Google Patents

乙肝相关肝硬化分类的系统 Download PDF

Info

Publication number
CN106909767B
CN106909767B CN201510964983.5A CN201510964983A CN106909767B CN 106909767 B CN106909767 B CN 106909767B CN 201510964983 A CN201510964983 A CN 201510964983A CN 106909767 B CN106909767 B CN 106909767B
Authority
CN
China
Prior art keywords
mir
hepatitis
model
values
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510964983.5A
Other languages
English (en)
Other versions
CN106909767A (zh
Inventor
李亦学
张卫红
侯婷
靳文静
王振
孙翔英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Contemporaneous Biotechnology Co ltd
Original Assignee
Beijing Quantobio Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Quantobio Biotechnology Co ltd filed Critical Beijing Quantobio Biotechnology Co ltd
Priority to CN201510964983.5A priority Critical patent/CN106909767B/zh
Publication of CN106909767A publication Critical patent/CN106909767A/zh
Application granted granted Critical
Publication of CN106909767B publication Critical patent/CN106909767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种用逻辑回归数学模型进行的基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类方法,利用血浆7个microRNA分子标志物组合的表达值,简单准确地诊断乙肝相关肝硬化。其系统的技术方案为:通过收集大量慢性乙型肝炎、乙肝相关肝硬化和健康样本血浆microRNA表达值建立数据库模块,存储用作训练集的原始数据库,及后续盲测数据;建立质量控制模块,去除由于实验误差导致的极端值;建立模型分类模块,通过特征选择等方式构建并优化逻辑回归模型,经评估选择准确率最优的模型建立最终分类方法,采用两层分类模型(健康和肝病(慢性乙型肝炎/肝硬化),慢性乙型肝炎和乙肝相关肝硬化)判定盲测样本分类。

Description

乙肝相关肝硬化分类的系统
技术领域
本发明涉及乙肝相关肝硬化的分类方法和系统,具体来说涉及用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法和系统。
背景技术
我国是病毒性肝炎大国,尤以乙肝患者人数居多。其中乙肝携带者约占总人口的8-10%,其中约有25%发展为慢性乙型肝炎、乙肝相关肝硬化,10%左右发展为肝细胞肝癌(HCC)。乙型肝炎病毒的感染不仅给人民带来了严重的健康危害,而且治疗等疾病相关费用也给患者和国家、社会带来巨大经济负担。
目前肝硬化临床诊断手段主要包括组织病理活检、FibroScan、彩色多普勒超声、CT、胃镜、血浆学指标等。但是这些单一技术或指标的临床应用都存在一些局限性和不足,均不能准确、及时诊断肝硬化进展程度,使得对肝硬化的分期诊断仍有赖于肝穿活检病理标准,临床迫切需要一个/一组方便、及时、无创的肝纤维化、肝硬化分级诊断指标。
microRNA(miRNA)最初发现于1993年,随着高通量测序技术的发展,近年来逐渐成为研究热点。microRNA能够结合于基因序列的侧翼区域阻遏或抑制靶mRNA的翻译,且具有高度的保守性、时序性和组织特异性。近年来的研究表明,肝炎病毒感染、慢性肝炎、肝硬化和microRNA密切相关,microRNA可以通过作用于病毒本身或作用于免疫系统从而影响疾病进程。研究表明,病毒感染的肝病患者microRNA表达谱和健康人组织的microRNA表达谱有明显不同。研究者们还发现在人类血清/血浆中存在大量稳定的小的核糖核酸分子,即microRNA,这为临床上通过检测血清/血浆中microRNA分子表达量诊断肝硬化奠定了基础。
综上所述,研究者们虽然已在该领域进行了研究,但是仍面临许多困难和挑战,均未能准确、及时诊断肝硬化进展程度。运用血清/血浆中microRNA标志物表达水平高低,为肝硬化诊断研究提供了新的思路。但目前尚未有关于肝硬化 microRNA标志物或其组合表达变化的深入研究,仍需寻找可有效判断肝硬化的 microRNA标志物或其组合,特别是能将乙肝相关肝硬化与慢性乙型肝炎区别开来的microRNA标志物或其组合,以及基于得到的microRNA标志物组合表达水平,用数学模型构建一种合适且准确的乙肝相关肝硬化分类方法和系统。与传统的肝硬化以及乙型肝炎的诊断方法相比,使用microRNA标志物或其组合的方法具有更快速准确的优点。
发明内容
本发明的一个目的是提供了一种用逻辑回归数学模型进行基于血浆 microRNA标志物表达水平的乙肝相关肝硬化分类的方法,包括以下步骤:
a)使用训练集数据,建立原始数据库;
b)将上述训练集采用两层分类模型;
c)通过对上述训练集进行特征选择和数据优化构建并优化所述的逻辑回归数学模型;
d)进行预测评估;
e)根据预测评估结果选择最优模型并建立最终的分类方法;
f)收集独立的测试集样本用于模型的检验和评估。
优选地,所述的训练集包含基于血浆microRNA标志物表达的Ct值和临床指标的样本数据;所述的两层分类模型包括关于由慢性乙型肝炎/肝硬化和健康对照组成的肝病和健康分类模型(模型DH)以及关于慢性乙型肝炎和乙肝相关肝硬化分类模型(模型AB);所述的特征选择采用信息增益算法对训练集特征进行排序来选择贡献度高的特征作为候选microRNA标志物;所述的数据优化的方式为对所述的训练集中的数据进行质量控制和去端值,去掉试验中由于误差导致的极端值,用逻辑回归方法构建所述的逻辑回归数学模型,将多个microRNA分子标志物组合用公式表达:
h(x)=hθ(x)=θ01x12x2+...+θnxn
其中x1,x2,...,xn是所选取的n个特征,θ012,...θn是通过训练集得到的各个特征的系数。
本发明的第二个目的是提供了一种用于肝病分类的分类的系统,包括数据库模块、质量控制模块、模型分类模块,其中:所述数据库模块包含作为训练集的原始数据库以及后续收集的盲测数据库;所述质量控制模块为将由于实验误差导致的极端值去除的模块;所述模型分类模块包括关于由慢性乙型肝炎/ 肝硬化和健康对照组成的肝病和健康之间的分类模型(模型DH)以及关于慢性乙型肝炎和乙肝相关肝硬化之间的分类模型(肝炎或肝硬化)。所述的肝病为乙肝相关肝病。
优选地,所述的数据库模块中包含486例用作训练集的原始数据库以及后续收集的盲测数据,其中每一例的样本包括miR-122-5p、miR-21-5p、miR-146a-5p、 miR-29c-3p、miR-381-3p、
miR-223和miR-22-3p的Ct表达值,以及临床指标转氨酶(ALT)、白蛋白(ALB) 和HBV病毒DNA的值。
所述质量控制模块通过质量控制将由于实验误差导致的极端值去除,所述的非极端值的范围定义为:模型DH中,标志物miR-381-3p的Ct值范围为19.40-32.10,标志物miR-22-3p的Ct值范围为16.72-26.86,标志物miR-146a-5p的Ct值范围为 19.32-29.16;模型AB中,标志物miR-122-5p的Ct值范围为17.61-26.99,标志物 miR-21-5p为16.79-24.47,标志物miR-146a-5p为19.31-26.64,标志物miR-29c-3p 为18.57-26.18,标志物miR-381-3p为20.13-27.87,标志物miR-223为15.35-24.15,标志物miR-22-3p为16.71-23.95。
模型分类模块的建模的算法为逻辑回归将多个microRNA分子标志物组合用公式表达,其中区分健康和肝病(DH)的算法公式为:
hDH(x)=-1.972X(miR-381-3p)+0.0079X(miR-22-3p)–1.6462X(miR-146a-5p)+74.495
根据最大概率分类可确定的阈值为:
D肝病(慢性乙型肝炎/肝硬化)类:hDH(x)>0;
H健康类:hDH(x)<0;
其中区分乙肝相关肝硬化和慢性乙型肝炎(AB)算法公式为:
hAB(x)=1.1925X(miR-122-5p)+0.3978X(miR-21-5p)+0.3726X(miR-146a-5p)–1.7062X(miR-29c-3p)+0.1303X(miR-223)+0.8156X(miR-22-3p)–0.1432XALB–0.3608XDNA–0.0041XALT–23.9918
A乙肝相关肝硬化类:hAB(x)>0
B慢性乙型肝炎类:hAB(x)<0。
本发明的用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法和系统的优点是提供了一种利用数据库算法和公式,使用microRNA标志物表达Ct值及常见临床指标,自动快速提供乙肝相关肝硬化和慢性乙型肝炎的分类以及结果。
附图说明
图1 示出了本发明的用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法的建立的实施例的流程图。
图2示出了本发明的用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统中单层的分类模型的实施例的流程图。
图3示例性的示出了本发明的用逻辑回归数学模型,进行基于7个血浆 microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统中模型DH特征选择交叉验证结果图。
图4示例性的示出了本发明的用逻辑回归数学模型,进行基于7个血浆 microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统中模型AB质量控制前后交叉验证结果对比图。图5示出了本发明的用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统中实施例的流程图。
具体实施方式
本发明通过具体实施例和附图进一步阐述本发明的技术方案,但是本领域普通技术人员可以理解的是:以下具体实施方式以及实施例旨在阐述本发明,而不应理解为以任何方式限制本发明。
本发明一个方面是一种新型的用逻辑回归数学模型,进行基于7个血浆 microRNA标志物组合表达水平的乙肝相关肝硬化分类方法。
本发明第二个方面提供了用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类系统。
本发明的技术方案是:本发明建立了一种用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法,包括:
收集大量慢性乙型肝炎、乙肝相关乙肝相关肝硬化和健康样本数据并建立原始数据库;
采用两层分类模型依次区分健康和慢性乙型肝炎、乙肝相关肝硬化;
通过特征选择和数据优化等方式利用训练集构建并优化逻辑回归模型,经过评估后选择最优模型建立最终的分类方法;
收集独立的测试集样本用于模型的检验和评估。
根据本发明的用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法的一实施例,所述的采用两层分类模型,第一层为肝病(慢性乙型肝炎/肝硬化)和健康分类模型(模型DH),第二层为乙肝相关肝硬化和慢性乙型肝炎分类模型(模型AB)。
根据本发明的用逻辑回归数学模型对进行基于血浆microRNA标志物表达水平的进行乙肝相关肝硬化分类的方法的一实施例,所述的通过特征选择和数据优化等方式利用训练集构建并优化逻辑回归模型,特征选择采用信息增益算法对训练集特征进行排序,得到的数据即各个特征的贡献度指标,贡献度高的特征可作为候选microRNA标志物。通过对训练集进行质量控制、单边去端值等方式处理和优化数据,并建立逻辑回归模型,并进行交叉验证评估模型的准确度。将上述过程不断循环得到准确率最佳的模型。
上述逻辑回归模型公式为:
h(x)=hθ(x)=θ01x12x2+...+θnxn
其中x1,x2,...,xn是所选取的n个特征,θ012,...θn是通过训练集得到的各个特征的系数。
本发明还揭示了一种用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的肝病分类的系统,包括数据库模块、质量控制模块、模型分类模块,其中:
所述数据库模块,包括用作训练集的原始数据库,以及后续收集的盲测数据;
所述质量控制模块,将由于实验误差导致的极端值去除;
所述模型分类模块,采用两层分类模型(健康和肝病(慢性乙型肝炎/肝硬化),乙肝相关肝硬化和慢性乙型肝炎)判定最终的样本分类。
根据本发明的用逻辑回归数学模型对进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法,所述的数据库模块中存储有包括486例用作训练集的原始数据库,包括150例乙肝相关肝硬化样本,150例慢性乙型肝炎样本,186例健康样本;以及后续收集的盲测数据。每个样本分别包括7个microRNA (miR-122-5p、miR-21-5p、miR-146a-5p、miR-29c-3p、miR-381-3p、miR-223和 miR-22-3p)的表达值,以及三个临床指标的含量值(ALT、ALB和DNA)。
根据本发明的用逻辑回归数学模型进行基于血浆microRNA标志物表达水平的乙肝相关肝硬化分类的方法,所述质量控制模块,通过质量控制将由于实验误差导致的极端值去除。非极端值的范围定义为:模型DH中,标志物miR-381-3p 的Ct值范围为19.40-32.10,标志物miR-22-3p的Ct值范围为16.72-26.86,标志物 miR-146a-5p的Ct值范围为19.32-29.16;模型AB中,标志物miR-122-5p的Ct值范围为17.61-26.99,标志物miR-21-5p为16.79-24.47,标志物miR-146a-5p为 19.31-26.64,标志物miR-29c-3p为18.57-26.18,标志物miR-381-3p为20.13-27.87,标志物miR-223为15.35-24.15,标志物miR-22-3p为16.71-23.95。
根据本发明的用逻辑回归数学模型对进行基于血浆microRNA标志物表达水平的进行乙肝相关肝硬化分类的方法,所述的模型分类模块,采用两层分类模型 (健康和肝病(慢性乙型肝炎/肝硬化),乙肝相关肝硬化和慢性乙型肝炎)判定样本分类。建模的算法为逻辑回归,将多个microRNA分子标志物组合用公式表达。其中区分健康和肝病(DH)的算法公式为:
hDH(x)=-1.972X(miR-381-3p)+0.0079X(miR-22-3p)–1.6462X(miR-146a-5p)+74.495
根据最大概率分类可确定的阈值为:
D肝病(慢性乙型肝炎/肝硬化)类:hDH(x)>0;
H健康类:hDH(x)<0;
其中区分乙肝相关肝硬化和慢性乙型肝炎(AB)算法公式为:
hAB(x)=1.1925X(miR-122-5p)+0.3978X(miR-21-5p)+0.3726X(miR-146a-5p)–1.7062X(miR-29c-3p)+0.1303X(miR-223)+0.8156X(miR-22-3p)–0.1432XALB–0.3608XDNA–0.0041XALT–23.9918
A乙肝相关肝硬化类:hAB(x)>0
B慢性乙型肝炎类:hAB(x)<0。
本发明提供了一种用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统。本发明的分类方法和系统比传统的临床诊断方法操作简单,且快速。随着大数据时代的到来,测序技术的发展,收集到的健康和疾病的数据不断增加,本发明涉及到的方法会不断改进,得到准确率更高更好的模型。
下面结合附图和实施例对本发明作进一步的描述。
用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统中的实施例
图1示出了本发明的用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统的实施例的流程。请参见图 1,下面是对本实施例的方法中的各个步骤的详细描述。
步骤1:收集大量慢性乙型肝炎、乙肝相关乙肝相关肝硬化和健康样本数据并建立原始数据库。
在本步骤中,汇总各大医院收集的慢性乙型肝炎、乙肝相关肝硬化和健康人样本以及相关的临床指标,通过实验提取样本血液测得各样本的microRNA表达值,筛选出差异表达的microRNA分子标志物。样本数据分三类,分别是A乙肝相关肝硬化B慢性乙型肝炎H健康人。
步骤2:采用两层分类模型依次区分健康和肝病(慢性乙型肝炎/肝硬化),乙肝相关肝硬化和慢性乙型肝炎。
在本步骤中,模型分两层建立,第一层是模型DH,将乙肝相关肝硬化A和慢性乙型肝炎B归为疾病D,与健康人H分类建模;第二层为模型AB,用于乙肝相关肝硬化A和慢性乙型肝炎B分类建立模型。
步骤3:通过特征选择和数据优化等方式利用训练集构建并优化逻辑回归模型,经过评估后选择最优模型建立最终的分类方法;
在本步骤中,特征选择的方法为信息增益,对训练集特征进行排序,得到的数据即各个特征的贡献度指标,贡献度高的特征可作为候选microRNA标志物。通过对训练集进行质量控制去掉试验中由于误差导致的极端值。通过单边去端值的方式处理和优化数据,增加不同类别样本之间的区分度。利用处理好的训练集建立逻辑回归模型,并进行交叉验证评估模型的准确度。最后将上述过程不断循环得到最佳的模型。
对于逻辑回归模型,计算公式表达为:
h(x)=hθ(x)=θ01x12x2+...+θnxn
其中x1,x2,...,xn是所选取的n个特征,θ012,...θn是通过训练集得到的各个特征的系数。n为1<n≤20的整数,优选小于10。
步骤4:收集独立的测试集样本用于模型的检验和评估。
在本步骤中,收集独立的测试集样本用于模型的检验和评估,确定模型无过拟合现象。
图2示出了本发明的用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统中单层的分类模型的实施例的流程图,从图中更清晰地了解单层的分类模型的具体细节。
对于上述的步骤,下面是四个具体的实例:
实施例1:收集大量慢性乙型肝炎、乙肝相关乙肝相关肝硬化和健康样本数据并建立原始数据库
其中,肝硬化诊断依据2000年中华医学会病毒性肝炎防治指南,具体如下:具有肝炎病毒慢性感染病史,影像学提示弥漫肝纤维化,再生结界形成,其他表现可有脾大、脾功能亢进、食管胃底静脉曲张,金标准为病理检查发现再生结节。乙型肝炎诊断依据2000年中华医学会病毒性肝炎防治指南,具体如下:肝炎病程超过半年,或原有乙型肝炎或HBsAg携带史,本次又因同一病原再次出现肝炎症状、体征及肝功能异常,但是没有肝硬化表现的患者,可诊断为慢性乙型肝炎。
在2012年6月-2014年3月期间,150个满足以上乙型肝炎定义的患者的血浆样本和150个满足以上乙肝相关肝硬化定义的血浆样本,被预先从首都医科大学附属北京佑安医院采集。经过北京旷博生物技术股份有限公司进行RNA的提取,并完成microRNA的测序分析。将得到的乙肝相关肝硬化和慢性乙型肝炎 microRNA表达值集中构建成数据库,成为原始数据库的部分样本数据集。
实施例2:特征选择
特征选择的算法为信息增益,是本领域比较成熟的算法,主要借助于weka 下的一个软件包,weka.attributeSelection.InfoGainAttributeEval。可以参考Mitchell, TomM.(1997).Machine Learning.The Mc-Graw-Hill Companies,Inc.ISBN 0070428077,55页至60页。具体为:将microRNA作为特征,通过weka软件包下InfoGainAttributeEval(信息增益)算法进行特征排序,得到的数据即各个特征的贡献度指标,可作为特征选用的参考。将2015年2月28日测序完成的乙肝相关肝硬化、慢性乙型肝炎和健康样本的多组microRNA数据进行特征选择,对于第一层模型DH来说,随着microRNA分子标志物的增多,模型准确率基本恒定,考虑到标志物数量和模型的准确率,最终选择贡献度排名前三的标志物,分别是miR-381-3p、miR-22-3p和miR-146a-5p,这样,模型的准确率为D 0.997, H 0.986,平均准确率为0.995。请参见图3。
实施例3:质量控制
将2015年2月28日测序完成的乙肝相关肝硬化、慢性乙型肝炎和健康样本的多组microRNA数据进行质量控制,去掉由于实验误差导致的极端值。极端值定义为:利用R中boxplot软件包做统计,大于最大值或小于最小值为极端值。将模型AB中A和B合起来做初步的质量控制,标志物miR-122-5p的Ct值范围为17.61-26.99,标志物miR-21-5p为16.79-24.47,标志物miR-146a-5p为19.31-26.64,标志物miR-29c-3p为18.57-26.18,标志物miR-381-3p为20.13-27.87,标志物miR-223 为15.35-24.15,标志物miR-22-3p为16.71-23.95。通过质量控制后,训练集的准确率比质量控制前有所提高,请参见图4。
实施例4:最优模型
经过多次优化和评估确定最优模型,模型DH的最优模型的特征为3个 microRNA分子标志物(miR-381-3p、miR-22-3p和miR-146a-5p),此时模型交叉验证的准确率为D0.963,H 0.939,平均准确率为0.954。
用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类方法和系统的实施例
图5示出了本发明的用逻辑回归数学模型,进行基于7个血浆microRNA标志物组合表达水平的乙肝相关肝硬化分类的系统的组成和连接示意图。请参见图 5。本实施例的系统包括数据库模块、质量控制模块、模型分类模块。
数据库模块,即存储包括用作训练集的原始数据库以及后续收集的盲测数据;
质量控制模块,是通过质量控制将由于实验误差导致的极端值去除的模块;
模型分类模块,是将健康和肝病、乙肝相关肝硬化和慢性乙型肝炎采用两层分类模型进行判定从而进行样本分类的部分。
本实施例的系统中数据库模块,存储包括486例用作训练集的原始数据库,包括150例乙肝相关肝硬化样本,150例慢性乙型肝炎样本,186例健康样本;以及后续收集的盲测数据。每个样本包括7个microRNA(miR-122-5p, miR-21-5p,miR-146a-5p,miR-29c-3p,miR-381-3p,miR-223和miR-22-3p)的表达值,以及三个临床指标(ALT、ALB和DNA)。
本实施例的系统中质量控制模块,通过质量控制将由于实验误差导致的极端值去除。极端值的范围定义为:模型DH中,标志物miR-381-3p的Ct值范围为 19.40-32.10,标志物miR-22-3p的Ct值范围为16.72-26.86,标志物miR-146a-5p的 Ct值范围为19.32-29.16;模型AB中,标志物miR-122-5p的Ct值范围为17.61-26.99,标志物miR-21-5p为16.79-24.47,标志物miR-146a-5p为19.31-26.64,标志物 miR-29c-3p为18.57-26.18,标志物miR-381-3p为20.13-27.87,标志物miR-223为 15.35-24.15,标志物miR-22-3p为16.71-23.95。
本实施例的系统中模型分类模块,采用两层分类模型(健康和肝病,乙肝相关肝硬化和慢性乙型肝炎)判定样本分类。建模的算法为逻辑回归,将多个 microRNA分子标志物组合用公式表达。其中区分健康和肝病(DH)的算法公式为:
hDH(x)=-1.972X(miR-381-3p)+0.0079X(miR-22-3p)–1.6462X(miR-146a-5p)+74.495
根据最大概率分类可确定的阈值为:
D肝病(慢性乙型肝炎/肝硬化)类:hDH(x)>0;
H健康类:hDH(x)<0;
其中区分乙肝相关肝硬化和慢性乙型肝炎(AB)算法公式为:
hAB(x)=1.1925X(miR-122-5p)+0.3978X(miR-21-5p)+0.3726X(miR-146a-5p)-1.7062X(miR-29c-3p)+0.1303X(miR-223)+0.8156X(miR-22-3p)-0.1432XALB -0.3608XDNA-0.0041XALT-23.9918
A乙肝相关肝硬化类:hAB(x)>0
B慢性乙型肝炎类:hAB(x)<0。
测试实例
为了检验本发明的系统的性能,下面使用了两组盲测数据进行验证和评估。
盲测数据1
盲测数据1是首都医科大学附属北京佑安医院于2014年2月20日完成测序的肝病样本集,包含40例样本,其中乙肝相关肝硬化样本20例,慢性乙型肝炎样本20例。
盲测数据2
盲测数据2是首都医科大学附属北京佑安医院于2015年4月1日完成测序的肝病和健康样本集,包含40例样本,其中乙肝相关肝硬化样本12例,慢性乙型肝炎样本13例,健康样本15例。
系统运行需求/环境
1.命令行形式,DOS命令行或者Linux环境下的命令行形式;
2.安装有统计软件包R。
命令行输入格式:
RscriptmiRNA.R-itest_DH.txt-typeDH-otest_0H_report.txt-etest_DH_poorQC.txt RscriptmiRNA.R-itest_DH.txt-typeDH-v
其中,软件名为miRNA.R,-i输入文件,-type数据处理格式,-o输出文件,-e错误文件,-v直接输出在屏幕上。
例1输入文件格式
sample_name v o e
1 27.367422 23.918165 20.387817
2 27.591124 24.643553 20.168322
3 28.13521 23.20343 21.219599
4 27.901966 21.143312 20.402287
5 28.58136 20.707237 21.73571
6 24.76316 18.762772 19.222338
7 27.30698 22.417469 23.841616
8 26.368567 19.766613 20.129692
9 28.93138 25.612793 21.301153
10 26.824923 18.512665 19.730814
输出文件格式
sample_name v o e status
1 27.367422 23.918165 20.387817 LiverDisease
2 27.591124 24.643553 20.168322 LiverDisease
3 28.13521 23.20343 21.219599 LiverDisease
4 27.901966 21.143312 20.402287 LiverDisease
5 28.58136 20.707237 21.73571 LiverDisease
7 27.30698 22.417469 23.841616 LiverDisease
8 26.368567 19.766613 20.129692 LiverDisease
9 28.93138 25.612793 21.301153 LiverDisease
10 26.824923 18.512665 19.730814 LiverDisease
结果与讨论
盲测数据1
盲测数据1只含有肝病数据40例样本,经过质量控制后还剩39例样本,将质控后的数据用于模型AB预测分析评估,详细结果请参见表1,其中,A乙肝相关肝硬化的准确率为0.90,B慢性乙型肝炎的准确率为0.737,平均准确率为 0.821。绘制ROC(receiveroperating characteristic)曲线,AUC(曲线下面积, ROC面积)达到0.884。
表1模型AB预测分析评估
Figure GDA0003137563710000121
Figure GDA0003137563710000131
表1盲测数据1模型AB预测结果
盲测数据2
盲测数据2含有肝病和健康样本40例,对于第一层模型DH,经过初步质控,保留31例样本全部,将这40例样本数据用于模型DH预测分析评估,详细结果请参见表2,其中D肝病的准确率为0.875,H健康的准确率为1,平均准确率为0.903。绘制ROC曲线,AUC值为0.988。可以明显地看出模型DH的分类效果非常好,也比较符合临床诊断的实际情况。
表2
Figure GDA0003137563710000132
表2 盲测数据2模型DH预测结果
盲测数据2含有25例乙肝相关肝硬化和慢性乙型肝炎样本,经过质量控制后,还剩19例样本。将质控后的样本用于模型AB预测分析评估,详细结果请参见表3,其中,A乙肝相关肝硬化的准确率为0.90,B慢性乙型肝炎的准确率为0.889,平均准确率为0.895。绘制ROC曲线,AUC值达到0.967。
表3
Figure GDA0003137563710000133
表3盲测数据2模型AB预测结果
综上所述,本发明的系统中模型DH和模型AB的预测分类准确率较高,分类效果很好,没有出现过拟合现象,可以用于实际疾病检测中的乙肝相关肝硬化诊断,且操作简单快速。

Claims (5)

1.一种用于肝病分类的系统,包括数据库模块、质量控制模块、模型分类模块,其中:
所述数据库模块包含作为训练集的原始数据库以及后续收集的盲测数据库;
所述质量控制模块为将由于实验误差导致的极端值去除的模块;
所述模型分类模块包括关于由慢性乙型肝炎/肝硬化和健康对照组成的肝病和健康之间的分类模型DH以及关于慢性乙型肝炎和乙肝相关肝硬化之间的分类模型AB,
所述模型分类模块的建模算法为逻辑回归将多个microRNA分子标志物组合用公式表达,其中区分健康和肝病的DH的算法公式为:
hDH(x)=-1.972X(miR-381-3p)+0.0079X(miR-22-3p)–1.6462X(miR-146a-5p)+74.495
根据最大概率分类可确定的阈值为:
D肝病类:hDH(x)>0;
H健康类:hDH(x)<0;
其中区分乙肝相关肝硬化和慢性乙型肝炎的AB的算法公式为:
hAB(x)=1.1925X(miR-122-5p)+0.3978X(miR-21-5p)+0.3726X(miR-146a-5p)–1.7062X(miR-29c-3p)+0.1303X(miR-223)+0.8156X(miR-22-3p)–0.1432X ALB–0.3608XDNA–0.0041X ALT–23.9918
A乙肝相关肝硬化类:hAB(x)>0,
B慢性乙型肝炎类:hAB(x)<0,
其中ALB为白蛋白,DNA为HBV病毒DNA,ALT为转氨酶。
2.根据权利要求1所述的系统,其特征在于,所述的数据库模块中包含10例以上用作训练集的原始数据库以及后续收集的盲测数据库,其中每一例的数据包括miR-122-5p、miR-21-5p、miR-146a-5p、miR-29c-3p、miR-381-3p、miR-223和miR-22-3p相应的Ct值,以及临床指标转氨酶ALT值、白蛋白ALB含量和HBV病毒DNA的含量值。
3.根据权利要求2所述的系统,其特征在于,所述的数据库模块中包含50例以上用作训练集的原始数据库以及后续收集的盲测数据库。
4.根据权利要求2所述的系统,其特征在于,所述的数据库模块中包含200例以上用作训练集的原始数据库以及后续收集的盲测数据库。
5.根据权利要求1所述的系统,其特征在于,所述质量控制模块通过质量控制将由于实验误差导致的极端值去除,非极端Ct值的范围定义为:模型DH中,标志物miR-381-3p的Ct值范围为19.40-32.10,标志物miR-22-3p的Ct值范围为16.72-26.86,标志物miR-146a-5p的Ct值范围为19.32-29.16;模型AB中,标志物miR-122-5p的Ct值范围为17.61-26.99,标志物miR-21-5p的Ct值范围为16.79-24.47,标志物miR-146a-5p的Ct值范围为19.31-26.64,标志物miR-29c-3p的Ct值范围为18.57-26.18,标志物miR-381-3p的Ct值范围为20.13-27.87,标志物miR-223的Ct值范围为15.35-24.15,标志物miR-22-3p的Ct值范围为16.71-23.95。
CN201510964983.5A 2015-12-21 2015-12-21 乙肝相关肝硬化分类的系统 Active CN106909767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510964983.5A CN106909767B (zh) 2015-12-21 2015-12-21 乙肝相关肝硬化分类的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510964983.5A CN106909767B (zh) 2015-12-21 2015-12-21 乙肝相关肝硬化分类的系统

Publications (2)

Publication Number Publication Date
CN106909767A CN106909767A (zh) 2017-06-30
CN106909767B true CN106909767B (zh) 2021-11-05

Family

ID=59200700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510964983.5A Active CN106909767B (zh) 2015-12-21 2015-12-21 乙肝相关肝硬化分类的系统

Country Status (1)

Country Link
CN (1) CN106909767B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102776185A (zh) * 2011-05-06 2012-11-14 复旦大学附属中山医院 由血浆microRNA组合成的肝癌诊断标志物及一种诊断肝癌的新方法
CN103345544A (zh) * 2013-06-11 2013-10-09 大连理工大学 采用逻辑回归方法预测有机化学品生物降解性
CN104232637A (zh) * 2014-04-18 2014-12-24 首都医科大学附属北京佑安医院 肝硬化microRNA分子标志物及其用途
CN104794321A (zh) * 2014-01-21 2015-07-22 中国科学院上海生命科学研究院 用于对前疾病状态进行检测的检测装置及检测方法
WO2015175642A2 (en) * 2014-05-13 2015-11-19 Sangamo Biosciences, Inc. Methods and compositions for prevention or treatment of a disease
CN105139083A (zh) * 2015-08-10 2015-12-09 石庆平 一种药物上市后安全性再评价的方法及其系统
CN105160182A (zh) * 2015-09-07 2015-12-16 向阳 基于虚拟病例的诊疗正确性自动评价系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015031689A1 (en) * 2013-08-30 2015-03-05 Personalis, Inc. Methods and systems for genomic analysis

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102776185A (zh) * 2011-05-06 2012-11-14 复旦大学附属中山医院 由血浆microRNA组合成的肝癌诊断标志物及一种诊断肝癌的新方法
CN103345544A (zh) * 2013-06-11 2013-10-09 大连理工大学 采用逻辑回归方法预测有机化学品生物降解性
CN104794321A (zh) * 2014-01-21 2015-07-22 中国科学院上海生命科学研究院 用于对前疾病状态进行检测的检测装置及检测方法
CN104232637A (zh) * 2014-04-18 2014-12-24 首都医科大学附属北京佑安医院 肝硬化microRNA分子标志物及其用途
WO2015175642A2 (en) * 2014-05-13 2015-11-19 Sangamo Biosciences, Inc. Methods and compositions for prevention or treatment of a disease
CN105139083A (zh) * 2015-08-10 2015-12-09 石庆平 一种药物上市后安全性再评价的方法及其系统
CN105160182A (zh) * 2015-09-07 2015-12-16 向阳 基于虚拟病例的诊疗正确性自动评价系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
血浆microRNA作为肝癌及慢性乙肝肝损伤分子标记物的研究;高雪;《中国博士学位论文全文数据库 医药卫生科技辑》;20130215(第2期);第E072-31页 *

Also Published As

Publication number Publication date
CN106909767A (zh) 2017-06-30

Similar Documents

Publication Publication Date Title
CN111916154B (zh) 一种预测肠癌肝转移的诊断标志物及用途
CN108660199A (zh) 一种基于cfDNA高通量测序检测病原体的方法
WO2018209625A1 (zh) 一种基于外周血无创性检测病灶免疫组库多样性的分析系统及其用途
KR102124193B1 (ko) 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법
CN111613324B (zh) 一种机器学习模型高通量分析乙型肝炎病毒基因组rt/s区序列特征预测肝癌风险的方法
JP2026032004A (ja) 組織特異的調節領域の無細胞dna分布を用いた人工知能基盤の癌早期診断方法
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
CN111676291B (zh) 一种用于肺癌患病风险评估的miRNA标志物
CN111733229B (zh) 一种精神分裂症遗传风险分型试剂盒及分型装置
JP7805453B2 (ja) 細胞遊離核酸断片の位置別配列頻度及びサイズを用いたがん診断方法{Method for detecting cancer using fragment end sequence frequency and size by position of cell-free nucleic acid}
CN117594133A (zh) 用于判别子宫病变类别的生物标志物的筛选方法及其应用
CN111647670A (zh) 一种与肾病综合征相关的肠道菌属Faecalitalea及其应用
CN111748634A (zh) 一种特征lincRNA表达谱组合及结肠癌的早期预测方法
CN110428897B (zh) 基于snp致病因素与疾病关联关系的疾病诊断信息处理方法
CN106909767B (zh) 乙肝相关肝硬化分类的系统
CN108977533A (zh) 一种用于预测慢性乙肝炎症损伤的miRNA组合物
Di Salvatore et al. Computational identification of differentially-expressed genes as suggested novel COVID-19 biomarkers: A bioinformatics analysis of expression profiles
CN113234817A (zh) 利用CpG位点甲基化水平检测早期肝癌的标志物
CN119307603A (zh) 脓毒症凝血相关预后标志基因及其在制备脓毒症预后预测诊断产品中的应用
CN113811621A (zh) 确定rcc亚型的方法
CN111733252A (zh) 一种特征miRNA表达谱组合及胃癌早期预测方法
CN118899035A (zh) 子宫病变诊断生物标志物的筛选方法及机器学习模型判别方法
CN117757928A (zh) 用于慢性胰腺炎早期诊断的血浆外泌体rna生物标志物组及其应用
CN111554347B (zh) 构建用于手足口样本归类的模型的方法及其应用
US20260094714A1 (en) Systems and methods for diagnosing hepatocellular carcinoma based on the detection and interpretation of a panel of micrornas in a subject

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230510

Address after: 102600 3rd floor, No.18 Keyuan Road, economic development zone, Daxing District, Beijing

Patentee after: Beijing contemporaneous Biotechnology Co.,Ltd.

Address before: 100176 floor 3, building 2, aipuyi building, No. 1, Desheng East Road, Yizhuang Economic and Technological Development Zone, Daxing District, Beijing

Patentee before: BEIJING QUANTOBIO BIOTECHNOLOGY CO.,LTD.

TR01 Transfer of patent right