CN102906851A

CN102906851A - 分析质谱的方法、计算机程序及系统

Info

Publication number: CN102906851A
Application number: CN2011800253781A
Authority: CN
Inventors: M·维塔莱蒂
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-06-10
Filing date: 2011-05-16
Publication date: 2013-01-30
Anticipated expiration: 2031-05-16
Also published as: US20140052385A1; WO2011154219A2; US20130073219A1; CN102906851B; JP5719433B2; EP2580772A2; US9400868B2; EP2580772B1; JP2013528287A; US9773090B2; WO2011154219A3; TWI493168B; TW201224428A

Abstract

本发明公开一种通过分析特定浓度c的溶液的、测量的具有误差的所有峰的质量和强度坐标来识别由包括物质的溶液中的不同实体离子所产生的峰的方法、计算机程序以及系统。如果根据超过质量值的接近性的特定分辨标准，不同质谱中的峰充分‘靠近’，则该峰关联于相同离子。应用二阶段处理，每一阶段都应用该方法以识别质谱内的峰。在阶段1中，该识别峰的方法被应用于每一浓度的每一质谱组。包括每一谱内的一个峰的产生的峰序列都关联于不同离子。此阶段1的输出转换为具有作为虚拟峰的在每一序列上计算的平均峰坐标值的虚拟质谱的组。该识别峰的方法在该虚拟质谱上应用一次，并且产生的离子识别表参照用于溶液每一浓度的与一种离子相关联的峰坐标值。

Description

分析质谱的方法、计算机程序及系统

技术领域

本发明一般涉及质谱分析，尤其是本发明提供分析化学溶液的质谱的方法。

背景技术

质谱仪原理在于将化学元素离子化以产生将对其测量质荷比的带电分子或分子片段(molecule fragments)。例如溶液内离子的质谱利用质荷比，提供离子的分布。质谱图的x轴代表一种离子的质荷比，y轴则代表这些离子所提供的信号强度。一种离子的质谱图在峰处给出该离子(质量对电荷、强度)信息。对于包含不同离子的化学溶液，该质谱图的每个峰可指示溶液内对应离子存在。

然而，当质谱图包含致密的峰序列并且对于每一个峰，仪器所测量的质量与强度有误差时，就无法容易地识别化学溶液质谱中的离子。例如：需要利用建立回归模型，预测溶液内可溶物质的浓度，然而该溶液内未知的某些离子浓度限制了物质浓度函数。在线性情况下，离子浓度与物质浓度存在系数关系，该系数随不同离子而变。为了建立回归模型，必须先能够识别对应于溶液内物质的不同浓度的不同质谱中相同离子的峰强度。物质对应无机分子时，可容易地在质谱中识别该离子。不过在有机分子稀释于水中的情况下，由于水中较大分子的解离作用，因此所产生溶液的质谱可能包括数百种离子。

一种在对应于溶液内物质的不同浓度的不同质谱中的识别对应于相同离子的信息的现有技术方案，使用已知的数据分箱(data binning)技术。该数据分箱技术可降低小测量误差的影响：在该质谱中，质量范围应该由均匀尺寸(通常是一个质量单位)的未重迭间隔(箱)覆盖，并且每个峰的强度累积到对应箱内。不过，假设m_e是与为建立回归模型而对要分析的所有溶液进行的离子质量测量相关的误差，则与该误差m_e相关的两个影响可损害分箱方法，即：

-使用尺寸与m_e可比较(或小于m_e)的箱，可能不同谱中的给定离子的峰会累积在不同的箱内；

-使用大于m_e的箱时，一般会发生具有类似质量的二种或多种离子的峰会累积在相同的箱内。然而，这些离子对物质浓度上具有完全不同的线性依赖性，并且因为之前的影响，同一箱可累积来自跨不同谱的不同离子的贡献。

因此，需要一种在质谱图内，跨用不同浓度的已知物质制备的溶液识别对应于相同实体（physical）离子的峰的方法。

发明内容

本发明的目的在于限定义一种以可信赖方式识别不同质谱内对应于相同离子的峰的方法。

以根据权利要求1的方法实现目的，一种在计算机上执行以通过分析来自质谱数据文件组的具有误差的测量的所有峰的质量和强度坐标来识别由包括特定浓度的至少一种物质的溶液中的不同实体离子所产生的峰的方法，所述方法包括：

从所述质谱数据文件组中的第一质谱数据文件读取峰的坐标；

通过计算限定两个峰之间的接近性（proximity）的距离函数，从除所述第一质谱数据文件之外的每一个所述质谱数据文件选择接近来自所述第一质谱的读取的峰坐标的峰坐标；

通过计算分数函数来确定包括来自所述第一质谱的所述读取的峰以及来自每一其它质谱的一个选择的峰的峰的最高分数序列，所述分数函数限定所述序列内的所有峰均由相同类型的实体离子产生的似然；

如果序列最高分数/次高分数的比率高于限制比率，则储存所述最高分数序列；以及

从所述第一质谱数据文件读取另一个峰的坐标并执行前述选择、确定以及储存步骤直到已经从所述质谱读取了所有峰，每个产生的序列包括每个质谱中的一个峰并被识别为由相同的实体离子产生。

根据权利要求2，使用根据权利要求1的方法也可达成该目的，还包括：

在所述已储存序列之间抑制被发现包括相同质谱的相同峰的序列的任何子组。

根据权利要求3，使用根据权利要求1或2的方法也可达成该目的，其中两个峰之间的所述距离函数和所述评分函数都依赖于所述两个峰的所述质量和强度。

根据权利要求4，使用根据权利要求1或2的方法也可达成该目的，其中两个峰之间的所述距离函数依赖于所述峰的所述质量，并且所述评分函数依赖于所述峰的所述质量与所述峰浓度-强度相关性的组合。

根据权利要求5，使用根据权利要求1或2的方法也可达成该目的，其中使用都依赖于所述峰的所述质量和强度的第一距离和第一评分函数，在用于给定的c浓度的第一质谱组上执行用于识别产生的对应于离子的峰序列的方法1的步骤；

所述方法还包括：

在又一质谱组上重复前述步骤，所述第一和所述又一质谱组对应于不同浓度；

为对每一溶液浓度执行前述步骤所产生的每一序列计算平均质量-强度峰坐标，并且获得每一浓度的虚拟峰系列；

使用依赖于所述峰的所述质量与所述峰浓度-强度相关性的组合的两个峰之间的第二距离函数，将根据权利要求1的方法的步骤应用于虚拟质谱的组，每一虚拟质谱对应于一个浓度，每一虚拟质谱包括计算的虚拟峰系列，产生的序列为不同‘虚拟质谱’中对应于离子的峰，每一‘虚拟质谱’对应于一个溶液浓度。

根据权利要求6，使用根据权利要求5的方法也可达成该目的，其中具有坐标x₁和y₁的质谱峰P₁和具有坐标x₂和y₂的质谱峰P₂之间的所述第一距离函数d为：

d (p_{1}, p_{2}) = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2} / R^{2}}

R为与所述y坐标和x坐标相关的相对误差之间的比率。

根据权利要求7，使用根据权利要求5和6中任一项的方法也可达成该目的，其中序列的第一评分为：

1/max d(pl,p2)

其中p1、p2为所述序列内任意两个峰，并且d(p1,p2)为其间的距离。

根据权利要求8，使用根据权利要求5到7中任一项的方法也可达成该目的，其中具有坐标x₁和y₁的质谱峰P₁与具有坐标x₂和y₂的质谱峰P₂之间的第二距离函数d为：

d(p₁,p₂)=绝对值(x₁-x₂)。

根据权利要求9，使用根据权利要求5到8中任一项的方法也可达成该目的，其中序列的第二评分为：

相关性_系数(cl,yl,c2,y2，....cN,yN)/max d(p1,p2)，其中p1、p2为所述序列中的任意两个峰，并且d(p1,p2)为其间的距离。

根据权利要求10，一种包括适于执行根据前述权利要求中任一项的方法的步骤的装置的系统，也可达成该目的。

根据权利要求11，一种包括指令的计算机程序，当所述计算机程序在计算机上执行时用于执行根据权利要求1到9中任一项的方法的步骤，也可达成该目的。

将该提出的两阶段过滤处理的第一阶段应用于从质谱仪获得的数据，可获得某些优点。

一项优点为该方法提供了用于该过滤的谱内保持的所有这些峰的与质量值的测量相关的误差量以及与强度值的测量相关的误差量的指示。

另一优点为大量丢弃的峰可提供该测量当中质量问题的早期指示，换言之，就是该测量条件未完美标准化(例如，因为在不同温度下或远离平衡稳定状态而测量的样本)，或因为某些样本中存在不受控制的污染物而导致的问题。进一步优点为应该从该过滤的谱中排除具有非常类似或相同质量但是不同结构的离子所产生的峰，因此简化将给定溶液成份关联到所测量谱的模型的构建工作。

根据本发明的第二方面，可将已提出的两阶段过滤处理的第二阶段应用于已经经过第一阶段的数据，而获得许多优点。

一项优点为从过滤的谱中去除这样的峰，该峰由在溶液中的浓度远离在不同浓度上测量的样本中的物质浓度线性函数的离子所产生。如此简化将给定溶液成份关联到所测量的谱的线性模型的构建工作。

另一优点为大量丢弃的峰可提供该数据中质量问题的早期指示(例如，因为在不同温度下或远离平衡稳定状态而测量的样本)，或指出“识别的离子”浓度与样本已经在不同浓度上测量的物质浓度间的复杂(非线性)关系。在第一情况下，通过更受控制的处理可获得更好的数据，并且避免了利用不精准数据的风险。在第二情况下，需要建构数据的非线性模型，同时可避免利用数据时的错误假设的风险。

附图说明

图1显示在一个化学溶液样本上测量的第一质谱以及从相同溶液的不同样本所获得的五种质谱(A、B、C、D、E)显像的细节；

图2示例其中实施优选实施例的方法的环境；

图3为根据优选实施例采用不同识别标准的离子识别方法的流程图；

图4为施加根据优选实施例的图3的方法，在对应于已知物质的不同浓度的质谱中识别相同离子的方法的一般流程图；

图5显示根据优选实施例的到图4的一般流程图的阶段1的输入的数据结构以及阶段1输出的数据结构；

图6显示根据优选实施例到图4一般流程图的阶段2的输入的数据结构以及阶段2输出的数据结构。

具体实施方式

图1显示在一个化学溶液样本上测量的第一质谱以及从来自相同溶液的不同样本获得的五种质谱(A、B、C、D、E)显像的细节。第一图表(100)为包含5每百万的部分的化学物质的水溶液内，质量257.1并且强度超出质谱仪输出所用500000单位的峰周围的离子质谱的部分视图。整个谱包含大约1500个峰。第二质谱(110)为使用相同仪器重复测量相同样本所获得，与相同峰相关的值在质量值方面有0.1%的振荡，在强度值方面有10%的振荡。在第二3D图(110)中，质量误差被恒定地人工强制到零。在此情况下，峰(115)可简单识别为代表相同离子。问题是如果质量(x值)与强度(y值)二者有测量误差，如何识别不同样本内的对应于相同离子的峰。影响两种离子的质量测量的误差超出其“真实”质量之间的差异时，就不可能识别不同谱内的属于相同离子的两个峰。即使误差相当小，在计算机程序内实施稳健（robust）的“识别”处理还是需要超过质量值接近性的特定辨别标准。

图2示例其中实施优选实施例方法的环境。图2显示本发明的环境。利用产生数据文件(210)的质谱仪(200)，分析具有变化浓度的给定化学物质的溶液。谱包括峰的序列，峰由质谱仪所测量的质荷比与信号强度值(图型表示内的峰坐标)所描述。

请注意，如果该方法被应用到只包含一种物质的溶液，此方法将有助于确定物质的不同浓度处的溶液峰值，这有助于确定线性模型，而该线性模型有助于确定特定浓度处的溶液内物质的存在。

在优选实施例内，利用计算机(220)上执行的程序处理质谱数据文件。在优选实施例内，离子识别方法包括识别处理引擎(240)，其被应用在两阶段处理程序(230)内。该离子识别引擎在每一阶段中应用不同的辨别标准。在第一阶段中，该离子识别引擎应用稍后关于图4的说明文件中描述的基于质量-强度的接近性标准。该第一阶段采用质谱仪所产生的质谱文件(210)作为输入并产生离子表(T1)，一个行代表不同谱内对应于一种离子的峰。阶段1中处理的质谱为在包含特定浓度的化学物质的溶液上所完成的对应于测量样本组的质谱，应用于一个样本组的该输出为一个离子表(T1)。针对对应于化学物质的N个不同浓度的N个质谱组，而重复操作。阶段1的输出造成N个离子表(T1250)，每个样本组一个，每一个都对应于溶液浓度。

在第二阶段中，执行该离子识别引擎一次。对于峰识别，应用这样的辨别标准，该标准是组合的质量接近性和浓度-强度相关性标准，如稍后在与图4的说明有关的文件中描述。该第二阶段使用转换为“虚拟质谱（virtual mass spectra）”的在阶段1期间产生的离子表作为输入，并且给出一个识别的离子表(T2260)作为输出。输出离子表T2在每一行中为溶液中识别的每一离子提供用于到每一浓度的一系列峰坐标的参考。

在优选实施例内，本发明实施为计算机程序产品，其从计算机可使用或计算机可读取介质存取，提供计算机或任何指令执行系统所使用或连接的程序代码。请注意，本发明可采用整个硬件实施例、整个软件实施例或包含硬件与软件组件的实施例的形式。在优选实施例内，本发明以软件实施，这包含但不限于固件、常驻软件（resident sofrware）、微代码等等。

图3为根据优选实施例可采用不同识别标准的离子识别方法流程图。该流程图描述该离子识别方法，该方法允许当对应于相同离子类型的峰出现在从其中一种物质以不同浓度存在的溶液获得的不同谱中时，识别该峰。

为了示例该离子识别方法，本说明书使用质谱作为输入。这简化了对该方法步骤的理解，如图2所说明，即使在阶段2中，输入并非直接是质谱而是转换为“虚拟质谱”的离子识别表T1。事实上，该输出T1表在每一行表示已经用作输入的对应于不同质谱中的相同离子的峰：对于每一T1表的每一行计算峰坐标的平均值，以获得“虚拟质谱”。

在第一步骤(300)中，已经存取所有质谱。如前所述，该质谱提供峰，其X坐标代表质荷比(在文件的余下部分称为质量)以及Y坐标代表信号的强度(在文件的余下部分称为强度)。所有质谱对应于具有溶解于溶液中的化学物质的特定浓度的相同溶液的测量样本，此物质需要被分析。M个谱具有从1至M的编号。

该质谱存取意味着包含峰的坐标的质谱数据文件由该计算机读取，并且优选作为数据结构储存在存储器中。稍后在本说明书中关于图5的说明的文件中，描述该离子识别引擎所用的数据结构的一个实例。为每一质谱都建立一个表。每一个表行储存该质谱的峰的坐标。

在步骤305内，在M个谱中的一个谱上读取一个峰。在其中读取一个峰的一个谱包含索引为从1至N1的N1个峰，并且初始化所有这些峰的迭代(请参阅稍后流程图中的测试360)。采用该读取的峰作为从剩余的谱中连续识别峰的基础。根据下列处理，分析该第一谱中代表潜在离子的峰。初始化在剩余的谱中的内部迭代(请参阅稍后流程图内的测试330)。

使用两个峰之间的适宜“距离”函数来找到当前谱中最接近当前在步骤305中选择的峰的特定数量的峰。通过将该距离限制到预定最大距离d，选择至少一个峰以及有限数量的峰(320)。如果将搜寻限制在未发现峰的预定距离内，这是可能的。不过应注意，“距离”函数的选择基于阶段1中基于质量-强度的接近性标准以及阶段2内的质量-接近性标准。稍后在本说明书内关于图4的说明的文件中更详细描述该距离函数。

通过读取所有的谱(执行回答为否到测试330的循环)，使用来自该第一谱的当前峰以及从2至M的谱内发现的候选峰，产生所有可能的M个选择的峰的候选序列。这样的序列的总数等于n₂ x n₃ x...x n_M的乘积，其中n_i为具有索引“i”的谱中发现的候选峰的数量，并且M为每一序列中峰的数量。在步骤335内，将适宜的评分函数应用至每一序列，以计算评分值。该函数必须被选择为仅仅所有峰都表示相同类型的离子的序列获得高评分值。评分函数的选择依赖于所选择的离子识别标准，稍后在关于图4的说明的文件中会更详细描述该评分函数。

在下一步骤(340)中，前述步骤中产生的序列通过在步骤335中计算的对应分数值而分类，最高分数对应于分类的序列列表中的第一位置。

在下一步骤(345)中，作为每一序列的第一分数与第二分数之间的比率，计算“比率”变量。步骤335中使用的评分函数产生显著高于1的比率变量值，以指出从竞争中以经浮现单个序列获胜者。在步骤350中将计算的比率值与预定阈值(限制比率)比较，低于阈值的值表示没有明显的序列获胜者，这意味不可能识别当前的离子。保留具有最高分数值并且比率变量等于或大于限制比率的序列，用于步骤305内读取的该峰。

保持(357)该有效获胜者序列(若有的话)的每一序列成员的(X质量、Y强度)值的轨迹（trace），该序列的每一成员都为每个谱中的一个峰，所有峰都对应于相同离子。此信息保持在离子识别表(T1，T2)内，如稍后本说明书内关于图5或图6的说明的文件所描述。

如果对于读取的峰和离子识别候选没有效获胜者序列(对测试350的回答为否)，则执行下一步骤(360)。如果未读取在一个谱中的所有峰(对测试360的回答为否)，则执行从步骤315至360的相同循环，以识别识别每一谱内离子的最高分数序列。

当对于一个谱已经读取用于该算法的所有峰时(对测试360的回答为是)，则产生获胜者序列的一个谱内的所有峰可暂时考虑为从相同实体离子产生。通过核查产生的峰序列，执行全体一致性（global consistency）检查(365)。如果每一峰出现在每一序列内一次，每一序列内产生的峰序列才是特定离子类型的表示。因此，丢弃具有共同的一个或多个峰的序列。然后，使用关于原始数据具有较高置信度水平的剩余的序列。事实上，每一序列的特征在于仪器对于存在的特定(虽然未知)离子类型的响应。在流程图执行结尾上，该最终离子识别表仅包含对经由全体一致性检查确认过的峰序列的参照。不过，该全体一致性步骤为可选的，因为前述步骤选择的所有序列会导致正确结果。

图4为根据优选实施例应用图3的方法，识别对应于不同已知物质浓度的质谱内识别相同离子的方法的一般流程图。在此流程图中，图3中离子识别处理的两互补实施被连接为两阶段流水线。该流水线的第一阶段使用作为利用质谱仪测量具有不同浓度的溶液所产生谱的组作为输入系列。该流水线的第二阶段将该第一阶段输出的数据作为输入，并针对每一离子产生最终输出，其是每一浓度的峰坐标的参考。

在阶段1(400)内，该离子识别处理应用至从包含不同浓度水平（N个）的相同物质的溶液获得的多个谱。仪器可针对浓度的每一水平，利用在相同样本上重复测量M次，或利用采用M个等价样本的测量，获得多个(M个)谱。这意味着，图3流程图所描述的该方法，在针对一个溶液浓度所测量的每一样本质谱组上处理(405)。使用基于质量-强度的接近性标准，跨具有相同(已知或未知)浓度的一种或多种物质的溶液的各谱识别离子。运用此方法，如果来自对应谱的M个峰基于适宜距离函数是“彼此最靠近”的，则可称其为“由相同离子产生”，该距离函数取决于两峰的X与Y坐标，以及分别影响质量(x)的测量以及离子浓度(y)的测量的相对误差的不同尺寸。阶段1的输出包括用于每一识别的离子和每一浓度水平的M个峰的序列。离子识别表T1为保持图3中离子识别方法信息结果的方法的一个实例，稍后在本说明书中与图5相关的文件中说明。

根据基于质量-强度的接近性标准，选择分别在阶段1内执行的识别处理的步骤315和步骤335所使用的距离函数与评分函数。两个“点”(峰)之间的任意“距离”函数d(p_i,p_j)必须是在i=j时d(p_i,p_j)消失，否则总是为正值。与每一峰相关联的为两个坐标(x和y)代表离子质量(x)与信号强度(y)，因此在原理上可基于两个峰的x和y坐标，让距离函数采用二维空间内的标准欧氏距离。然而，这不适合无相关性的情况，因为并不考虑与点(峰)相关的x与y坐标的不同比例（scale）与精准度。来自普通仪器的质谱核查显示质量(x坐标)值以约0.1%的相对误差确定，而强度(y坐标)以约10%的相对误差确定，因为高出两个数量级。将R定义为与y坐标和与x坐标相关的相对误差间的比率，所提出的距离函数如下，x1、y1为峰p1的坐标，并且x2、y2为峰p2的坐标：

d (p_{1}, p_{2}) = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2} / R^{2}}

在峰的每一“候选序列”上，执行该离子识别处理步骤335内的评分值的计算。因此，该评分函数为该候选序列内的峰组的函数。在阶段1内，此函数只是该序列内彼此相隔最远的两个峰的距离函数(区块315内所使用的函数)的倒数。该评分函数为：

1/max d(p1,p2)

其中p1和p2为该序列内任两个峰。

因此，“彼此最靠近”为序列内的峰，较高者为指派给该序列的该评分值。发现上述距离函数和评分函数的组合足够用于阶段1内执行的该离子识别处理，其中所有谱都取自于具有相同浓度的给定物质浓度的样本。

图4的流程图程序继续阶段2(410)，其输入为阶段1内建立的该离子识别表(例如T1)。

该离子识别表中包含的数据等价于已经提及的质谱数据。对应于阶段1内“识别的”离子的每个峰序列都用“虚拟”峰有效取代，该虚拟峰的质量与强度通过平均该序列而获得。在阶段2中，如图3所示例流程图所描述的该离子识别方法的处理被应用(415)于这些虚拟峰。其目的在于“识别”跨具有不同物质浓度水平的样本测量的谱的由相同离子产生的虚拟峰。运用组合的质量-接近性和浓度-强度相关性标准，跨一种给定物质的L个不同已知浓度的溶液谱识别离子。运用此方法，如果L个峰构成的序列最大化“最佳测量”，则其为“属于相同离子”，该“最佳测量”加权跨峰的对质量的“接近度”和浓度C值与强度Y值之间的“线性相关性的强度”的乘积。限定该距离与评分函数时，将阶段2的该离子识别标准列入考虑。这些距离与评分函数的用途为过滤掉没有显示出物质浓度与强度值之间的强线性相关性的峰序列。阶段2的输出提供用于相同离子的“虚拟峰”序列，每一“虚拟峰”都对应于不同的浓度水平。如此，可通过应用运用从该谱仪（spectrometer）中取得的信息-（不是本发明的一部分），该应用目标在于建立该质谱的模型，其中在多个选择的峰(通道)上观察到的强度为一种或多种物质的浓度的线性函数。离子识别表T2为保持图3中离子识别方法的信息结果的方式的一个实例，稍后在本说明书中与图6相关的文件中说明。

根据组合的质量-接近性与浓度-强度相关性标准，选择分别在阶段2中执行的识别处理的步骤315和步骤335所使用的距离函数与评分函数。在阶段2中，无法预期相同离子产生的峰展现出跨谱的相似强度值，因为谱是在物质的不同浓度处获得的。因此，阶段2中使用的距离函数只依赖于峰的x坐标(离子质量)：

d(p₁,p₂)=abs(x₁–x₂)，其中abs()为绝对值函数。

在峰的每一“候选序列”上，执行该离子识别处理区块335内评分值的计算。因此，该评分函数为该候选序列内的峰组的函数。在阶段2中，基本上距离函数可采用统计相关性系数。该构思为高相关性系数(接近1)只来自于对应于相同实体离子的峰(并展现出与物质浓度成线性的响应)。然而，使用真实数据所进行的实验显示，在此情况下，最高评分序列上评分值之间的比率(等于相关性系数)通常非常接近1，如此不可能确定明显的“获胜者”。更适宜的评分函数也应该考虑序列内所有峰的质量值的接近性。因此，建议的评分函数为两项的乘积。第一项为从序列的峰计算的相关性系数，其中物质浓度为自变量并且峰强度为因变量。第二项为序列中相隔最远的两个峰的距离函数(区块315内所使用的函数)的倒数。

该评分函数为：

相关性_系数(cl,yl,c2,y2，....cN,yN)/max d(p1,p2)，其中p1、p2为序列内任意两个峰，并且d(p1,p2)为其间的距离。

发现上面距离函数与评分函数的组合足够用于阶段2内执行的该离子识别处理，其中所有谱都取自于具有不同浓度的给定物质浓度的样本。

图5显示到图3的一般流程图中的阶段1的输入的数据结构，以及根据优选实施例输出的阶段1的数据结构。特别地，如图5内所描述的输出表，为一种呈现阶段1应用根据基于质量-强度的接近性标准的距离和评分函数的离子识别方法结果的方式。

对于该溶液样本内物质的已知浓度，输入(500)来自M个谱，该M个谱通过重复测量M次或测量M个相同样本而获得。计算机从数据文件读取的每一谱数据都作为表格储存在存储器中，该表格具有两个列(X和Y)，其中在每一行上，离子质量测量在X列内，并且对应的测量强度在Y列内。

输出(600)可由M列的表格(T1)表示，每列针对每一测量的谱，并且行数等于阶段1结尾处识别的离子的数目。每一列都包含到峰的指针(515)，假设由M个输入谱中每一个谱内相同实体离子产生该峰。每一行都包含对应于相同获胜者与有效序列的指针，其以可接受的评分比率获得最高分数。

例如：行编号27(27为表格内一个行索引值)在输出表内以灰色背景标示，包含编号503、506、502、504、504，给出在识别的离子的输入谱中的位置。这意味着：

．第一输入谱的行503处的峰，

．第二输入谱的行506处的峰，

．等等

已经由阶段1处理“识别”，因此可安全假设已经由相同实体离子产生这些峰。

采用对应于输出表中给定行的质量(X)与强度(Y)的M个值的平均值与展形（spread），如此评估影响这些量的测量的误差尺寸。

通过限定质量与强度值是该M个“识别的”峰内的对应值的平均值的“虚拟峰”，可减少与上述输出表内的给定列相关的信息。可选地，可考虑每一行中质量与强度值的最小与最大值，由此通过质量的间隔[X_min,X_max]以及通过强度的间隔[y_min,y_max]来限定“虚拟峰”。

特别使用图4内所描述应用的离子识别方法，允许使用该结果建立线性模型，将给定溶液的组成关联于测量的谱。在该情况下，阶段1输入为针对一个溶液所测量的质谱，该溶液只包括具有不同已知浓度的单一物质。以该方式，该离子识别表(T1510)包含使用给定浓度的每一质谱中的其参考X、Y峰值而识别的离子。

对于已经获得质量谱组的每一溶液浓度建立这样的离子识别表(T1,500)。

图6显示到图4的一般流程图中的阶段2的输入的数据结构以及根据优选实施例的阶段2输出的数据结构。如上所述，在用图4流程图所描述的方法中，所使用的阶段2输入并非质谱，而是从作为阶段1的输出而获得的输出离子识别表T1产生的质谱等价数据。阶段2的输入由N个表格(600)构成，阶段1处理的每一输出都应用至相同物质的不同(已知)浓度。该输入表中每一行都可关联于具有估计的质量、强度和误差的“虚拟”峰，这些输入可在阶段2内由离子识别方法处理成等价输入数据(500)，其为图1表格的输入质谱。

输出可由具有N个列的表格(610)构成，每列针对物质的每一浓度，并且行数等于阶段2结尾处识别的离子。每一行都包含指针：关联于给定浓度的列中发现的指针(615)指示该浓度的输入表中的行。因此，阶段2结尾处产生的输出表，允许将这些“虚拟”峰全都关联于相同实体离子。

Claims

1.一种在计算机上执行以通过分析来自质谱数据文件组的具有误差的测量的所有峰的质量和强度坐标来识别由包括特定浓度的至少一种物质的溶液中的不同实体离子所产生的峰的方法，所述方法包括：

通过计算限定两个峰之间的接近性的距离函数，从除所述第一质谱数据文件之外的每一个所述质谱数据文件选择接近来自所述第一质谱的读取的峰坐标的峰坐标；

2.根据权利要求1的方法，还包括：

3.根据权利要求1或2的方法，其中两个峰之间的所述距离函数和所述评分函数都依赖于所述两个峰的所述质量和强度。

4.根据权利要求1或2的方法，其中两个峰之间的所述距离函数依赖于所述峰的所述质量，并且所述评分函数依赖于所述峰的所述质量与所述峰浓度-强度相关性的组合。

5.根据权利要求1或2的方法，其中使用都依赖于所述峰的所述质量和强度的第一距离和第一评分函数，在用于给定的c浓度的第一质谱组上执行用于识别产生的对应于离子的峰序列的方法1的步骤；

所述方法还包括：

使用依赖于所述峰的所述质量的两个峰之间的第二距离函数和依赖于所述峰的所述质量与所述峰浓度-强度相关性的组合的第二评分函数，将根据权利要求1的方法的步骤应用于虚拟质谱的组，每一虚拟质谱对应于一个浓度，每一虚拟质谱包括计算的虚拟峰系列，产生的序列为不同‘虚拟质谱’中对应于离子的峰，每一‘虚拟质谱’对应于一个溶液浓度。

6.根据权利要求5的方法，其中具有坐标x₁和y₁的质谱峰P₁和具有坐标x₂和y₂的质谱峰P₂之间的所述第一距离函数d为：

d (p_{1}, p_{2}) = \sqrt{{(x_{1} - x_{2})}^{2} + {(y_{1} - y_{2})}^{2} / R^{2}}

R为与所述y坐标和x坐标相关的相对误差之间的比率。

7.根据权利要求5和6中任一项的方法，其中序列的第一评分为：

1/max d(pl,p2)

8.根据权利要求5到7中任一项的方法，其中具有坐标x₁和y₁的质谱峰P₁与具有坐标x₂和y₂的质谱峰P₂之间的第二距离函数d为：

d(p₁,p₂)=绝对值(x₁-x₂)。

9.根据权利要求5到8中任一项的方法，其中序列的第二评分为：

10.一种包括适于执行根据前述权利要求中任一项的方法的步骤的装置的系统。

11.一种包括指令的计算机程序，当所述计算机程序在计算机上执行时用于执行根据权利要求1到9中任一项的方法的步骤。