WO2015192395A1

WO2015192395A1 - 人声语音质量评分方法及系统

Info

Publication number: WO2015192395A1
Application number: PCT/CN2014/081156
Authority: WO
Inventors: 戎玲; 赵澎; 鲍逸明; 唐德成; 胡融; 史源
Original assignee: SHANGHAI JINGHUI ELECTRONICS EQUIPMENT MINHANG CO Ltd; Third Research Institute of the Ministry of Public Security
Current assignee: SHANGHAI JINGHUI ELECTRONICS EQUIPMENT MINHANG CO Ltd; Third Research Institute of the Ministry of Public Security
Priority date: 2014-06-17
Filing date: 2014-06-30
Publication date: 2015-12-23
Anticipated expiration: 2016-12-17
Also published as: EP3166239B1; EP3166239A4; EP3166239A1; ES2774018T3; CN104050964A

Abstract

一种人声语音质量评分方法及系统，该方法包括：声源部分（110）产生标准的真人语音信号作为输入语音信号，从声源部分（110）输入被测系统（120）；输入语音信号在被测系统（120）中传递，并作为输出语音信号从被测系统（120）的输出端输出；采集输出的连续的语音信号；将采集的输出语音信号的信号流切片和分析处理而确定还原度。

Description

人声语音质量评分方法及系统技术领域本申请涉及语音传输检测领域，更具体地涉及人声语音质量评分方法及系统。背景技术在现有技术中，需要对语音或视频传输使用的设备进行语音传输、视频传输等性能是否符合规定的各项指标做检测（检验）或测试，只有当这些检测或测试所获得结果符合规定的各项标准要求，才能保证这些语音或视频设备是可用且好用、质量是有保障的，进而，才能将这些设备进行生产和实际应用。随着语音、视频传输设备的各项技术的不断进步，对设备以及设备配合使用时的各方面的性能要求也在不断更新进步中。因此，对于设备检测（检验）的技术，也随之不断改进以便提高检测检验结果的准确性和精确度。以应用于住宅楼宇出入口控制的楼宇对讲系统为例，对其使用的设备以及系统整体上的音频传输特性的检测（检验）或测试就是整个对讲系统检测最为重要的部分。已知的楼宇对讲系统的音频传输质量测试的试验方法是评价楼宇对讲系统产品语音传输质量的一整套全程声测试的试验方法，其包括了 5项技术参数（如：响度评定值、频率响应 /频响、失真、信噪比、侧音掩蔽评定值）的测试和计算。该已有的测试方法中，对输出端的音频信号检测则专注于对其频响、失真及振幅特性的技术特性的评测。例如，如图 3所示，声源 / 音源即信号源 301产生音频信号后，通过功放装置 302、被测系统的音频信号通路等，在被测系统的音频输出端（如：被测的喇叭、听筒等） 303输出；输出端 303的输出口固定在隔声挡板上，隔音挡板作为模拟的设备安装用的墙体以保证测试结果更准确性，而正对输出口方向，设有传声器（如：麦克 MIC等） 304 , 传声器 304内设的中央处理器 CPU釆集输出信号，可以将音频信号转换为电信号；传声器 304将电信号经过一放大装置 305 (如信号放大器）传给测量装置测量后由频语仪 306输出结果，其中，测量装置对釆样的输出信号进行相应技术参数评测包括：

频响测试：调节音频信号源的频率在 200-4000Hz范围，记录在 MIC端的 CPU釆样值（输出端的音频响应信号 ) , 由此得到音频信号源调节到的每个频点的声压（如：声音强弱、声音能量）有效值，从而计算（如：傅里叶变换、电频表测算等）得到输出端（如：喇叭）的频响；

失真测试：调节音频信号源的频率至要测试的频率，记录 MIC端 CPU 的釆样值，通过频谱转换（如：傅里叶转换）得到该釆样值信号的频谱图，再通过该频谱图计算出喇叭在该信号所对应的信号源输入信号频率下的失真值；

振幅特性测试：在同一频率下改变音频信号源的输出幅度，记录 MIC端

CPU的釆样值，通过频谱转换（如：傅里叶变换）得到该釆样值信号的频谱，观察在不同幅度信号输入下的输出值是否与输入值相对应，比如，是否符合线性关系，例：输入提高 10db, 输出是否也提高 10db。

进而，仅基于上述参数间接判别其输出信号的还原度，比如：失真越小，频响越平（即：尽可能输入输出之间的变化是趋近于稳定、线性的），则判断输出的声音越好，等等。其中，还原度，是指信号源输入的原帧频谱的形状与输出端的釆样帧频谱形状的一致性，其是音频测量中评测设备和系统整体性能尤其是输出性能的一个重要技术参数。而由于现有技术缺少对输出端的输出信号还原度进行直接测试和判断，导致对设备和系统性能尤其输出性能的测评并不精确。并且，现有的测试方式中还存在以下缺陷：不能对所有关心的连续频率都测试从而导致的测试结果不精确；实际设备和系统应用时 , 实际存在的语音信号都是多频点信号（如：人发声为 N个频点 /频率的各种叠加），而现有的失真测试是使用单频点（即单纯的 200Hz、 400Hz等）进行，与实际的多频点的失真情况并不一致，导致利用该测试的失真来判别还原度也不准确。因而，最终导致现有的音频信号的检测结果并不准确或者说精确度不高，与实际的主观评测差距较大。。发明内容基于现有技术中存在的上述缺陷，本申请的主要目的是提供一种人声语音质量评分方法及系统，以提高音频信号还原度测试的准确度、精确度。进一步，提高了对设备、系统等的音频信号性能测试整体的精确度。为了解决上述现有技术中的技术缺陷，本申请的目的是通过以下技术方案来实现的。本申请提供了一种音频信号还原度测试方法，包括：声源部分、被测系统、音频信号釆集装置、音频信号分析装置；声源部分产生标准的真人语音信号，将所述真人语音信号作为输入语音信号，从声源部分输入到所述被测系统；输入语音信号在被测系统中传递，并作为输出语音信号从被测系统的输出端输出；音频信号釆集装置釆集输出端输出的连续的语音信号，并且，将釆集的输出语音信号传送到音频信号分析装置；音频信号分析装置对输出语音信号的信号流进行切片和分析处理，确定还原度。其中，所述音频信号釆集装置，包括：将釆集的连续语音信号转换成相应的数字信号流，传送给音频信号分析装置进行信号流的切片和分析处理。其中，音频信号分析装置，包括：获取声源部分产生的作为输入语音信号的所述真人语音信号；将所述输入语音信号的信号流，以时间间隔进行切片划分，以将信号流划分成相同时间间隔的片段，每段语音信号组中包含有一个或多个语音信号，对每段语音信号组进行频谱转换，获得每段语音信号组转换后对应的声音特征值。其中，音频信号分析装置，包括：对来自音频信号釆集装置釆集的输出语音信号的信号流，与该输出语音信号的信号流相对应的来自声源部分的所述输入语音信号的信号流进行同步；以与切片所述输入语音信号的信号流相同的时间间隔，对釆集的连续的语音信号的信号流切片划分成相同时间间隔的片段，每段语音信号组中包含有一个或多个语音信号，对每段语音信号组进行频谱转换 , 获得每段语音信号组转换后对应的声音特征值。其中，音频信号分析装置，包括：提取属于所述输入语音信号的信号流中的一语音信号组的片段所对应的声音特征值，以及提取与该片段相应的、属于所述输出语音信号的信号流中的一片段所对应的声音特征值，基于相似性原理，计算和分析两个相应片段的对比分数值；将所有相应的、分属于输入语音信号的信号流和相应的输出语音信号的信号流中的语音信号组的片段的对比分数值，进行统计和 /或平均计算，以确定还原度。本申请还提供了一种人声语音质量评分方法，包括：声源部分产生标准的真人语音信号，将所述真人语音信号作为输入语音信号，从声源部分输入到所述被测系统；输入语音信号在被测系统中传递，并作为输出语音信号从被测系统的输出端输出；釆集输出端输出的连续的语音信号；将釆集的输出语音信号的信号流进行切片和分析处理，确定还原度。其中，还包括：预先获取声源部分产生的作为输入语音信号的所述真人语音信号；将所述输入语音信号的信号流，以时间间隔进行切片划分，以将信号流划分成相同时间间隔的片段，每段语音信号组中包含有一个或多个语音信号，对每段语音信号组进行频谱转换，获得每段语音信号组转换后对应的声音特征值。其中，将釆集的输出语音信号的信号流进行切片和分析处理，包括：对来自音频信号釆集装置釆集的输出语音信号的信号流，与该输出语音信号的信号流相对应的来自声源部分的所述输入语音信号的信号流进行同步；以与切片所述输入语音信号的信号流相同的时间间隔，对釆集的连续的语音信号的信号流切片划分成相同时间间隔的片段，每段语音信号组中包含有一个或多个语音信号，对每段语音信号组进行频谱转换，获得每段语音信号组转换后对应的声音特征值。其中，将釆集的输出语音信号的信号流进行切片和分析处理，确定还原度，包括：提取属于所述输入语音信号的信号流中的一语音信号组的片段所对应的声音特征值，以及提取与该片段相应的、属于所述输出语音信号的信号流中的一片段所对应的声音特征值，基于相似性原理，计算和分析两个相应片段的对比分数值；将所有相应的、分属于输入语音信号的信号流和相应的输出语音信号的信号流中的语音信号组的片段的对比分数值 ,进行统计和 / 或平均计算，以确定还原度。其中，还包括：对输入语音信号的信号流和输出语音信号的信号流以相同的时间间隔进行切片，是以 20ms时间间隔将信号流切片包含一个或多个语音信号的语音信号组的片段。本申请使用真人说话声音与釆集或釆样信号进行比较分析，符合设备及其所在系统（例如：楼宇对讲系统）在实际应用中的情况，而由此能得到与实际应用比较一致的测试结果；而对连续发出的音频信号的切片以连续的帧方式进行处理，包括了对所有关心的连续频率（例如：从在 300Hz~3400Hz 范围的真人说话语音中的全部频率）的测试、以及包括了直接基于连续的切片（帧）判断音频输出性能的还原度，其对安全通信设备及系统的音频测试结果、音频输出性能的判别更准确、更精确。附图说明此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：图 1为本申请的人声语音质量评分系统的一实施例的结构框图；图 2为本申请的人声语音质量评分方法的一实施例的流程图；图 3为现有的音频传输质量测试中对输出端的几个测评参数进行测量的一实施例的示意图。具体实施方式本申请的主要思想在于，检测中，声源釆用真人语音作为输入语音信号，使得在检测中传输的语音其音频性能更符合被测设备或系统的实际应用情况，从而对被检测系统的声音输出特征（比如楼宇对讲系统这类对安全性能有要求的通信设备和通信系统）进行检测或测试所获得的更准确、精确的测试结果；进一步，将连续音频信号进行切片连续处理，与真人输入语音信号进行相似性比较，得到还原度的分数，从而更精确、准确地确定被检测系统的声音输出性能。为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。参见图 1 所示本申请的人声语音质量评分系统的一实施例的结构示意图。该实施例中，以对楼宇对讲系统的音频传输特性进行釆样测试为例，基于釆样信号的频谱分析以及声源信号进行还原度分析，确定该被测系统的声音输出性能。该实施例的检测系统 100中，主要可以包括：声源部分 110、被测系统 120、音频信号釆集装置（釆集器） 130、音频信号分析装置 140。

声源部分 110,产生特定语音信号，此特定语音信号可以为标准的人说话的声音，例如：国际电信联盟远程通信标准化组织 P.501真人语音信号。该真人语音信号作为被检测系统 120的音频传输特性的测试用传输语音。该语音信号可以经由声源部分 110作为输入语音信号（例如：信号源 301 ) , 输入到被测系统 120的输入端，在被测系统 120中传输，最后作为被测输出语音信号由被测系统 120的输出端（例如：喇叭、听筒等 303 )输出。被测系统 120, 在本实施例中，可以是楼宇对讲系统，接收来自声源部分 110的输入语音信号，经过功放装置、被测通路、功放装置，传输该输入语音信号直到被测系统的输出端，由该输出端将经过被测系统 120的该输入的语音信号作为被测输出语音信号而输出。其中，被测通路，可以是被测系统（如被测的楼宇对讲系统 ) 中需要检测的通话通路。音频信号釆集装置 130, 釆集被测系统 120输出的语音信号，把釆集到的语音信号进行转换后传送到音频信号分析装置 140进行处理分析。如在输出端设置传声器 (例：麦克 MIC304 ) 。音频信号釆集装置 130可以包括 MIC、功放、音频信号釆集仪、等等。例如：由 MIC接收被测系统 120的输出端喇叭播放的经过该被测系统 120传输过来的语音信号，具体地，这些从输入端进入的连续语音信号经过被测系统 120后，通过输出端作为输出的连续语音信号被 MIC所接收；连续的语音信号，通过功放，传递到音频信号釆集仪，由音频信号釆集仪将这些连续的语音信号釆集到的并传送给音频信号分析装置 140。进一步，例如：由 MIC接收被测系统 120的输出端喇八播放的经过该被测系统 120传输过来的语音信号，可以由 MIC将输出的语音信号转换成电信号，再由 MIC中的 CPU等处理器进行 A/D转换等处理，形成数字信号，再将对应语音信号的数字信号传送到音频信号分析装置 140进行数字信号的处理和分析。由于声源部分 110的输入语音是连续的，通过被测系统 120输出的语音信号也是连续的，因而，这些由音频信号釆集装置 130釆集到的连续的语音信号所对应的连续的数字信号可以传送到音频信号分析装置 140 音频信号分析装置 140, 接收到从音频信号釆集器 130传送来的连续语音信号，或者说，连续语音信号所转换成的相应的连续数字信号，并进行处理和分析，进而，可以确定语音信号的还原度。具体地，音频信号分析装置 140可以包括内置的处理器 (如 CPU等）或者具有分析处理性能的 PC机等等。当接收到连续语音信号时，通过 CPU对连续的语音信号做转换形成连续的数字信号或者说语音的数字信号流；当接收到已经转换成的连续数字信号时，该连续数字信号即为语音的数字信号流。这里，将连续语音信号对应的数字信号流称为语音信号的信号流。进一步，对语音信号的信号流进行切片，如：将信号流划分成 N "片" 或者说 N "帧" （N为大于等于 0的正整数），再基于这些切片或帧，对釆集到的所有测试所关心的所有连续信号进行处理和分析。在一个实施例中，可以基于哈斯效应的原理，考虑人耳在 20 毫秒（ms ) 的时间段中不会分辨出信号电平频率的先后，选择以时间间隔对信号流切片，每个切片 /帧的时间为 20ms。进而，对每个切片 /帧进行频谱转换，用转换后的切片 /帧的频谱与原始声源部分 110输入端的语音信号的信号流对应的切片的频谱 (即输入信号流的相应帧频谱）进行比较分析，以获得还原度测试 /检测结果。下面将结合图 2 所示本申请的人声语音质量评分方法一实施例的流程图，对本申请的人声语音质量评分系统及其方法进行更具体的描述。在步骤 210, 声源部分 110产生特定语音信号，该语音信号可以是标准的人说话的声音，如：国际电信联盟远程通信标准化组织 P.501真人语音信号。该语音信号作为被测系统 120的音频传输特性的测试用传输语音信号。该语音信号可以经由声源部分 110作为输入语音信号，输入到被测系统 120 的输入端，在被测系统 120中传输，最后作为被测输出语音信号由被测系统 120 的输出端输出。真人语音信号包含所有的交条失真，釆用其作为输入信号，更符合被测系统的使用环境，其测试更准确客观。被测系统 120, 例如：楼宇对讲系统。本步骤的具体实施可以参见对系统中关于声源部分 110及其被测系统 120的描述。在步骤 220, 真人语音信号通过被测系统 120输出的连续语音信号被音频信号釆集装置 130进行釆集，并发给音频信号分析装置 130分析。本步骤的具体实施可以参见对系统中关于音频信号釆集装置 130的描述。在步骤 230, 音频信号分析装置 140对釆集的音频信号（语音信号）进行切片，然后进行频谱转换，与声源部分 110产生的特定语音信号进行比较分析，得到还原度测试结果。本步骤的具体实施可以参见对系统中关于音频信号分析装置 140的描述。下面将在一个实施方式中，对音频信号的切片处理做进一步描述。首先，可以由该音频信号分析装置 140的处理器（CPU )预先将标准语音信号的数字信号，即输入端的声源部分 110产生的输入的连续语音信号对应的数字信号流，进行切片，每段 20ms (即 "帧" ），信号流切片成 N端语音信号组（即 N帧信号）。其中，每段语音信号组（N帧信号）中包含一个或多个语音信号（或称信号参数）， N 帧信号例如： PI , P2, P3....PN, 存储这些切片后的帧，而每帧如 P1 , 由 20ms时间段内数字信号组成。进而，把每帧信号（即该信号流）转换成对应的频谱，并存储。其中每帧经转换后有相应的声音特征值。然后，当该音频信号分析装置 140接收到釆集的信号流时，即接收到传送来的从测试的输出端所釆集的、对应该输入的连续语音信号的信号流时，与该输入信号流进行同步后，同样，以每段 20ms的方式切片成 N段语音信号组，即 N帧。其中，每帧信号即每段语音信号组中包含一个或多个语音信号（或称为信号参数）， N帧信号例如： pi , p2, _P3....pN存储这些切片后的帧，而每帧如 pi , 也由 20ms时间段内数字信号组成。进而，把每帧信号都转换成对应的频谱，并保存。其中每帧经转换后有相应的声音特征值。其中，语音信号 (如：语音信号的数字信号流），可以通过傅里叶变换或者其他声音信号处理实现频谱转换，同时得到各切片的声音特征值。基于前述对应输入语音信号的经过被测系统 120传输后的输出语音信号、与作为输入语音信号的标准语音信号一样，在二者同步后，进行同样的切片和频谱转换，得到每段信号组或者说每帧信号的声音特征值。接着，提取这些声音特征值，即 PI , P2, P3....PN中每帧对应的声音特征值以及 pi , p2, p3....pN中每帧对应的声音特征值，基于诸如相似性原理 / 相似度计算等方式，对每个对应的帧即 P1对应的声音特征值和 pi对应的声音特征值进行相似度计算或相似性原理分析，确定还原度。如： P1特征值与 pi特征值之间的相似度计算，得到相似度值 0~1 ( 0相似或 100%相似），为了更清晰的确定分析结果，可以对该值的范围同乘以倍数如 100, 釆用百分制，即 0~100分，从而每帧都能得到一个对比分析的分数。例如： P1的特征值、 B、 C、 D与 pi的特征值3、 b、 c，、 d之间 #丈一一匹配的相似性对比，得出 C不同于 c'，只有 3个相似，为 3/4*100=75分。又例如： P1的特征值为一维数组 [A、 B、 C、 D] , pi的特征值为一维数组 [a、 b、 c、 d] , 排列都是一维数组，并且， A~D、 a~d编号都为从小到大，则按相似性原理分析该排列趋势、动向相似 /相同，因而， P1与 pi的频语对比分数为 ( 1/2+1/2 ) * 100=100分。最后，根据每帧的分数，确定所有帧的分数，从而确定还原度，即输出声音对输入声音的还原程度（与输入的相似程度）。例如：统计所有帧的分数并获得该输出语音信号的平均得分，该平均得分就是该被测系统 120的还原度得分。进一步，在信号流中还可能存在间隙帧，而由于间隙帧不包含语音信息，为了减少干扰，可以把间隙帧的分数删除，而只考虑属于有效语音信号的帧的分数，然后统计有效的帧的分数得到该输出信号的平均得分，该平均得分就是该被测系统 120的还原度得分。利用本申请的方案，通过在检测过程中检测用的声源信号釆用真人语音，以保证被测系统在检测过程中处于实际工作环境，并且，由于信号是真人语音，其失真包含所有交调失真；进而，通过对信号的切片处理，包括了对连续频率的测试，符合真人语音的信号状况，更能充分显现被测系统的声音输出特性，因此，直接对还原度的连续信号切片检测方式，能获得更准确、更精确的被测系统、设备的检测结果。需要说明的是，术语"包括"、 "包含"或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句 "包括一个 ... ... "限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

权利要求书

1、一种人声语音质量评分系统，至少包括：声源部分、被测系统、音频信号釆集装置、音频信号分析装置；声源部分产生标准的真人语音信号，将所述真人语音信号作为输入语音信号，从声源部分输入到所述被测系统；输入语音信号在被测系统中传递，并作为输出语音信号从被测系统的输出端输出；音频信号釆集装置釆集输出端输出的连续的语音信号，并且，将釆集的输出语音信号传送到音频信号分析装置；音频信号分析装置对输出语音信号的信号流进行切片和分析处理，确定还原度。

2、如权利要求 1所述的系统，其特征在于，所述音频信号釆集装置，包括：将釆集的连续语音信号转换成相应的数字信号流，传送给音频信号分析装置进行信号流的切片和分析处理。

3、如权利要求 1或 2所述的系统，其特征在于，音频信号分析装置，包括：获取声源部分产生的作为输入语音信号的所述真人语音信号；将所述输入语音信号的信号流，以时间间隔进行切片划分，以将信号流划分成相同时间间隔的片段,每段语音信号组中包含有一个或多个语音信号 , 对每段语音信号组进行频谱转换，获得每段语音信号组转换后对应的声音特征值。

4、如权利要求 3所述的系统，其特征在于，音频信号分析装置，包括：对来自音频信号釆集装置釆集的输出语音信号的信号流，与该输出语音信号的信号流相对应的来自声源部分的所述输入语音信号的信号流进行同步; 以与切片所述输入语音信号的信号流相同的时间间隔，对釆集的连续的语音信号的信号流切片划分成相同时间间隔的片段，每段语音信号组中包含有一个或多个语音信号，对每段语音信号组进行频谱转换，获得每段语音信号组转换后对应的声音特征值。

5、如权利要求 4所述的系统，其特征在于，音频信号分析装置，包括：提取属于所述输入语音信号的信号流中的一语音信号组的片段所对应的声音特征值，以及提取与该片段相应的、属于所述输出语音信号的信号流中的一片段所对应的声音特征值，基于相似性原理，计算和分析两个相应片段的对比分数值；将所有相应的、分属于输入语音信号的信号流和相应的输出语音信号的信号流中的语音信号组的片段的对比分数值，进行统计和 /或平均计算，以确定还原度。

6、一种人声语音质量评分方法，其特征在于，包括：声源部分产生标准的真人语音信号，将所述真人语音信号作为输入语音信号，从声源部分输入到所述被测系统；输入语音信号在被测系统中传递，并作为输出语音信号从被测系统的输出端输出；釆集输出端输出的连续的语音信号；将釆集的输出语音信号的信号流进行切片和分析处理，确定还原度。

7、如权利要求 6所述的方法，其特征在于，还包括：预先获取声源部分产生的作为输入语音信号的所述真人语音信号；将所述输入语音信号的信号流，以时间间隔进行切片划分，以将信号流划分成相同时间间隔的片段,每段语音信号组中包含有一个或多个语音信号 , 对每段语音信号组进行频谱转换，获得每段语音信号组转换后对应的声音特征值。

8、如权利要求 7所述的方法，其特征在于，将釆集的输出语音信号的信号流进行切片和分析处理，包括：对来自音频信号釆集装置釆集的输出语音信号的信号流，与该输出语音信号的信号流相对应的来自声源部分的所述输入语音信号的信号流进行同步；以与切片所述输入语音信号的信号流相同的时间间隔，对釆集的连续的语音信号的信号流切片划分成相同时间间隔的片段，每段语音信号组中包含有一个或多个语音信号，对每段语音信号组进行频谱转换，获得每段语音信号组转换后对应的声音特征值。

9、如权利要求 8所述的方法，其特征在于，将釆集的输出语音信号的信号流进行切片和分析处理，确定还原度，包括：提取属于所述输入语音信号的信号流中的一语音信号组的片段所对应的声音特征值，以及提取与该片段相应的、属于所述输出语音信号的信号流中的一片段所对应的声音特征值，基于相似性原理，计算和分析两个相应片段的对比分数值；将所有相应的、分属于输入语音信号的信号流和相应的输出语音信号的信号流中的语音信号组的片段的对比分数值，进行统计和 /或平均计算，以确定还原度。

10、如权利要求 8所述的方法，其特征在于，还包括：对输入语音信号的信号流和输出语音信号的信号流以相同的时间间隔进行切片，是以 20ms 时间间隔将信号流切片包含一个或多个语音信号的语音信号组的片段。