JPH0120440B2 - - Google Patents
Info
- Publication number
- JPH0120440B2 JPH0120440B2 JP57171632A JP17163282A JPH0120440B2 JP H0120440 B2 JPH0120440 B2 JP H0120440B2 JP 57171632 A JP57171632 A JP 57171632A JP 17163282 A JP17163282 A JP 17163282A JP H0120440 B2 JPH0120440 B2 JP H0120440B2
- Authority
- JP
- Japan
- Prior art keywords
- consonant
- section
- frames
- speech
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 238000000034 method Methods 0.000 claims description 35
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 22
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000000295 complement effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Description
産業上の利用分野
本発明は音声認識における音声セグメンテーシ
ヨン法(連続発声された音声において音素区間を
抽出する方法)に関するものである。 従来例の構成とその問題点 人間によつて発声された音声を自動的に認識す
る音声自動認識装置は人間から電子計算機や各種
機械へデータや命令を与える手段として非常に有
効と考えられる。 従来研究あるいは発表されている音声自動認識
システムの動作原理としてはパタンマツチング法
が多く採用されている。この方法は認識される必
要がある全種類の単語に対して標準パターンをあ
らかじめ記憶しておき、入力される未知の入力パ
ターンと比較することによつて一致の度合(以下
類似度と呼ぶ)を計算し、最大一致が得られる標
準パターンと同一の単語であると判定するもので
ある。このパタンマツチング法では認識されるべ
き全ての単語に対して標準パターンを用意しなけ
ればならないため、発声者が変つた場合には新し
く標準パターンを入力して記憶させる必要があ
る。従つて日本全国の都市名のように数百種類以
上の単語を認識対象とするような場合、全種類の
単語を発声して登録するには膨大な時間と労力を
必要とし、又登録に要するメモリー容易に膨大に
なることが予想される。さらに入力パターンと標
準パターンのパターンマツチングに要する時間も
単語数が多くなると長くなつてしまう欠点があ
る。 これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大巾に
少なくて済みパタンマツチングに要する時間が短
くでき、辞書の内容変更も容易であるという特長
を持つている。この方法の例は「音声スペクトル
の概略形とその動特性を利用した単語音声認識シ
ステム」三輪他、日本音響学会誌34(1978)に述
べてある。 この方法における単語認識システムのブロツク
図を第1図に示す。まず、あらかじめ多数話者の
音声を10msの分析区間毎に音響分析部1によつ
てフイルタバンクを用いて分析し、得られたスペ
クトル情報をもとに特徴抽出部2によつて特徴パ
ラメータを求める。この特徴パラメータから|a
|、|o|等の母音や、|n|、|b|等の子音に
代表される音素毎又は音素グループ毎に標準パタ
ーンを作成して標準パターン登録部5に登録して
おく。次に、入力された不等定話者の音声を、同
様に分析区間毎に音響分析部1によつて分析し、
特徴抽出部2によつて特徴パラメータを求める。
この特徴パラメータと標準パターン登録部5の標
準パターンを用いてセグメンテーシヨン部3にお
いて母音と子音の区切り作業(以下、セグメンテ
ーシヨンと呼ぶ)を行なう。この結果をもとに、
音素判別部4において、標準パターンと照合する
ことによつて、最も類似度の高い標準パターンに
該当する音素をその区間における音素と決定す
る。最後に、この結果作成した音素の時系列(以
下音素系列と呼ぶ)を単語認識部6に送り、同様
に音素系列で表現された単語辞書7と最も類似度
の大きい項目に該当する単語を認識結果として出
力する。 以上の全体の動作からわかるように、セグメン
テーシヨン部3においてセグメンテーシヨンを誤
つた場合にはあるべき音素を見過ごしてしまつた
り(音素の脱落)、実際には音素のないところに
別の音素が入り込んでしまう(音素付加)ことに
なる。これらの誤りを発生した場合、単語を音素
系列で表現した時に音素の脱落や付加によつて全
く関係のない他の単語に似かよつてしまうことに
よつて誤認識してしまう危険性が高くなる。 このように、音素認識を基本に単語認識を行う
方法においてセグメンテーシヨンは最も重要な作
業であり、セグメンテーシヨンの精度によつて単
語認識システムの性能は大きく左右される。 ところで従来行われていたセグメンテーシヨン
法は、セグメンテーシヨン用のパラメータとし
て、音声の全帯域のパワー情報を用い、その時間
的な動きからパワーデイツプを求め、デイツプ区
間を子音と決めていた。また、全帯域パワー情報
のかわりにスペクトルの傾斜を使用したり、両方
を併用する方法もある。(例えば「音声スペクト
ルの概略形とその動的特性を利用した単語音声認
識システム」三輪他、日本音響学会誌34、1978) これらの方法は、いずれもパラメータデイツプ
を利用する方法であり、以下の問題点があつた。 (a) 全帯域パワーやスペクトルの傾斜では検出で
きない子音があつたり、母音その他の区間に対
する子音の付加が多い。 (b) パラメータの時間的動きのみでは検出できな
い子音があり、これらは脱落してしまう。 発明の目的 本発明は上記従来の欠点を解消し、有声子音か
ら無声子音までの広い範囲の子音のセグメンテー
シヨンを高い精度で行うことができる音声セグメ
ンテーシヨン法を提供することを目的とする。 発明の構成 日本語は、本質的に母音と子音が交互に組合わ
せられて単語が構成されている。撥音を除く子音
と他の子音が連続することはない。したがつて、
日本語を認識する場合、母音と子音を精度よく分
離することが、音声認識率の向上に大きく貢献す
る。本発明は、次に示す(1)の情報に(2)〜(3)の情報
を効率よく組合わせて、単語中の子音区間を母音
など他の区間から精度よく分離するようにしたも
のである。 (1) 音声信号の低域パワーと高域パワーの時間的
な動きによつて生ずるパワーデイツプ情報。 (2) フレームごと(1フレームは10msecとして
いる)の有声・無声判定の結果。 (3) フレームごとの音素認識の結果。 本発明では、上記従来例の欠点aに対しては、
低域パワーと高域のパワー情報をパラメータと
し、これを効果的に使うことによつて解決し、ま
た欠点bに対しては、パラメータの時間的な動き
の他に、有声・無声判定結果、フレームごとの音
素認識結果を併用することによつて解決してい
る。 実施例の説明 本発明の実施例について述べる。 本実施例においては、低域、高域パワー情報、
フレームごとの音素認識結果、有声有無判定結果
を併用することによつて精度の高いセグメンテー
シヨン法を実現している。 有声・無声判定は無声摩擦音など無声性が非常
に高く、しかも持続時間が比較的長い音素に対し
て有効である。低域パワーデイツプは持続時間が
短く、しかも無声性が強い音素(無声破裂音な
ど)に対して有効である。高域パワーデイツプは
持続時間が短く、しかも有声性が強い音素(有声
破裂音、流音など)に対して有効である。また、
フレームごとの認識結果は、パワーデイツプが出
現しにくい鼻音や持続時間が長い有声子音(撥
音)に対して有効である。 このように、これらの情報は相補的な性質を有
しており、組合わせて使用することによつて日本
語のほとんどの子音を精度よく検出することがで
きる。 以下、本実施例による方法を詳細に説明する。 まず低域、高域パワー情報を利用した第1の子
音区間検出法について述べる。 本実施例においては、セグメンテーシヨン用パ
ラメータとして音声スペクトルの低域パワーと高
域パワーを併用する。前者は母音と無声子音を判
別するのに有効であり、後者は母音と有声子音の
判別に有効である。低域パワーは音声信号を250
〜600Hzの帯域フイルタに通し、それをフレーム
ごとに整流して得る。また高域パワーは1500〜
4000Hzの帯域フイルタによつて同様にして得る。 第2図は低域または高域パワー情報からデイツ
プを抽出する方法を示している。aはフイルタの
整流出力を時系列でプロツトしたものであり、子
音区間の大きなデイツプの他に細かいデイツプが
数多く左右する。後者は不要なデイツプであるの
で平滑化を行なつて取除く(第2図b)。次にb
の信号を微分することによつてcの信号を得る。
そしてcの信号から最大値と最小値間の大きさp
と、最小値から最大値までの時間長(フレーム
数)Lを求める。p>pnio、L<Lnaxの条件を適
用し、条件を満足するデイツプに対し、cで最小
値から最大値までの区間をデイツプ区間(子音候
補)とする。 この方法はパワーデイツプの大きさの計算をパ
ワーの変化速度の検出に置きかえ、その最大値、
最小値を計算することによつて簡易にしかも高い
精度でデイツプ区間を検出することができる。 次に低域パワーデイツプ、高域パワーデイツプ
の一方または両方によつて検出された子音候補の
うちから、子音区間を特定する方法を述べる。低
域パワー情報から得られた前述の方法によるデイ
ツプの大きさをpl、高域パワー情報から得られた
それをphとする。低域情報による子音候補区間と
高域情報による子音候補区間が重畳している場
合、2次元座標(pl、ph)を第3図に示す判別図
に適用する。(pl、ph)が判別図上で付加区間
(斜線の内側)に位置した場合、その子音候補は
棄却する。(pl、ph)が子音区間に位置した場合、
低域パワーデイツプ区間と高域パワーデイツプ区
間の論理和に相当する部分を子音として特定す
る。低域と高域情報による子音候補区間に重畳が
ない場合、一方をo(たとえば(pl、o))として
判別図に適用する。 このように相補的な性質を持つた低域パワー情
報と高域パワー情報をパラメータとし、その各々
によつて子音候補区間を探し、さらにそれを判別
図に適用することによつて子音区間を決定する方
法は、従来の方法に比較して、有声から無声まで
広い範囲の子音に有効であり、高い精度で子音区
間を検出することができる。特に有声子音の|b
|、|d|、|η|、|r|、音声子音|h|、有
声無声両方の性質を示す|z|に対して有効であ
る。 次にフレームごとの音素認識結果を利用した第
2の子音区間検出方法について述べる。上に述べ
たデイツプ情報を利用したセグメンテーシヨン法
は鼻音区間の検出率が73%程度であり、他の有声
子音に比べて検出率が充分とはいえない。また撥
音は持続時間が長すぎるため、デイツプ情報は利
用できないという弱点がある。本実施例ではフレ
ームごとの音素認識結果を利用することによつ
て、上記の弱点をカバーしている。 本実施例では音素認識は、先ず各フレームごと
に行ない、同じ音素として認識されたフレームを
結合し、その区間の音素認識結果としている。 フレームごとの音素認識はいろいろな方法が考
えられるが、本実施例では、パラメータとして
LPC分析(自己相関法使用)で得たLPCケプス
トラム係数Ci(i=1〜d)を使用し、次のよう
にして行なつている。 音素kに対する標準パターンとして、平均値
μk、共分散マトリツクスΣkとすると、あるフレー
ムが音素kである確率Pkは次式で求められる。 (添字Tは転置を添字−1は逆行列を表わす) 対数尤度Lkは Lk=−1/2(C−μk)T・Σk -1・(C−μk)−Ak (式2) ただし
ヨン法(連続発声された音声において音素区間を
抽出する方法)に関するものである。 従来例の構成とその問題点 人間によつて発声された音声を自動的に認識す
る音声自動認識装置は人間から電子計算機や各種
機械へデータや命令を与える手段として非常に有
効と考えられる。 従来研究あるいは発表されている音声自動認識
システムの動作原理としてはパタンマツチング法
が多く採用されている。この方法は認識される必
要がある全種類の単語に対して標準パターンをあ
らかじめ記憶しておき、入力される未知の入力パ
ターンと比較することによつて一致の度合(以下
類似度と呼ぶ)を計算し、最大一致が得られる標
準パターンと同一の単語であると判定するもので
ある。このパタンマツチング法では認識されるべ
き全ての単語に対して標準パターンを用意しなけ
ればならないため、発声者が変つた場合には新し
く標準パターンを入力して記憶させる必要があ
る。従つて日本全国の都市名のように数百種類以
上の単語を認識対象とするような場合、全種類の
単語を発声して登録するには膨大な時間と労力を
必要とし、又登録に要するメモリー容易に膨大に
なることが予想される。さらに入力パターンと標
準パターンのパターンマツチングに要する時間も
単語数が多くなると長くなつてしまう欠点があ
る。 これに対して、入力音声を音素単位に分けて音
素の組合せとして認識し(以下音素認識と呼ぶ)
音素単位で表記された単語辞書との類似度を求め
る方法は単語辞書に要するメモリー容量が大巾に
少なくて済みパタンマツチングに要する時間が短
くでき、辞書の内容変更も容易であるという特長
を持つている。この方法の例は「音声スペクトル
の概略形とその動特性を利用した単語音声認識シ
ステム」三輪他、日本音響学会誌34(1978)に述
べてある。 この方法における単語認識システムのブロツク
図を第1図に示す。まず、あらかじめ多数話者の
音声を10msの分析区間毎に音響分析部1によつ
てフイルタバンクを用いて分析し、得られたスペ
クトル情報をもとに特徴抽出部2によつて特徴パ
ラメータを求める。この特徴パラメータから|a
|、|o|等の母音や、|n|、|b|等の子音に
代表される音素毎又は音素グループ毎に標準パタ
ーンを作成して標準パターン登録部5に登録して
おく。次に、入力された不等定話者の音声を、同
様に分析区間毎に音響分析部1によつて分析し、
特徴抽出部2によつて特徴パラメータを求める。
この特徴パラメータと標準パターン登録部5の標
準パターンを用いてセグメンテーシヨン部3にお
いて母音と子音の区切り作業(以下、セグメンテ
ーシヨンと呼ぶ)を行なう。この結果をもとに、
音素判別部4において、標準パターンと照合する
ことによつて、最も類似度の高い標準パターンに
該当する音素をその区間における音素と決定す
る。最後に、この結果作成した音素の時系列(以
下音素系列と呼ぶ)を単語認識部6に送り、同様
に音素系列で表現された単語辞書7と最も類似度
の大きい項目に該当する単語を認識結果として出
力する。 以上の全体の動作からわかるように、セグメン
テーシヨン部3においてセグメンテーシヨンを誤
つた場合にはあるべき音素を見過ごしてしまつた
り(音素の脱落)、実際には音素のないところに
別の音素が入り込んでしまう(音素付加)ことに
なる。これらの誤りを発生した場合、単語を音素
系列で表現した時に音素の脱落や付加によつて全
く関係のない他の単語に似かよつてしまうことに
よつて誤認識してしまう危険性が高くなる。 このように、音素認識を基本に単語認識を行う
方法においてセグメンテーシヨンは最も重要な作
業であり、セグメンテーシヨンの精度によつて単
語認識システムの性能は大きく左右される。 ところで従来行われていたセグメンテーシヨン
法は、セグメンテーシヨン用のパラメータとし
て、音声の全帯域のパワー情報を用い、その時間
的な動きからパワーデイツプを求め、デイツプ区
間を子音と決めていた。また、全帯域パワー情報
のかわりにスペクトルの傾斜を使用したり、両方
を併用する方法もある。(例えば「音声スペクト
ルの概略形とその動的特性を利用した単語音声認
識システム」三輪他、日本音響学会誌34、1978) これらの方法は、いずれもパラメータデイツプ
を利用する方法であり、以下の問題点があつた。 (a) 全帯域パワーやスペクトルの傾斜では検出で
きない子音があつたり、母音その他の区間に対
する子音の付加が多い。 (b) パラメータの時間的動きのみでは検出できな
い子音があり、これらは脱落してしまう。 発明の目的 本発明は上記従来の欠点を解消し、有声子音か
ら無声子音までの広い範囲の子音のセグメンテー
シヨンを高い精度で行うことができる音声セグメ
ンテーシヨン法を提供することを目的とする。 発明の構成 日本語は、本質的に母音と子音が交互に組合わ
せられて単語が構成されている。撥音を除く子音
と他の子音が連続することはない。したがつて、
日本語を認識する場合、母音と子音を精度よく分
離することが、音声認識率の向上に大きく貢献す
る。本発明は、次に示す(1)の情報に(2)〜(3)の情報
を効率よく組合わせて、単語中の子音区間を母音
など他の区間から精度よく分離するようにしたも
のである。 (1) 音声信号の低域パワーと高域パワーの時間的
な動きによつて生ずるパワーデイツプ情報。 (2) フレームごと(1フレームは10msecとして
いる)の有声・無声判定の結果。 (3) フレームごとの音素認識の結果。 本発明では、上記従来例の欠点aに対しては、
低域パワーと高域のパワー情報をパラメータと
し、これを効果的に使うことによつて解決し、ま
た欠点bに対しては、パラメータの時間的な動き
の他に、有声・無声判定結果、フレームごとの音
素認識結果を併用することによつて解決してい
る。 実施例の説明 本発明の実施例について述べる。 本実施例においては、低域、高域パワー情報、
フレームごとの音素認識結果、有声有無判定結果
を併用することによつて精度の高いセグメンテー
シヨン法を実現している。 有声・無声判定は無声摩擦音など無声性が非常
に高く、しかも持続時間が比較的長い音素に対し
て有効である。低域パワーデイツプは持続時間が
短く、しかも無声性が強い音素(無声破裂音な
ど)に対して有効である。高域パワーデイツプは
持続時間が短く、しかも有声性が強い音素(有声
破裂音、流音など)に対して有効である。また、
フレームごとの認識結果は、パワーデイツプが出
現しにくい鼻音や持続時間が長い有声子音(撥
音)に対して有効である。 このように、これらの情報は相補的な性質を有
しており、組合わせて使用することによつて日本
語のほとんどの子音を精度よく検出することがで
きる。 以下、本実施例による方法を詳細に説明する。 まず低域、高域パワー情報を利用した第1の子
音区間検出法について述べる。 本実施例においては、セグメンテーシヨン用パ
ラメータとして音声スペクトルの低域パワーと高
域パワーを併用する。前者は母音と無声子音を判
別するのに有効であり、後者は母音と有声子音の
判別に有効である。低域パワーは音声信号を250
〜600Hzの帯域フイルタに通し、それをフレーム
ごとに整流して得る。また高域パワーは1500〜
4000Hzの帯域フイルタによつて同様にして得る。 第2図は低域または高域パワー情報からデイツ
プを抽出する方法を示している。aはフイルタの
整流出力を時系列でプロツトしたものであり、子
音区間の大きなデイツプの他に細かいデイツプが
数多く左右する。後者は不要なデイツプであるの
で平滑化を行なつて取除く(第2図b)。次にb
の信号を微分することによつてcの信号を得る。
そしてcの信号から最大値と最小値間の大きさp
と、最小値から最大値までの時間長(フレーム
数)Lを求める。p>pnio、L<Lnaxの条件を適
用し、条件を満足するデイツプに対し、cで最小
値から最大値までの区間をデイツプ区間(子音候
補)とする。 この方法はパワーデイツプの大きさの計算をパ
ワーの変化速度の検出に置きかえ、その最大値、
最小値を計算することによつて簡易にしかも高い
精度でデイツプ区間を検出することができる。 次に低域パワーデイツプ、高域パワーデイツプ
の一方または両方によつて検出された子音候補の
うちから、子音区間を特定する方法を述べる。低
域パワー情報から得られた前述の方法によるデイ
ツプの大きさをpl、高域パワー情報から得られた
それをphとする。低域情報による子音候補区間と
高域情報による子音候補区間が重畳している場
合、2次元座標(pl、ph)を第3図に示す判別図
に適用する。(pl、ph)が判別図上で付加区間
(斜線の内側)に位置した場合、その子音候補は
棄却する。(pl、ph)が子音区間に位置した場合、
低域パワーデイツプ区間と高域パワーデイツプ区
間の論理和に相当する部分を子音として特定す
る。低域と高域情報による子音候補区間に重畳が
ない場合、一方をo(たとえば(pl、o))として
判別図に適用する。 このように相補的な性質を持つた低域パワー情
報と高域パワー情報をパラメータとし、その各々
によつて子音候補区間を探し、さらにそれを判別
図に適用することによつて子音区間を決定する方
法は、従来の方法に比較して、有声から無声まで
広い範囲の子音に有効であり、高い精度で子音区
間を検出することができる。特に有声子音の|b
|、|d|、|η|、|r|、音声子音|h|、有
声無声両方の性質を示す|z|に対して有効であ
る。 次にフレームごとの音素認識結果を利用した第
2の子音区間検出方法について述べる。上に述べ
たデイツプ情報を利用したセグメンテーシヨン法
は鼻音区間の検出率が73%程度であり、他の有声
子音に比べて検出率が充分とはいえない。また撥
音は持続時間が長すぎるため、デイツプ情報は利
用できないという弱点がある。本実施例ではフレ
ームごとの音素認識結果を利用することによつ
て、上記の弱点をカバーしている。 本実施例では音素認識は、先ず各フレームごと
に行ない、同じ音素として認識されたフレームを
結合し、その区間の音素認識結果としている。 フレームごとの音素認識はいろいろな方法が考
えられるが、本実施例では、パラメータとして
LPC分析(自己相関法使用)で得たLPCケプス
トラム係数Ci(i=1〜d)を使用し、次のよう
にして行なつている。 音素kに対する標準パターンとして、平均値
μk、共分散マトリツクスΣkとすると、あるフレー
ムが音素kである確率Pkは次式で求められる。 (添字Tは転置を添字−1は逆行列を表わす) 対数尤度Lkは Lk=−1/2(C−μk)T・Σk -1・(C−μk)−Ak (式2) ただし
【式】
標準パターンは、あらかじめ目視によつて音素
がラベル付されている多くのデータを使用して作
成しておく。 標準パターンとして5母音|a|、|i|、|u
|、|e|、|o|および|N|に対するものを用
意する。|N|は鼻音グループを表わし、|m|、
|n|および撥音をまとめたものである。音声区
間の全フレームに対して、(式2)を適用し、フ
レームごとに尤度が一番大きくなる音素と、2位
となる音素を求める。これが母音と鼻音を対象に
したフレームごとの音素認識の結果である。 このように全てのフレームに5母音と鼻音のパ
ターンを適用すると、鼻音|m|、|n|、撥音
に相当する区間の各フレームは鼻音|N|として
認識され、その他スペクトルパターンが鼻音に類
似している音素(|b|、|d|、|η|、|r|)
も|N|として認識される確率が高い。したがつ
て|N|として認識される区間を参照すれば、デ
イツプが存在しない区間においても、有声子音の
検出を行なうことができる。本実施例では|N|
と認識されたフレームが、尤度第2位のフレーム
も含めて5フレーム以上連続する区間を子音区間
としている。 第4図はフレームごとの認識結果を尤度第1位
と第2位の音素について例示したものである。こ
の例では第1〜第5フレームが|a|、第6〜第
10フレームが|o|、第17フレーム以降が|u|
と、音素が決定される。第11〜16フレームは、第
2位の尤度も含めてNが6フレーム連続している
ので、子音区間としてセグメンテーシヨンされ
る。子音区間に対しては子音の標準パターンを適
用して、後に音素の決定を行なう。 以上述べた鼻音として認識されたフレームの連
続性を見ることによるセグメンテーシヨン法は、
|m|、|n|、揆音、|b|、|d|、|η|に対
し有効である。 次に有声・無声判定結果を利用した第3の子音
区間検出方法について述べる。持続時間が長い無
声子音|s|、|c|、|h|や|z|は持続時間
がLnax以上となり、デイツプが検出できない場合
がある。この場合、フレームごとの有声・無声判
定結果の時間的連続性によつてセグメンテーシヨ
ンを行なうことができる。 有声・無声判定の方法は零交差波、スペクトル
の傾き、第1次の自己相関係数の値などを利用す
る方法があり、どの方法でもよい。本実施例で
は、有声・無声の標準パターンをそれぞれ用意
し、式(2)を適用することによつて精度良い判定を
行なつている。 本実施例においては、無声区間が連続して7フ
レーム以上続く区間は子音区間としてセグメンテ
ーシヨンを行なう。 次に上述した第1〜第3の子音区間の検出法の
適用例について述べる。 第1〜第3の子音区間の検出法の組合わせとし
ては種々可能であるが、低域、高域パワー情報を
利用した第1の子音区間検出法に、フレームごと
の音素認識結果を利用した第2の子音区間検出法
と有声無声判定結果を利用した第3の子音区間検
出法のうちのいずれか一方又は両方を組合わせる
のが望ましい。 ここでは第3、第1、第2の子音区間検出法を
この順に適用した例を示す。 適用法は以下に示す通りである。 (i) 音声区間に対し、先ず第3のルール(と記
す)を適用し、無声区間が7フレーム以上連続
する区間を子音区間とする。 (ii) (i)の区間を除去した区間に第1のルール(
と記す)を適用し、デイツプによる子音区間を
求める。 (iii) 有声区間に対して第2のルール(と記す)
を適用し、|N|と認識された区間が5フレー
ム以上連続する区間を子音区間とする。 (iv) 上記(i)〜(iii)で求められた全区間を子音区間と
する。ただし、(i)と(ii)または(ii)と(iii)のルールに
よつて区間が重畳して求められた場合、原則と
してデイツプによつて求められた区間を優先す
る。 男女各10名それぞれが発声した212単語を使用
して本実施例の評価を行なつた。この単語セツト
は、目視によつてあらかじめ子音区間にラベル付
けしてある評価用のデータである。第1表に評価
結果(付加率4.7%)を音素ごとに示す。
がラベル付されている多くのデータを使用して作
成しておく。 標準パターンとして5母音|a|、|i|、|u
|、|e|、|o|および|N|に対するものを用
意する。|N|は鼻音グループを表わし、|m|、
|n|および撥音をまとめたものである。音声区
間の全フレームに対して、(式2)を適用し、フ
レームごとに尤度が一番大きくなる音素と、2位
となる音素を求める。これが母音と鼻音を対象に
したフレームごとの音素認識の結果である。 このように全てのフレームに5母音と鼻音のパ
ターンを適用すると、鼻音|m|、|n|、撥音
に相当する区間の各フレームは鼻音|N|として
認識され、その他スペクトルパターンが鼻音に類
似している音素(|b|、|d|、|η|、|r|)
も|N|として認識される確率が高い。したがつ
て|N|として認識される区間を参照すれば、デ
イツプが存在しない区間においても、有声子音の
検出を行なうことができる。本実施例では|N|
と認識されたフレームが、尤度第2位のフレーム
も含めて5フレーム以上連続する区間を子音区間
としている。 第4図はフレームごとの認識結果を尤度第1位
と第2位の音素について例示したものである。こ
の例では第1〜第5フレームが|a|、第6〜第
10フレームが|o|、第17フレーム以降が|u|
と、音素が決定される。第11〜16フレームは、第
2位の尤度も含めてNが6フレーム連続している
ので、子音区間としてセグメンテーシヨンされ
る。子音区間に対しては子音の標準パターンを適
用して、後に音素の決定を行なう。 以上述べた鼻音として認識されたフレームの連
続性を見ることによるセグメンテーシヨン法は、
|m|、|n|、揆音、|b|、|d|、|η|に対
し有効である。 次に有声・無声判定結果を利用した第3の子音
区間検出方法について述べる。持続時間が長い無
声子音|s|、|c|、|h|や|z|は持続時間
がLnax以上となり、デイツプが検出できない場合
がある。この場合、フレームごとの有声・無声判
定結果の時間的連続性によつてセグメンテーシヨ
ンを行なうことができる。 有声・無声判定の方法は零交差波、スペクトル
の傾き、第1次の自己相関係数の値などを利用す
る方法があり、どの方法でもよい。本実施例で
は、有声・無声の標準パターンをそれぞれ用意
し、式(2)を適用することによつて精度良い判定を
行なつている。 本実施例においては、無声区間が連続して7フ
レーム以上続く区間は子音区間としてセグメンテ
ーシヨンを行なう。 次に上述した第1〜第3の子音区間の検出法の
適用例について述べる。 第1〜第3の子音区間の検出法の組合わせとし
ては種々可能であるが、低域、高域パワー情報を
利用した第1の子音区間検出法に、フレームごと
の音素認識結果を利用した第2の子音区間検出法
と有声無声判定結果を利用した第3の子音区間検
出法のうちのいずれか一方又は両方を組合わせる
のが望ましい。 ここでは第3、第1、第2の子音区間検出法を
この順に適用した例を示す。 適用法は以下に示す通りである。 (i) 音声区間に対し、先ず第3のルール(と記
す)を適用し、無声区間が7フレーム以上連続
する区間を子音区間とする。 (ii) (i)の区間を除去した区間に第1のルール(
と記す)を適用し、デイツプによる子音区間を
求める。 (iii) 有声区間に対して第2のルール(と記す)
を適用し、|N|と認識された区間が5フレー
ム以上連続する区間を子音区間とする。 (iv) 上記(i)〜(iii)で求められた全区間を子音区間と
する。ただし、(i)と(ii)または(ii)と(iii)のルールに
よつて区間が重畳して求められた場合、原則と
してデイツプによつて求められた区間を優先す
る。 男女各10名それぞれが発声した212単語を使用
して本実施例の評価を行なつた。この単語セツト
は、目視によつてあらかじめ子音区間にラベル付
けしてある評価用のデータである。第1表に評価
結果(付加率4.7%)を音素ごとに示す。
【表】
表には音素の個数と、、、の順にルール
を適用した場合の各段階での認識率が示してあ
る。右の列が最終的な認識率であり、各音素とも
に90%以上の高いセグメンテーシヨン率が得られ
ていることがわかる。個別に見ると、|s|と|
h|、|z|の一部に対してはルールが有効で
あり、撥音、|m|、|n|に対してはルールが
有効である。その他の音素に対してはルールが
有効である。ほとんどの音素に対して、3つのル
ールを併用することによつて各段階で認識率が向
上している。この結果は3つのルールを併用する
ことによる有効性を実証している。 本実施例は従来例に比較すると、有声子音から
無声子音まで広い範囲の子音のセグメンテーシヨ
ンを高い精度で行なうことができることが特長で
ある。たとえば従来例では鼻音のセグメンテーシ
ヨン率が非常に低かつたのに対し、本実施例では
90%以上の結果が得られ、|r|、|η|、|h|、
|z|に対しても数%以上向上している。他の音
素に対しても全て1%内外の向上率を得ている。 なお本実施例においては、全情報を使用し、
、、の順序で適用する例を示したが、と
またはとのみを使用してもかなり良い結果
を得ることができる。また適用順序も固定された
ものではない。即ちまたはの一方または両方
と、とを順不同に組合わせることができる。 発明の効果 以上のように本発明は音声スペクトルの低域パ
ワーと高域パワーの各々の時間的な変動によつて
生ずるパワーデイツプを検出し、各々のパワーデ
イツプの大きさを併用することによつて子音区間
を検出する第1の検出方法に、全音声区間に対
し、その全てのフレーム(1フレーム長は例えば
10msec分のデータとする)を母音または鼻音と
して認識し、鼻音として認識されたフレームが一
定数以上連続するとき、その区間を子音区間とし
て検出する第2の検出方法と、全音声区間に対
し、その全てのフレームに対して有声・無声の判
定を行ない、無声フレームが一定数以上連続する
とき、その区間を子音として検出する第3の検出
方法との少なくともいずれかを組合わせることに
より子音区間を検出するようにしたもので、有声
子音から無声子音までの広い範囲の子音のセグメ
ンテーシヨンを高精度で行うことができる。
を適用した場合の各段階での認識率が示してあ
る。右の列が最終的な認識率であり、各音素とも
に90%以上の高いセグメンテーシヨン率が得られ
ていることがわかる。個別に見ると、|s|と|
h|、|z|の一部に対してはルールが有効で
あり、撥音、|m|、|n|に対してはルールが
有効である。その他の音素に対してはルールが
有効である。ほとんどの音素に対して、3つのル
ールを併用することによつて各段階で認識率が向
上している。この結果は3つのルールを併用する
ことによる有効性を実証している。 本実施例は従来例に比較すると、有声子音から
無声子音まで広い範囲の子音のセグメンテーシヨ
ンを高い精度で行なうことができることが特長で
ある。たとえば従来例では鼻音のセグメンテーシ
ヨン率が非常に低かつたのに対し、本実施例では
90%以上の結果が得られ、|r|、|η|、|h|、
|z|に対しても数%以上向上している。他の音
素に対しても全て1%内外の向上率を得ている。 なお本実施例においては、全情報を使用し、
、、の順序で適用する例を示したが、と
またはとのみを使用してもかなり良い結果
を得ることができる。また適用順序も固定された
ものではない。即ちまたはの一方または両方
と、とを順不同に組合わせることができる。 発明の効果 以上のように本発明は音声スペクトルの低域パ
ワーと高域パワーの各々の時間的な変動によつて
生ずるパワーデイツプを検出し、各々のパワーデ
イツプの大きさを併用することによつて子音区間
を検出する第1の検出方法に、全音声区間に対
し、その全てのフレーム(1フレーム長は例えば
10msec分のデータとする)を母音または鼻音と
して認識し、鼻音として認識されたフレームが一
定数以上連続するとき、その区間を子音区間とし
て検出する第2の検出方法と、全音声区間に対
し、その全てのフレームに対して有声・無声の判
定を行ない、無声フレームが一定数以上連続する
とき、その区間を子音として検出する第3の検出
方法との少なくともいずれかを組合わせることに
より子音区間を検出するようにしたもので、有声
子音から無声子音までの広い範囲の子音のセグメ
ンテーシヨンを高精度で行うことができる。
第1図は従来の音声認識システムのブロツク
図、第2図は本発明の低域パワー情報または高域
パワー情報からパワーデイツプを検出する方法を
説明する図、第3図は低域パワーデイツプ、高域
パワーデイツプの大きさによつて、子音区間と子
音の付加を判別するための判別図、第4図は母音
または鼻音として全てのフレームを認識し、この
結果から子音区間を検出する方法を説明する図で
ある。
図、第2図は本発明の低域パワー情報または高域
パワー情報からパワーデイツプを検出する方法を
説明する図、第3図は低域パワーデイツプ、高域
パワーデイツプの大きさによつて、子音区間と子
音の付加を判別するための判別図、第4図は母音
または鼻音として全てのフレームを認識し、この
結果から子音区間を検出する方法を説明する図で
ある。
Claims (1)
- 【特許請求の範囲】 1 音声スペクトルの低域パワーと高域パワーの
各々の時間的な変動によつて生ずるパワーデイツ
プを検出し、各々のパワーデイツプの大きさを併
用することによつて子音区間を検出する子音区間
検出方法に、他の検出方法を組合わせることによ
り子音区間を検出することを特徴とする音声セグ
メンテーシヨン法。 2 他の検出方法が、全音声区間に対し、その全
てのフレームを母音または鼻音として認識し、鼻
音として認識されたフレームが一定数以上連続す
るとき、その区間を子音区間として検出するもの
である特許請求の範囲第1項記載の音声セグメン
テーシヨン法。 3 他の検出方法が、全音声区間に対し、その全
てのフレームに対して有声無声判定を行い、無声
フレームが一定数以上連続するとき、その区間を
子音として検出するものである特許請求の範囲第
1項記載の音声セグメンテーシヨン法。 4 他の検出方法が、全音声区間に対し、その全
てのフレームを母音または鼻音として認識し、鼻
音として認識されたフレームが一定数以上連続す
るとき、その区間を子音区間として検出する子音
区間検出方法と、全音声区間に対し、その全ての
フレームに対して有声無声判定を行い、無声フレ
ームが一定数以上連続するとき、その区間を子音
として検出する子音区間検出方法とを組合わせる
ことにより子音区間を検出するものである特許請
求の範囲第1項記載の音声セグメンテーシヨン
法。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57171632A JPS5958496A (ja) | 1982-09-29 | 1982-09-29 | 音声セグメンテ−シヨン法 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP57171632A JPS5958496A (ja) | 1982-09-29 | 1982-09-29 | 音声セグメンテ−シヨン法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS5958496A JPS5958496A (ja) | 1984-04-04 |
| JPH0120440B2 true JPH0120440B2 (ja) | 1989-04-17 |
Family
ID=15926783
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP57171632A Granted JPS5958496A (ja) | 1982-09-29 | 1982-09-29 | 音声セグメンテ−シヨン法 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5958496A (ja) |
-
1982
- 1982-09-29 JP JP57171632A patent/JPS5958496A/ja active Granted
Also Published As
| Publication number | Publication date |
|---|---|
| JPS5958496A (ja) | 1984-04-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JPS6336676B2 (ja) | ||
| Bezoui et al. | Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC) | |
| JPS5972496A (ja) | 単音識別装置 | |
| CN102222499B (zh) | 声音判别系统、声音判别方法以及声音判别用程序 | |
| JPH0120440B2 (ja) | ||
| Kopec | Voiceless stop consonant identification using LPC spectra | |
| Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
| Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
| JP2664136B2 (ja) | 音声認識装置 | |
| JP2744622B2 (ja) | 破裂子音識別方式 | |
| JPH0114600B2 (ja) | ||
| Elghonemy et al. | Speaker independent isolated Arabic word recognition system | |
| JPH026079B2 (ja) | ||
| JPH026078B2 (ja) | ||
| JPH0316040B2 (ja) | ||
| Abdo et al. | Arabic Speech Segmentation Into Syllables Using Neural Networks | |
| JPH0682275B2 (ja) | 音声認識装置 | |
| CN120564718A (zh) | 一种基于多语言连续语音流的内容识别方法 | |
| JPS6363919B2 (ja) | ||
| Rabiner et al. | Some preliminary experiments in the recognition of connected digits | |
| JPH0455520B2 (ja) | ||
| JPH01260499A (ja) | 子音認識法 | |
| JPS6136798A (ja) | 音声セグメンテ−シヨン法 | |
| JPS6068396A (ja) | 音素分類方法 | |
| JPS5958498A (ja) | 音声認識装置 |