JPH0242238B2

JPH0242238B2 -

Info

Publication number: JPH0242238B2
Application number: JP58025069A
Authority: JP
Priority date: 1983-02-16
Filing date: 1983-02-16
Publication date: 1990-09-21
Also published as: JPS59149400A

Description

【発明の詳細な説明】＜技術分野＞本発明は音声入力装置における音節境界選択方
式の改良に関し、更に詳細には音声入力装置にお
いて、発声速度に応じて音節境界を決定し得るよ
うにしたものである。

＜従来技術＞一般に連続的に発声された音声から音節部を抽
出して識別を行なう方法では、音節部のセグメン
テーシヨンの正確さが認識性能を大きく左右す
る。

従来のセグメンテーシヨン方法においては発声
速度が変化するとセグメンテーシヨン誤り数も変
化する問題点があつた。これはセグメンテーシヨ
ンのアルゴリズムが発声速度に関係なく固定され
ていることに帰因している。

＜目的＞本発明は上記の点に鑑みてなされたものであ
り、連続音声の発声速度を推定し、音節境界検出
部から出力される音節境界候補の中から推定され
た発声速度にもとずいて音節境界を決定するよう
にした音声入力装置を提供することを目的として
いる。

＜実施例＞以下、図面を参照して本発明を詳細に説明す
る。

第１図は本発明を実施した音声入力装置の全体
構成を示すブロツク図である。

第１図において、入力された音声は、音声分析
部１において、入力時刻ｔにおける音声信号から
パワーｐ（ｔ）、スペクトルｙ（ｔ）等の特徴パラ
メータが抽出される。この音声分析部１において
抽出された特徴パラメータが発声速度検出部２に
入力され、該発声速度検出部２内の無音区間検出
部２１及び有音区間検出部２２によつて入力され
たパラメータのパワーｐ（ｔ）の強弱等にもとず
いて有音区間及び無音区間が区別される。

また発声速度検出部２内の発声速度推定部２３
によつて音節数が既知である訓練用文章の音声入
力の有音区間の継続時間にもとずいて平均音節長
Ｌが推定され出力される。

即ち、音声入力装置を使用する時に、最初に音
節数が既知である訓練用文章をユーザが発話して
発声速度推定部２３において平均音節長（１／
平均発声速度）を推定することになる。

今、音節数がｎ個含まれる文章を発話した際の
有音区間検出部２２において検出されたｉ番目の
有音区間の継続時間をＬ（ｉ）とすると（ただし
ｉ＝１、２、…、ｍ）、発声速度推定部２３にお
いて平均音節長＝１／２_n 〓ⁱ⁼¹ Ｌ（ｉ）が算出され出力される。

文節境界検出部３では無音区間検出部２１にお
いて検出された無音区間の継続時間にもとずい
て、無音区間の継続時間長が所定の長さを越えて
いる場合を検出して、その無音区間を文節境界と
みなしてその旨を出力する。

音節境界検出部４では上記文節境界検出部３に
よつて文節毎に区切られた音声を単位として、音
声分析部１で抽出された特徴パラメータを用いて
音節境界の候補を出力する（音節境界間の間隔が
音節長となる）。この音節境界検出部４において、
第２図に示すように時刻t₁と時刻t₃において、音
節境界が明確に検出されたが、時刻t₂において音
節境界が存在するか否かを決定し難い場合がある
が、このような場合には、音節境界の最終決定は
音節境界選択部５が行なう。

音節境界選択部５は音節境界検出部４において
検出された音節境界の候補の音節長と発声速度推
定部２３により推定された平均音節長とを比較
して音節境界を決定する。

今、第２図に示す例において、もし時刻t₂が音
節境界でないならば、時間領域t₁＜ｔ＜t₃におい
て長さt₃−t₁（図中Ａ１の長さ）の音節が存在す
ることになり、もし音節境界ならば、長さt₂−t₁
（図中Ｂ１の長さ）と長さt₃−t₂（図中Ｂ２の長
さ）の音節が存在することになるが、音節境界選
択部５はこれらの音節長の候補Ａ１，Ｂ１，Ｂ２
と平均音節長とを比較して音節境界を決定す
る。第２図に示した例では、Ａ１の長さの方がＢ
１及びＢ２の長さより、平均音節長に近いた
め、長さＡ１の音節を選択して、時刻t₂は音節境
界でないと判断される。

上記音節境界選択部５において行なわれる音節
境界の選択アルゴリズムをより一般化して以下に
説明する。

今、第３図に示すように、ある時間領域T₁＜
ｔ＜T₂において、音節境界の決定が困難なため、
音節境界検出部３がいくつかの音節候補列Ａ，
Ｂ，Ｃ，…を作成して出力したとする（ただし、
音節候補列Ａはａ個の長さＡ１，Ａ２，…，Aa
の音節候補から成り、音節候補列Ｂ，Ｃ，…も同
様とする）。

この音節候補列Ａ，Ｂ，Ｃ，…が音節境界選択
部５に入力されて、音節候補Ａ，Ｂ，Ｃ，…の平
均音節長からのずれD_A，D_B，D_C，…がそれぞ
れ D_A＝１／ａ_a 〓ⁱ⁼¹ ｄ（Ａ（ｉ），） D_B＝１／ｂ_b 〓ⁱ⁼¹ ｄ（Ｂ（ｉ），） D_C＝１／ｃ_c 〓ⁱ⁼¹ ｄ（Ｃ（ｉ），）ただし、ｄ（ｘ，ｙ）＝｜ｘ−k₁y｜if長さｘ
の音節の前に無音区間有｜ｘ−k₂y｜if長さｘの音節の後に文節境界有｜ｘ−ｙ｜if上記以外として算出される。

ここで、文節の最初に来る音節や破裂音は平均
音節長より短くなることが多いため、０＜k₁＜
１と設定され、文節の終りの音節は長くなること
が多いため、k₂＞１と設定される。

音節境界選択部５は、上記のようにして算出さ
れた平均音節長からのずれD_A，D_B，D_C，…の
中で最も小さな平均音節長からのずれを有する
音節候補列を選択して音節列として出力する。

音節認識部６では、上記のようにして求められ
た音節区間に対して音節標準パターンメモリ７に
記憶された音節の標準パターンとマツチングを行
なつて認識結果を出力する。

なお、上記実施例においては、音声入力装置を
使用する時に最初に既知の訓練用文章を発声して
平均音節長を算出するようにしたが、本発明
は、これに限定されることなく、例えば複数の話
者について予め平均音節長を算出して記憶してお
くように成してもよい。また同一話者における発
声速度の速い、普通、遅い状態における複数の平
均音節長を算出して記憶しておき、認識時の発
声状態により平均音節長を選択するようにしても
よい。

＜効果＞以上説明したように、本発明によれば、まず発
声速度を推定し、この推定した発声速度にもとず
いて音節境界が決定されるため、話者の特性等に
起因した入力音声の発声速度の相違に拘わらず、
正確に音節境界を検出決定することが出来る。

【図面の簡単な説明】

第１図は本発明を実施した音声入力装置の構成
を示すブロツク図、第２図は検出された音節境界
の一例を示す図、第３図は検出された音節境界候
補の他の例を示す図である。１…音声分析部、２１…無音区間検出部、２２
…有音区間検出部、２３…発声速度推定部、３…
文節境界検出部、４…音節境界検出部、５…音節
境界選択部。

Claims

【特許請求の範囲】１発声内容が既知である音声の有声区間におけ
る継続時間の総和をその音声に含まれる音節数で
割つた平均音節長を算出する発声速度推定部と、認識すべき音声の音節境界を検出する音節境界
検出部と、該音節境界検出部で検出された複数の音節境界
候補に対して前記発声速度推定部で算出された前
記平均音節長との類似度を求め、該類似度の最も
大きい候補を音節境界とする音節境界選択部と、を有することを特徴とする音声入力装置。