JPS60216391A

JPS60216391A - 音声認識における辞書作成方式

Info

Publication number: JPS60216391A
Application number: JP59073539A
Authority: JP
Inventors: 米山　正秀
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1984-04-12
Filing date: 1984-04-12
Publication date: 1985-10-29

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】抜１九夏本発明は、音声認識、より詳細には、音声認識における
辞書作成方式に関する。

従来基量単語の音声認識を目的として、マイクロホンから取り入
れた単語の音声信号を特徴抽出部に導き、何らかの方法
によって数ｍ　ｓ　ｅ　ｃ〜数十ｒｒ１８８　Ｃ程度の
時間間隔で周波数分析し、音声信号の短時間パワースペ
クトルをめ、これを特徴量とした場合、これ等の特徴量
を周波数と時間を２軸として２次元率面上に表示したパ
ターンは音声のタイムスペクトルパターンとして知られ
ている。本発明は、このタイムスペクトルパターンを基
本として、そのローカルピークを連ねた細線化パターン
と、ある閾値を設け、これによって２値化したプロ・−
ドパターンとの２種類のパターンの重畳比較により類似
度を算出し、認識をおこなう方式に係わるものである。

９面して、」二記２種類のパターンのマツチング処理を
おこなう場合、２種類のパターンの内、いずむか一方を
ｍ準パターンとして予め登録しておくのが一般的であり
、登録しておくパターンを辞書パターンと称し、マツチ
ング処理に際しては、入カバターンをこの辞書パターン
と照合する処理をおこなう。しかし乍ら、辞書パターン
を登録した話者と認識時における入力音声の発話者とが
異なる場合には、声道特性の個人的なバラツキにより上
記タイムスペクトルパターンに周波数方向のヅレを生じ
、そのままマツチングをおこなっても辞書パターンとの
整合性が悪く、認識率が劣化することはすでに明らかで
ある。

そこで、本出願人は、先に、多数の不特定な話者に適応
させるための措置として予め選定された複数の話者のタ
イムスペクトルパターンを時間的に線形伸縮して加算す
ることにより得られる荷重平均辞書を標準パターンとし
て用いることにより話者変動を吸収する方式について提
案した。しかし乍ら、この方式は、荷重辞書作成時に複
数の話者の時間的長さのそれぞれ異った２値タイムスペ
クトルパターンを線形伸縮して長さを揃えて加算するこ
とにより荷重値を作っているため不具合を生じる。つま
り、本来人間の単語音声の発声速度は個人によってバラ
ツキがあり、しかもその時間変動は非線形に変化してい
るが、この様に時間的長さと変動の仕方がそれぞれ異な
る複数の２値タイムスペクトルパターンを単に線形に伸
縮して加算した場合、有声音と無声音が加算されるフレ
ームが生じることになる。而して、荷重平均辞書は本来
同じ音韻同志のフレームが加算されて作られて始めて効
果を発揮するものであるから、異った音韻同志の加算は
望ましくないものである。

目　的本発明は、上述のごとき実情に鑑みてなされたもので、
少なくとも有声は有声同志また無声音は無声音同志で加
算するようにした辞書、換言すれば、時間的ヅレにより
明らかに異った音韻である有声音と無声音の加算を避け
る様なマツチング方式によって作成される荷重平均辞書
を提供することを目的としてなされたものである。

１−一腹本発明の構成について、以下、実施例に基づいて説明す
る。

３一本発明においては、荷重平均辞書を作成する前に辞書作
成にあずかる複数話者の各々のタイムスペクトルパター
ンの各フレーム毎にそのフレームが有声音（Ｖ）か無音
声（ＵＶ）かを予め判定し、各タイムスペクトルパター
ンの全てのフレームにＶ又はＵＶの識別符号を付ける。

この判定方法としては種々の方式が考えられ、例えば、
波形的処理　−とじては周期構造を有するのがＶであり
、ランダムな部分がＵＶに相当することを利用して分割
判定することが出来る。周波数領域における処理として
は、スペクトル包絡の近似直線の傾斜がＶの場合は負で
あり、ＵＶの場合は零又は正であるという性質を利用し
て分類することも出来る。以上の様にして、各タイムス
ペクトルパターンの全てのフレーにＶ又はＵＶのマーキ
ングを付けることが出来るので、このマーキングを利用
して辞書作成の時に加算フレーム範囲を決定する。つま
り、同一単語の音声は話者が異なると、長さはバラバラ
であるが、■およびＵＶのマーキングのフレーム毎の系
列順序はほぼ同じであると考えられ、例４− えば、第１図で示すようになる。したがって、今、仮り
に２人の話者のタイムスペクトルパターンを加算して平
均辞書を作成する場合、第２図に示すように、■又はＵ
Ｖの同一のマーキングのフレーム同志において長さを線
形伸縮して揃えて加算をおこなう様な部分的線形伸縮加
算をおこなうことにより、異なった話者のタイムスペク
トルパターンにおいても、有声音フレームと無声音フレ
ームが加算されるのを防ぐことが出来る。この様な加算
手続きは２人の話者だけでなくＮ人の話者の一般の場合
にも当然可能である。

夏−一果以上の説明から明らかように、本発明によると、異なっ
た音韻同志のフレームの加算が比較的避けられるのでよ
りマツチング精度の高い不特定話者用の辞書を得ること
ができる。

【図面の簡単な説明】

第１図は、有声音（Ｖ）と無声音（ＵＶ）のフレーム毎
の系列順序の例を示す図、第２図は、同一マーキングを
フレーム同志において長さを線形伸縮して揃えた図の一
例を示す図である。 ■・・・有声音、ＵＶ・・・無声音。第　１　図枯老ｔ　ｖ　ｖ　ｖ　ｖ　ｕｖ　ｕｖ　ｖ　ｖ　ｖ　ｕ
ｖ　ｕｖ話者ｘ　ｖ　ｖ　ｖ　ｕｖ　ｕｖ　ｕｖ　ｕｖ
　ｖ　ｕｖ　ｕｖ　ｕｖ７− 手続祁１正書（自発）昭和５９年６月６［１、事件の表示昭和５９年　特許願　第７３５３９号２、発明の名称音声認識にお（プる辞書作成方式３、補正をする者事件との関係　特許出願人オオタ　り　ナカマゴメ住所　東京都大田区中馬込１丁目３番６号氏名（名称）
　（６７４）株式会社リコー代表者　浜　１）　広４、代　理　人住　所　〒２３１　横浜市中区不老町１−２−７６、補
正の対象明細書の発明の詳細な説明の欄７、補正の内容明細書第４頁第１２行目に記載の［少なくとも音声は有
声同志」を［有声音は有声音同志」に補正する。

Claims

【特許請求の範囲】

周波数と時間を変数とする２次元で表わせるタイムスペ
クトルパターンを基本として辞書および入力のタイムス
ペクトルパターンを２値またはそれ以上のレベルに分割
した後、これら２種の２次元パターンの重なり具合を用
いて類似度を算出する単語音声認識において、辞書作成
時に複数人の話者のタイムスペクトルパターンを加算す
ることにより荷重平均辞書を作成するに当り、予め各話
者のタイムスペクトルパターンの各フレーム毎・に有声
／無声の判定をしてこの情報を付加し、この有声／無声
情報に基づいて有声音部は有声音部同志、無声音部は無
声音部同志で線形伸縮して加算することを特徴とする音
声認識における辞書作成方式。