JPS5859498A

JPS5859498A - 音声認識装置

Info

Publication number: JPS5859498A
Application number: JP56158311A
Authority: JP
Inventors: 浜田　洋; 良平中津; 直樹石井
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: NTT Inc
Priority date: 1981-10-05
Filing date: 1981-10-05
Publication date: 1983-04-08

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】この発明は連続的に発声されたｖＩ数個の音節から成る
音声を＆！！慮しカナ文字清柿に変換する音声４繊装置
に関する啄のでるる。

音声による日本語入力を集塊するためＫＦＪ情々の文字
対え、の音声が正しく抽出、ａｄｍｌされる必要がある
。従来のこの櫨の襞ＷＫ汀認織単位として音１ｌｌｌＩ
ＴｏるいはＶＣＶ（母音−子音１母ｔ）音節が抹用され
ていた。曾−を単位としたものには置針、軸出ｒｅ０１
）４尺度を用いた会話皆声關峨システＡ　ＶＯムｃｅ　
Ｑ　−Ａ　Ｓｙｓｔｅｍ　ｌの［０処理Ｊ信字論（Ｄ）
昭５６−２１８ＣＤ−５１）など、ｖｃｖ４＠を単位と
したものＫは好日、中−「菫声ｌ＆ｉＩ壷方式」籍奸出
纏公舌昭５５−２４１１９などがある。しかしそれらの
方式は次のような欠点ｔ−もってい友。

（１）を−を４４率位とした場合、ｔｌＩｌｌの境界を
正確に検出するのが１−でめり、また子音の多くが非定
常的であるため抽出された音−の認Ｒ事も低い。

（２１ＶＣＶ音節を認′織単位とした場合、標準バタン
の数が８００以上と膨大であるため標準パタン作成のた
めの発声回数が□多く実用りでない。

この発明はこれらの欠点を牌決する丸めに認繊単位とし
て全数が１００程度であって標準バタン作成が容易であ
る単音節を採用し、入力音声を母音標準バタンとの距離
、−音声％ａｔの時間的貧化等の情報を用いて正確に音
節単位に区分すると共に、この区分された各ｔ＊の舛償
倉とあらかじめ登録しである音節の標準バタンとの時間
軸１戊化マツチングにより入力音声を音節単位で４１！
ｉ緘することを１］艷としたもので、音声による日本舟
入力を目的としたものである。

図はこの発明の一寮権例の桝敗を示すブロック図である
。！イクロホンｌから０ｆ）ｌＩｌｌ入力信号は帯域ｉ
Ｊｉ過フィルタ２を過ｐ帯域制限された後＾Ｄ質換器３
によりディジタル１１号に変換きれる。次にこの音声デ
ィジタル信号線音声区間検出部４においてあらかじめ定
めたフレーム長、フレーム−期で音声パワを求め、その
個を適当なしきい値と比較することによりｆ−区間を検
出する。その各音声区間の音声ディジタル信号は督声分
析部５内の％敞抽出鄭６でフレーム毎に特歌パラメータ
に質侠される。この待献パラメーうとしては相関係数、
ＬＰＣケプストラム、ａパラメータ等が用いられる。以
上の処理の結果入力音声の特徴パラメータの時系列が％
畝パラメータメモリ７に＠納される。

次に廿顧区分恥８において、以下に述べるようにｉｔ頗
境界の検出を行い入力音声を被顯単位に区分する。即ち
入力音声と姑を毎に登録した母音標準バタンとの距離を
距離計算部９で計算する。母せ−準パタンに母曾榛準バ
タンメモリＩＯＫ特敏パラメータとしてあらかじめ蓄積
されている。な訃母Ｖ樟゛槃バタンとしては日本一５母
童”Ａ　、Ｉ　。

υ、　Ｅ　、　０″と＠曽の１Ｎ”および雑音の計７−
を　　′用いる。以後仁の７櫨を母音と呼ぶことにする
。

１Ｉｉ−尺ｆＫついてに例えばＡ　、　）ｉ　、　Ｇｒ
ａｙ　ａｎｄＪ　　、Ｄ　、Ｍａｒｋｅｌ　　”　　Ｄ
ｉｓｔａｎｃｅ　Ｍｅａｓｕｒｅ　　ｆｏｒ　　Ｓｐｅ
ｅｃｈＰｒｏｃｅｓｓｉｎｇ　’　（Ｉ　Ｅ　ＥＥ　　
Ｔｒ、＾８ＳＰ−２４（１９７６−１０））Ｋ詳しく述
べられている。

距離計算部９では特徴パラメーーメモリ７より読み出し
た入力音声の特１パラメータと母音標準／々メタンモリ
１０より読み出した７檀の母ｉｔ−革ノくタンとの距離
をフレーム毎に計算し、距拳値■力端子１１へその値を
出力する。

母音定常部検出部１２では距鍮饋出力端子１１よりの出
力を受けて以下に示すように母！定常怖を検出する。第
１にフレーム毎に最も距−の近い母音を求め、各フレー
ムに１種の１１１１を対応させ母音のラベルを付与する
。ただし距醸値があらかじめ定め良しきい値以上の場合
はそのフレームに関しては母音ラベルを付与しない。こ
の結果母音ラベルの時系列が得られる０次に得られた＃
音うベルの時系列を平滑化し、つまりｔ＃甘せベル時禾
列中において同一ラベルのなかに他のラベルがわずか混
入された場合にその後者のラベルを前者のラベルにｆｌ
ｕ、同−ｆ＃曾ラベルが一定長以上逓続している区間を
母音定常部とする。ただし＃！音のラベルが２ｔＩ枕し
ている区間は母音定常部としない。検出ばれた母音定常
部汀母音′定常区間出力端子１３へ出力する。

無音区間検出部１４では特徴パラメータメモリ７より′
ｆ声パワを耽み出し、適当なしきいイ直と比較すること
によりｆＰＭ中でＭ鋏音の直前に生じる浦曽区関を棲出
し、無音区間出力端子１５より出力する。

〜砿１変化値計算部１６では特瀘パラメータメモリ７よ
り時値パラメータの時系列を絖み°出し゛、数フレーム
噛れたフレーム間での％献パラメータの差を求めること
により特畝量変化値を求める。

例えけ】フレームｌｓ　（；７秒とし４〜５フレーム噛
れ九フレーム間で特臓パラメータの差を求めることを８
ミリ秒ごとに行いその結果得られた％黴−涙化鎌Ｏ時系
列は特鑓蒼変化倣出力端子１７へ出力される。

音節境界停出部１８では以下に示す手臘で音節の境界を
検出し、入力音声を音節単位に区分する。

まず無音区間出力端子１５よシ入力されるｆ声中の無音
区間を音節境界とする。次に母音定常区間出力端子１３
より母音定常区間を読みとり二つの母音犀常部の間に無
音区間が任在しない時その間で待献ｔｉ化値出力端子１
７より入力される斬隊ＭＬ化が最大となるフレームを音
節の境界とする。

以上の手順で破裂音の直前に生じる無も区間の検出によ
り音節境界を容易に検出し、無輔区間が４仕しない場合
は従来はｆ節境界を児付ける生状に矧られていな〃為っ
たが前記のように数フレーム離れた特融量の差の最大と
なるフレームが母首間の子音と判定し、つまり音、ｍ＃
ｉ界を検出する。検出された音節境界と母音定常区間お
よびその母音をｆ＃区分結米出力端子１９より出力する
。

次に区分され九！ｆ節を音節關繊部２０で認識する。即
ち音節認識部２０円のマツチング区間決定部２１ではｆ
Ｍ認繊を行うためのマツチング区間を抽出する。マツチ
ング区間に区分式れ九各音顕の先頭のフレームを始端と
し、母ｆ足常部の先順から一定時間後のフレームを＃Ｉ
端として抽出しマツチング区間出力端子２２へ出力する
。マツチング対象ｆ節決定部２３け検出された母廿定営
部と同１の母音を有するｆ４とし、該当するＶ開毛をマ
ツチング対象出力端子２４へ出力する。

各ｖｒ聞は入力音声から切り出され良マツチング区間の
軸愼パラメータの時系列とあらかじめ話者罎に登録され
た音節の％徴パラメータの時系列とを時間軸正鵠化マツ
チングすることにより認繊される。

マツチングメジｖｔＥＢ２５ではマツチング区間出力端
子２２１り入力された入カーｉｉ−声のマツチング区間
の特徴パラメータの時系列を％鑓パラメータメ七り７よ
り絖み出し、またマツチング対象出力端子２４より人力
された音節の標準パタンを音節標！−パタンメモリ２６
よｎ＝み出し、入力音声と標準パタンの特畝パラメータ
の時系列との距離値を時間軸正規化マツチングによ゛ジ
求める。曾節標準パタンク各話省がめらかしめ発声した
ｆＲＪより作成され、特砿パラメータの時系夕１ｊとし
てたくわえられている。得られた距醸イｍは各標準バタ
ン毎にマツチング結果出力端子２７へ出力される。

ｆｔｓ判定部２８７はマツチング蕾釆出方端子２７を通
して入力されるマツチング対安のｆ節に対する距ｌ＠値
のうちその慣が最小である音節を判定し、その曽蒲名ｔ
−認鷹結釆として対応するカナ文字に変侯し、認織結釆
出力端子２９へ出力する。

なお以上の構成においてその各部を電子計−機により共
通に処理できる。

以上説明したようにこの発明のｔ声徳櫨装宵によれば（１）、値壷＄位として全数１００権度の単廿頗を採用
したこと【より禰準・バタンの作成が容易であり、（２）入力を声の音節への区分に＃ｆ標準バタンとの距
Ｊ１１ｆｔ′ｆｉｌによる母音定常部の検出、音声パワ
による無音区間の検出、４！鰍量の時間質化針簀による
音節境界の検出を採用したことｔｃより正確なセグメン
ト化が可能となｐ、（３）　　音節の４繊には特徴パラメータの時系夕ＩＪ
と慟隼パタンの％鐵パラメータの時系夕１］との時間軸
正規化マツチングを採用したことにより発声毎の洩゛厄
・＋　ｆｒ吸収したＪＥ６ｉ１な請膿を行うことができ
るなどのＦ１点がある。従ってこの始明の通用ンζより
背声簡、Ｊｌにより正確に動作する日本語入力が’ｉ＝
Ｊ能になる。

４　図１の間車な駅明図にこの発明の一実一例の構成を示すブロック図である
。

１：マイクロホン、２：帯域３Ｉ！Ｉ４フイルタ、３：
Ａｕ誕”侯ｊ、ｙ、４：督声区間検出部、５：せμ寸析
部、６：軸慮畑出部、７：ｖｉ値パラメータメモリ、ａ
　：　ｉｔｓ区５ｔ　答ｉｉ、９：距醸計ＩＥＮ、１０
：母廿慄率バタンメモリ、ｌｌ：昭離他出力端子、１２
：母音定線部検出部、１３：母音定常区間１ｈ力９８子
、１４：無音区間検出部、１５：、噸廿区間出力端子、
１６：特徴菫変化値計算部。

１７：％ｆＲ首質化値出力端子、１８：音節膚井検出部
、１９：ｆ節区分結果出力曙子、２ｏ：廿、Ｉ６認緘都
、２１：マツチング区間決定部、２２：マツチング区間
出力端子、２３：マッチング対象ｆ＃決定部、２４：マ
ツチング対象音節出力端子、２５：マッチングｘＳ部、
２６：−６−節■準バタンメモリ、２７：マツチング病
理出力端子、２８：音節判定部、２９：認識＠果出力端
子。

特許比−人　　日本電信電話公社

Claims

【特許請求の範囲】

α）複数制の音節から成る音声を投入して各音節を域別
してカナ文字情報に変換する音声−鍼装箇において、入
力音声に対しあらかじめ定めた長さのフレーム毎に音声
パワーを算出し、その算出音声パワをあらかじめ定めた
しきい値と比較することによ）ｆ声区間を検出する音声
区間検出手段と、その検出された音声区間に対してフレ
ーム毎に上記入力音声の音声特倣量を算出する音声分析
手段と、あらかじめ登録した母ｆｌｌ準バタンと上記算
出された入力音声の１＃微量時系列との距離計算を行う
ことにより検出した母音定常部０ｔＩｌＩＩＩＩｄと、
勢倣量の時間的変化？情報とから入力音声を音順単位に
区分するｆｗｉ区分手段と、あらかじめ登録したｔｍ＊
準パタンを有し、上記曾節区分十設で検出した母音定常
部と同種の母音部を有する１ｔｌｌ標準バタンと、上記
音声分析手段で検出されたｆ＃の籍畝篇時系列とをマツ
チングすることによシ入力音声中の各音節を認識する音
声−織手段とを＾備する音声認繊装會。