JPS5834498A

JPS5834498A - 音声認識方式

Info

Publication number: JPS5834498A
Application number: JP56133476A
Authority: JP
Inventors: 津村　紀元
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1981-08-26
Filing date: 1981-08-26
Publication date: 1983-02-28

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】本発明は音声認識方式、具体的には成る幅を持って１１
１語認識を行なうことにより、認識率を向上させた音声
認識方式に関する。

現在、オフィスコンピュータの入力手段としては、キー
デート、タッチイン、センサノやネル等が、出力手段と
してはシリアルプリンタ、ラインプリンタ等が、外部記
憶媒体としては、フロッピーディスク、固定磁気ディス
クメモリ等が常識的に使用されている。

ところで、音声合成、音声認識の技術畝新により、オフ
ィスコンピュータへの音声による入出力手段が・提供さ
れてさている。音声入力は認識技術によるところが大で
あり、認識する話者の数、単語数、装置の大永さ、コス
ト等を考慮に入れると、オフィスコンピュータへの適用
にあたっては複数の特定話者で認識する単語数を数百語
に求めるのが妥当と考えられる。

本発明はオフィスコンピュータの入力子１？、１して音
声を用い、あらかじめファイルされている音声パターン
と一致をとることにより、入力された音声を計′Ｗ−機
入力データとして扱うことを特徴とするものである。又
、音声言忍識における照合度の計算は成る一定の値で判
断しているが、単語によっては成る幅を持って認識した
いものがある。この幅は単語により異ってくるものであ
り、従って本発明はこの値を任意に変化させることによ
り認識率をより向上させる音声認識方式を提供すること
を目的とする。

以下１図面を使用して本発明（二関し詳細に説明するっ第１図は本発明が使用される情報処理システムの構成例
を示すブロック図である。図において、１はプログラム
乃至データが格納される主記憶装置である。２は前記主
記憶装置１に格納されたプログラムに従いシステム全体
をコントロールする中央処理装置（以下、ＣＰＵと称す
る）である。３は入出力制御装置であって、キーボード
、ＣＲＴデイスゾンイ、シリアルプリンタ等の入出力装
置が接続される。４は本発明が実現される音声認識装置
であり、音声アンプ。

フィルター回路、アナログ−ディジタル変換器。

バッファメモリ回路、マイクロプロセッサを含めたファ
ームウェア回路（いずれも図示せず）から成る。機能的
には、入力手段のマイクロフォンを介して得られる音声
アナログ信号をディジタル信号に変換し音声・そターン
信号とする入力制御部と、前記入力制御部から得られる
音声パターン信号とあらかじめファイルされである認識
データとを比較照合し、音声入力を認識する音声晴識部
とから成る。音声認識装置４に関する詳細は第２図なら
びに後述するその説明文にて詳細に示される。５はファ
イルコントローラである。このファイルコントローラ５
には磁気ディスク装置が接続されており、磁気ディスク
装置には認識データがあらかじめファイルされている。

６はシステムパスである。前記各装置１，２，３，４．
５はシステムパス６に対し共通接続されて成る。システ
ムパス６はデータライン、アドレスライン、コントロー
ルラインがそれぞれ複数本で構成される。

第２図は第１図における音声認識装置の内部４！　５３
９　’ｌ　示スブロック図である。図において、１１は
音声認識装置４をシステムに妾続する際に設けられるパ
スインターフェースユニットである。パスインターフェ
ースユニット１１は音声認識装置としてのチャネルの他
にファイルコントローラ５に相当するチャネルから成る
。これは音声認識装置４が磁気ディスク装置なＣＰＵ２
から独立して独自に使用することがあるからである。

１２はマイクロプロセッサ、１３はＲＯＭ。

１４はＲＡＭである。ＲＯＭＪ　Ｊには音声認識を行な
うための各種ファームウェアルーチンが格納され、マイ
クロプロセッサ１２はこのファームウェアの内容に基づ
き装置６全体のコントロールを行なう。ＲＡＭ１４は前
記ファームウェアのワークエリアとして使用される他、
後述する音声入力データの特徴正規化時のワーク用とし
て、あるいは正規化データの収納エリアとして使われる
。１５はＤＭＡコントロールモジュール（以下、単にＤ
ＭＡ１５と称する）である。

ＤＭＡ、１５は主記憶装置１における辞書データのＲＦ
ｆＡＤ／ＷＲＩＴＥの他、後述する音声バッファから標
準ノ臂ターンな読出すためのコントロールを行なったり
、照合度計算実行１寺、正規化された音声へカッ４’タ
ーンを内部ＲＡＭＪ４から読出す動作をコントロールし
、更に読出されたデータを照合ｒ￥ｉｆｔ′Ｍ一部１６
に転送する機能を持つ。

いわゆる照合度計算部１６等の要求に従い、各種メモリ
装置との間でデータのＲＥ　Ａ、Ｄ／ＷＲＩＴＥを行な
うため、連続的にメモリ番地を発生するダイレクトメモ
リアクセスのためのコントローラである。

１６は照合度計算部である。照合度計算部Ｉ６は、標準
ノ４ターンと入カバターンの照合度計算を自動的に行な
うハードウェアロジックであり、辞書エリアからＤＭｋ
ｉ５に従い転送された標準ノ’？ターン１バイトと相当
する入力音声・ｆターン１バイトの差の絶対値を算出す
るものである。１７は音声信号入力部である。音声信号
入力部１７はマイクロフォンから入力された音声アナロ
グ信号を周波数分析し、ファームウェア動作時間毎にそ
れぞれの川波数帯のピーク値をサンプルホールドし、８
ビツトのディジタル値に変換する機能を持つ。１記ＲＯ
Ｍ　Ｉ　Ｊ　。

ＲＡＭ　１４　、　ＤＭＡ　１５　、照合度計算部１６
．音声入力部１７はマイクロプロセッサ１２の持つ内部
パス１９へ共通に接続される。

尚、１８は音声バッファである。音声ノ９ツファ１８は
主記憶装置１のアドレス延長ｔに存在し、頻繁に使用さ
れる辞書が格納されるエリアで構成される。主記憶装置
１の一部写しであっても良い。

第３図は、あらかじめ磁気ディスク装置にファイルされ
ている認識データのフォーマットを示す。データは、照
合度数値”Ｉ（ＩＧＨ＃。

ｕＬＯＷｆｌと音声コード、音声パターンから成る。

照合度数値”ＨＩＧＩ（す、”　ＬＯＷＭについては後
述する。

以下、本発明の動作につき詳細に説明する。

まず、外界より入力された音声はマイクロフォンによっ
て収集され、音声信号入力部１７にて適当な処置がなさ
れる。即ち、ここでは場当なレベルまで音声増幅がなさ
れ、且つ音声信号の標醜的な情報量の分布に従って分割
された複数チャネルの帯域フィルタにより分析がなされ
る。

各帯域フィルタの出力は、それぞれの帯域内の信号レベ
ルを検出するために整流され、低域フィルタを通して平
滑化される。この出力はアナログ−ディジタル変換器を
介して複数ビット（本発明実施例では８ビツト）のディ
ジタル信号に変換される。これらの情報は一定時間毎に
サンプリングされ、一旦パツファメモリ内へ記憶される
。この様にして入力された音声信号はファームウェアに
よりデータ圧縮がなされる。このＥＥ縮作業は、ソフト
ウェアが音声入力情報の変化を読取り、語の始まりを検
出した時に開始される。各フィルタ毎出力されたディジ
タル量は毎サンプル時数ビットのデータ量に変換され、
更に圧縮され収集される。収集されたデータ群は時間軸
の適正化処理を受は数百ビットの特徴ノ臂ターンとして
扱われる。

上記手法にて入力された音声は成るビット・９グーンと
して置換される。そしてあらかじめ登録済みの音声Ａ？
ターンと入力された音声／ｌターンがＤＭＡ　１５によ
り読出され、１つ類似度が照合度計算部１６にて計算さ
れ、ここで最も値の高い用語が抽出される。最も値の高
い用語の値があらかじめ設定された照合度数値”ＨＩＧ
Ｈｊｊ。

′ＩＬＯＷｎより低いとき、その入力された音声はリジ
ェクトされる。

より詳細に動作を述べる。ＣＰＵ２から音声認識のため
のコマンドが発せられると、音声認識装置４により音声
入力可の表示がなされる。

これは付属のコンソール等に存在するラン！表示で良い
。次に、マイクロフォンより音声信号の入力がなされる
と前述した手順により音声・母ターン信号が生成される
。

一方、音声認識装置４は、ＣＰＵ　２より音声認識のた
めのコマンドを受付けた際、ディスクアドレスをノやラ
メータとして受信しており、これを基にファイルコント
ローラ５に対し、該当単語辞書を音声バッファ１８へ転
送する旨の指令を発している。ファイルコントローラ５
はこれを受け、磁気ディスク装置をアクセスし、指定さ
れたディスクアドレスから指定長の認識データを音声バ
ッファ１８に対し転送する。音声ノ々ツファ１８に格納
された標準・母ターンはＤＭＡ１５により読出され、照
合度計算部１６へ入力される。照合度計算部１６の他方
へは前記音声信号人力部１７を介して受付けられ、ファ
ームクエア（マイクロプロセッサ１３）を介して変換さ
れた音声へカッやターンが供給されている。

照合度計算部１６では入力された両ノターンの類似度計
算が行なわれ、一番高い値の音声ノ母ターンが抽出され
る。

磁気ディスク装置に格納されている認識データのフォー
マットは第３図に示したとおりである。これで特徴的な
ことは照合度数値’　ＨＩＧＨ，、。

“Ｌ　Ｏ’Ｗ　ｐｙが設定されであるということである
。

これは、照合度計算をした結果の値があらかじめ指定し
である値（照合度数値゛′ＨＩ　ｏＨ＋ｊ　）以上とな
ったときに認定されたと判定されるが、”　ＨＩ　ＧＨ
ｎで示される値に達しないとリジェクトされてしまうこ
とになる。そこで次のステップとして、言忍識される＃
ｉＨｐが全てｕ）（ＩＧＨＰｊの値に達しなかったとき
、次のレベルとして照合度の値を下げて照合することに
なるが、その時にはｕＬ　ＯＷ　ｎの値を用いて照合す
る。ＲＢ　Ｊする単語はその内容によってＭＦ　Ｈａの
密度を変える必要があるノテ各単語毎、”　ＨＩ　ＧＨ
ｊｐ　、　ｕＬ　ＯＷ　ｎの値を変えることにより認識
率をより向上させることができる。この照合度数値はプ
ログラムにより自由に変帳することが出来、同じ音声・
母ターンでもプログラムにより照合度数値を変えて音声
認識に幅を持たせている。

１１６・・・照合度計算部、１７・・・音声信号人力）τ
（九以１説明の如く、本発明によれば音声パターンに対
し、”　ＨＩ　Ｇ　Ｈｐｙ　、　Ｌ　ＯＷ　ｎの照合度
数値情報を付加することにより、音声パターンによって
はその認識のレベルに柔軟性を持たせることができる。

即ち、従来音声認識における照合度の計算はある一定の
値で判断していたが、本発明により単語によってはある
幅を持って認識することが出来、この幅を示す照合度数
値軸ＨＩ　Ｇ　Ｈｎ　、　′ＪＬ　ＯＷ　ｎを任意に可
変とすることによりｒ：、ｔシ識率をより向上させるこ
とができるものである。

【図面の簡単な説明】

第１図は本発明が使用される情報処理ンステムの構成例
を示すブロック図、第２図は第１図における音声Ｓ忍識
装置の内部構成を示すブロック図、第３図は本発明にお
いて用いられる認識データのデータフォーマットを示す
図である。１・・・主記憶装置、２・・・中央処理装置（ＣＰＵ）
、４・・・音声認識装置、５・・・ファイルコントロー
ラ、１５・・・ＤＭＡコントロールモジュール（ＤＭＡ
）、２

Claims

【特許請求の範囲】

音声認識装置が参照可能な記憶装置へ辞井を格納し、こ
の辞書によって入力音声を認識し、認識単語を入力デー
タとして扱う音声人力ｄ１゛算機システムにおいて、あ
らかじめ登録される単語毎、第１と第２の照合度数値を
付加し辞書エリアへ格納して成る記憶装置と、入力音声
をディジタル値に変換し音声人力ｉ４ターンとして取込
む音声信号人力部と、前記記憶装置から得られる登録パ
ターンと前記音声信号入力部を介して得られる音声入力
・２ターンとを前記第１と第２の照合度数値に基づき照
合度計算を行なう照合度計算部とを備え、前記照合度計
算部はまず第１の照合度数値に基づいて照合度計算を行
ない、この値に達しなかったとき、更に第２の照合度数
値に基づいて照合度＃ｔＫを行ない、あらかじめ設定さ
れた値（照合度数（ｉｆ　）以上となつたことを確認し
たうえで音声入カッ４ターンを入力データとして認識す
ることを特徴とする音声ｔ、Ｎ識方式。