JPH08123480A

JPH08123480A - 音声認識装置

Info

Publication number: JPH08123480A
Application number: JP6264994A
Authority: JP
Inventors: Shingaa Hararudo; ハラルド・シンガー; Tomohiko Beppu; 智彦別府; Yoshinori Kosaka; 芳典匂坂
Original assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Current assignee: ATR ONSEI HONYAKU TSUSHIN KENKYUSHO KK; ATR Interpreting Telecommunications Research Laboratories
Priority date: 1994-10-28
Filing date: 1994-10-28
Publication date: 1996-05-17

Abstract

(57)【要約】【目的】実質的にリアルタイム処理が可能で、従来例
に比較して高速に音声認識ができ、しかも各処理部毎の
交換が容易で拡張性に富んだ音声認識装置を提供する。【構成】ＡＤ変換手段と、特徴抽出手段と、音声認識
手段と、ＡＤ変換と特徴抽出と音声認識がフレーム同期
して実行されるように制御する制御手段とを備えた音声
認識装置であって、制御手段と変換手段の間と、制御手
段と特徴抽出手段の間と、制御手段と音声認識手段の間
を、制御信号とステータス信号を伝送するための制御バ
スで接続し、かつ変換手段と特徴抽出手段の間を、音声
データを伝送するための第１のデータバスで接続し、特
徴抽出手段と音声認識手段の間を、特徴パラメータのデ
ータを伝送するための第２のデータバスで接続した。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置に関する。

【０００２】

【従来の技術】図３は、従来の音声認識装置のブロック
図である。図３の音声認識装置は、ＡＤ変換器２ａと特
徴抽出部３ａと音素照合部４ａとＬＲパーザ５ａとスイ
ッチ８と音声認識コントローラ７ａを備え、ＡＤ変換器
２ａと特徴抽出部３ａと音素照合部４ａとＬＲパーザ５
ａが、それぞれ音声認識コントローラ７ａにのみ制御デ
ータバス７１ａ乃至７４ａで接続されて構成される。以
下、ＡＤ変換器２ａと特徴抽出部３ａと音素照合部４ａ
とＬＲパーザ５ａのことを総称して呼ぶときは、処理部
という。

【０００３】図３の従来の音声認識装置において、話者
は発声と同時に、例えばフットスイッチなどからなるス
イッチ８を押して音声認識装置を起動させる。話者の発
声音声は、マイクロフォン１に入力されて音声信号に変
換された後、ＡＤ変換器２ａに入力される。一方、音声
認識装置が起動されると、音声認識コントローラ７ａ
は、ＡＤ変換の開始を指示する制御信号を、制御データ
バス７１ａを介してＡＤ変換器２ａに出力する。ＡＤ変
換器２ａは、上記音声信号を、デジタル信号である音声
データにＡＤ変換した後、当該音声データとＡＤ変換処
理の終了を示すステータス信号を、制御データバス７１
ａを介して音声認識コントローラ７ａに出力する。音声
認識コントローラ７ａは、当該音声データと当該音声デ
ータの特徴抽出処理の開始を指示する制御信号を、制御
データバス７２ａを介して特徴抽出部３ａに出力する。
特徴抽出部３ａは、入力された音声データを、例えばＬ
ＰＣ分析を実行し、対数パワー、１６次ケプストラム係
数、Δ対数パワー及び１６次Δケプストラム係数を含む
３４次元の特徴パラメータを抽出して、当該特徴パラメ
ータの時系列データと特徴抽出処理の終了を示すステー
タス信号を、制御データバス７２ａを介して音声認識コ
ントローラ７ａに出力する。

【０００４】音声認識コントローラ７ａは、当該特徴パ
ラメータの時系列データと音素照合処理の開始を指示す
る制御信号を、制御データバス７３ａを介して音素照合
部４ａに出力する。音素照合部４ａは、抽出された特徴
パラメータの時系列データを、後述する音素予測データ
に対応する隠れマルコフ網メモリ（以下、ＨＭ網メモリ
という。）内の情報を参照して照合し、不特定話者モデ
ルを用いて音素照合区間のデータに対する尤度を計算し
て、この尤度の値を音素照合スコアとして音素照合処理
の終了を示すステータス信号とともに、制御データバス
７３ａを介して音声認識コントローラ７ａに出力する。
音声認識コントローラ７ａは、上記音素照合スコアとＬ
Ｒパージング処理の開始を指示する制御信号を、制御デ
ータバス７４ａを介してＬＲパーザ５ａに出力する。Ｌ
Ｒパーザ５ａは、ＬＲテーブルを参照して、入力された
音素照合スコアについて左から右方向に、後戻りなしに
処理する。ここで、上記ＬＲテーブルは、所定の文脈自
由文法を公知の通り変換して予め作成されて、ＬＲパー
ザ５ａ内のＬＲテーブルメモリに格納されている。構文
的にあい昧さがある場合には、スタックを分割してすべ
ての候補の解析が平行して処理される。ＬＲパーザ５ａ
は、ＬＲテーブルから次にくる音素を予測してその音素
予測データと音素予測の終了を示すステータス信号を、
制御データバス７４ａを介して音声認識コントローラ７
ａに出力する。以上の動作を順次行い、順次音素を連接
していくことにより、連続音声の認識を行う。そして、
ＬＲパーザ５ａは、音声認識結果データを外部装置に出
力する。以上の従来の音声認識装置では、ＡＤ変換器２
ａにおけるＡＤ変換と、特徴抽出部３ａにおける特徴パ
ラメータの抽出はフレーム毎に処理され、音素照合部４
ａにおける音素照合と、ＬＲパーザ５ａにおけるＬＲパ
ージングは音素毎に処理される。

【０００５】

【発明が解決しようとする課題】しかしながら、従来の
音声認識装置では、ＡＤ変換器２ａと特徴抽出部３ａ、
特徴抽出部３ａと音素照合部４ａ及び音素照合部４ａと
ＬＲパーザ５ａが、音声認識コントローラ７ａを介して
制御データバス７１ａ乃至７４ａによって接続され、か
つ、各処理部での各処理が音声認識コントローラ７ａか
ら送られるデータと制御信号を受けてから実行されるの
で、リアルタイム処理ができなかった。そのため音声認
識処理に時間がかかるという問題があった。また、音声
認識に関する種々の研究を行うためには、処理部毎に他
のものに取り替えて動作させる必要が生じるが、従来の
音声認識装置では、各処理部が音声認識コントローラ７
ａにのみに接続されていて、データと制御信号のインタ
ーフェースを共通にする必要があるので、各処理部の交
換が容易でないという問題があった。このために、例え
ば、音声信号からピッチ周波数を検出して、当該音声信
号の音声認識データと比較しようとしてもできなかっ
た。

【０００６】本発明の目的は、以上の問題を解決して、
実質的にリアルタイム処理が可能で、従来例に比較して
高速に音声認識ができ、しかも各処理部毎の交換が容易
で拡張性に富んだ音声認識装置を提供することにある。

【０００７】

【課題を解決するための手段】本発明に係る音声認識装
置は、入力された音声信号をデジタル信号である音声デ
ータにＡＤ変換して出力する変換手段と、上記音声デー
タから音声認識のための特徴パラメータを抽出して特徴
パラメータのデータを出力する特徴抽出手段と、上記特
徴パラメータのデータに基づいて上記入力された音声信
号の音声を認識して音声認識データを出力する音声認識
手段と、上記変換手段のＡＤ変換と上記特徴抽出手段の
特徴パラメータの抽出と上記音声認識手段の音声認識
が、所定の一定時間の音声信号に対応した１フレームの
音声データ毎にフレーム同期して実行されるように上記
変換手段と上記特徴抽出手段と上記音声認識手段を制御
する制御手段とを備えた音声認識装置であって、上記制
御手段と上記変換手段の間を、上記制御手段から上記変
換手段へＡＤ変換の実行の開始を指示する制御信号と上
記変換手段から上記制御手段へ１フレームのＡＤ変換の
終了を示すステータス信号を伝送するための第１の制御
バスで接続し、上記制御手段と上記特徴抽出手段の間
を、上記制御手段から上記特徴抽出手段へ特徴パラメー
タの抽出処理の実行の開始を指示する制御信号と上記特
徴抽出手段から上記制御手段へ１フレームの特徴パラメ
ータの抽出の終了を示すステータス信号を伝送するため
の第２の制御バスで接続し、上記制御手段と上記音声認
識手段の間を、上記制御手段から上記音声認識手段へ音
声の認識の実行の開始を指示する制御信号と上記音声認
識手段から上記制御手段へ１フレームの音声認識の終了
を示すステータス信号を伝送するための第３の制御バス
で接続し、かつ上記変換手段と上記特徴抽出手段の間
を、上記音声データを伝送するための第１のデータバス
で接続し、上記特徴抽出手段と音声認識手段の間を、上
記特徴パラメータのデータを伝送するための第２のデー
タバスで接続したことを特徴とする。

【０００８】

【作用】本発明に係る請求項１記載の音声認識装置にお
いて、上記制御手段は、第１の制御バスを介して、上記
変換手段にＡＤ変換処理の開始を指示する制御信号を入
力する。上記変換手段は、当該制御信号に応答して入力
された音声信号をＡＤ変換して、１フレームに対応した
所定の一定時間の音声信号を音声データにＡＤ変換する
毎に、当該音声データを第１のデータバスを介して上記
特徴抽出手段に出力する一方、１フレームのＡＤ変換処
理が終了したことを示すステータス信号を第１の制御バ
スを介して上記制御手段に出力する。上記制御手段は、
当該ステータス信号に基づいて、１フレーム毎に上記特
徴抽出手段に第２の制御バスを介して、上記変換手段の
ＡＤ変換とフレーム同期するように、入力された１フレ
ームの音声データの特徴抽出処理の開始を指示する制御
信号を出力する。上記特徴抽出手段は、当該制御信号に
応答して、１フレームの音声データ毎に特徴パラメータ
を抽出して、第２のデータバスを介して上記音声認識手
段へ出力する一方、１フレームの特徴抽出処理が終了し
たことを示すステータス信号を第２の制御バスを介して
上記制御手段に出力する。上記制御手段は、当該ステー
タス信号に基づいて、１フレーム毎に上記音声認識手段
に上記第３の制御バスを介して、上記特徴抽出手段の特
徴抽出処理とフレーム同期するように、入力された１フ
レームの特徴パラメータに基づいて音声の認識の開始を
指示する制御信号を出力する。上記音声認識手段は、当
該制御信号に応答して、１フレームの特徴パラメータ毎
に、音声を認識して音声認識データを出力する一方、上
記制御手段へ１フレームの音声データの認識の終了を示
すステータス信号を上記第３の制御バスを介して出力す
る。

【０００９】上述のように、本発明に係る音声認識装置
では、上記制御手段によって、上記変換手段と上記特徴
抽出手段と上記音声認識手段が、１フレームの音声デー
タ毎にフレーム同期して第１乃至第３の制御バスを介し
て、各処理を実行するように制御されているので、上記
変換手段と上記特徴抽出手段と上記音声認識手段におけ
る各処理は実質的にリアルタイムで実行される。さら
に、上記変換手段は、第１のデータバスを介して上記音
声データのみを直接上記特徴抽出手段へ伝送し、上記特
徴抽出手段は、上記第２のデータバスを介して上記特徴
パラメータのデータのみを直接上記音声認識手段に伝送
する。

【００１０】

【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図１は、本発明に係る実施例の音声認
識装置のブロック図である。図１の音声認識装置は、マ
イクロフォン１と、ＡＤ変換器２と、特徴抽出部３と、
音素照合部４と、ＬＲパーザ５と、ピッチ検出部６と、
音声認識コントローラ７と、スイッチ８とを備える。当
該音声認識装置の特徴は、以下の通りである。音声認識
コントローラ７は、上記ＡＤ変換器２のＡＤ変換と上記
特徴抽出部３の特徴パラメータの抽出と上記音素照合部
４の音素照合と上記ＬＲパーザ５のＬＲパージングが、
所定の一定時間の音声信号に対応した１フレームの音声
データ毎にフレーム同期して実行されるように上記ＡＤ
変換器２と上記特徴抽出部３と上記音素照合部４と上記
ＬＲパーザ５を制御する。ここで、ＡＤ変換器２と音声
認識コントローラ７の間を、上記音声認識コントローラ
７から上記ＡＤ変換器２へＡＤ変換の実行の開始を指示
する制御信号と上記ＡＤ変換器２から上記音声認識コン
トローラ７へ１フレームのＡＤ変換の終了を示すステー
タス信号を伝送するための、例えば、ＲＰＣ（Ｒｅｍｏ
ｔｅＰｒｏｃｅｄｕｒｅＣａｌｌｓ）などの制御バ
ス７１で接続する。また、特徴抽出部３と音声認識コン
トローラ７の間を、上記音声認識コントローラ７から上
記特徴抽出部３へ特徴パラメータの抽出処理の実行の開
始を指示する制御信号と上記特徴抽出部３から上記音声
認識コントローラ７へ１フレームの特徴パラメータの抽
出の終了を示すステータス信号を伝送するための、例え
ば、ＲＰＣなどの制御バス７２で接続する。さらに、音
素照合部４と音声認識コントローラ７の間を、上記音声
認識コントローラ７から上記音素照合部４へ音素照合処
理の開始を指示する制御信号と上記音素照合部４から上
記音声認識コントローラ７へ１フレームの音素照合処理
の終了を示すステータス信号を伝送するための、例え
ば、ＲＰＣなどの制御バス７３で接続する。またさら
に、ＬＲパーザ５と音声認識コントローラ７の間を、上
記音声認識コントローラ７から上記ＬＲパーザ５へＬＲ
パージングの開始を指示する制御信号と上記ＬＲパーザ
５から上記音声認識コントローラ７へ１フレームのＬＲ
パージング処理の終了を示すステータス信号を伝送する
ための、例えば、ＲＰＣなどの制御バス７４で接続す
る。また、ピッチ検出部６と音声認識コントローラ７の
間を、上記音声認識コントローラ７から上記ピッチ検出
部６へピッチ検出処理の開始を指示する制御信号と上記
ピッチ検出部から上記音声認識コントローラ７へ１フレ
ームのピッチ検出処理の終了を示すステータス信号を伝
送するための、例えば、ＲＰＣなどの制御バス７５で接
続する。ここで、上記各制御信号と各ステータス信号
は、音声データや後述する特徴パラメータの時系列デー
タや後述する音素照合スコアや後述する音素予測データ
に比べると小容量の信号である。また、ＡＤ変換器２と
特徴抽出部３の間は大容量データである音声データを伝
送するための、例えば、２４０ｋｂｐｓの伝送レートを
有する大容量データの高速伝送が可能なデータバス１１
によって接続し、ＡＤ変換器２とピッチ検出部６の間は
上記音声データを伝送するための、例えば、２４０ｋｂ
ｐｓの伝送レートを有する大容量データの高速伝送が可
能なデータバス１４によって接続する。特徴抽出部３と
音素照合部４の間は、大容量データである特徴パラメー
タの時系列データを伝送するための、例えば２４０ｋｂ
ｐｓの伝送レートを有する大容量データの高速伝送が可
能なデータバス１２によって接続し、音素照合部４とＬ
Ｒパーザ５の間は大容量データである音素照合スコアと
音素予測データを伝送するための、例えば２．４Ｍｂｐ
ｓの伝送レートを有する大容量データの高速伝送が可能
なデータバス１３によって接続する。以下、ＡＤ変換器
２と特徴抽出部３と音素照合部４とＬＲパーザ５とピッ
チ検出部６を総称して呼ぶときは、それぞれ処理部とい
う。

【００１１】図１の音声認識装置において、スイッチ８
は、例えばフットペタルスイッチなどからなり、オンさ
れる毎に、音声認識コントローラ７の端子を接地させ
て、発声開始又は発声終了を知らせる。音声認識コント
ローラ７は、音声認識コントロールプログラムを格納し
たＲＯＭと、上記音声認識コントロールプログラムに従
って音声認識コントロール処理を実行するＣＰＵと、処
理のためのワーキングエリアとして用いられるＲＡＭと
を備えて構成される。音声認識コントローラ７は、スイ
ッチ８から発声開始を知らされると、ＡＤ変換器２に、
制御バス７１を介して、ＡＤ変換処理の開始を指示する
制御信号を出力し、ＡＤ変換器２から制御バス７１を介
して、１フレームに対応する所定の一定時間の音声信号
のＡＤ変換が終了する毎に１フレームの処理が終了した
ことを示すステータス信号が入力される。

【００１２】次に、音声認識コントローラ７は、ＡＤ変
換器２からのステータス信号に基づいて、特徴抽出部３
に制御バス７２を介して１フレーム毎に特徴抽出処理の
開始を指示する制御信号を出力し、ピッチ検出部６に制
御バス７５を介して１フレーム毎にピッチ検出処理の開
始を指示する制御信号を出力する。音声認識コントロー
ラ７には、特徴抽出部３から制御バス７２を介して１フ
レームの特徴パラメータの抽出が終了する毎に１フレー
ムの処理が終了したことを示すステータス信号が入力さ
れる。

【００１３】音声認識コントローラ７は、特徴抽出部３
からのステータス信号に基づいて音素照合部４に制御バ
ス７３を介して１フレーム毎に音素照合処理の開始を指
示する制御信号を出力し、音素照合部４から制御バス７
３を介して１フレームの音素照合処理が終了する毎に１
フレームの音素照合処理が終了したことを示すステータ
ス信号が入力される。音声認識コントローラ７は、音素
照合部４からのステータス信号に基づいてＬＲパーザ５
に制御バス７４を介して１フレーム毎にＬＲパージング
処理の開始を指示する制御信号を出力して、ＬＲパーザ
から制御バス７４を介して１フレームの処理が終了する
毎に１フレームの処理が終了したことを示すステータス
信号が入力される。

【００１４】マイクロフォン１は、入力された話者の発
声音声を音声信号に変換して、ＡＤ変換器２に出力す
る。ＡＤ変換器２は、ＡＤ変換処理プログラムを格納し
たＲＯＭと、上記ＡＤ変換プログラムに従ってＡＤ変換
処理を実行するＣＰＵと、処理のためのワーキングエリ
アとして用いられるＲＡＭと、入力ソケット２１と、出
力ソケット２２，２３，２４とを備えて構成される。Ａ
Ｄ変換器２は、音声認識コントローラ７から制御バス７
１を介して入力されるＡＤ変換処理の開始を指示する制
御信号に応答して、マイクロフォン１から入力される音
声信号をデジタル信号である音声データに２０ミリ秒未
満の時間でＡＤ変換して、その音声データを１フレーム
毎に出力ソケット２２，２３，２４から出力する。ここ
で、出力ソケット２３から出力された音声データは、デ
ータバス１１を介して特徴抽出部３の入力ソケット３１
に入力され、出力ソケット２４から出力される音声デー
タは、データバス１４を介してピッチ検出部６の入力ソ
ケット６１に入力される。ＡＤ変換器２は、１フレーム
毎に当該フレームのＡＤ変換処理の終了を示すステータ
ス信号を制御バス７１を介して音声認識コントローラ７
に出力する。

【００１５】ピッチ検出部６は、ピッチ検出処理プログ
ラムを格納したＲＯＭと、上記ピッチ検出処理プログラ
ムに従ってピッチ検出処理を実行するＣＰＵと、処理の
ためのワーキングエリアとして用いられるＲＡＭと、入
力ソケット６１と、出力ソケット６２を備えて構成され
る。ピッチ検出部６は、音声認識コントローラ７から制
御バス７５を介して入力される１フレーム毎のピッチ検
出処理の開始を指示する制御信号に応答して、入力ソケ
ット６１から入力される音声データからピッチ周波数を
２０ミリ秒未満の時間で検出して、そのピッチ周波数を
出力ソケット６２から出力する。ピッチ検出部６は、１
フレーム毎に当該フレームのピッチ検出処理の終了を示
すステータス信号を制御バス７５を介して音声認識コン
トローラ７に出力する。

【００１６】特徴抽出部３は、特徴抽出処理プログラム
を格納したＲＯＭと、上記特徴抽出プログラムに従って
特徴抽出処理を実行するＣＰＵと、処理のためのワーキ
ングエリアとして用いられるＲＡＭと、入力ソケット３
１と、出力ソケット３２，３３，３４とを備えて構成さ
れる。特徴抽出部３は、音声認識コントローラ７から制
御バス７２を介して入力される１フレーム毎の特徴抽出
処理の開始を指示する制御信号に応答して、入力ソケッ
ト３１から入力される音声データから例えばＬＰＣ分析
を実行し、対数パワー、１６次ケプストラム係数、Δ対
数パワー及び１６次Δケプストラム係数を含む３４次元
の特徴パラメータを抽出して、その特徴パラメータの時
系列データを出力ソケット３２，３３，３４から出力す
る。ここで、出力ソケット３３から出力された特徴パラ
メータの時系列データは、データバス１２を介して音素
照合部４の入力ソケット４１に入力される。特徴抽出部
３は、上記特徴抽出処理を２０ミリ秒未満の時間で実行
する。特徴抽出部３は、１フレーム毎に当該フレームの
特徴抽出処理の終了を示すステータス信号を制御バス７
２を介して音声認識コントローラ７に出力する。

【００１７】音素照合部４は、音素照合処理プログラム
を格納したＲＯＭと、上記音素照合プログラムに従って
音素照合処理を実行するＣＰＵと、処理のためのワーキ
ングエリアとして用いられるＲＡＭと、各状態をノード
とする複数のネットワークとして表されている隠れマル
コフ網データ（以下、ＨＭ網と称する）を格納したＨＭ
網メモリと、入力ソケット４１と、出力ソケット４２，
４４と入出力ソケット４３とを備えて構成される。以上
の構成により、音素照合部４は、音声認識コントローラ
７から制御バス７３を介して入力される１フレーム毎の
音素照合処理の開始を指示する制御信号に応答して、後
述する音素予測データに対応するＨＭ網を参照して照合
し、不特定話者モデルを用いて音素照合区間のデータに
対する尤度を計算して、この尤度の値を音素照合スコア
として入出力ソケット４３と出力ソケット４２，４４か
ら出力する。ここで、入出力ソケット４３から出力され
る音素照合スコアは、データバス１３を介してＬＲパー
ザ５の入出力ソケット５１に入力される。音素照合部４
は、上述の音素照合処理を２０ミリ秒未満の時間で処理
する。音素照合部４は、１フレーム毎に当該フレームの
音素照合処理の終了を示すステータス信号を制御バス７
３を介して音声認識コントローラ７に出力する。

【００１８】ＬＲパーザ５は、ＬＲパージング処理プロ
グラムを格納したＲＯＭと、上記ＬＲパージング処理プ
ログラムに従ってＬＲパージング処理を実行するＣＰＵ
と、処理のためのワーキングエリアとして用いられるＲ
ＡＭと、所定の文脈自由文法を公知の通り変換して予め
作成されたＬＲテーブルを格納したＬＲテーブルメモリ
と、入出力ソケット５１と、出力ソケット５２を備えて
構成される音素コンテキスト依存型ＬＲパーザである。
ＬＲパーザ５は、音声認識コントローラ７から制御バス
７４を介して入力される１フレーム毎のＬＲパージング
処理の開始を指示する制御信号に応答して、入出力ソケ
ット５１から入力された音素照合スコアを、ＬＲテーブ
ルを参照して左から右方向に、後戻りなしに処理する。
構文的にあい昧さがある場合には、スタックを分割して
すべての候補の解析を平行して処理する。また、ＬＲパ
ーザ５は、ＬＲテーブルから次にくる音素を予測して音
素予測データを、入出力ソケット５１から出力する。こ
こで、入出力ソケット５１から出力される音素予測デー
タは、データバス１３を介して音素照合部４の入出力ソ
ケット４３に入力される。そして、ＬＲパーザ５は、１
フレーム毎に当該フレームのＬＲパージング処理の終了
を示すステータス信号を制御バス７４を介して音声認識
コントローラ７に出力する。ＬＲパーザ５は、上述のＬ
Ｒパージング処理と音素予測を合わせて２０ミリ秒未満
の時間で実行する。以上のように、音素照合部４とＬＲ
パーザ５は、順次音素を連接していくことにより、連続
音声の音声認識を行い最終的な音声認識結果データを出
力ソケット５２から出力する。

【００１９】以上のように構成された音声認識装置にお
いて、操作者は、スイッチ８をオンすることによって、
音声認識コントローラ７の端子を接地して、音声認識コ
ントローラ７を起動させ、話者の発声音声の音声認識処
理を開始させる。音声認識コントローラ７は、ＡＤ変換
器２にＡＤ変換処理の開始を指示する制御信号を入力す
る。一方、話者の発声音声はマイクロフォン１に入力さ
れて音声信号に変換された後、ＡＤ変換器２に連続的に
入力される。ＡＤ変換器２は入力される音声信号をＡＤ
変換して、１フレームに相当する２０ミリ秒間の音声信
号を音声データにＡＤ変換する毎に、当該音声データを
出力ソケット２３とデータバス１１と入力ソケット３１
を介して特徴抽出部３に出力する一方、１フレームのＡ
Ｄ変換処理が終了したことを示すステータス信号を音声
認識コントローラ７に出力する。音声認識コントローラ
７は、当該ステータス信号に基づいて、ＡＤ変換器２の
ＡＤ変換処理とフレーム同期するように１フレーム毎に
特徴抽出部３に、入力された１フレームの音声データの
処理の開始を指示する制御信号を出力する。特徴抽出部
３は、当該制御信号に応答して、１フレームの音声デー
タ毎に上述した特徴パラメータを抽出して、出力ソケッ
ト３３とデータバス１２と入力ソケット４１を介して音
素照合部４へ出力する一方、１フレームの特徴抽出処理
が終了したことを示すステータス信号を音声認識コント
ローラ７に出力する。

【００２０】音声認識コントローラ７は、特徴抽出部３
から出力されるステータス信号に基づいて、上記特徴抽
出部３の特徴抽出処理とフレーム同期するように１フレ
ーム毎に音素照合部４に、入力された１フレームの特徴
パラメータの音素照合の開始を指示する制御信号を出力
する。音素照合部４は、当該制御信号に応答して、１フ
レームの特徴パラメータ毎に、ＬＲパーザ５からの音素
予測データに対応するＨＭ網を参照して音素照合し、当
該フレームの音素照合スコアをＬＲパーザ５へ出力する
一方、当該フレームの音素照合処理が終了したことを示
すステータス信号を音声認識コントローラ７に出力す
る。音声認識コントローラ７は、上記音素照合部４から
のステータス信号に基づいて、音素照合部４の音素照合
処理とフレーム同期するように１フレーム毎にＬＲパー
ザ５に、入力された１フレームの音素照合スコアのＬＲ
パージングの開始を指示する制御信号を出力する。ＬＲ
パーザ５は、音声認識コントローラ７の制御信号に応答
して、ＬＲテーブルを参照して、入力された音素照合ス
コアについて左から右方向に、後戻りなしに処理する。
構文的にあい昧さがある場合には、スタックを分割して
すべての候補の解析を平行して処理する。ＬＲパーザ５
は、ＬＲテーブルから次にくる音素を予測して音素予測
データを、入出力ソケット５１とデータバス１３と入出
力ソケット４３を介して音素照合部４へ出力する。以上
の処理後、ＬＲパーザは、音声認識コントローラ７に、
ＬＲパージング処理の終了を示すステータス信号を出力
する。以上のようにして順次音素を連接していくことに
より、連続音声の認識を行いその音声認識結果データを
出力する。そして、操作者は、話者の発声の終了後、再
度スイッチ８をオンにして、音声認識コントローラ７の
端子を接地する。この後、音声認識コントローラ７は、
発声終了前に入力された音声の音声認識結果データがＬ
Ｒパーザ５から出力された後、ＬＲパーザからのステー
タス信号を受信して音声認識装置の処理を終了する。以
上のようにして、本実施例の音声認識装置において、各
処理部は所定の一定時間の音声信号に対応した１フレー
ム毎に処理を実行し、かつ音声認識コントローラ７は、
各処理部がフレーム同期して処理を実行するように制御
しているので、各処理部は実質的にリアルタイムで各処
理を実行する。

【００２１】図２は、発声された音声が、特徴抽出部
３、音素照合部４、ＬＲパーザ５において処理されると
きの、開始時間と終了時間を示したグラフである。図２
から明らかなように、発声音声の音声信号は、ＡＤ変換
された後、特徴抽出部３において特徴抽出処理が開始さ
れる。次に１フレーム分の特徴抽出が終了した後、音素
照合部４において音素照合処理が開始される。続いて、
１フレーム分の音素照合が終了した後、ＬＲパーザ５に
おいてＬＲパージング処理が開始される。以上のように
行なわれ、特徴抽出部３と音素照合部４とＬＲパーザ５
は、２０ミリ秒ずつ、すなわち１フレームずつ時間をず
らして処理を開始するように制御され、フレーム同期さ
せて処理を実行するように制御されている。

【００２２】上述のように、本実施例の音声認識装置で
は、ＡＤ変換部２と特徴抽出部３と音素照合部４とＬＲ
パーザ５の各処理部で、１フレームずつずれるように、
フレーム同期させて各処理を実行しているので、各処理
部における各処理が実質的にリアルタイムで実行するこ
とが可能となり、これによって、全体としての音声認識
処理時間を音素毎に処理する従来例に比較して短くする
ことができる。

【００２３】また、制御バス７１乃至７５を介して音声
データや特徴パラメータの時系列データや音素照合スコ
アや音素予測データに比較して小容量の信号である制御
信号とステータス信号（以下、制御信号等という。）が
伝送される。一方、大容量データの高速伝送が可能なデ
ータバス１１，１４を介して大容量の音声データが伝送
され、大容量データの高速伝送が可能なデータバス１２
を介して大容量の特徴パラメータの時系列データが伝送
され、大容量データの高速伝送が可能なデータバス１３
を介して大容量の音素照合スコアと音素予測データが伝
送されるように構成されている。従って、上記音声デー
タや上記特徴パラメータの時系列データや上記音素照合
スコアや上記音素予測データを含む各データと上記制御
信号等は、データ量に応じて設けられた各バスを用い
て、同時に伝送することができるので、信号伝送を高速
に行うことができる。これによって、上記各データと制
御信号等を同一の制御データバス７１ａ乃至７４ａを介
して伝送する従来の音声認識装置に比較して、音声認識
処理時間を短縮することができる。

【００２４】またさらに、ＡＤ変換器２と特徴抽出部３
と音声照合部４とＬＲパーザ５とピッチ検出部６の各処
理部は、それぞれ各データ毎の入出力用ソケットを備
え、各処理部間の接続は、それらのソケットを用いて容
易に行うことができ、また、各データを伝送するデータ
バス１１乃至１４と制御信号とステータス信号を伝送す
る制御バス７１乃至７５を別々に設けているので、各処
理部と音声認識コントローラの接続は、接続する処理部
と音声認識コントローラ７間のインターフェイスを合わ
せることのみで可能であり、また、各処理部間の接続
は、接続される各処理部間のみのインターフェースを合
わせることにより可能である。すなわち、各処理部内で
は、制御信号及びステータス信号用のインターフェース
と各データ用のインターフェースを合わせる必要はな
く、これによって、従来の音声認識装置に比較して、各
処理部は各処理部毎に例えば異なる処理を行う新しい処
理部と容易に取り替えることができるので、新しい音声
認識装置の研究に対応して容易に拡張することができ
る。ここで、新しい処理部とは、例えば、自然な音声の
認識の際に必要になる韻律情報を含めて音声認識を行う
処理部などのことである。

【００２５】本実施例では、音素照合部４とＬＲパーザ
５を用いて音声を認識したが、本発明はこれに限らず、
例えば、ＯｎｅＰａｓｓＤＰ音声認識方法などを用
いる音声認識回路を用いて音声を認識するように構成し
てもよい。

【００２６】本実施例では、１フレームを２０ミリ秒に
設定して各処理を行ったが本発明はこれに限定されるも
のではない。

【００２７】本実施例の音声認識装置は、ピッチ検出部
６を備え、かつピッチ検出処理が音声認識と同一の音声
信号に基づいて同時に実行されるように構成されている
ので、同一の音声信号から検出される音声認識データと
ピッチ周波数を同時に比較することができる。

【００２８】本実施例の音声認識装置では、音声認識コ
ントローラ７とＡＤ変換器２と特徴抽出部３と音素照合
部４とＬＲパーザ５とピッチ検出部６のそれぞれが、Ｃ
ＰＵを備えて構成されているが、本発明はこれに限ら
ず、例えば、１つのＣＰＵのＵＮＩＸシステムを用い
て、すべての処理部を制御するように時分割多重パイプ
ライン処理を行ってもよい。

【００２９】

【発明の効果】上述のように、本発明に係る音声認識装
置では、上記変換手段のＡＤ変換と上記特徴抽出手段の
特徴パラメータの抽出と上記音声認識手段の音声認識
が、所定の一定時間の音声信号に対応した１フレームの
音声データ毎にフレーム同期して実行されるように上記
変換手段と上記特徴抽出手段と上記音声認識手段を制御
する制御手段を備えて構成されているので、上記変換手
段と上記特徴抽出手段と上記音声認識手段における各処
理が実質的にリアルタイムで実行される。また、第１と
第２と第３の制御バスを介して、小容量の信号である制
御信号とステータス信号が伝送され、大容量データの高
速伝送が可能な第１と第２のデータバスを介して、大容
量の音声データと大容量の特徴パラメータの時系列デー
タが伝送される。すなわち、上記各データと上記制御信
号等が、データ量に応じて別々に設けられた各バスを介
して、同時に伝送されるので、制御信号等と各データは
高速に伝送される。以上のことから本発明によれば、従
来例に比較して高速の音声認識が可能な音声認識装置を
提供することができる。

【００３０】また、データを伝送するためのデータバス
と、制御信号とステータス信号を伝送するための制御バ
スとを別けて構成しているので、データ用のインターフ
ェースと制御信号及びステータス信号用のインターフェ
イスを共通にする必要がなく、上記変換手段と上記特徴
抽出手段と上記音声認識手段の各処理手段毎に異なる処
理を行う新しい処理手段への取り替えが容易にできる。
これによって、音声認識装置の研究用にもちいることが
できる拡張性に富んだ音声認識装置を提供することがで
きる。

【図面の簡単な説明】

【図１】本発明に係る実施例である音声認識装置のブ
ロック図である。

【図２】図１の音声認識装置において、特徴抽出部３
と音声照合部４とＬＲパーザ５で処理されるときの、処
理の開始時間と終了時間を示すグラフである。

【図３】従来例の音声認識装置のブロック図である。

【符号の説明】

１…マイクロフォン、２…ＡＤ変換器、３…特徴抽出部、４…音素照合部、５…ＬＲパーザ、６…ピッチ検出部、７…音声認識コントローラ、１１，１２，１３，１４…データバス、２１，３１，４１，６１，…入力ソケット、２２，２３，２４，３２，３３，３４，４２，４４，５
２，６２…出力ソケット、４３，５１…入出力ソケット、７１，７２，７３，７４，７５…制御バス。

───────────────────────────────────────────────────── フロントページの続き (72)発明者別府智彦京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内 (72)発明者匂坂芳典京都府相楽郡精華町大字乾谷小字三平谷５番地株式会社エイ・ティ・アール音声翻訳通信研究所内

Claims

【特許請求の範囲】

【請求項１】入力された音声信号をデジタル信号であ
る音声データにＡＤ変換して出力する変換手段と、上記音声データから音声認識のための特徴パラメータを
抽出して特徴パラメータのデータを出力する特徴抽出手
段と、上記特徴パラメータのデータに基づいて上記入力された
音声信号の音声を認識して音声認識データを出力する音
声認識手段と、上記変換手段のＡＤ変換と上記特徴抽出手段の特徴パラ
メータの抽出と上記音声認識手段の音声認識が、所定の
一定時間の音声信号に対応した１フレームの音声データ
毎にフレーム同期して実行されるように上記変換手段と
上記特徴抽出手段と上記音声認識手段を制御する制御手
段とを備えた音声認識装置であって、上記制御手段と上記変換手段の間を、上記制御手段から
上記変換手段へＡＤ変換の実行の開始を指示する制御信
号と上記変換手段から上記制御手段へ１フレームのＡＤ
変換の終了を示すステータス信号を伝送するための第１
の制御バスで接続し、上記制御手段と上記特徴抽出手段の間を、上記制御手段
から上記特徴抽出手段へ特徴パラメータの抽出処理の実
行の開始を指示する制御信号と上記特徴抽出手段から上
記制御手段へ１フレームの特徴パラメータの抽出の終了
を示すステータス信号を伝送するための第２の制御バス
で接続し、上記制御手段と上記音声認識手段の間を、上記制御手段
から上記音声認識手段へ音声の認識の実行の開始を指示
する制御信号と上記音声認識手段から上記制御手段へ１
フレームの音声認識の終了を示すステータス信号を伝送
するための第３の制御バスで接続し、かつ上記変換手段と上記特徴抽出手段の間を、上記音声
データを伝送するための第１のデータバスで接続し、上記特徴抽出手段と音声認識手段の間を、上記特徴パラ
メータのデータを伝送するための第２のデータバスで接
続したことを特徴とする音声認識装置。