JPH08123480A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH08123480A JPH08123480A JP6264994A JP26499494A JPH08123480A JP H08123480 A JPH08123480 A JP H08123480A JP 6264994 A JP6264994 A JP 6264994A JP 26499494 A JP26499494 A JP 26499494A JP H08123480 A JPH08123480 A JP H08123480A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- data
- control
- voice
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】
【目的】 実質的にリアルタイム処理が可能で、従来例
に比較して高速に音声認識ができ、しかも各処理部毎の
交換が容易で拡張性に富んだ音声認識装置を提供する。 【構成】 AD変換手段と、特徴抽出手段と、音声認識
手段と、AD変換と特徴抽出と音声認識がフレーム同期
して実行されるように制御する制御手段とを備えた音声
認識装置であって、制御手段と変換手段の間と、制御手
段と特徴抽出手段の間と、制御手段と音声認識手段の間
を、制御信号とステータス信号を伝送するための制御バ
スで接続し、かつ変換手段と特徴抽出手段の間を、音声
データを伝送するための第1のデータバスで接続し、特
徴抽出手段と音声認識手段の間を、特徴パラメータのデ
ータを伝送するための第2のデータバスで接続した。
に比較して高速に音声認識ができ、しかも各処理部毎の
交換が容易で拡張性に富んだ音声認識装置を提供する。 【構成】 AD変換手段と、特徴抽出手段と、音声認識
手段と、AD変換と特徴抽出と音声認識がフレーム同期
して実行されるように制御する制御手段とを備えた音声
認識装置であって、制御手段と変換手段の間と、制御手
段と特徴抽出手段の間と、制御手段と音声認識手段の間
を、制御信号とステータス信号を伝送するための制御バ
スで接続し、かつ変換手段と特徴抽出手段の間を、音声
データを伝送するための第1のデータバスで接続し、特
徴抽出手段と音声認識手段の間を、特徴パラメータのデ
ータを伝送するための第2のデータバスで接続した。
Description
【0001】
【産業上の利用分野】本発明は音声認識装置に関する。
【0002】
【従来の技術】図3は、従来の音声認識装置のブロック
図である。図3の音声認識装置は、AD変換器2aと特
徴抽出部3aと音素照合部4aとLRパーザ5aとスイ
ッチ8と音声認識コントローラ7aを備え、AD変換器
2aと特徴抽出部3aと音素照合部4aとLRパーザ5
aが、それぞれ音声認識コントローラ7aにのみ制御デ
ータバス71a乃至74aで接続されて構成される。以
下、AD変換器2aと特徴抽出部3aと音素照合部4a
とLRパーザ5aのことを総称して呼ぶときは、処理部
という。
図である。図3の音声認識装置は、AD変換器2aと特
徴抽出部3aと音素照合部4aとLRパーザ5aとスイ
ッチ8と音声認識コントローラ7aを備え、AD変換器
2aと特徴抽出部3aと音素照合部4aとLRパーザ5
aが、それぞれ音声認識コントローラ7aにのみ制御デ
ータバス71a乃至74aで接続されて構成される。以
下、AD変換器2aと特徴抽出部3aと音素照合部4a
とLRパーザ5aのことを総称して呼ぶときは、処理部
という。
【0003】図3の従来の音声認識装置において、話者
は発声と同時に、例えばフットスイッチなどからなるス
イッチ8を押して音声認識装置を起動させる。話者の発
声音声は、マイクロフォン1に入力されて音声信号に変
換された後、AD変換器2aに入力される。一方、音声
認識装置が起動されると、音声認識コントローラ7a
は、AD変換の開始を指示する制御信号を、制御データ
バス71aを介してAD変換器2aに出力する。AD変
換器2aは、上記音声信号を、デジタル信号である音声
データにAD変換した後、当該音声データとAD変換処
理の終了を示すステータス信号を、制御データバス71
aを介して音声認識コントローラ7aに出力する。音声
認識コントローラ7aは、当該音声データと当該音声デ
ータの特徴抽出処理の開始を指示する制御信号を、制御
データバス72aを介して特徴抽出部3aに出力する。
特徴抽出部3aは、入力された音声データを、例えばL
PC分析を実行し、対数パワー、16次ケプストラム係
数、Δ対数パワー及び16次Δケプストラム係数を含む
34次元の特徴パラメータを抽出して、当該特徴パラメ
ータの時系列データと特徴抽出処理の終了を示すステー
タス信号を、制御データバス72aを介して音声認識コ
ントローラ7aに出力する。
は発声と同時に、例えばフットスイッチなどからなるス
イッチ8を押して音声認識装置を起動させる。話者の発
声音声は、マイクロフォン1に入力されて音声信号に変
換された後、AD変換器2aに入力される。一方、音声
認識装置が起動されると、音声認識コントローラ7a
は、AD変換の開始を指示する制御信号を、制御データ
バス71aを介してAD変換器2aに出力する。AD変
換器2aは、上記音声信号を、デジタル信号である音声
データにAD変換した後、当該音声データとAD変換処
理の終了を示すステータス信号を、制御データバス71
aを介して音声認識コントローラ7aに出力する。音声
認識コントローラ7aは、当該音声データと当該音声デ
ータの特徴抽出処理の開始を指示する制御信号を、制御
データバス72aを介して特徴抽出部3aに出力する。
特徴抽出部3aは、入力された音声データを、例えばL
PC分析を実行し、対数パワー、16次ケプストラム係
数、Δ対数パワー及び16次Δケプストラム係数を含む
34次元の特徴パラメータを抽出して、当該特徴パラメ
ータの時系列データと特徴抽出処理の終了を示すステー
タス信号を、制御データバス72aを介して音声認識コ
ントローラ7aに出力する。
【0004】音声認識コントローラ7aは、当該特徴パ
ラメータの時系列データと音素照合処理の開始を指示す
る制御信号を、制御データバス73aを介して音素照合
部4aに出力する。音素照合部4aは、抽出された特徴
パラメータの時系列データを、後述する音素予測データ
に対応する隠れマルコフ網メモリ(以下、HM網メモリ
という。)内の情報を参照して照合し、不特定話者モデ
ルを用いて音素照合区間のデータに対する尤度を計算し
て、この尤度の値を音素照合スコアとして音素照合処理
の終了を示すステータス信号とともに、制御データバス
73aを介して音声認識コントローラ7aに出力する。
音声認識コントローラ7aは、上記音素照合スコアとL
Rパージング処理の開始を指示する制御信号を、制御デ
ータバス74aを介してLRパーザ5aに出力する。L
Rパーザ5aは、LRテーブルを参照して、入力された
音素照合スコアについて左から右方向に、後戻りなしに
処理する。ここで、上記LRテーブルは、所定の文脈自
由文法を公知の通り変換して予め作成されて、LRパー
ザ5a内のLRテーブルメモリに格納されている。構文
的にあい昧さがある場合には、スタックを分割してすべ
ての候補の解析が平行して処理される。LRパーザ5a
は、LRテーブルから次にくる音素を予測してその音素
予測データと音素予測の終了を示すステータス信号を、
制御データバス74aを介して音声認識コントローラ7
aに出力する。以上の動作を順次行い、順次音素を連接
していくことにより、連続音声の認識を行う。そして、
LRパーザ5aは、音声認識結果データを外部装置に出
力する。以上の従来の音声認識装置では、AD変換器2
aにおけるAD変換と、特徴抽出部3aにおける特徴パ
ラメータの抽出はフレーム毎に処理され、音素照合部4
aにおける音素照合と、LRパーザ5aにおけるLRパ
ージングは音素毎に処理される。
ラメータの時系列データと音素照合処理の開始を指示す
る制御信号を、制御データバス73aを介して音素照合
部4aに出力する。音素照合部4aは、抽出された特徴
パラメータの時系列データを、後述する音素予測データ
に対応する隠れマルコフ網メモリ(以下、HM網メモリ
という。)内の情報を参照して照合し、不特定話者モデ
ルを用いて音素照合区間のデータに対する尤度を計算し
て、この尤度の値を音素照合スコアとして音素照合処理
の終了を示すステータス信号とともに、制御データバス
73aを介して音声認識コントローラ7aに出力する。
音声認識コントローラ7aは、上記音素照合スコアとL
Rパージング処理の開始を指示する制御信号を、制御デ
ータバス74aを介してLRパーザ5aに出力する。L
Rパーザ5aは、LRテーブルを参照して、入力された
音素照合スコアについて左から右方向に、後戻りなしに
処理する。ここで、上記LRテーブルは、所定の文脈自
由文法を公知の通り変換して予め作成されて、LRパー
ザ5a内のLRテーブルメモリに格納されている。構文
的にあい昧さがある場合には、スタックを分割してすべ
ての候補の解析が平行して処理される。LRパーザ5a
は、LRテーブルから次にくる音素を予測してその音素
予測データと音素予測の終了を示すステータス信号を、
制御データバス74aを介して音声認識コントローラ7
aに出力する。以上の動作を順次行い、順次音素を連接
していくことにより、連続音声の認識を行う。そして、
LRパーザ5aは、音声認識結果データを外部装置に出
力する。以上の従来の音声認識装置では、AD変換器2
aにおけるAD変換と、特徴抽出部3aにおける特徴パ
ラメータの抽出はフレーム毎に処理され、音素照合部4
aにおける音素照合と、LRパーザ5aにおけるLRパ
ージングは音素毎に処理される。
【0005】
【発明が解決しようとする課題】しかしながら、従来の
音声認識装置では、AD変換器2aと特徴抽出部3a、
特徴抽出部3aと音素照合部4a及び音素照合部4aと
LRパーザ5aが、音声認識コントローラ7aを介して
制御データバス71a乃至74aによって接続され、か
つ、各処理部での各処理が音声認識コントローラ7aか
ら送られるデータと制御信号を受けてから実行されるの
で、リアルタイム処理ができなかった。そのため音声認
識処理に時間がかかるという問題があった。また、音声
認識に関する種々の研究を行うためには、処理部毎に他
のものに取り替えて動作させる必要が生じるが、従来の
音声認識装置では、各処理部が音声認識コントローラ7
aにのみに接続されていて、データと制御信号のインタ
ーフェースを共通にする必要があるので、各処理部の交
換が容易でないという問題があった。このために、例え
ば、音声信号からピッチ周波数を検出して、当該音声信
号の音声認識データと比較しようとしてもできなかっ
た。
音声認識装置では、AD変換器2aと特徴抽出部3a、
特徴抽出部3aと音素照合部4a及び音素照合部4aと
LRパーザ5aが、音声認識コントローラ7aを介して
制御データバス71a乃至74aによって接続され、か
つ、各処理部での各処理が音声認識コントローラ7aか
ら送られるデータと制御信号を受けてから実行されるの
で、リアルタイム処理ができなかった。そのため音声認
識処理に時間がかかるという問題があった。また、音声
認識に関する種々の研究を行うためには、処理部毎に他
のものに取り替えて動作させる必要が生じるが、従来の
音声認識装置では、各処理部が音声認識コントローラ7
aにのみに接続されていて、データと制御信号のインタ
ーフェースを共通にする必要があるので、各処理部の交
換が容易でないという問題があった。このために、例え
ば、音声信号からピッチ周波数を検出して、当該音声信
号の音声認識データと比較しようとしてもできなかっ
た。
【0006】本発明の目的は、以上の問題を解決して、
実質的にリアルタイム処理が可能で、従来例に比較して
高速に音声認識ができ、しかも各処理部毎の交換が容易
で拡張性に富んだ音声認識装置を提供することにある。
実質的にリアルタイム処理が可能で、従来例に比較して
高速に音声認識ができ、しかも各処理部毎の交換が容易
で拡張性に富んだ音声認識装置を提供することにある。
【0007】
【課題を解決するための手段】本発明に係る音声認識装
置は、入力された音声信号をデジタル信号である音声デ
ータにAD変換して出力する変換手段と、上記音声デー
タから音声認識のための特徴パラメータを抽出して特徴
パラメータのデータを出力する特徴抽出手段と、上記特
徴パラメータのデータに基づいて上記入力された音声信
号の音声を認識して音声認識データを出力する音声認識
手段と、上記変換手段のAD変換と上記特徴抽出手段の
特徴パラメータの抽出と上記音声認識手段の音声認識
が、所定の一定時間の音声信号に対応した1フレームの
音声データ毎にフレーム同期して実行されるように上記
変換手段と上記特徴抽出手段と上記音声認識手段を制御
する制御手段とを備えた音声認識装置であって、上記制
御手段と上記変換手段の間を、上記制御手段から上記変
換手段へAD変換の実行の開始を指示する制御信号と上
記変換手段から上記制御手段へ1フレームのAD変換の
終了を示すステータス信号を伝送するための第1の制御
バスで接続し、上記制御手段と上記特徴抽出手段の間
を、上記制御手段から上記特徴抽出手段へ特徴パラメー
タの抽出処理の実行の開始を指示する制御信号と上記特
徴抽出手段から上記制御手段へ1フレームの特徴パラメ
ータの抽出の終了を示すステータス信号を伝送するため
の第2の制御バスで接続し、上記制御手段と上記音声認
識手段の間を、上記制御手段から上記音声認識手段へ音
声の認識の実行の開始を指示する制御信号と上記音声認
識手段から上記制御手段へ1フレームの音声認識の終了
を示すステータス信号を伝送するための第3の制御バス
で接続し、かつ上記変換手段と上記特徴抽出手段の間
を、上記音声データを伝送するための第1のデータバス
で接続し、上記特徴抽出手段と音声認識手段の間を、上
記特徴パラメータのデータを伝送するための第2のデー
タバスで接続したことを特徴とする。
置は、入力された音声信号をデジタル信号である音声デ
ータにAD変換して出力する変換手段と、上記音声デー
タから音声認識のための特徴パラメータを抽出して特徴
パラメータのデータを出力する特徴抽出手段と、上記特
徴パラメータのデータに基づいて上記入力された音声信
号の音声を認識して音声認識データを出力する音声認識
手段と、上記変換手段のAD変換と上記特徴抽出手段の
特徴パラメータの抽出と上記音声認識手段の音声認識
が、所定の一定時間の音声信号に対応した1フレームの
音声データ毎にフレーム同期して実行されるように上記
変換手段と上記特徴抽出手段と上記音声認識手段を制御
する制御手段とを備えた音声認識装置であって、上記制
御手段と上記変換手段の間を、上記制御手段から上記変
換手段へAD変換の実行の開始を指示する制御信号と上
記変換手段から上記制御手段へ1フレームのAD変換の
終了を示すステータス信号を伝送するための第1の制御
バスで接続し、上記制御手段と上記特徴抽出手段の間
を、上記制御手段から上記特徴抽出手段へ特徴パラメー
タの抽出処理の実行の開始を指示する制御信号と上記特
徴抽出手段から上記制御手段へ1フレームの特徴パラメ
ータの抽出の終了を示すステータス信号を伝送するため
の第2の制御バスで接続し、上記制御手段と上記音声認
識手段の間を、上記制御手段から上記音声認識手段へ音
声の認識の実行の開始を指示する制御信号と上記音声認
識手段から上記制御手段へ1フレームの音声認識の終了
を示すステータス信号を伝送するための第3の制御バス
で接続し、かつ上記変換手段と上記特徴抽出手段の間
を、上記音声データを伝送するための第1のデータバス
で接続し、上記特徴抽出手段と音声認識手段の間を、上
記特徴パラメータのデータを伝送するための第2のデー
タバスで接続したことを特徴とする。
【0008】
【作用】本発明に係る請求項1記載の音声認識装置にお
いて、上記制御手段は、第1の制御バスを介して、上記
変換手段にAD変換処理の開始を指示する制御信号を入
力する。上記変換手段は、当該制御信号に応答して入力
された音声信号をAD変換して、1フレームに対応した
所定の一定時間の音声信号を音声データにAD変換する
毎に、当該音声データを第1のデータバスを介して上記
特徴抽出手段に出力する一方、1フレームのAD変換処
理が終了したことを示すステータス信号を第1の制御バ
スを介して上記制御手段に出力する。上記制御手段は、
当該ステータス信号に基づいて、1フレーム毎に上記特
徴抽出手段に第2の制御バスを介して、上記変換手段の
AD変換とフレーム同期するように、入力された1フレ
ームの音声データの特徴抽出処理の開始を指示する制御
信号を出力する。上記特徴抽出手段は、当該制御信号に
応答して、1フレームの音声データ毎に特徴パラメータ
を抽出して、第2のデータバスを介して上記音声認識手
段へ出力する一方、1フレームの特徴抽出処理が終了し
たことを示すステータス信号を第2の制御バスを介して
上記制御手段に出力する。上記制御手段は、当該ステー
タス信号に基づいて、1フレーム毎に上記音声認識手段
に上記第3の制御バスを介して、上記特徴抽出手段の特
徴抽出処理とフレーム同期するように、入力された1フ
レームの特徴パラメータに基づいて音声の認識の開始を
指示する制御信号を出力する。上記音声認識手段は、当
該制御信号に応答して、1フレームの特徴パラメータ毎
に、音声を認識して音声認識データを出力する一方、上
記制御手段へ1フレームの音声データの認識の終了を示
すステータス信号を上記第3の制御バスを介して出力す
る。
いて、上記制御手段は、第1の制御バスを介して、上記
変換手段にAD変換処理の開始を指示する制御信号を入
力する。上記変換手段は、当該制御信号に応答して入力
された音声信号をAD変換して、1フレームに対応した
所定の一定時間の音声信号を音声データにAD変換する
毎に、当該音声データを第1のデータバスを介して上記
特徴抽出手段に出力する一方、1フレームのAD変換処
理が終了したことを示すステータス信号を第1の制御バ
スを介して上記制御手段に出力する。上記制御手段は、
当該ステータス信号に基づいて、1フレーム毎に上記特
徴抽出手段に第2の制御バスを介して、上記変換手段の
AD変換とフレーム同期するように、入力された1フレ
ームの音声データの特徴抽出処理の開始を指示する制御
信号を出力する。上記特徴抽出手段は、当該制御信号に
応答して、1フレームの音声データ毎に特徴パラメータ
を抽出して、第2のデータバスを介して上記音声認識手
段へ出力する一方、1フレームの特徴抽出処理が終了し
たことを示すステータス信号を第2の制御バスを介して
上記制御手段に出力する。上記制御手段は、当該ステー
タス信号に基づいて、1フレーム毎に上記音声認識手段
に上記第3の制御バスを介して、上記特徴抽出手段の特
徴抽出処理とフレーム同期するように、入力された1フ
レームの特徴パラメータに基づいて音声の認識の開始を
指示する制御信号を出力する。上記音声認識手段は、当
該制御信号に応答して、1フレームの特徴パラメータ毎
に、音声を認識して音声認識データを出力する一方、上
記制御手段へ1フレームの音声データの認識の終了を示
すステータス信号を上記第3の制御バスを介して出力す
る。
【0009】上述のように、本発明に係る音声認識装置
では、上記制御手段によって、上記変換手段と上記特徴
抽出手段と上記音声認識手段が、1フレームの音声デー
タ毎にフレーム同期して第1乃至第3の制御バスを介し
て、各処理を実行するように制御されているので、上記
変換手段と上記特徴抽出手段と上記音声認識手段におけ
る各処理は実質的にリアルタイムで実行される。さら
に、上記変換手段は、第1のデータバスを介して上記音
声データのみを直接上記特徴抽出手段へ伝送し、上記特
徴抽出手段は、上記第2のデータバスを介して上記特徴
パラメータのデータのみを直接上記音声認識手段に伝送
する。
では、上記制御手段によって、上記変換手段と上記特徴
抽出手段と上記音声認識手段が、1フレームの音声デー
タ毎にフレーム同期して第1乃至第3の制御バスを介し
て、各処理を実行するように制御されているので、上記
変換手段と上記特徴抽出手段と上記音声認識手段におけ
る各処理は実質的にリアルタイムで実行される。さら
に、上記変換手段は、第1のデータバスを介して上記音
声データのみを直接上記特徴抽出手段へ伝送し、上記特
徴抽出手段は、上記第2のデータバスを介して上記特徴
パラメータのデータのみを直接上記音声認識手段に伝送
する。
【0010】
【実施例】以下、図面を参照して本発明に係る実施例に
ついて説明する。図1は、本発明に係る実施例の音声認
識装置のブロック図である。図1の音声認識装置は、マ
イクロフォン1と、AD変換器2と、特徴抽出部3と、
音素照合部4と、LRパーザ5と、ピッチ検出部6と、
音声認識コントローラ7と、スイッチ8とを備える。当
該音声認識装置の特徴は、以下の通りである。音声認識
コントローラ7は、上記AD変換器2のAD変換と上記
特徴抽出部3の特徴パラメータの抽出と上記音素照合部
4の音素照合と上記LRパーザ5のLRパージングが、
所定の一定時間の音声信号に対応した1フレームの音声
データ毎にフレーム同期して実行されるように上記AD
変換器2と上記特徴抽出部3と上記音素照合部4と上記
LRパーザ5を制御する。ここで、AD変換器2と音声
認識コントローラ7の間を、上記音声認識コントローラ
7から上記AD変換器2へAD変換の実行の開始を指示
する制御信号と上記AD変換器2から上記音声認識コン
トローラ7へ1フレームのAD変換の終了を示すステー
タス信号を伝送するための、例えば、RPC(Remo
te Procedure Calls)などの制御バ
ス71で接続する。また、特徴抽出部3と音声認識コン
トローラ7の間を、上記音声認識コントローラ7から上
記特徴抽出部3へ特徴パラメータの抽出処理の実行の開
始を指示する制御信号と上記特徴抽出部3から上記音声
認識コントローラ7へ1フレームの特徴パラメータの抽
出の終了を示すステータス信号を伝送するための、例え
ば、RPCなどの制御バス72で接続する。さらに、音
素照合部4と音声認識コントローラ7の間を、上記音声
認識コントローラ7から上記音素照合部4へ音素照合処
理の開始を指示する制御信号と上記音素照合部4から上
記音声認識コントローラ7へ1フレームの音素照合処理
の終了を示すステータス信号を伝送するための、例え
ば、RPCなどの制御バス73で接続する。またさら
に、LRパーザ5と音声認識コントローラ7の間を、上
記音声認識コントローラ7から上記LRパーザ5へLR
パージングの開始を指示する制御信号と上記LRパーザ
5から上記音声認識コントローラ7へ1フレームのLR
パージング処理の終了を示すステータス信号を伝送する
ための、例えば、RPCなどの制御バス74で接続す
る。また、ピッチ検出部6と音声認識コントローラ7の
間を、上記音声認識コントローラ7から上記ピッチ検出
部6へピッチ検出処理の開始を指示する制御信号と上記
ピッチ検出部から上記音声認識コントローラ7へ1フレ
ームのピッチ検出処理の終了を示すステータス信号を伝
送するための、例えば、RPCなどの制御バス75で接
続する。ここで、上記各制御信号と各ステータス信号
は、音声データや後述する特徴パラメータの時系列デー
タや後述する音素照合スコアや後述する音素予測データ
に比べると小容量の信号である。また、AD変換器2と
特徴抽出部3の間は大容量データである音声データを伝
送するための、例えば、240kbpsの伝送レートを
有する大容量データの高速伝送が可能なデータバス11
によって接続し、AD変換器2とピッチ検出部6の間は
上記音声データを伝送するための、例えば、240kb
psの伝送レートを有する大容量データの高速伝送が可
能なデータバス14によって接続する。特徴抽出部3と
音素照合部4の間は、大容量データである特徴パラメー
タの時系列データを伝送するための、例えば240kb
psの伝送レートを有する大容量データの高速伝送が可
能なデータバス12によって接続し、音素照合部4とL
Rパーザ5の間は大容量データである音素照合スコアと
音素予測データを伝送するための、例えば2.4Mbp
sの伝送レートを有する大容量データの高速伝送が可能
なデータバス13によって接続する。以下、AD変換器
2と特徴抽出部3と音素照合部4とLRパーザ5とピッ
チ検出部6を総称して呼ぶときは、それぞれ処理部とい
う。
ついて説明する。図1は、本発明に係る実施例の音声認
識装置のブロック図である。図1の音声認識装置は、マ
イクロフォン1と、AD変換器2と、特徴抽出部3と、
音素照合部4と、LRパーザ5と、ピッチ検出部6と、
音声認識コントローラ7と、スイッチ8とを備える。当
該音声認識装置の特徴は、以下の通りである。音声認識
コントローラ7は、上記AD変換器2のAD変換と上記
特徴抽出部3の特徴パラメータの抽出と上記音素照合部
4の音素照合と上記LRパーザ5のLRパージングが、
所定の一定時間の音声信号に対応した1フレームの音声
データ毎にフレーム同期して実行されるように上記AD
変換器2と上記特徴抽出部3と上記音素照合部4と上記
LRパーザ5を制御する。ここで、AD変換器2と音声
認識コントローラ7の間を、上記音声認識コントローラ
7から上記AD変換器2へAD変換の実行の開始を指示
する制御信号と上記AD変換器2から上記音声認識コン
トローラ7へ1フレームのAD変換の終了を示すステー
タス信号を伝送するための、例えば、RPC(Remo
te Procedure Calls)などの制御バ
ス71で接続する。また、特徴抽出部3と音声認識コン
トローラ7の間を、上記音声認識コントローラ7から上
記特徴抽出部3へ特徴パラメータの抽出処理の実行の開
始を指示する制御信号と上記特徴抽出部3から上記音声
認識コントローラ7へ1フレームの特徴パラメータの抽
出の終了を示すステータス信号を伝送するための、例え
ば、RPCなどの制御バス72で接続する。さらに、音
素照合部4と音声認識コントローラ7の間を、上記音声
認識コントローラ7から上記音素照合部4へ音素照合処
理の開始を指示する制御信号と上記音素照合部4から上
記音声認識コントローラ7へ1フレームの音素照合処理
の終了を示すステータス信号を伝送するための、例え
ば、RPCなどの制御バス73で接続する。またさら
に、LRパーザ5と音声認識コントローラ7の間を、上
記音声認識コントローラ7から上記LRパーザ5へLR
パージングの開始を指示する制御信号と上記LRパーザ
5から上記音声認識コントローラ7へ1フレームのLR
パージング処理の終了を示すステータス信号を伝送する
ための、例えば、RPCなどの制御バス74で接続す
る。また、ピッチ検出部6と音声認識コントローラ7の
間を、上記音声認識コントローラ7から上記ピッチ検出
部6へピッチ検出処理の開始を指示する制御信号と上記
ピッチ検出部から上記音声認識コントローラ7へ1フレ
ームのピッチ検出処理の終了を示すステータス信号を伝
送するための、例えば、RPCなどの制御バス75で接
続する。ここで、上記各制御信号と各ステータス信号
は、音声データや後述する特徴パラメータの時系列デー
タや後述する音素照合スコアや後述する音素予測データ
に比べると小容量の信号である。また、AD変換器2と
特徴抽出部3の間は大容量データである音声データを伝
送するための、例えば、240kbpsの伝送レートを
有する大容量データの高速伝送が可能なデータバス11
によって接続し、AD変換器2とピッチ検出部6の間は
上記音声データを伝送するための、例えば、240kb
psの伝送レートを有する大容量データの高速伝送が可
能なデータバス14によって接続する。特徴抽出部3と
音素照合部4の間は、大容量データである特徴パラメー
タの時系列データを伝送するための、例えば240kb
psの伝送レートを有する大容量データの高速伝送が可
能なデータバス12によって接続し、音素照合部4とL
Rパーザ5の間は大容量データである音素照合スコアと
音素予測データを伝送するための、例えば2.4Mbp
sの伝送レートを有する大容量データの高速伝送が可能
なデータバス13によって接続する。以下、AD変換器
2と特徴抽出部3と音素照合部4とLRパーザ5とピッ
チ検出部6を総称して呼ぶときは、それぞれ処理部とい
う。
【0011】図1の音声認識装置において、スイッチ8
は、例えばフットペタルスイッチなどからなり、オンさ
れる毎に、音声認識コントローラ7の端子を接地させ
て、発声開始又は発声終了を知らせる。音声認識コント
ローラ7は、音声認識コントロールプログラムを格納し
たROMと、上記音声認識コントロールプログラムに従
って音声認識コントロール処理を実行するCPUと、処
理のためのワーキングエリアとして用いられるRAMと
を備えて構成される。音声認識コントローラ7は、スイ
ッチ8から発声開始を知らされると、AD変換器2に、
制御バス71を介して、AD変換処理の開始を指示する
制御信号を出力し、AD変換器2から制御バス71を介
して、1フレームに対応する所定の一定時間の音声信号
のAD変換が終了する毎に1フレームの処理が終了した
ことを示すステータス信号が入力される。
は、例えばフットペタルスイッチなどからなり、オンさ
れる毎に、音声認識コントローラ7の端子を接地させ
て、発声開始又は発声終了を知らせる。音声認識コント
ローラ7は、音声認識コントロールプログラムを格納し
たROMと、上記音声認識コントロールプログラムに従
って音声認識コントロール処理を実行するCPUと、処
理のためのワーキングエリアとして用いられるRAMと
を備えて構成される。音声認識コントローラ7は、スイ
ッチ8から発声開始を知らされると、AD変換器2に、
制御バス71を介して、AD変換処理の開始を指示する
制御信号を出力し、AD変換器2から制御バス71を介
して、1フレームに対応する所定の一定時間の音声信号
のAD変換が終了する毎に1フレームの処理が終了した
ことを示すステータス信号が入力される。
【0012】次に、音声認識コントローラ7は、AD変
換器2からのステータス信号に基づいて、特徴抽出部3
に制御バス72を介して1フレーム毎に特徴抽出処理の
開始を指示する制御信号を出力し、ピッチ検出部6に制
御バス75を介して1フレーム毎にピッチ検出処理の開
始を指示する制御信号を出力する。音声認識コントロー
ラ7には、特徴抽出部3から制御バス72を介して1フ
レームの特徴パラメータの抽出が終了する毎に1フレー
ムの処理が終了したことを示すステータス信号が入力さ
れる。
換器2からのステータス信号に基づいて、特徴抽出部3
に制御バス72を介して1フレーム毎に特徴抽出処理の
開始を指示する制御信号を出力し、ピッチ検出部6に制
御バス75を介して1フレーム毎にピッチ検出処理の開
始を指示する制御信号を出力する。音声認識コントロー
ラ7には、特徴抽出部3から制御バス72を介して1フ
レームの特徴パラメータの抽出が終了する毎に1フレー
ムの処理が終了したことを示すステータス信号が入力さ
れる。
【0013】音声認識コントローラ7は、特徴抽出部3
からのステータス信号に基づいて音素照合部4に制御バ
ス73を介して1フレーム毎に音素照合処理の開始を指
示する制御信号を出力し、音素照合部4から制御バス7
3を介して1フレームの音素照合処理が終了する毎に1
フレームの音素照合処理が終了したことを示すステータ
ス信号が入力される。音声認識コントローラ7は、音素
照合部4からのステータス信号に基づいてLRパーザ5
に制御バス74を介して1フレーム毎にLRパージング
処理の開始を指示する制御信号を出力して、LRパーザ
から制御バス74を介して1フレームの処理が終了する
毎に1フレームの処理が終了したことを示すステータス
信号が入力される。
からのステータス信号に基づいて音素照合部4に制御バ
ス73を介して1フレーム毎に音素照合処理の開始を指
示する制御信号を出力し、音素照合部4から制御バス7
3を介して1フレームの音素照合処理が終了する毎に1
フレームの音素照合処理が終了したことを示すステータ
ス信号が入力される。音声認識コントローラ7は、音素
照合部4からのステータス信号に基づいてLRパーザ5
に制御バス74を介して1フレーム毎にLRパージング
処理の開始を指示する制御信号を出力して、LRパーザ
から制御バス74を介して1フレームの処理が終了する
毎に1フレームの処理が終了したことを示すステータス
信号が入力される。
【0014】マイクロフォン1は、入力された話者の発
声音声を音声信号に変換して、AD変換器2に出力す
る。AD変換器2は、AD変換処理プログラムを格納し
たROMと、上記AD変換プログラムに従ってAD変換
処理を実行するCPUと、処理のためのワーキングエリ
アとして用いられるRAMと、入力ソケット21と、出
力ソケット22,23,24とを備えて構成される。A
D変換器2は、音声認識コントローラ7から制御バス7
1を介して入力されるAD変換処理の開始を指示する制
御信号に応答して、マイクロフォン1から入力される音
声信号をデジタル信号である音声データに20ミリ秒未
満の時間でAD変換して、その音声データを1フレーム
毎に出力ソケット22,23,24から出力する。ここ
で、出力ソケット23から出力された音声データは、デ
ータバス11を介して特徴抽出部3の入力ソケット31
に入力され、出力ソケット24から出力される音声デー
タは、データバス14を介してピッチ検出部6の入力ソ
ケット61に入力される。AD変換器2は、1フレーム
毎に当該フレームのAD変換処理の終了を示すステータ
ス信号を制御バス71を介して音声認識コントローラ7
に出力する。
声音声を音声信号に変換して、AD変換器2に出力す
る。AD変換器2は、AD変換処理プログラムを格納し
たROMと、上記AD変換プログラムに従ってAD変換
処理を実行するCPUと、処理のためのワーキングエリ
アとして用いられるRAMと、入力ソケット21と、出
力ソケット22,23,24とを備えて構成される。A
D変換器2は、音声認識コントローラ7から制御バス7
1を介して入力されるAD変換処理の開始を指示する制
御信号に応答して、マイクロフォン1から入力される音
声信号をデジタル信号である音声データに20ミリ秒未
満の時間でAD変換して、その音声データを1フレーム
毎に出力ソケット22,23,24から出力する。ここ
で、出力ソケット23から出力された音声データは、デ
ータバス11を介して特徴抽出部3の入力ソケット31
に入力され、出力ソケット24から出力される音声デー
タは、データバス14を介してピッチ検出部6の入力ソ
ケット61に入力される。AD変換器2は、1フレーム
毎に当該フレームのAD変換処理の終了を示すステータ
ス信号を制御バス71を介して音声認識コントローラ7
に出力する。
【0015】ピッチ検出部6は、ピッチ検出処理プログ
ラムを格納したROMと、上記ピッチ検出処理プログラ
ムに従ってピッチ検出処理を実行するCPUと、処理の
ためのワーキングエリアとして用いられるRAMと、入
力ソケット61と、出力ソケット62を備えて構成され
る。ピッチ検出部6は、音声認識コントローラ7から制
御バス75を介して入力される1フレーム毎のピッチ検
出処理の開始を指示する制御信号に応答して、入力ソケ
ット61から入力される音声データからピッチ周波数を
20ミリ秒未満の時間で検出して、そのピッチ周波数を
出力ソケット62から出力する。ピッチ検出部6は、1
フレーム毎に当該フレームのピッチ検出処理の終了を示
すステータス信号を制御バス75を介して音声認識コン
トローラ7に出力する。
ラムを格納したROMと、上記ピッチ検出処理プログラ
ムに従ってピッチ検出処理を実行するCPUと、処理の
ためのワーキングエリアとして用いられるRAMと、入
力ソケット61と、出力ソケット62を備えて構成され
る。ピッチ検出部6は、音声認識コントローラ7から制
御バス75を介して入力される1フレーム毎のピッチ検
出処理の開始を指示する制御信号に応答して、入力ソケ
ット61から入力される音声データからピッチ周波数を
20ミリ秒未満の時間で検出して、そのピッチ周波数を
出力ソケット62から出力する。ピッチ検出部6は、1
フレーム毎に当該フレームのピッチ検出処理の終了を示
すステータス信号を制御バス75を介して音声認識コン
トローラ7に出力する。
【0016】特徴抽出部3は、特徴抽出処理プログラム
を格納したROMと、上記特徴抽出プログラムに従って
特徴抽出処理を実行するCPUと、処理のためのワーキ
ングエリアとして用いられるRAMと、入力ソケット3
1と、出力ソケット32,33,34とを備えて構成さ
れる。特徴抽出部3は、音声認識コントローラ7から制
御バス72を介して入力される1フレーム毎の特徴抽出
処理の開始を指示する制御信号に応答して、入力ソケッ
ト31から入力される音声データから例えばLPC分析
を実行し、対数パワー、16次ケプストラム係数、Δ対
数パワー及び16次Δケプストラム係数を含む34次元
の特徴パラメータを抽出して、その特徴パラメータの時
系列データを出力ソケット32,33,34から出力す
る。ここで、出力ソケット33から出力された特徴パラ
メータの時系列データは、データバス12を介して音素
照合部4の入力ソケット41に入力される。特徴抽出部
3は、上記特徴抽出処理を20ミリ秒未満の時間で実行
する。特徴抽出部3は、1フレーム毎に当該フレームの
特徴抽出処理の終了を示すステータス信号を制御バス7
2を介して音声認識コントローラ7に出力する。
を格納したROMと、上記特徴抽出プログラムに従って
特徴抽出処理を実行するCPUと、処理のためのワーキ
ングエリアとして用いられるRAMと、入力ソケット3
1と、出力ソケット32,33,34とを備えて構成さ
れる。特徴抽出部3は、音声認識コントローラ7から制
御バス72を介して入力される1フレーム毎の特徴抽出
処理の開始を指示する制御信号に応答して、入力ソケッ
ト31から入力される音声データから例えばLPC分析
を実行し、対数パワー、16次ケプストラム係数、Δ対
数パワー及び16次Δケプストラム係数を含む34次元
の特徴パラメータを抽出して、その特徴パラメータの時
系列データを出力ソケット32,33,34から出力す
る。ここで、出力ソケット33から出力された特徴パラ
メータの時系列データは、データバス12を介して音素
照合部4の入力ソケット41に入力される。特徴抽出部
3は、上記特徴抽出処理を20ミリ秒未満の時間で実行
する。特徴抽出部3は、1フレーム毎に当該フレームの
特徴抽出処理の終了を示すステータス信号を制御バス7
2を介して音声認識コントローラ7に出力する。
【0017】音素照合部4は、音素照合処理プログラム
を格納したROMと、上記音素照合プログラムに従って
音素照合処理を実行するCPUと、処理のためのワーキ
ングエリアとして用いられるRAMと、各状態をノード
とする複数のネットワークとして表されている隠れマル
コフ網データ(以下、HM網と称する)を格納したHM
網メモリと、入力ソケット41と、出力ソケット42,
44と入出力ソケット43とを備えて構成される。以上
の構成により、音素照合部4は、音声認識コントローラ
7から制御バス73を介して入力される1フレーム毎の
音素照合処理の開始を指示する制御信号に応答して、後
述する音素予測データに対応するHM網を参照して照合
し、不特定話者モデルを用いて音素照合区間のデータに
対する尤度を計算して、この尤度の値を音素照合スコア
として入出力ソケット43と出力ソケット42,44か
ら出力する。ここで、入出力ソケット43から出力され
る音素照合スコアは、データバス13を介してLRパー
ザ5の入出力ソケット51に入力される。音素照合部4
は、上述の音素照合処理を20ミリ秒未満の時間で処理
する。音素照合部4は、1フレーム毎に当該フレームの
音素照合処理の終了を示すステータス信号を制御バス7
3を介して音声認識コントローラ7に出力する。
を格納したROMと、上記音素照合プログラムに従って
音素照合処理を実行するCPUと、処理のためのワーキ
ングエリアとして用いられるRAMと、各状態をノード
とする複数のネットワークとして表されている隠れマル
コフ網データ(以下、HM網と称する)を格納したHM
網メモリと、入力ソケット41と、出力ソケット42,
44と入出力ソケット43とを備えて構成される。以上
の構成により、音素照合部4は、音声認識コントローラ
7から制御バス73を介して入力される1フレーム毎の
音素照合処理の開始を指示する制御信号に応答して、後
述する音素予測データに対応するHM網を参照して照合
し、不特定話者モデルを用いて音素照合区間のデータに
対する尤度を計算して、この尤度の値を音素照合スコア
として入出力ソケット43と出力ソケット42,44か
ら出力する。ここで、入出力ソケット43から出力され
る音素照合スコアは、データバス13を介してLRパー
ザ5の入出力ソケット51に入力される。音素照合部4
は、上述の音素照合処理を20ミリ秒未満の時間で処理
する。音素照合部4は、1フレーム毎に当該フレームの
音素照合処理の終了を示すステータス信号を制御バス7
3を介して音声認識コントローラ7に出力する。
【0018】LRパーザ5は、LRパージング処理プロ
グラムを格納したROMと、上記LRパージング処理プ
ログラムに従ってLRパージング処理を実行するCPU
と、処理のためのワーキングエリアとして用いられるR
AMと、所定の文脈自由文法を公知の通り変換して予め
作成されたLRテーブルを格納したLRテーブルメモリ
と、入出力ソケット51と、出力ソケット52を備えて
構成される音素コンテキスト依存型LRパーザである。
LRパーザ5は、音声認識コントローラ7から制御バス
74を介して入力される1フレーム毎のLRパージング
処理の開始を指示する制御信号に応答して、入出力ソケ
ット51から入力された音素照合スコアを、LRテーブ
ルを参照して左から右方向に、後戻りなしに処理する。
構文的にあい昧さがある場合には、スタックを分割して
すべての候補の解析を平行して処理する。また、LRパ
ーザ5は、LRテーブルから次にくる音素を予測して音
素予測データを、入出力ソケット51から出力する。こ
こで、入出力ソケット51から出力される音素予測デー
タは、データバス13を介して音素照合部4の入出力ソ
ケット43に入力される。そして、LRパーザ5は、1
フレーム毎に当該フレームのLRパージング処理の終了
を示すステータス信号を制御バス74を介して音声認識
コントローラ7に出力する。LRパーザ5は、上述のL
Rパージング処理と音素予測を合わせて20ミリ秒未満
の時間で実行する。以上のように、音素照合部4とLR
パーザ5は、順次音素を連接していくことにより、連続
音声の音声認識を行い最終的な音声認識結果データを出
力ソケット52から出力する。
グラムを格納したROMと、上記LRパージング処理プ
ログラムに従ってLRパージング処理を実行するCPU
と、処理のためのワーキングエリアとして用いられるR
AMと、所定の文脈自由文法を公知の通り変換して予め
作成されたLRテーブルを格納したLRテーブルメモリ
と、入出力ソケット51と、出力ソケット52を備えて
構成される音素コンテキスト依存型LRパーザである。
LRパーザ5は、音声認識コントローラ7から制御バス
74を介して入力される1フレーム毎のLRパージング
処理の開始を指示する制御信号に応答して、入出力ソケ
ット51から入力された音素照合スコアを、LRテーブ
ルを参照して左から右方向に、後戻りなしに処理する。
構文的にあい昧さがある場合には、スタックを分割して
すべての候補の解析を平行して処理する。また、LRパ
ーザ5は、LRテーブルから次にくる音素を予測して音
素予測データを、入出力ソケット51から出力する。こ
こで、入出力ソケット51から出力される音素予測デー
タは、データバス13を介して音素照合部4の入出力ソ
ケット43に入力される。そして、LRパーザ5は、1
フレーム毎に当該フレームのLRパージング処理の終了
を示すステータス信号を制御バス74を介して音声認識
コントローラ7に出力する。LRパーザ5は、上述のL
Rパージング処理と音素予測を合わせて20ミリ秒未満
の時間で実行する。以上のように、音素照合部4とLR
パーザ5は、順次音素を連接していくことにより、連続
音声の音声認識を行い最終的な音声認識結果データを出
力ソケット52から出力する。
【0019】以上のように構成された音声認識装置にお
いて、操作者は、スイッチ8をオンすることによって、
音声認識コントローラ7の端子を接地して、音声認識コ
ントローラ7を起動させ、話者の発声音声の音声認識処
理を開始させる。音声認識コントローラ7は、AD変換
器2にAD変換処理の開始を指示する制御信号を入力す
る。一方、話者の発声音声はマイクロフォン1に入力さ
れて音声信号に変換された後、AD変換器2に連続的に
入力される。AD変換器2は入力される音声信号をAD
変換して、1フレームに相当する20ミリ秒間の音声信
号を音声データにAD変換する毎に、当該音声データを
出力ソケット23とデータバス11と入力ソケット31
を介して特徴抽出部3に出力する一方、1フレームのA
D変換処理が終了したことを示すステータス信号を音声
認識コントローラ7に出力する。音声認識コントローラ
7は、当該ステータス信号に基づいて、AD変換器2の
AD変換処理とフレーム同期するように1フレーム毎に
特徴抽出部3に、入力された1フレームの音声データの
処理の開始を指示する制御信号を出力する。特徴抽出部
3は、当該制御信号に応答して、1フレームの音声デー
タ毎に上述した特徴パラメータを抽出して、出力ソケッ
ト33とデータバス12と入力ソケット41を介して音
素照合部4へ出力する一方、1フレームの特徴抽出処理
が終了したことを示すステータス信号を音声認識コント
ローラ7に出力する。
いて、操作者は、スイッチ8をオンすることによって、
音声認識コントローラ7の端子を接地して、音声認識コ
ントローラ7を起動させ、話者の発声音声の音声認識処
理を開始させる。音声認識コントローラ7は、AD変換
器2にAD変換処理の開始を指示する制御信号を入力す
る。一方、話者の発声音声はマイクロフォン1に入力さ
れて音声信号に変換された後、AD変換器2に連続的に
入力される。AD変換器2は入力される音声信号をAD
変換して、1フレームに相当する20ミリ秒間の音声信
号を音声データにAD変換する毎に、当該音声データを
出力ソケット23とデータバス11と入力ソケット31
を介して特徴抽出部3に出力する一方、1フレームのA
D変換処理が終了したことを示すステータス信号を音声
認識コントローラ7に出力する。音声認識コントローラ
7は、当該ステータス信号に基づいて、AD変換器2の
AD変換処理とフレーム同期するように1フレーム毎に
特徴抽出部3に、入力された1フレームの音声データの
処理の開始を指示する制御信号を出力する。特徴抽出部
3は、当該制御信号に応答して、1フレームの音声デー
タ毎に上述した特徴パラメータを抽出して、出力ソケッ
ト33とデータバス12と入力ソケット41を介して音
素照合部4へ出力する一方、1フレームの特徴抽出処理
が終了したことを示すステータス信号を音声認識コント
ローラ7に出力する。
【0020】音声認識コントローラ7は、特徴抽出部3
から出力されるステータス信号に基づいて、上記特徴抽
出部3の特徴抽出処理とフレーム同期するように1フレ
ーム毎に音素照合部4に、入力された1フレームの特徴
パラメータの音素照合の開始を指示する制御信号を出力
する。音素照合部4は、当該制御信号に応答して、1フ
レームの特徴パラメータ毎に、LRパーザ5からの音素
予測データに対応するHM網を参照して音素照合し、当
該フレームの音素照合スコアをLRパーザ5へ出力する
一方、当該フレームの音素照合処理が終了したことを示
すステータス信号を音声認識コントローラ7に出力す
る。音声認識コントローラ7は、上記音素照合部4から
のステータス信号に基づいて、音素照合部4の音素照合
処理とフレーム同期するように1フレーム毎にLRパー
ザ5に、入力された1フレームの音素照合スコアのLR
パージングの開始を指示する制御信号を出力する。LR
パーザ5は、音声認識コントローラ7の制御信号に応答
して、LRテーブルを参照して、入力された音素照合ス
コアについて左から右方向に、後戻りなしに処理する。
構文的にあい昧さがある場合には、スタックを分割して
すべての候補の解析を平行して処理する。LRパーザ5
は、LRテーブルから次にくる音素を予測して音素予測
データを、入出力ソケット51とデータバス13と入出
力ソケット43を介して音素照合部4へ出力する。以上
の処理後、LRパーザは、音声認識コントローラ7に、
LRパージング処理の終了を示すステータス信号を出力
する。以上のようにして順次音素を連接していくことに
より、連続音声の認識を行いその音声認識結果データを
出力する。そして、操作者は、話者の発声の終了後、再
度スイッチ8をオンにして、音声認識コントローラ7の
端子を接地する。この後、音声認識コントローラ7は、
発声終了前に入力された音声の音声認識結果データがL
Rパーザ5から出力された後、LRパーザからのステー
タス信号を受信して音声認識装置の処理を終了する。以
上のようにして、本実施例の音声認識装置において、各
処理部は所定の一定時間の音声信号に対応した1フレー
ム毎に処理を実行し、かつ音声認識コントローラ7は、
各処理部がフレーム同期して処理を実行するように制御
しているので、各処理部は実質的にリアルタイムで各処
理を実行する。
から出力されるステータス信号に基づいて、上記特徴抽
出部3の特徴抽出処理とフレーム同期するように1フレ
ーム毎に音素照合部4に、入力された1フレームの特徴
パラメータの音素照合の開始を指示する制御信号を出力
する。音素照合部4は、当該制御信号に応答して、1フ
レームの特徴パラメータ毎に、LRパーザ5からの音素
予測データに対応するHM網を参照して音素照合し、当
該フレームの音素照合スコアをLRパーザ5へ出力する
一方、当該フレームの音素照合処理が終了したことを示
すステータス信号を音声認識コントローラ7に出力す
る。音声認識コントローラ7は、上記音素照合部4から
のステータス信号に基づいて、音素照合部4の音素照合
処理とフレーム同期するように1フレーム毎にLRパー
ザ5に、入力された1フレームの音素照合スコアのLR
パージングの開始を指示する制御信号を出力する。LR
パーザ5は、音声認識コントローラ7の制御信号に応答
して、LRテーブルを参照して、入力された音素照合ス
コアについて左から右方向に、後戻りなしに処理する。
構文的にあい昧さがある場合には、スタックを分割して
すべての候補の解析を平行して処理する。LRパーザ5
は、LRテーブルから次にくる音素を予測して音素予測
データを、入出力ソケット51とデータバス13と入出
力ソケット43を介して音素照合部4へ出力する。以上
の処理後、LRパーザは、音声認識コントローラ7に、
LRパージング処理の終了を示すステータス信号を出力
する。以上のようにして順次音素を連接していくことに
より、連続音声の認識を行いその音声認識結果データを
出力する。そして、操作者は、話者の発声の終了後、再
度スイッチ8をオンにして、音声認識コントローラ7の
端子を接地する。この後、音声認識コントローラ7は、
発声終了前に入力された音声の音声認識結果データがL
Rパーザ5から出力された後、LRパーザからのステー
タス信号を受信して音声認識装置の処理を終了する。以
上のようにして、本実施例の音声認識装置において、各
処理部は所定の一定時間の音声信号に対応した1フレー
ム毎に処理を実行し、かつ音声認識コントローラ7は、
各処理部がフレーム同期して処理を実行するように制御
しているので、各処理部は実質的にリアルタイムで各処
理を実行する。
【0021】図2は、発声された音声が、特徴抽出部
3、音素照合部4、LRパーザ5において処理されると
きの、開始時間と終了時間を示したグラフである。図2
から明らかなように、発声音声の音声信号は、AD変換
された後、特徴抽出部3において特徴抽出処理が開始さ
れる。次に1フレーム分の特徴抽出が終了した後、音素
照合部4において音素照合処理が開始される。続いて、
1フレーム分の音素照合が終了した後、LRパーザ5に
おいてLRパージング処理が開始される。以上のように
行なわれ、特徴抽出部3と音素照合部4とLRパーザ5
は、20ミリ秒ずつ、すなわち1フレームずつ時間をず
らして処理を開始するように制御され、フレーム同期さ
せて処理を実行するように制御されている。
3、音素照合部4、LRパーザ5において処理されると
きの、開始時間と終了時間を示したグラフである。図2
から明らかなように、発声音声の音声信号は、AD変換
された後、特徴抽出部3において特徴抽出処理が開始さ
れる。次に1フレーム分の特徴抽出が終了した後、音素
照合部4において音素照合処理が開始される。続いて、
1フレーム分の音素照合が終了した後、LRパーザ5に
おいてLRパージング処理が開始される。以上のように
行なわれ、特徴抽出部3と音素照合部4とLRパーザ5
は、20ミリ秒ずつ、すなわち1フレームずつ時間をず
らして処理を開始するように制御され、フレーム同期さ
せて処理を実行するように制御されている。
【0022】上述のように、本実施例の音声認識装置で
は、AD変換部2と特徴抽出部3と音素照合部4とLR
パーザ5の各処理部で、1フレームずつずれるように、
フレーム同期させて各処理を実行しているので、各処理
部における各処理が実質的にリアルタイムで実行するこ
とが可能となり、これによって、全体としての音声認識
処理時間を音素毎に処理する従来例に比較して短くする
ことができる。
は、AD変換部2と特徴抽出部3と音素照合部4とLR
パーザ5の各処理部で、1フレームずつずれるように、
フレーム同期させて各処理を実行しているので、各処理
部における各処理が実質的にリアルタイムで実行するこ
とが可能となり、これによって、全体としての音声認識
処理時間を音素毎に処理する従来例に比較して短くする
ことができる。
【0023】また、制御バス71乃至75を介して音声
データや特徴パラメータの時系列データや音素照合スコ
アや音素予測データに比較して小容量の信号である制御
信号とステータス信号(以下、制御信号等という。)が
伝送される。一方、大容量データの高速伝送が可能なデ
ータバス11,14を介して大容量の音声データが伝送
され、大容量データの高速伝送が可能なデータバス12
を介して大容量の特徴パラメータの時系列データが伝送
され、大容量データの高速伝送が可能なデータバス13
を介して大容量の音素照合スコアと音素予測データが伝
送されるように構成されている。従って、上記音声デー
タや上記特徴パラメータの時系列データや上記音素照合
スコアや上記音素予測データを含む各データと上記制御
信号等は、データ量に応じて設けられた各バスを用い
て、同時に伝送することができるので、信号伝送を高速
に行うことができる。これによって、上記各データと制
御信号等を同一の制御データバス71a乃至74aを介
して伝送する従来の音声認識装置に比較して、音声認識
処理時間を短縮することができる。
データや特徴パラメータの時系列データや音素照合スコ
アや音素予測データに比較して小容量の信号である制御
信号とステータス信号(以下、制御信号等という。)が
伝送される。一方、大容量データの高速伝送が可能なデ
ータバス11,14を介して大容量の音声データが伝送
され、大容量データの高速伝送が可能なデータバス12
を介して大容量の特徴パラメータの時系列データが伝送
され、大容量データの高速伝送が可能なデータバス13
を介して大容量の音素照合スコアと音素予測データが伝
送されるように構成されている。従って、上記音声デー
タや上記特徴パラメータの時系列データや上記音素照合
スコアや上記音素予測データを含む各データと上記制御
信号等は、データ量に応じて設けられた各バスを用い
て、同時に伝送することができるので、信号伝送を高速
に行うことができる。これによって、上記各データと制
御信号等を同一の制御データバス71a乃至74aを介
して伝送する従来の音声認識装置に比較して、音声認識
処理時間を短縮することができる。
【0024】またさらに、AD変換器2と特徴抽出部3
と音声照合部4とLRパーザ5とピッチ検出部6の各処
理部は、それぞれ各データ毎の入出力用ソケットを備
え、各処理部間の接続は、それらのソケットを用いて容
易に行うことができ、また、各データを伝送するデータ
バス11乃至14と制御信号とステータス信号を伝送す
る制御バス71乃至75を別々に設けているので、各処
理部と音声認識コントローラの接続は、接続する処理部
と音声認識コントローラ7間のインターフェイスを合わ
せることのみで可能であり、また、各処理部間の接続
は、接続される各処理部間のみのインターフェースを合
わせることにより可能である。すなわち、各処理部内で
は、制御信号及びステータス信号用のインターフェース
と各データ用のインターフェースを合わせる必要はな
く、これによって、従来の音声認識装置に比較して、各
処理部は各処理部毎に例えば異なる処理を行う新しい処
理部と容易に取り替えることができるので、新しい音声
認識装置の研究に対応して容易に拡張することができ
る。ここで、新しい処理部とは、例えば、自然な音声の
認識の際に必要になる韻律情報を含めて音声認識を行う
処理部などのことである。
と音声照合部4とLRパーザ5とピッチ検出部6の各処
理部は、それぞれ各データ毎の入出力用ソケットを備
え、各処理部間の接続は、それらのソケットを用いて容
易に行うことができ、また、各データを伝送するデータ
バス11乃至14と制御信号とステータス信号を伝送す
る制御バス71乃至75を別々に設けているので、各処
理部と音声認識コントローラの接続は、接続する処理部
と音声認識コントローラ7間のインターフェイスを合わ
せることのみで可能であり、また、各処理部間の接続
は、接続される各処理部間のみのインターフェースを合
わせることにより可能である。すなわち、各処理部内で
は、制御信号及びステータス信号用のインターフェース
と各データ用のインターフェースを合わせる必要はな
く、これによって、従来の音声認識装置に比較して、各
処理部は各処理部毎に例えば異なる処理を行う新しい処
理部と容易に取り替えることができるので、新しい音声
認識装置の研究に対応して容易に拡張することができ
る。ここで、新しい処理部とは、例えば、自然な音声の
認識の際に必要になる韻律情報を含めて音声認識を行う
処理部などのことである。
【0025】本実施例では、音素照合部4とLRパーザ
5を用いて音声を認識したが、本発明はこれに限らず、
例えば、One Pass DP音声認識方法などを用
いる音声認識回路を用いて音声を認識するように構成し
てもよい。
5を用いて音声を認識したが、本発明はこれに限らず、
例えば、One Pass DP音声認識方法などを用
いる音声認識回路を用いて音声を認識するように構成し
てもよい。
【0026】本実施例では、1フレームを20ミリ秒に
設定して各処理を行ったが本発明はこれに限定されるも
のではない。
設定して各処理を行ったが本発明はこれに限定されるも
のではない。
【0027】本実施例の音声認識装置は、ピッチ検出部
6を備え、かつピッチ検出処理が音声認識と同一の音声
信号に基づいて同時に実行されるように構成されている
ので、同一の音声信号から検出される音声認識データと
ピッチ周波数を同時に比較することができる。
6を備え、かつピッチ検出処理が音声認識と同一の音声
信号に基づいて同時に実行されるように構成されている
ので、同一の音声信号から検出される音声認識データと
ピッチ周波数を同時に比較することができる。
【0028】本実施例の音声認識装置では、音声認識コ
ントローラ7とAD変換器2と特徴抽出部3と音素照合
部4とLRパーザ5とピッチ検出部6のそれぞれが、C
PUを備えて構成されているが、本発明はこれに限ら
ず、例えば、1つのCPUのUNIXシステムを用い
て、すべての処理部を制御するように時分割多重パイプ
ライン処理を行ってもよい。
ントローラ7とAD変換器2と特徴抽出部3と音素照合
部4とLRパーザ5とピッチ検出部6のそれぞれが、C
PUを備えて構成されているが、本発明はこれに限ら
ず、例えば、1つのCPUのUNIXシステムを用い
て、すべての処理部を制御するように時分割多重パイプ
ライン処理を行ってもよい。
【0029】
【発明の効果】上述のように、本発明に係る音声認識装
置では、上記変換手段のAD変換と上記特徴抽出手段の
特徴パラメータの抽出と上記音声認識手段の音声認識
が、所定の一定時間の音声信号に対応した1フレームの
音声データ毎にフレーム同期して実行されるように上記
変換手段と上記特徴抽出手段と上記音声認識手段を制御
する制御手段を備えて構成されているので、上記変換手
段と上記特徴抽出手段と上記音声認識手段における各処
理が実質的にリアルタイムで実行される。また、第1と
第2と第3の制御バスを介して、小容量の信号である制
御信号とステータス信号が伝送され、大容量データの高
速伝送が可能な第1と第2のデータバスを介して、大容
量の音声データと大容量の特徴パラメータの時系列デー
タが伝送される。すなわち、上記各データと上記制御信
号等が、データ量に応じて別々に設けられた各バスを介
して、同時に伝送されるので、制御信号等と各データは
高速に伝送される。以上のことから本発明によれば、従
来例に比較して高速の音声認識が可能な音声認識装置を
提供することができる。
置では、上記変換手段のAD変換と上記特徴抽出手段の
特徴パラメータの抽出と上記音声認識手段の音声認識
が、所定の一定時間の音声信号に対応した1フレームの
音声データ毎にフレーム同期して実行されるように上記
変換手段と上記特徴抽出手段と上記音声認識手段を制御
する制御手段を備えて構成されているので、上記変換手
段と上記特徴抽出手段と上記音声認識手段における各処
理が実質的にリアルタイムで実行される。また、第1と
第2と第3の制御バスを介して、小容量の信号である制
御信号とステータス信号が伝送され、大容量データの高
速伝送が可能な第1と第2のデータバスを介して、大容
量の音声データと大容量の特徴パラメータの時系列デー
タが伝送される。すなわち、上記各データと上記制御信
号等が、データ量に応じて別々に設けられた各バスを介
して、同時に伝送されるので、制御信号等と各データは
高速に伝送される。以上のことから本発明によれば、従
来例に比較して高速の音声認識が可能な音声認識装置を
提供することができる。
【0030】また、データを伝送するためのデータバス
と、制御信号とステータス信号を伝送するための制御バ
スとを別けて構成しているので、データ用のインターフ
ェースと制御信号及びステータス信号用のインターフェ
イスを共通にする必要がなく、上記変換手段と上記特徴
抽出手段と上記音声認識手段の各処理手段毎に異なる処
理を行う新しい処理手段への取り替えが容易にできる。
これによって、音声認識装置の研究用にもちいることが
できる拡張性に富んだ音声認識装置を提供することがで
きる。
と、制御信号とステータス信号を伝送するための制御バ
スとを別けて構成しているので、データ用のインターフ
ェースと制御信号及びステータス信号用のインターフェ
イスを共通にする必要がなく、上記変換手段と上記特徴
抽出手段と上記音声認識手段の各処理手段毎に異なる処
理を行う新しい処理手段への取り替えが容易にできる。
これによって、音声認識装置の研究用にもちいることが
できる拡張性に富んだ音声認識装置を提供することがで
きる。
【図1】 本発明に係る実施例である音声認識装置のブ
ロック図である。
ロック図である。
【図2】 図1の音声認識装置において、特徴抽出部3
と音声照合部4とLRパーザ5で処理されるときの、処
理の開始時間と終了時間を示すグラフである。
と音声照合部4とLRパーザ5で処理されるときの、処
理の開始時間と終了時間を示すグラフである。
【図3】 従来例の音声認識装置のブロック図である。
1…マイクロフォン、 2…AD変換器、 3…特徴抽出部、 4…音素照合部、 5…LRパーザ、 6…ピッチ検出部、 7…音声認識コントローラ、 11,12,13,14…データバス、 21,31,41,61,…入力ソケット、 22,23,24,32,33,34,42,44,5
2,62…出力ソケット、 43,51…入出力ソケット、 71,72,73,74,75…制御バス。
2,62…出力ソケット、 43,51…入出力ソケット、 71,72,73,74,75…制御バス。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 別府 智彦 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内 (72)発明者 匂坂 芳典 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール音声翻 訳通信研究所内
Claims (1)
- 【請求項1】 入力された音声信号をデジタル信号であ
る音声データにAD変換して出力する変換手段と、 上記音声データから音声認識のための特徴パラメータを
抽出して特徴パラメータのデータを出力する特徴抽出手
段と、 上記特徴パラメータのデータに基づいて上記入力された
音声信号の音声を認識して音声認識データを出力する音
声認識手段と、 上記変換手段のAD変換と上記特徴抽出手段の特徴パラ
メータの抽出と上記音声認識手段の音声認識が、所定の
一定時間の音声信号に対応した1フレームの音声データ
毎にフレーム同期して実行されるように上記変換手段と
上記特徴抽出手段と上記音声認識手段を制御する制御手
段とを備えた音声認識装置であって、 上記制御手段と上記変換手段の間を、上記制御手段から
上記変換手段へAD変換の実行の開始を指示する制御信
号と上記変換手段から上記制御手段へ1フレームのAD
変換の終了を示すステータス信号を伝送するための第1
の制御バスで接続し、 上記制御手段と上記特徴抽出手段の間を、上記制御手段
から上記特徴抽出手段へ特徴パラメータの抽出処理の実
行の開始を指示する制御信号と上記特徴抽出手段から上
記制御手段へ1フレームの特徴パラメータの抽出の終了
を示すステータス信号を伝送するための第2の制御バス
で接続し、 上記制御手段と上記音声認識手段の間を、上記制御手段
から上記音声認識手段へ音声の認識の実行の開始を指示
する制御信号と上記音声認識手段から上記制御手段へ1
フレームの音声認識の終了を示すステータス信号を伝送
するための第3の制御バスで接続し、 かつ上記変換手段と上記特徴抽出手段の間を、上記音声
データを伝送するための第1のデータバスで接続し、 上記特徴抽出手段と音声認識手段の間を、上記特徴パラ
メータのデータを伝送するための第2のデータバスで接
続したことを特徴とする音声認識装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6264994A JPH08123480A (ja) | 1994-10-28 | 1994-10-28 | 音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6264994A JPH08123480A (ja) | 1994-10-28 | 1994-10-28 | 音声認識装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH08123480A true JPH08123480A (ja) | 1996-05-17 |
Family
ID=17411096
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6264994A Pending JPH08123480A (ja) | 1994-10-28 | 1994-10-28 | 音声認識装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH08123480A (ja) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS576900A (en) * | 1980-06-16 | 1982-01-13 | Nippon Telegraph & Telephone | Voice pattern recognition system |
-
1994
- 1994-10-28 JP JP6264994A patent/JPH08123480A/ja active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS576900A (en) * | 1980-06-16 | 1982-01-13 | Nippon Telegraph & Telephone | Voice pattern recognition system |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN110049270B (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
| JP4557919B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
| JP3004883B2 (ja) | 終話検出方法及び装置並びに連続音声認識方法及び装置 | |
| KR101208166B1 (ko) | 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법 | |
| JPH0962289A (ja) | 音声認識装置および音声認識処理方法 | |
| US8768701B2 (en) | Prosodic mimic method and apparatus | |
| US7689424B2 (en) | Distributed speech recognition method | |
| WO2011148594A1 (ja) | 音声認識システム、音声取得端末、音声認識分担方法および音声認識プログラム | |
| WO1996035207A1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
| JP2011504624A (ja) | 自動同時通訳システム | |
| CN113160821A (zh) | 一种基于语音识别的控制方法及装置 | |
| JP6748565B2 (ja) | 音声対話システム及び音声対話方法 | |
| JPH08263092A (ja) | 応答音声生成方法および音声対話システム | |
| CN101310315A (zh) | 语言学习设备,语言助学方法、程序及记录介质 | |
| JPH08123480A (ja) | 音声認識装置 | |
| JP4094255B2 (ja) | コマンド入力機能つきディクテーション装置 | |
| JP4449380B2 (ja) | 話者正規化方法及びそれを用いた音声認識装置 | |
| KR100369732B1 (ko) | 전문가 시스템을 이용한 음성인식 기반의 지능형 대화장치 및 그 방법 | |
| JP2000322087A (ja) | 多チャンネル入力音声認識装置 | |
| KR102632806B1 (ko) | Stt결과 조기 확정을 위한 음성 인식 방법 및 장치 | |
| CN118245008B (zh) | 3d数字人的智能语音交互方法 | |
| JP2004151562A5 (ja) | ||
| JPH08248990A (ja) | 音声合成装置 | |
| JP2000112490A (ja) | 音声認識方法及び音声認識装置並びに音声認識処理プログラムを記録した記録媒体 | |
| JP2001236087A (ja) | 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体 |