JPH0330159B2

JPH0330159B2 -

Info

Publication number: JPH0330159B2
Application number: JP62136377A
Authority: JP
Priority date: 1987-05-29
Filing date: 1987-05-29
Publication date: 1991-04-26
Also published as: JPS63300296A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は音声認識方式に関し、更に詳述すれば
ベクトル場のパターンを利用して高い認識率を得
ることができる新規な方式及びその実施に使用す
る装置を提供するものである。

〔従来技術〕

音声認識は、一般に、認識させるべき単語から
特徴を抽出して得た音声の標準パターンを単語
夫々に用意しておき、認識対象として入力された
音声から同様にして抽出した特徴パターンと複数
の標準パターンとを整合し、最も類似性が高い標
準パターンを求め、この標準パターンに係る単語
が入力されたものと判定する方式をとつている。
そして、従来は上記特徴パターンとして、音声信
号を分析して得られる、時間軸を横軸、空間軸を
縦軸とするスカラー場の時空間パターンそのもの
を用いていた。このようなスカラー場の時空間パ
ターンとしては、周波数を空間軸とするスペクト
ルが代表的なものであり、この他、ケフレンシー
を空間軸とするケプストラム、PARCOR係数、
LSP係数、音道断面積関数等種々の時空間パター
ンが用いられていた。

又、音声認識の分野において解決すべき課題の
１つとして多数話者又は不特定話者への対応があ
り、これには１つの単語に多数の標準パターンを
用意することで認識率の向上を図つていた。更
に、話者が同一であつても発音速度が異なること
があり、このような場合にも対応できるように時
間軸変動を吸収し得るDPマツチング法が開発さ
れていた。

〔発明が解決しようとする問題点〕

スカラー場の時空間パターンそのものを特徴と
して用いる従来の方式では、大語彙や不特定話者
を対象とした場合、必ずしも十分な認識率が得ら
られておらず、たとえ、上述の如く１つの単語に
多数の標準パターンを用意したり、あるいはDP
マツチング法を用いても、これらは本格的な解決
にはならなかつた。従つて、不特定話者や大語彙
を対象とした音声認識システムの実用化が停滞し
ているのである。そこで、本発明者の１人は、特
開昭60−59394号公報において、時間−周波数の
時空間パターンをであるスカラー場のスペクトル
空間微分してスペクトルベクトル場パターンを
得、このパターンを特徴として用いる手法を提案
したが、本願は、この手法を工学的観点から更に
一歩進めて、計算が簡単で短時間に行え実用化に
適するように、且つより高い認識率が得られるよ
うに改良した音声認識方式及びその実施に使用す
る装置を提供することを目的とする。

〔問題点を解決するための手段〕

本発明に係る音声認識方式は、認識対象として
入力された音声信号から特徴パターンを抽出し、
該特徴パターンと標準パターンとの整合をとり、
入力音声を識別する音声認識方式において、音声
信号を分析して時間軸と空間軸とで規定されるス
カラー場の時空間パターンを得、該時空間パター
ンを空間微分することにより空間の各格子点で大
きさと方向をもつベクトル場パターンに変換し、
該ベクトル場パターンのベクトルについて、その
方向パラメータをＮ値（Ｎ：整数）に量子化し、
この量子化値を同じくするベクトル毎に各々分離
して、そのベクトルの大きさを各格子点の値とし
たＮ個の方向別２次元パターンを作成し、該方向
別２次元パターンを前記特徴パターンとすること
を特徴とする。

〔作用〕

入力された音声信号は時間軸及び空間軸で規定
されるスカラー場の時空間パターンからベクトル
の方向パラメータが量子化され、量子化された方
向毎に分離された複数の方向別２次元パターンに
変換されることにより、このパターンを特徴パタ
ーンとして認識が行われる。このパターンは時空
間パターンの空間微分、つまり時空間変化情報を
もつて構成されているので音声音韻性をよく表
し、且つ話者変動等に影響され難く、又、方向パ
ラメータの量子化によりベクトル場の変動を吸収
する。更には、ベクトル場パターンそのものを特
徴パターンとした場合に実行せざるを得ない複素
数演算が不要となり、計算が簡略化される。

〔実施例〕

以下本発明をその実施例を示す図面に基づいて
詳述する。

第１図は本発明方式を実施するための装置の構
成を示すブロツク図である。この実施例では分析
部で音声信号をスペクトル分析してスカラー場の
時空間パターンとして、周波数軸を空間軸とする
スペクトルを用いている。

標準パターン作成のための音声の入力又は認識
対象の音声の入力はマイクロホン等の音声検出器
及びＡ／Ｄ変換器からなる音声入力部１によつて
行われ、これによつて得られた音声信号は通過周
波数帯域を夫々に異なる複数チヤネル（例えば10
〜30）のバンドパスフイルタを並列的に接続して
なる分析部２に入力される。分析部では、分析の
結果、時空間パターンが得られ、このパターンが
単語区間切出部３によつて認識単位の単語ごとに
区分されて特徴抽出部４へ与えられる。単語区間
切出部３としては従来から知られているものを用
いればよい。

なお周波数帯域ごとに音声信号を分割する分析
部として、以後の説明においては、上記した如く
バンドパスフイルタ群を用いることとするが、高
速フーリエ変換器を用いてもよい。

さて本発明方式は次に説明する特徴抽出部によ
つて特徴づけられる。特徴抽出部４への入力パタ
ーンは横軸を時間軸、縦軸を周波数とする時空間
パターンであり、単語区間切出部３によつて切出
された第２図に示す時空間パターンを（ｔ，ｘ）
（但しｔはサンプリングの時刻を示す番号、ｘは
バンドパスフイルタのチヤネル番号又は周波数帯
域を特定する番号。１≦ｔ≦Ｔ、１≦ｔ≦Ｌ）と
表す。

単語区間切出部３出力は特徴抽出部４の正規化
部４１へ入力され、正規化部４１は時間軸の線形
正規化をする。これは単語の長短、入力音声の長
短等をある程度吸収するためであり、時間軸をＴ
フレームからＭフレーム（例えば16〜23フレーム
程度）にする。具体的にはＭ≦Ｔの場合は、正規
化した時空間パターンＦ（ｔ，ｘ）は下記(1)式で
求められる。

Ｆ（ｔ，ｘ）＝_(T/M)

Claims

【特許請求の範囲】１認識対象として入力された音声信号から時間
軸及び空間軸で規定されるスカラー場の時空間パ
ターンを得、該時空間パターンに基く特徴パター
ンと標準パターンとの整合をとり、入力音声を識
別する音声認識方式において、音声信号を分析して前記スカラー場の時空間パ
ターンを得、該時空間パターンを空間微分するこ
とにより空間の各格子点で大きさと方向をもつベ
クトル場パターンに変換し、該ベクトル場パター
ンのベクトルについて、その方向パラメータをＮ
値（Ｎ：整数）に量子化し、この量子化値を同じ
くするベクトル毎に各々分離して、そのベクトル
の大きさを各格子点の値としたＮ個の方向別２次
元パターンを作成し、該方向別２次元パターンを
前記特徴パターンとすることを特徴とした音声認
識方式。２認識対象として入力された音声信号から時間
軸及び空間軸で規定されるスカラー場の時空間パ
ターンを得、該時空間パターンに基く特徴パター
ンと標準パターンとの整合をとり、入力音声を識
別する音声認識装置において、入力音声信号を分析して前記スカラー場の時空
間パターンを得る分析部と、該時空間パターンを時間に関して正規化する正
規化部と、正規化された時空間パターンを空間微分し、空
間の各格子点で大きさと方向をもつベクトル場パ
ターンを抽出するベクトル場抽出部と、該ベクトル場パターンのベクトルについて、そ
の方向パラメータをＮ値（Ｎ：整数）に量子化
し、この量子化値を同じくするベクトル毎に各々
分離して、そのベクトルの大きさを各格子点の値
としたＮ個の方向別２次元パターンを作成する方
向別２次元パターン作成部とを具備し、該方向別２次元パターン作成部の出力
を前記特徴パターンとして利用すべくなしてある
ことを特徴とする音声認識装置。３認識対象として入力された音声信号から時間
軸及び空間軸で規定されるスカラー場の時空間パ
ターンを得、該時空間パターンに基く特徴パター
ンと標準パターンとの整合をとり、入力音声を識
別する音声認識装置において、入力音声信号を分析して前記スカラー場の時空
間パターンを得る分析部と、該分析部から逐次出力される時間軸方向の複数
フレーム毎の前記時空間パターンから、空間微分
によりベクトル場パターンを逐次抽出するベクト
ル場パターン抽出部と、該逐次抽出される前記ベクトル場パターンのベ
クトルについて、その方向パラメータをＮ値
（Ｎ：整数）に量子化し、この量子化値を同じく
するベクトル毎に各々分離して、そのベクトルの
大きさを各格子点の値としたＮ個の方向別２次元
パターンを、逐次作成する第１の方向別２次元パ
ターン作成部と、該第１の方向別２次元パターン作成部で逐次作
成される複数フレームの方向別２次元パターンの
平均値を求めて、又は該複数フレームの方向別２
次元パターンの中から一のパターンを選択して、
１フレームの方向別２次元パターンを逐次作成す
る第２の方向別２次元パターン作成部とを具備し、第２の方向別２次元パターン作成部の
出力を前記特徴パターンとして利用すべくなして
あることを特徴とする音声認識装置。