JPH04121794A

JPH04121794A - 音声認識方法

Info

Publication number: JPH04121794A
Application number: JP24341290A
Authority: JP
Inventors: Kazuhiko Okashita; 和彦岡下; Shingo Nishimura; 新吾西村
Original assignee: Sekisui Chemical Co Ltd
Current assignee: Sekisui Chemical Co Ltd
Priority date: 1990-09-12
Filing date: 1990-09-12
Publication date: 1992-04-22

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野］本発明は、電気錠、ＩＣカード等のオンライン端末等て
入力音声からその単語を認識するに好適な音声認識方法
に関する。

［従来の技術］従来、特開平１−２６０４９０号公報に記載の如くの音
声認識方法が提案されている。この音声認識方法は、入
力音声の特徴パラメータを所定長のフレーム単位て算出
し、フレーム内の特徴パラメータの差分値を求め、該差
分値の時系列パターンを作成し、この差分値の時系列パ
ターンと各音声の標準パターンとの類似度を統計的距離
尺度によって算出し、音声認識を行なうものである。

［発明か解決しようとする課題］黙しながら、従来技術ては、入力音声の全フレームの特
徴パラメータを、それらフレームのパワーの大小にかか
わらずそのまま用いて、音声認識を行なっている。

然るに、パワーの小なるフレームの情報は、伝送系の歪
や定常雑音の影響を受は易いものであるため、類似度判
定の信頼度か低い。

また、パワーの小なるフレーム間の差分値は、周波数領
域て差分をとるものであるため、パワーの大なるフレー
ム間の差分値におけると同等に扱われるものとなり、認
識率への影響は大きい。

即ち、従来技術ては、類似度判定の信頼度か低いパワー
の小なるフレームの情報が、大きな影響度て認識率に影
響する結果、高い認識率の確保に困難かある。

本発明は、定常的なスペクトル歪に強く、高い認識率を
確保てきる音声認識方法を提供することを目的とする。

［課趙を解決するための手段］請求項１に記載の本発明は、入力音声の特徴パラメータ
を所定長のフレーム単位て算出し、各フレームのパワー
の実効値か任意のしきい値より小なるとき、当該フレー
ムの特徴パラメータを除外した後、フレーム間の特徴パ
ラメータの差分値を求め、該差分値の時系列パターンを
作成し、この差分値の時系列パターンと各音声の標準パ
ターンとの類似度を統計的距離尺度によって算出し、音
声認識を行なうようにしだものである。

請求項２に記載の本発明は、入力音声の特徴パラメータ
を所定長のフレーム単位で算出し、各フレームのパワー
の実効値か任意のしきい値より小なるとき、当該フレー
ムの特徴パラメータの影響が少なくなるように重み付け
を行なった後、フレーム間の特徴パラメータの差分値を
求め、該差分値の時系列パターンを作成し、この差分値
の時系列パターンと各音声の標準パターンとの類似度を
統計的距離尺度によって算出し、音声認識を行なうよう
にしたものである。

［作用］本発明によれば、伝送系の歪や定常雑音の影響を受は易
く、類似度判定の信頼度か低いパワーの小なるフレーム
の特徴パラメータを、除外、又は影響か少なくなるよう
に重み付けした後、フレーム間の特徴パラメータの差分
値を求め、この差分値に基づいて音声認識を行なうこと
となる。

即ち、パワーの大小にかかわらず全フレーム間の差分値
を用いるものに比して、伝送系の歪みや定常雑音の影響
を消去した音声認識を行なうこととなる。従って、定常
的なスペクトル歪に強く、高い認識率を確保てきる音声
認識方法を得ることがてきる。

［実施例］第１図は本発明の一実施例に係る音声認識システムを示
す模式図である。

音声認識システム１０は、音声入力部１１、特徴抽出部
１２、パワー判定部１３、差分値作成部１４、時系列パ
ターン作成部１５、辞書部（標準パターン格納部）１６
、類似度算出部１７、判定部１８を有して構成される。

以下、音声認識システム１０を用いた辞書作成手順、認
識手順について説明する。

（Ａ）音声入力部１１にて、音声試料を取り入れる。

このとき、認識単語を４７都道府県名、特定話者を１名
とした。

ＴＢ）辞書作成 ■各認識単語の既知入力音声波形を、特徴抽出部１２に
おいて、１６チヤンネルのバンドパスフィルタに通し、
１フレーム（１２，８ｍ５ｅｃ）毎に周波数特性を得る
。

■パワー制定部１３において、実験的に決めたしきい値
θと各フレームの周波数特性のパワーの実効値を比較し
、パワーの実効値かしきい値θより小なるフレームの特
徴パラメータを除外する。

■差分値作成部１４において、フレーム間の特徴パラメ
ータの差分値を求め、時系列パターン作成部１５におい
て、該差分値の時系列パターンを作成する０時系列パタ
ーン作成部１５て作成した差分値の時系列パターンを辞
書部１６に格納し、辞書とする。

（Ｃ）認識 ■各認識単語の未知入力音声波形に定常雑音を付加した
ものを、特徴抽出部１２において、１６チヤンネルのバ
ンドパスフィルタに通し、１フレーム（１２，８ｍ５ｅ
ｃ）毎に周波数特性を得る。

■パワー判定部１３において、実験的に決めたしきい値
θと各フレームの周波数特性のパワーの実効値を比較し
、パワーの実効値がしきい値θより小なるフレームの特
徴パラメータを除外する。

■差分値作成部１４において、フレーム間の差分値を求
め、時系列パターン作成部１５において、該差分値の時
系列パターンを作成する。

■類似度算出部１７において、上記■で作成した差分値
の時系列パターンと、辞書部１６に格納しである各音声
の標準パターンとの類似度を統計的距離尺度によって算
出する。

■判定部１８において、上記■の結果、類似度か最も高
いものを認識結果とする。

然るに、従来方式と、上記音声認識システム１０による
本発明方式の実験結果について説明する。

（従来方式）実験：特徴パラメータ（バントパスフィルタの出力）の
フレーム間差分値を用い、統計的距離尺度により計算し
たとき。

尚、特定話者を１名、認識単語を４７都道府県名とした
。

結果：認識率は９３．２％てあった。

（本発明方式）実験：パワーの小なる特徴パラメータ（バントパスフィ
ルタの出力）を除外し、入力にフレーム間差分値を用い
、統計的距離尺度により認識したとき。

尚、特定話者を１名、認識単語を４７都道府県名とした
。

結果：認識率は９５．３％てあった。

尚、本発明の実施において、辞書作成段階、及び認識段
１ｉ１（上述の（Ｂ）の■の段階、及び（Ｃ）の■の段
階）て、パワーの小さいフレームの特徴パラメータを除
外することなく、当該フレームの特徴パラメータの影響
か少なくなるように重み付けを行なうものてあっても良
い。

上記音声認識システム１０によれば、以下の如くの作用
かある。

上記実施例によれば、伝送系の歪や定常雑音の影響を受
は易く、類似度判定の信頼度か低いパワーの小なるフレ
ームの特徴パラメータを、除外、又は影響が少なくなる
ように重み付けした後、フレーム間の特徴パラメータの
差分値を求め、この差分値に基づいて音声認識を行なう
こととなる。

即ち、パワーの大小にかかわらず全フレーム間の差分値
を用いるものに比して、伝送系の歪みゃ定常雑音の影響
を消去した音声認識を行なうこととなる。従って、定常
的なスペクトル歪に強く、高い認識率を確保できる音声
認識方法を得ることがてきる。

［発明の効果］以上のように本発明によれば、定常的なスペクトル歪に
強く、高い認識率を確保できる音声認識方法を得ること
かてきる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声認識システムを示
す模式図である。１０・・・音声認識システム、１１・・・音声入力部、１２・・・特徴抽出部、１３・・・パワー判定部、１４・・・差分値作成部、１５・・・時系列パターン作成部、１６・・・辞書部、１７・・・類似度算出部、１８・・・判定部。特許出願人　積水化学工業株式会社代表者　廣　１）　馨

Claims

【特許請求の範囲】

（１）入力音声の特徴パラメータを所定長のフレーム単
位で算出し、各フレームのパワーの実効値が任意のしき
い値より小なるとき、当該フレームの特徴パラメータを
除外した後、フレーム間の特徴パラメータの差分値を求
め、該差分値の時系列パターンを作成し、この差分値の
時系列パターンと各音声の標準パターンとの類似度を統
計的距離尺度によって算出し、音声認識を行なう音声認
識方法。
（２）入力音声の特徴パラメータを所定長のフレーム単
位で算出し、各フレームのパワーの実効値が任意のしき
い値より小なるとき、当該フレームの特徴パラメータの
影響が少なくなるように重み付けを行なった後、フレー
ム間の特徴パラメータの差分値を求め、該差分値の時系
列パターンを作成し、この差分値の時系列パターンと各
音声の標準パターンとの類似度を統計的距離尺度によっ
て算出し、音声認識を行なう音声認識方法。