JPH04369698A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH04369698A JPH04369698A JP3173349A JP17334991A JPH04369698A JP H04369698 A JPH04369698 A JP H04369698A JP 3173349 A JP3173349 A JP 3173349A JP 17334991 A JP17334991 A JP 17334991A JP H04369698 A JPH04369698 A JP H04369698A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- word
- recognition method
- standard pattern
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、音声の認識方式に係わ
り、特に、不特定多数の利用者を認識対象とする音声認
識方式に関する。
り、特に、不特定多数の利用者を認識対象とする音声認
識方式に関する。
【0002】
【従来の技術】音声認識方式は、荷物の仕訳等の作業の
ため手による入力手段が用いられない分野などに広く利
用されている。特に、不特定多数の利用者を想定した音
声認識方式では話者が老若男女を問わず常に高い正確さ
で音声が認識される必要がある。
ため手による入力手段が用いられない分野などに広く利
用されている。特に、不特定多数の利用者を想定した音
声認識方式では話者が老若男女を問わず常に高い正確さ
で音声が認識される必要がある。
【0003】従来の音声認識方式では、音声信号の特徴
パラメータとして一定時間間隔毎の短時間平均スペクト
ル包絡特性を表現するLPC係数、LPCケプストラム
係数、狭帯域フィルタバンクからの平均出力などのいず
れかが用いられており、更に認識性能を向上させるため
スペクトルの変化特性を表現するパラメータとして上記
の各種パラメータの数分析間隔にわたる変化方向を示す
回帰係数が併用されることが多い。具体的な認識の手続
きとしては、単語音声が認識対象の場合には、入力され
た音声信号の特徴とあらかじめシステムに記憶されてい
る各単語毎の標準パターンとの間で動的計画法(DP)
によりもっとも距離が小さくなるような対応付けを行い
、その中で得られた距離が最小の単語を認識結果として
いる。
パラメータとして一定時間間隔毎の短時間平均スペクト
ル包絡特性を表現するLPC係数、LPCケプストラム
係数、狭帯域フィルタバンクからの平均出力などのいず
れかが用いられており、更に認識性能を向上させるため
スペクトルの変化特性を表現するパラメータとして上記
の各種パラメータの数分析間隔にわたる変化方向を示す
回帰係数が併用されることが多い。具体的な認識の手続
きとしては、単語音声が認識対象の場合には、入力され
た音声信号の特徴とあらかじめシステムに記憶されてい
る各単語毎の標準パターンとの間で動的計画法(DP)
によりもっとも距離が小さくなるような対応付けを行い
、その中で得られた距離が最小の単語を認識結果として
いる。
【0004】
【発明が解決しようとする課題】上述した従来技術にお
いて、不特定多数の利用者が用いる場合、話者毎に声質
は大きく異なっている。このため、各単語毎に複数の標
準パターンをあらかじめ用意しておいても話者の個人性
に基づく音響特性の変動を十分にカバーすることは困難
である。このため誤った単語の標準パターンとの間での
DPマッチングにより得られた距離が最小となってしま
い、この結果誤った単語を認識結果とすることが生じて
しまう。
いて、不特定多数の利用者が用いる場合、話者毎に声質
は大きく異なっている。このため、各単語毎に複数の標
準パターンをあらかじめ用意しておいても話者の個人性
に基づく音響特性の変動を十分にカバーすることは困難
である。このため誤った単語の標準パターンとの間での
DPマッチングにより得られた距離が最小となってしま
い、この結果誤った単語を認識結果とすることが生じて
しまう。
【0005】本発明はこのような従来の課題を解決する
ものであり、不特定多数の利用者に対して高い割合で正
しく音声を認識できる音声認識方式を提供することを目
的とするものである。
ものであり、不特定多数の利用者に対して高い割合で正
しく音声を認識できる音声認識方式を提供することを目
的とするものである。
【0006】
【課題を解決するための手段】本発明は上記の目的を達
成するため、音響パラメータとして音声信号の短時間平
均スペクトル包絡特性を表わすパラメータと、話者によ
る変動が比較的少ない音声信号のスペクトル変化特性の
大まかな方向性を表わすパラメータである広帯域フィル
タバンク出力の回帰係数を組み合わせて用いることを特
徴とするものである。
成するため、音響パラメータとして音声信号の短時間平
均スペクトル包絡特性を表わすパラメータと、話者によ
る変動が比較的少ない音声信号のスペクトル変化特性の
大まかな方向性を表わすパラメータである広帯域フィル
タバンク出力の回帰係数を組み合わせて用いることを特
徴とするものである。
【0007】
【実施例】図1は本発明の一実施例の構成を示すもので
ある。なお、本実施例では単語音声が入力である場合を
取り扱っているが、連続音声へは容易に拡張可能である
。図1において1及び2は入力された音声信号を10m
s程度の短時間毎に音響分析して特徴パラメータの系列
に変換するための手段、3は単語音声の始端点及び終端
点を発見する手段、4は単語音声の特徴パラメータの系
列から標準パターンと距離が最小となる対応付けを発見
する手段、5はシステムに登録された各単語の標準パタ
ーンを記憶する標準パターン記憶手段、6は登録単語の
標準パターンとの距離が最も小さい単語候補を求める手
段である。
ある。なお、本実施例では単語音声が入力である場合を
取り扱っているが、連続音声へは容易に拡張可能である
。図1において1及び2は入力された音声信号を10m
s程度の短時間毎に音響分析して特徴パラメータの系列
に変換するための手段、3は単語音声の始端点及び終端
点を発見する手段、4は単語音声の特徴パラメータの系
列から標準パターンと距離が最小となる対応付けを発見
する手段、5はシステムに登録された各単語の標準パタ
ーンを記憶する標準パターン記憶手段、6は登録単語の
標準パターンとの距離が最も小さい単語候補を求める手
段である。
【0008】次に上記実施例の動作について説明する。
なお、本実施例では音声入力は電話回線経由のものを想
定しており、帯域が0.3〜3.4kHzに制限されて
いるものとして検討を行なってあるが、マイクロフォン
入力で入力音声の帯域が広い場合に対しても容易に拡張
可能である。
定しており、帯域が0.3〜3.4kHzに制限されて
いるものとして検討を行なってあるが、マイクロフォン
入力で入力音声の帯域が広い場合に対しても容易に拡張
可能である。
【0009】音声入力は音響分析手段1により線形予測
分析を行ない、線形予測係数を求めた後にこれを音声の
スペクトル包絡特性を表現するのに適したケプストラム
LPC係数に変換して出力する。同時に音声信号は音響
分析手段2によりフィルタバンク分析を行ない、各フィ
ルタからの出力値の回帰係数を求めて音声のスペクトル
の変化特性を表現する特徴パラメータとして出力する。
分析を行ない、線形予測係数を求めた後にこれを音声の
スペクトル包絡特性を表現するのに適したケプストラム
LPC係数に変換して出力する。同時に音声信号は音響
分析手段2によりフィルタバンク分析を行ない、各フィ
ルタからの出力値の回帰係数を求めて音声のスペクトル
の変化特性を表現する特徴パラメータとして出力する。
【0010】図2において音響分析手段2の詳細な構成
について説明する。フィルタ11〜15としては(1)
0.3〜3.4kHz(2)0.3〜1.0kHz(3
)0.3〜0.65kHz(4)1.5〜3.4kHz
(5)0.65〜2.8kHzの広帯域の5種類を周波
数をオーバーラップさせて用いる(従来の技術では10
個程度の狭帯域フィルタにより音声帯域(0.3〜3.
4kHz)を周波数をオーバーラップさせずにカバーし
ていた)。各フィルタからの出力は短時間平均算出回路
21〜25において分析周期毎に短時間平均エネルギを
算出された後、対数変換回路31〜35においてデシベ
ル値(dB値)に変換される。その後、対象とする全帯
域を含み全体エネルギを表わすフィルタ(1)の出力を
、フィルタ(2)〜(5)からの出力から加算回路41
〜44を用いて減ずることにより正規化された出力値を
得る。次に回帰係数計算回路51〜55において前後各
2分析時点における前記出力値から(式1)により回帰
係数を計算し音響分析手段2の分析結果として出力する
。
について説明する。フィルタ11〜15としては(1)
0.3〜3.4kHz(2)0.3〜1.0kHz(3
)0.3〜0.65kHz(4)1.5〜3.4kHz
(5)0.65〜2.8kHzの広帯域の5種類を周波
数をオーバーラップさせて用いる(従来の技術では10
個程度の狭帯域フィルタにより音声帯域(0.3〜3.
4kHz)を周波数をオーバーラップさせずにカバーし
ていた)。各フィルタからの出力は短時間平均算出回路
21〜25において分析周期毎に短時間平均エネルギを
算出された後、対数変換回路31〜35においてデシベ
ル値(dB値)に変換される。その後、対象とする全帯
域を含み全体エネルギを表わすフィルタ(1)の出力を
、フィルタ(2)〜(5)からの出力から加算回路41
〜44を用いて減ずることにより正規化された出力値を
得る。次に回帰係数計算回路51〜55において前後各
2分析時点における前記出力値から(式1)により回帰
係数を計算し音響分析手段2の分析結果として出力する
。
【数1】
【0011】ただし、Ek(t)は分析時点tにおける
フィルタkの正規化出力値、ERk(t)は分析時点t
におけるフィルタkの出力値の回帰係数、Sは回帰係数
算出のための正規化係数である。なお、上記手続きから
も分かるように、音響分析手段2においては当該分析時
点の後続する2分析時点のデータを必要とすることから
2分析時点分の処理遅延を生じるので、音響分析手段1
においては音響分析手段2からの出力と同期をとるため
2分析時点分の遅延を持たせている。
フィルタkの正規化出力値、ERk(t)は分析時点t
におけるフィルタkの出力値の回帰係数、Sは回帰係数
算出のための正規化係数である。なお、上記手続きから
も分かるように、音響分析手段2においては当該分析時
点の後続する2分析時点のデータを必要とすることから
2分析時点分の処理遅延を生じるので、音響分析手段1
においては音響分析手段2からの出力と同期をとるため
2分析時点分の遅延を持たせている。
【0012】単語音声検出手段3では音声入力の特徴パ
ラメータから単語音声の始端点及び終端点を求める。最
適経路発見手段4では標準パターン記憶手段5に記憶さ
れている各単語の標準パターンと単語音声検出手段3か
ら得られた単語音声の特徴パラメータとの間で、両者の
距離が最小となる対応付けを発見する。具体的には連続
DPマッチング等の動的計画法に基づく手法を適用する
。なお、この処理において入力単語音声の特徴パラメー
タと標準パターンの特徴パラメータとの間の距離は、L
PCケプストラム係数間のユークリッド距離にフィルタ
バンク出力の回帰係数間のユークリッド距離を0.1倍
して加え合わすことにより求める。この様にしてすべて
の単語標準パターンに対する最小距離を求めて、この中
で最も小さい距離を与える単語を認識結果として出力す
る。
ラメータから単語音声の始端点及び終端点を求める。最
適経路発見手段4では標準パターン記憶手段5に記憶さ
れている各単語の標準パターンと単語音声検出手段3か
ら得られた単語音声の特徴パラメータとの間で、両者の
距離が最小となる対応付けを発見する。具体的には連続
DPマッチング等の動的計画法に基づく手法を適用する
。なお、この処理において入力単語音声の特徴パラメー
タと標準パターンの特徴パラメータとの間の距離は、L
PCケプストラム係数間のユークリッド距離にフィルタ
バンク出力の回帰係数間のユークリッド距離を0.1倍
して加え合わすことにより求める。この様にしてすべて
の単語標準パターンに対する最小距離を求めて、この中
で最も小さい距離を与える単語を認識結果として出力す
る。
【0013】
【発明の効果】本発明は上記実施例より明らかなように
、音声スペクトルの変化特性を表現するパラメータとし
て話者依存性の少ない広帯域のフィルタ群からの短時間
平均出力値の回帰係数を用いることにより、従来の例え
ばLPCケプストラム係数の回帰係数を用いる場合に比
して、不特定多数の利用者に対して正確な音声認識が行
なえるという効果を有する。即ち、日本人の主要な16
7姓名を認識対象とした男女各8名による認識実験の結
果、特徴パラメータとして従来のLPCケプストラム係
数及びその回帰係数を用いた場合の誤認識率が11.3
%であったものが、LPCケプストラム係数と広帯域フ
ィルタバンク出力の回帰係数を用いることにより5.4
%となり6%近い改善効果が見られた。
、音声スペクトルの変化特性を表現するパラメータとし
て話者依存性の少ない広帯域のフィルタ群からの短時間
平均出力値の回帰係数を用いることにより、従来の例え
ばLPCケプストラム係数の回帰係数を用いる場合に比
して、不特定多数の利用者に対して正確な音声認識が行
なえるという効果を有する。即ち、日本人の主要な16
7姓名を認識対象とした男女各8名による認識実験の結
果、特徴パラメータとして従来のLPCケプストラム係
数及びその回帰係数を用いた場合の誤認識率が11.3
%であったものが、LPCケプストラム係数と広帯域フ
ィルタバンク出力の回帰係数を用いることにより5.4
%となり6%近い改善効果が見られた。
【図1】本発明の1実施例における音声認識装置のブロ
ック図である。
ック図である。
【図2】広帯域フィルタバンク出力の回帰係数を求める
音響分析手段の詳細図である。
音響分析手段の詳細図である。
1 音響分析手段
2 音響分析手段
3 単語音声検出手段
4 最適経路発見手段
5 標準パターン記憶手段
6 単語候補発見手段
11〜15 広帯域フィルタ
21〜25 短時間平均エネルギ算出手段31〜35
対数変換手段 41〜44 加算器 51〜55 回帰係数計算手段
対数変換手段 41〜44 加算器 51〜55 回帰係数計算手段
Claims (1)
- 【請求項1】 不特定多数の利用者を認識対象とする
音声認識方式において、音声の特徴パラメータとして、
音声信号の短時間平均スペクトル包絡特性を表わすパラ
メータと、音声信号のスペクトル変化特性の大まかな方
向性を表わすパラメータである広帯域フィルタバンク出
力の回帰係数との組合せを用い、辞書(5)に記憶され
る標準パターンとの距離が最も小さな対応付けに従って
入力音声を認識することを特徴とする音声認識方式。
Priority Applications (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3173349A JPH04369698A (ja) | 1991-06-19 | 1991-06-19 | 音声認識方式 |
| US07/896,247 US5425127A (en) | 1991-06-19 | 1992-06-10 | Speech recognition method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP3173349A JPH04369698A (ja) | 1991-06-19 | 1991-06-19 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH04369698A true JPH04369698A (ja) | 1992-12-22 |
Family
ID=15958771
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP3173349A Withdrawn JPH04369698A (ja) | 1991-06-19 | 1991-06-19 | 音声認識方式 |
Country Status (2)
| Country | Link |
|---|---|
| US (1) | US5425127A (ja) |
| JP (1) | JPH04369698A (ja) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| EP0998166A1 (fr) * | 1998-10-30 | 2000-05-03 | Koninklijke Philips Electronics N.V. | Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant |
| CH695402A5 (de) * | 2000-04-14 | 2006-04-28 | Creaholic Sa | Verfahren zur Bestimmung eines charakteristischen Datensatzes für ein Tonsignal. |
| CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
| ATE449400T1 (de) * | 2008-09-03 | 2009-12-15 | Svox Ag | Sprachsynthese mit dynamischen einschränkungen |
| US8892046B2 (en) * | 2012-03-29 | 2014-11-18 | Bose Corporation | Automobile communication system |
| CN104751856B (zh) * | 2013-12-31 | 2017-12-22 | 中国移动通信集团公司 | 一种语音语句识别方法及装置 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6051721B2 (ja) * | 1979-12-21 | 1985-11-15 | 松下電器産業株式会社 | 加熱装置 |
| JPS5688501A (en) * | 1979-12-21 | 1981-07-18 | Matsushita Electric Ind Co Ltd | Heater |
| US4885791A (en) * | 1985-10-18 | 1989-12-05 | Matsushita Electric Industrial Co., Ltd. | Apparatus for speech recognition |
| US5220609A (en) * | 1987-03-13 | 1993-06-15 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition |
| DE69130687T2 (de) * | 1990-05-28 | 1999-09-09 | Matsushita Electric Industrial Co. | Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal |
-
1991
- 1991-06-19 JP JP3173349A patent/JPH04369698A/ja not_active Withdrawn
-
1992
- 1992-06-10 US US07/896,247 patent/US5425127A/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| US5425127A (en) | 1995-06-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR910002198B1 (ko) | 음성인식방법과 그 장치 | |
| US6922668B1 (en) | Speaker recognition | |
| Sugamura et al. | Isolated word recognition using phoneme-like templates | |
| JPH01296299A (ja) | 音声認識装置 | |
| US4513436A (en) | Speech recognition system | |
| JPH04369698A (ja) | 音声認識方式 | |
| JPH05119792A (ja) | 音声認識装置 | |
| JPH04318900A (ja) | 多方向同時収音式音声認識方法 | |
| JPS60114900A (ja) | 有音・無音判定法 | |
| Pattanayak et al. | Significance of single frequency filter for the development of children's KWS system. | |
| JP3100180B2 (ja) | 音声認識方法 | |
| JPH0426479B2 (ja) | ||
| JPS6048040B2 (ja) | 音声認識における個人差の学習処理方法 | |
| JP3357752B2 (ja) | パターンマッチング装置 | |
| JP2577891B2 (ja) | 単語音声予備選択装置 | |
| JP2658104B2 (ja) | 音声認識装置 | |
| JP2599974B2 (ja) | 音声検出方式 | |
| JPH0335297A (ja) | 有音・無音検出方式 | |
| CN119207456A (zh) | 音频降噪方法、电子设备以及存储介质 | |
| Li et al. | Improvements of Acoustic Features for Speech Separation | |
| JPH06318099A (ja) | 話者認識装置 | |
| JPH02204799A (ja) | 有音・無音検出方式 | |
| JPS59170894A (ja) | 音声区間の切り出し方式 | |
| JPS6029796A (ja) | 音声認識装置 | |
| JPH0424697A (ja) | 音声認識装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 19980903 |