JPS6312000A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS6312000A
JPS6312000A JP61156635A JP15663586A JPS6312000A JP S6312000 A JPS6312000 A JP S6312000A JP 61156635 A JP61156635 A JP 61156635A JP 15663586 A JP15663586 A JP 15663586A JP S6312000 A JPS6312000 A JP S6312000A
Authority
JP
Japan
Prior art keywords
pattern
speech
standard
standard pattern
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP61156635A
Other languages
English (en)
Other versions
JPH06100919B2 (ja
Inventor
武志 則松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP61156635A priority Critical patent/JPH06100919B2/ja
Publication of JPS6312000A publication Critical patent/JPS6312000A/ja
Publication of JPH06100919B2 publication Critical patent/JPH06100919B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、認識候補音声を導き出す不特定話者用の音声
認識装置に関するものである。
従来の技術 一般に、不特定話者用音声認識装置では、多人数の多数
の音声パタンをクラスタリング手法によりグループ分け
し、それらの代表パタンを標準パタンとして登録し、入
力音声パタンと辞書に蓄えられたすべての標準パタンと
の間で類似度を計算した後、類似度の最大となる標準パ
タンを認識候補音声とする方法が行なわれている。二つ
の音声パタンの類似度を計算するためには動的計画法(
ダイナミック−プログラミング法)を用いて、二つのパ
タンの時間軸を非線形に伸縮するパタンマツチング(以
下、DPマツチングと記す。)が使用されている。特に
、単語音声認識装置では、このDPマツチング法により
高い認識率を得ている。(例えば、[ダイナミック プ
ログラミングオプティミゼインヨン フォ スポークン
 ワード レコダ= ン、 7 J (H,5akoa
 and S、C:hiba。
” Dynamic programming Opt
imization rorsporkan word
 recognition”、 工EEE trans
人coustic、5peech、Signal  P
rocessing、Vol。
ム5SP−27pp、336−349.1979) )
発明が解決しようとする問題点 しかしながら上記の音声認識装置では、話者の発声の仕
方9個人差及び音声区間検出の誤り等により語頭部ある
いは語尾部の欠落したパタンか入力された場合には、欠
落のないパタンとパタンマツチングを行うことになり類
似度が低くなり誤認識が生じやすくなるという問題点を
有していた。
例えば、rFUKUOKA(福岡)」と発声する場合を
考えると語頭部のFHの部分は発声の仕方9個人差等に
より有声化したり無声化したりする0無声化した場合に
はFUの部分のエネルギー値は非常に小さくなり、主に
音声のエネルギー値系列により音声区間を検出する音声
認識装置では、誤ってFUの部分が欠落したrKUOK
A」の区間だけを音声区間として検出する可能性が高く
なる。そのため標準パタンのrFUKUOKA 」との
パタンマツチングを行ってもその類似度が低くなり誤認
識が生じやすくなる。このように従来の音声認識装置で
は音声区間の検出を誤った場合に、いかに認識率の低下
を防ぐかが問題であった。
本発明は上記問題点に鑑み、発声の仕方により語頭部2
語尾部の欠落の可能性のあるパタンについて、音声区間
の検出を誤った場合でも精度良く認識することのできる
音声認識装置を提供するものである。
問題点を解決するための手段 上記目的を達するために本発明の音声認識装置は、入力
音声のエネルギー系列から音声区間を検出する音声区間
検出手段と、多人数の多数の音声パタンから代表的なパ
タンを認識対象音声ごとに複数個ずつ選び出し、それら
を標準パタンとして決定する標準パタン決定手段と、標
準パタンの記憶されているアドレス及びパタン長を管理
する標準パタン管理手段と、発声の仕方9個人差により
語頭部1語尾部の欠落する可能性のあるパタン全欠落の
ない標準パタンの一部分として管理する部分パタン管理
手段と、入力音声と前記標準パタン管理手段と部分パタ
ン管理手段により管理された各パタンとの間でパタンマ
ツチングを行い、類似度の最大となるパタンを認識候補
音声とするパタンマツチング手段を備えたものである。
作用 本発明は上記に述べた構成によって、あらかじめ語頭部
1語尾部の欠落の可能性のあるパタンについて、欠落の
生じたパタンを欠落のない標準パタンの一部分として管
理し、欠落のない標準パタン及び欠落の生じた代表パタ
ンの部分パタンと入力音声との間でパタンマツチングを
行い認識候補音声を導き出すことにより、語頭部2語尾
部の検出の難しいパタンについて音声区間検出を誤った
場合にも精度良く認識する事ができる。また、欠落のあ
るパタンを欠落のない標準パタンの一部分として管理す
ることにより標準パタンのメモリ容量が増加することを
防止する事ができる。
実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。
第1図は本発明の一実施例における音声認識装置のブロ
ック図である。第1図において、1は音声入力部で、話
者の音声がマイクロホン等を通して入力される。2は音
声分析手段で、入力された音声信号から特徴ベクトルの
時系列及びエネルギー系列を抽出する。3は音声区間検
出手段で、音声のエネルギー系列から音声区間部分を検
出する。
4は標準パタン決定手段で、多人数の多数の音声パタン
を分析し、それらの代表パタンを標準パタンとして決定
する。6は各標準パタンのメモリ位置、パタン長を管理
する標準パタン管理手段、6は語頭部2語尾部の欠落し
たパタンを標準パタン管理手段6で管理されている標準
パタンの一部分として管理する部分パタン管理手段、7
は入力パタンと各標準パタン及び各部分パタンとの間で
パタンマツチングを行うパタンマツチング手段、8はパ
タンマツチング手段7の結果から導き出した認識候補音
声を音声合成等により話者に知らせる認識結果出力部で
ある。
第2図は本実施例の構成を示す回路図で、上記の音声区
間検出手段3、標準パタン管理手段6゜部分パタン管理
手段6.パタンマツチング手段7をマイクロコンピュー
タ23で実現した構成を示すものである。第2図におい
て、11は音声の入力を行なうマイクロホン、12はマ
イクロホン11から入力された音声信号をアナログ−デ
ィジタル変換するアナログ/ディジタル変換器(以下A
/D変換器という。)、13は音声分析部、14は音声
区間検出部、15は入力音声の特徴ベクトルの時系列を
記憶する入力パタンメモリ、17は標準パタンのなかで
語頭部1語尾部の欠落の可能性のあるパタンについて、
欠落の生じたパタンを標準パタンの部分パタンとして管
理する標準パタンの部分パタン管理テーブル、18は標
準パタン決定手段6により決定された各標準パタンを管
理する標準パタン管理テーブル、19はすべての標準パ
タンの特徴ベクトルの時系列を記憶する標準パタンメモ
リ、20は認識結果判定部、21は得られた認識候補音
声の音声を合成する音声合成部、22は音声合成部21
で得られた音声合成部を出力するスピーカである。
第3図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートである。
以上の構成による本実施例の動作を、第3図のフローチ
ャートに清って詳細に説明する。
まず、ステップ31でマイクロホン11から音声を入力
し、人/D変換器12で音声信号をアナログ−ディジタ
ル変換したあと、音声分析部13で音声パタンの特徴ベ
クトル(例えば、10次元の線形予測係数)の時系列と
エネルギー系列を求める。ステップ32では、音声分析
部13で得られたエネルギー系列からエネルギー値がし
きい値を上回る区間が一定時間T8fc超え、しかも語
頭前部9語尾後部にそれぞれ一定時間T1.T2以上の
しきい値人。を下回る区間が存在するとき一定時間T。
を超える区間を音声区間として検出し、ステップ33で
入力パタンメモリ16にその特徴ベクトルの時系列を記
憶する。
なお、あらかじめ標準パタン決定手段4により認識対象
音声の各々に対して、多人数の多数の音声パタンより代
表的なパタンを複数個ずつ決定し、標準パタンメモリ1
9にそれらのパタンを記憶している。また、標準パタン
管理テーブル18には、標準パタンメモリ19の各パタ
ンを管理するだめのアドレス及びパタン長を記憶してお
り、標準パタンの部分パタン管理テーブル17には、標
準パタンのうち語頭部2語尾部の欠落の可能性のあるパ
タンをあらかじめ調べておき、欠落の生じた時のパタン
を欠落のない標準パタンの部分パタンとして管理するた
めに、その標準パタンメモリ19上のアドレス及びその
パタン長を記憶している0即ち、標準パタンメモリ19
には欠落のない代表パタンとしての標準パタンの特徴ベ
クトルの時系列のみが記憶されているだけであり、語頭
部2語尾部の欠落した部分パタンか必要なときは、標準
パタンの部分パタン管理テーブル17に従い標準パタン
メ゛モリ19内の部分パタンの部分のみを取り出せばよ
い。
ステップ34では、標準パタン管理テーブル18に従っ
て標準パタンメモリ19上の最初のパタンをDPマツチ
ング部16のメモリにロードし、次にステップ35で入
力パタンメモリ16に記憶された入力パタンとステップ
34でロードされた標準パタンとの間でDPマツチング
を行う。ステップ36では、標準パタン管理テーブル1
8に従い、すべての標準パタンとステップ34.35の
処理を終了したかを調べ、終了していなければステップ
34に戻り同様の処理を続ける。
ステップ36の条件を満足すると、次はステップ37で
部分パタン管理テーブル17に従い、最初の部分パタン
を標準パタンメモリ19からDPマツチング部16のメ
モリ上にロードし、ステップ38でDPマツチングを実
行する。その後、ステップ39で標準パタンの部分パタ
ン管理テーブル17に従い、すべての部分パタンとステ
ップ37.38の処理を終了したかをチェックし、終了
していなければステップ37の処理に戻る。
すべての標準パタン及び部分パタンとのDPマツチング
が終了すると、ステップ4oに進み、認識結果判定部2
oで、DPマツチング部16で得られた各標準パタン及
び部分パタンとの類似度のうち最大値を与えるパタンを
認識候補音声として判定する。さらに、ステップ41で
音声合成部21を起動させ認識結果判定部2oで得られ
た認識候補音声を合成し、スピーカ22に出力すること
により話者に認識候補音声を通知する。
なお、本実施例では、標準パタン管理テーブルと部分パ
タン管理テーブルとを別々に持ったが、部分パタン管理
テーブルを標準パタン管理テーブルの中の一部と考えれ
ば管理テーブル一つで同様の処理を行うことができる。
以上のように本実施例によれば、標準パタンを管理する
標準パタン管理手段と、語頭部1語尾部の欠落する可能
性のあるパタンについて欠落の生じた時のパタンを欠落
のない標準パタンの一部分として管理する部分パタン管
理手段とを持ち、語頭部2語尾部の検出を誤った場合に
も、部分パタンとパタンマツチングすることにより正し
く認識を行うことができる。
また、語頭部9語尾部の不安定な標準パタンについては
欠落の生じたパタンを欠落のない代表パタン一つで管理
することができるのでテンプレートを増やす必要がなく
、メモリの有効利用がはかれる。
発明の効果 以上のように本発明は、多人数の多数の音声パタンから
代表的なパタンを各認識対象音声に複数個ずつ選択し、
標準パタンとして決定する標準パタン決定手段と、各標
準パタンのメモリ上のアドレスとパタン長を管理する標
準パタン管理手段と、標準パタンのうち語頭部2語尾部
の欠落の可能性のあるパタンについて欠落の生じたとき
のパタンを、欠落のない標準パタンの一部分としてその
アドレスとパタン長を標準パタン一つで管理する部分パ
タン管理手段とを持ち、入力パタンと各標準パタン及び
各部分パタンとの間でパタンマツチングを行い類似度が
最大となるパタンを認識候補音声とすることにより、音
声区間検出の際に誤って語頭部1語尾部が欠落したパタ
ンを大刀した場合でも部分パタン管理手段により管理さ
れた部分パタンとパタンマツチングを行うことにより精
度良く認識を行うことのできる音声認識装置を提供する
ことができる。
また、欠落の生じたパタンを欠落のない標準パタンを代
表パタンとして代表パタン一つで管理することにより、
テンプレート数を増加させることなく音声区間検出を誤
った場合にも正しく認識することのできる音声認識装置
を提供することができる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第2図は同装置の構成を示す回路ブ
ロック図、第3図は同装置の動作説明のための要部フロ
ーチャートである。 2・・・・・・音声分析手段、3・・・・・・音声区間
検出手段、4・・・・・・標準パタン決定手段、6・・
・・・・標準パタン管理手段、6・・・・・・部分パタ
ン管理手段、7・・・・・・パタンマツチング手段、1
1・・・・・・マイクロボン、15・・・・・・入力パ
タンメモリ、17・旧・・部分パタン管理−y−−7”
ル、18・・・・・・標準パタン管理テーブル、19・
・・・・・標準パタンメモリ、22・・川・スピーカ、
23・・・・・・マイクロコンピュータ。

Claims (1)

    【特許請求の範囲】
  1. 入力音声からエネルギー系列を含む特徴ベクトルの時系
    列を抽出する音声分析手段と、前記音声分析手段により
    得られたエネルギー系列から音声区間を検出する音声区
    間検出手段と、多人数の多数の音声パタンから代表的な
    パタンを選択し、音声認識対象音声ごとに複数個ずつ標
    準パタンとして決定する標準パタン決定手段と、前記標
    準パタン決定手段により決定された各標準パタンの記憶
    されているメモリ上のアドレス、パタン長を管理する標
    準パタン管理手段と、発声の仕方、個人差によって音声
    パタンの語頭部あるいは語尾部が欠落する可能性のある
    認識対象音声の標準パタンに関して、欠落のないパタン
    を代表パタンとして、欠落のあるパタンの標準パタンは
    代表パタンの一部分としてその記憶されているメモリ上
    のアドレス、パタン長を管理する部分パタン管理手段と
    、前記標準パタン管理手段により管理された各標準パタ
    ン、及び前記部分パタン管理手段により管理された標準
    パタンの各部分パタンと入力音声パタンとの間でパタン
    マッチングを行い類似度が最大となるパタンを認識候補
    音声とするパタンマッチング手段とを備えたことを特徴
    とする音声認識装置。
JP61156635A 1986-07-03 1986-07-03 音声認識装置 Expired - Fee Related JPH06100919B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP61156635A JPH06100919B2 (ja) 1986-07-03 1986-07-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61156635A JPH06100919B2 (ja) 1986-07-03 1986-07-03 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6312000A true JPS6312000A (ja) 1988-01-19
JPH06100919B2 JPH06100919B2 (ja) 1994-12-12

Family

ID=15631979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP61156635A Expired - Fee Related JPH06100919B2 (ja) 1986-07-03 1986-07-03 音声認識装置

Country Status (1)

Country Link
JP (1) JPH06100919B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0392900A (ja) * 1989-09-06 1991-04-18 Hitachi Ltd 音声認識制御装置
KR102585761B1 (ko) * 2022-08-19 2023-10-06 (주)페르소나에이아이 구획 별 주소를 인식하여 음성을 텍스트로 변환하는 주소봇 서비스를 제공하는 전자 장치의 제어 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0392900A (ja) * 1989-09-06 1991-04-18 Hitachi Ltd 音声認識制御装置
KR102585761B1 (ko) * 2022-08-19 2023-10-06 (주)페르소나에이아이 구획 별 주소를 인식하여 음성을 텍스트로 변환하는 주소봇 서비스를 제공하는 전자 장치의 제어 방법

Also Published As

Publication number Publication date
JPH06100919B2 (ja) 1994-12-12

Similar Documents

Publication Publication Date Title
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
JPS62232691A (ja) 音声認識装置
JP2996019B2 (ja) 音声認識装置
US4790017A (en) Speech processing feature generation arrangement
JPH0283593A (ja) ノイズ適応形音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JPS6312000A (ja) 音声認識装置
JP3110025B2 (ja) 発声変形検出装置
JP3231365B2 (ja) 音声認識装置
JP2760096B2 (ja) 音声認識方式
JPS60164800A (ja) 音声認識装置
JPS59143200A (ja) 連続音声認識装置
JPS62111295A (ja) 音声認識装置
JPH096381A (ja) 音声単語認識方法
JPS60150098A (ja) 音声認識装置
JPS6033599A (ja) 音声認識装置
JP2000242292A (ja) 音声認識方法、この方法を実施する装置およびこの方法を実行するプログラムを記憶した記憶媒体
JPS607492A (ja) 単音節音声認識方式
JPS62178999A (ja) 音声認識装置
JPH0316038B2 (ja)
JPS6180298A (ja) 音声認識装置
JPH07146696A (ja) 音声認識における単語テンプレートの自動作成方法
JPH08110797A (ja) パターンマッチング装置
JPH10274994A (ja) 類似単語識別方法およびその装置
JPH03228100A (ja) 音声認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees