JPH0376475B2 - - Google Patents

Info

Publication number
JPH0376475B2
JPH0376475B2 JP57146408A JP14640882A JPH0376475B2 JP H0376475 B2 JPH0376475 B2 JP H0376475B2 JP 57146408 A JP57146408 A JP 57146408A JP 14640882 A JP14640882 A JP 14640882A JP H0376475 B2 JPH0376475 B2 JP H0376475B2
Authority
JP
Japan
Prior art keywords
speech
candidate
recognition
section
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP57146408A
Other languages
English (en)
Other versions
JPS5936300A (ja
Inventor
Hidenori Shinoda
Yoichi Takebayashi
Tomio Sakata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP57146408A priority Critical patent/JPS5936300A/ja
Publication of JPS5936300A publication Critical patent/JPS5936300A/ja
Publication of JPH0376475B2 publication Critical patent/JPH0376475B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は離散的に発声された単語音声を効果的
に認識することのできる音声認識装置に関する。
〔発明の技術的背景とその問題点〕
離散的に発声された単語音声を認識する場合、
入力音声信号系列中から上記単語音声が存在する
音声区間を検出することが、その前処理として非
常に重要である。しかして従来では一般に入力音
声のエネルギ変化を利用して、上記音声区間を検
出することが行われている。このような音声区間
検出法は非常に簡便であると云う利点を有してい
るが、発声された単語音声に多くの雑音が付加さ
れるような音声入力環境にある場合等、上記雑音
を除去して上記単語音声を安定に認識することが
非常に困難であつた。これは認識対象とする音声
の存在区間に近い位置に雑音が加わると、前述し
たエネルギだけでは上記単語音声と雑音とが区別
できず、雑音も音声の一部であるとして認識処理
に取込んでしまう為である。このような問題を克
服するものとして、端点フリーのDPマツチング
法等の処理方式が種々考えられているが、認識処
理量が膨大となつて実用性に乏しい等の問題があ
つた。
〔発明の目的〕
本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、離散的に発声さ
れた単語音声を雑音によつて妨害されることなし
に安定に認識することのできる簡易で実用性の高
い音声認識装置を提供することにある。
〔発明の概要〕
本発明は入力された音声信号を音響分析し、こ
の音響分析結果から例えばそのエネルギ変化と音
韻的特徴を抽出し、これらの特徴に従つて前記音
声信号の始端候補点および終端候補点とをぞれそ
れ検出する。そしてこれらの始端候補点と終端候
補点との可能な全ての組合せから求められる複数
の音声候補区間における前記音声信号の認識処理
に必要な特徴をそれぞれリサンプル抽出し、これ
らのリサンプル抽出された特徴に従つて音声認識
を行うようにしたものである。
〔発明の効果〕
従つて本発明によれば、複数の音声候補区間に
おいてそれぞれリサンプル抽出された特徴を用い
てそれぞれ音声認識処理し、その中の最も信頼性
の高い認識結果を抽出することによつて、雑音成
分を含んで検出される音声候補区間の情報を除去
し、ここに安定な音声認識を簡易に行わしめるこ
とが可能となる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例装置に
つき説明する。
第1図は実施例装置の概略構成図である。離散
的に発生される単語音声は、音声入力部1におい
て音響電気変換され、適度な信号レベルに増幅さ
れたのちA/D変換して取込まれる。音響分析処
理部2は、上記音声入力部1を介して入力された
音声信号を、デイジタルバンドパスフイルタを通
して予め定められたフレーム周期毎にスペクトル
分解してその音響分析を行つている。しかして、
特徴抽出部3は、上記スペクトル分解された音声
信号データを入力し、これを上記フレーム単位で
処理して前記音声信号の特徴を抽出している。即
ち、特徴抽出部3は、上記フレーム毎にその音韻
特徴を抽出し、例えば母音声フレームに対しては
その母音種類を示すラベルを付し、鼻音声フレー
ムに対しては鼻音の種類を示すラベルを付し、更
にその他の子音については、破裂性、有声無声
性、無音性、摩擦性等のラベルを付している。こ
れにより、入力音声信号の各フレーム毎に付され
たラベルの系列からなる音声特徴時系列が求めら
れる。尚、上記母音・鼻音の種類のラベル付け
は、フレーム単位で求められるスペクトルのパタ
ーンデータと、予め辞書登録されている母音およ
び鼻音の各種類毎の標準スペクトルパターンとの
類似度を計算する等してそのラベルを決定して行
われる。また、上述した子音の種類分けは、各フ
レーム毎に求められるスペクトルパターンの概略
形状を調べる等して行われる。即ち、上記スペク
トルパターンが周波数に沿つて単調増和している
場合には、これを摩擦性として判定し、またスペ
クトルパターンが所謂釣鐘状に中央部が高くなつ
ている場合には、これを破裂性として判定する等
して行われる。
音声区間検出回路4は、上記の如くして特徴抽
出部3が求めたラベル系列からなる音声信号の特
徴時系列と、前記音響分析処理部2が求めた音声
信号のスペクトルデータ、およびそのエネルギデ
ータとを入力し、これらの情報に従つて入力音声
信号の始端候補点Sおよび終端候補点Eとを求
め、これらの始端候補点Sと終端候補点Eとの可
能な組合せにより複数の音声候補区間を検出して
いる。即ち今、数字「1」なる音声が「イチ」と
発生され、その前後に雑音が伴つて入力すると、
その音声信号波形は例えば第2図に示すようにな
る。このような入力音声信号に対して、上述した
特徴時系列、スペクトルデータ、エネルギデータ
に従つて始端候補点S1,S2,S3を求め、また終端
候補点E1,E2,E3を求める。これらの始端およ
び終端の候補点の組合せから求められる音声候補
区間は、上記始端候補点が終端候補点よりも時間
的に必ず前に存在することから第2図に示す例で
は次のように求められる。
〔S1,E1〕、〔S1,E2〕、〔S1,E3〕 〔S2,E1〕、〔S2,E2〕、〔S2,E3) 〔S3,E3〕 尚、上記音声候補区間のうち〔S2,E1〕、〔S3
E3〕に関しては、1つの音声フレームに満たな
い長さでることから、これを処理対象とする候補
区間から除くようにしてもよい。
このようにして求められる音声候補区間のそれ
ぞれについて、認識部5は音声信号の特徴である
例えばスペクトル情報を入力する。そして、各音
声候補区間の音声信号スペクトル情報系列をリサ
ンプル抽出し、その特徴パターンベクトルを求め
て、辞書として予め登録された複数の音声カテゴ
リの各標準パターンベクトルとの類似度計算を行
う等して、音声認識処理が行われる。認識部5
は、前記の如く求められた複数の音声候補区間に
ついて、上記認識処理をそれぞれ行い、その認識
結果を制御部6に出力している。この制御部6
は、前述した各処理部2,3,4,5をそれぞれ
制御し乍ら、上記認識部5が求めた各音声候補区
間における認識結果を入力して、これを総合判定
している。そして、音声候補区間が雑音を含む場
合、これによつて上記認識結果(類似度値)が当
然悪くなることを利用してこれを除去し、最も信
頼性の高い認識結果を抽出して、前記音声信号に
対する正しい認識結果であるとして出力してい
る。かくしてここに、信頼性の高い音声候補区間
より求められた認識結果が得られることになり、
音声の前後に付加された雑音を含む情報から得ら
れる認識結果が効果的に排除されることになる。
つまり複数の音声候補区間のうちから、雑音を含
まない音声候補区間における情報のみが有効に取
出されて認識されることになる。
尚、上記認識部5における各音声候補区間の音
声認識処理は、従来より提唱されている種々の方
式を適宜用いればよい。またこの認識処理に用い
られる音声の特徴も、種々採用可能なことは云う
までもない。
ところで、本装置が最も特徴とするところの、
音声信号に対する始端候補点Sおよび終端候補点
Eの検出と、これらの始端および終端候補点S,
Eの組合せから求められる音声候補区間の検出処
理は、音声区間抽出回路4によつて次のように行
われる。第3図はその処理過程の一例を示す流れ
図である。この処理は、先ず処理制御カウンタ値
をイニシヤライズしたのち、第nフレームの音声
信号エネルギを入力して行われる。しかるのち、
例えば仮りに設定した閾値に従つて音声信号を無
音クラス、音声クラスに分け、各クラス間の級間
分散を求めてその値が最大となるべく最適閾値
Ethを設定し、その閾値Ethと入力音声エネルギ
E(o)とを比較する。その後、入力音声エネルギE(o)
が上記閾値Ethを越える時点をS′(i)として始端の第
1候補点とする。そして、次に上記入力音声エネ
ルギE(o)が上記閾値Ethを下回る時点を検出し、こ
れを終端の第1候補点E′(i)とする。しかるのち、
このようにして求められた始端および終端の候補
点間の間隔を Tk=|S′(k)−E′(k)| として求め、所定の間隔Tthを越えるか否かを判
定して音声候補区間を求める。これによつて、断
片的に得られる誤つた音声候補区間が除去され
る。そして、上述した音声候補区間の検出を、入
力された音声信号の全てのフレームに亘つて順次
入力し、その可能な全ての組合せについてチエツ
クし、全ての音声候補区間を求める。
しかるのち、上記音声候補区間の音声特徴を調
べ、その区間に雑音性成分が含まれるか否かを判
定して、雑音性成分を含む音声候補区間を認識対
象から除去する。その後、発声の終了を、例えば
E(o)<Ethの区間が所定の期間Mthだけ続くことか
ら検出し、これまでに検出された音声候補区間に
おける音声特徴と、予め登録されている単語の発
声形状とを比較して、最終的な音声候補区間を決
定する。このようにして決定された音声候補区間
の全てについて、例えば複合類似度法を用いて辞
書登録された単語辞書との類似度をそれぞれ求
め、その類似度値を相互に比較して、最も信頼性
の高い結果を認識結果として出力する。
以上のような認識処理によれば、単語音声が含
まれる候補区間のそれぞれにおいて求められる認
識結果を相互に比較して、最も信頼性の高いもの
を抽出するので、最終的に離散的に発声された音
声そのものの特徴から求められる認識結果を信頼
性良く得ることができる。つまり音声区間の検出
と、その認識処理とを相互に関連して行うことに
なるので、安定に認識処理を行い得ると云う実用
上多大なる効果が奏せられる。
尚、本発明は上記実施例に限定されるものでは
ない。例えば始端候補点および終端候補点の検出
処理自体、またこれらの組合せによつて求める音
声候補区間の抽出処理更には認識処理法は、種々
の方式を適宜作用することができる。また上述し
た処理に使用する音声の特徴についても特に限定
されない。要するに本発明はその要旨を逸脱しな
い範囲で種々変形して実施することができる。
【図面の簡単な説明】
第1図は本発明の一実施例装置の概略構成図、
第2図は実施例装置の処理を示す音声信号波形と
始端および終端候補点とその音声候補区間を示す
図、第3図は実施例装置における認識処理の流れ
を示す図である。 1……音声入力部、2……音響分析処理部、3
……特徴抽出部、4……音声区間検出回路、5…
…認識部、6……制御部。

Claims (1)

    【特許請求の範囲】
  1. 1 音声信号を入力して予め定められたフレーム
    周期毎に音響分析する手段と、この音響分析結果
    から各フレーム毎に音韻の類似度から母音・鼻音
    のラベル付けを行うと共に、スペクトルの概形か
    ら子音のラベル付けを行つて音声信号の特徴を抽
    出する手段と、前記音声信号の特徴と前記音響分
    析結果とに従つて前記音声信号の始端候補点と終
    端候補点とをそれぞれ検出する手段と、上記始端
    候補点と終端候補点との全ての可能な組合せによ
    つて求められる複数の音声候補区間に対し、各フ
    レーム毎に得られた母音・鼻音ラベル及び子音ラ
    ベルを用いて該区間が音声か雑音かを調べる手段
    と、音声と検出された音声候補区間における前記
    音声信号の特徴をそれぞれリサンプル抽出する手
    段と、これらのリサンプル抽出された特徴を用い
    て前記音声信号中に含まれる音声を認識する手段
    とを具備したことを特徴とする音声認識装置。
JP57146408A 1982-08-24 1982-08-24 音声認識装置 Granted JPS5936300A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57146408A JPS5936300A (ja) 1982-08-24 1982-08-24 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57146408A JPS5936300A (ja) 1982-08-24 1982-08-24 音声認識装置

Publications (2)

Publication Number Publication Date
JPS5936300A JPS5936300A (ja) 1984-02-28
JPH0376475B2 true JPH0376475B2 (ja) 1991-12-05

Family

ID=15407019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57146408A Granted JPS5936300A (ja) 1982-08-24 1982-08-24 音声認識装置

Country Status (1)

Country Link
JP (1) JPS5936300A (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置

Also Published As

Publication number Publication date
JPS5936300A (ja) 1984-02-28

Similar Documents

Publication Publication Date Title
US8036891B2 (en) Methods of identification using voice sound analysis
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US6553342B1 (en) Tone based speech recognition
JPH0352640B2 (ja)
Pellegrino et al. Automatic language identification: an alternative approach to phonetic modelling
CN102222498B (zh) 声音判别系统、声音判别方法以及声音判别用程序
Lakshmi et al. A syllable based continuous speech recognizer for Tamil.
Bansal et al. Speaker adaptation on Hidden Markov Model using MFCC & RASTA-PLP and comparative study
JPS6138479B2 (ja)
JP2745562B2 (ja) ノイズ適応形音声認識装置
JPH0558553B2 (ja)
Abdo et al. MFC peak based segmentation for continuous Arabic audio signal
JPH0376475B2 (ja)
Lachachi Unsupervised phoneme segmentation based on main energy change for Arabic speech
JPS58108590A (ja) 音声認識装置
Muthusamy et al. A review of research in automatic language identification
Deekshitha et al. Speech Signal Based Broad Phoneme Classification and Search Space Reduction for Spoken Term Detection
JP3110025B2 (ja) 発声変形検出装置
JP2760096B2 (ja) 音声認識方式
Laleye et al. Automatic text-independent syllable segmentation using singularity exponents and rényi entropy
JP2594916B2 (ja) 音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPH0682275B2 (ja) 音声認識装置
JPH0640274B2 (ja) 音声認識装置
JPH10124090A (ja) 音声認識方法およびこの方法を実施する装置