JPH0358099A - 発声変形検出装置 - Google Patents

発声変形検出装置

Info

Publication number
JPH0358099A
JPH0358099A JP1195154A JP19515489A JPH0358099A JP H0358099 A JPH0358099 A JP H0358099A JP 1195154 A JP1195154 A JP 1195154A JP 19515489 A JP19515489 A JP 19515489A JP H0358099 A JPH0358099 A JP H0358099A
Authority
JP
Japan
Prior art keywords
phoneme
information
voicing
utterance
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1195154A
Other languages
English (en)
Other versions
JP3110025B2 (ja
Inventor
Shinji Koga
古賀 真二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP01195154A priority Critical patent/JP3110025B2/ja
Publication of JPH0358099A publication Critical patent/JPH0358099A/ja
Application granted granted Critical
Publication of JP3110025B2 publication Critical patent/JP3110025B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は発声された音声内に生じている発声変形を高性
能で自動的に検出する発声変形検出装置に関するもので
ある. (従来の技術) 従来、未知音声を認識する方法では、あらかじめ発声し
た音声データから作威した複数の標準モデル、即ち、標
準パターンと未知音声から求めた音声パターンとの類似
度を求め、最大の類似度を与える凛準モデルのカテゴリ
を認識結果とする方法が一般的である.したがって、w
A準パターンを作成するための音声データは、当然その
発声内容が既知でなければならず、このことは、認識単
位として音素など単語より小さい単位を用いたとき、よ
り厳密なものとなる. 一方、同じ単語を発声した場合でも、単語の種類によっ
ては、無声化や長母音化等の発声変形が生じる場合があ
る.Sえば、「拍手J / h a k usyu/の
2つの単音素/u/は無声化して発声されることがあり
、「映画J /e i ga/の/e1/は/ e e
 /と長母音化して発声されることがある.その結果、
音素単位で比べた場合、単話名からは同じ音素であるが
、音声パターンが異なるというものがでてくる.なお、
以下、「音素」とは、音韻論的な意味での音声の最小基
本単位という意味だけではなく、音節や複数の音素の連
結をも含む、もっと広い範囲の音声の単位を意味する.
発声変形の検出方法として、例えば、武田、勾坂、片桐
らの、日本音響学会昭和62年度春季研究発表会講演論
文集Iのベージ69−70に掲載の論文「音声データベ
ース構築のための音韻ラベリング」 (以下、文献1と
称す)で述べられているような視察による方法が挙げら
れる.ここでは、音声データのスペクトログラム、波形
等をもとに、その音声の音韻ラベルづけを行っており、
その際に発声変形の検出を行っている。
(発明が解決しようとする課題) 上述の従来技術として説明したような発声変形の検出を
文献1で述べられているような視察で行う場合、音声デ
ータの数が膨大になると、大変な作業となってしまう.
また、検出結果が検出作業を行った者により異なってし
まう可能性もあるという問題があった. 本発明の目的は、以上のような欠点を除き、発声された
音声内に生じている発声変形を高性能で自動的に検出す
る装置を提供することにある.(課題を解決するための
手IS!) 前述の課題を解決するため本発明による発声変形検出装
置は、音声信号を分析して特徴ベクトル時系列を出力す
る特徴分析部と、前記音声信号の発声変形する可能性が
ある音素の音素名と発声変形パターンを求め発声変形情
報として出力する発声変形情報検出部と、音素を単位と
したWA準モデルをあらかじめ蓄えておく標準モデル記
憶部と、前記特徴ベクトル時系列と前記発声変形情報と
前記W準モデル記憶部に蓄えられた標準モデルに基づい
て前記発声変形する可能性がある音素の音素名と発声変
形する可能性がある音素の位置情報を抽出し変形音素情
報として出力する変形音素抽出部と、前記変形音素情報
を蓄えておく変形音素情報記11部と、前記特徴ベクト
ル時系列と前記変形音素情報記憶部に蓄えられた変形音
素情報と前記標準モデル記憶部に蓄えられた標準モデル
に基づいて発声変形の有無を検出する発声変形検出部と
を有する. (作用) 以下、本発明による発声変形検出装置の作用について説
明する. 本発明は、発声された入力音声に対して、発声変形する
可能性がある音素〈以下、変形可能音素と呼ぶ)に対す
る音声区間を切り出し、その音素に対する標準モデルと
その区間の音声パターンから入力音声の発声の発声変形
の有無を自動的に検出するものである. 入力音声の発声変形を検出するには、まず、その発声内
容に対して発生する可能性がある発声変形パターンを求
めなければならない.多くの発声変形、特に異音による
発声変形は、前後の音素のコンテキストにより変形の生
じ易さをルール化することができる.「無声子音、語尾
に挟まれた母音/i/,/u/は無声化し易い」 「二
f!母音/e i/,/ou/は、それぞれ/ee/.
/oO/に長母音化し易いJ等がその例として挙げられ
る.そして、これらのルールにより作戒されたパターン
やそれ以外の経験的に発声変形することがわかっている
パターンを、発声変形パターンとする. 変形可能要素の入力音声中での位置を求めるには、例え
ば、入力音声の発声内容に対応した複数個の発声変形パ
ターンをもとに音素を単位とした標準モデル(以下、音
素モデルと呼ぶ)を連結させて、それぞれのパターンに
対するモデル(以下、変形モデルと呼ぶ)を作戊する(
例えば、「映画」という発声内容に対応する変形モデル
は、/eiga/,/eega/の2つである〉。音素
モデルとして、例えば、S.E.Levinson, 
L.R.Rabiner、およびH. H. Sond
h iらの、The Bell SystenTech
nical  Journal  、Vol.62、N
o. 4、1983年 4月のベージ1035− 10
74に掲載の論文“^nIntroduction t
o the Application of theT
heOrt7 of PrObabiliStiC F
unctions of HarkOVProcess
 to AtltlatiC SDeeCh ReCO
QnitiOn ” (以下、文献2と称す)に述べら
れているような隠れマルコフモデル(以下、HMMと呼
ぶ)を用いることができる。HMMは、状態遷移ネット
ワークの一種で、各状態には状態遷移確率とベクトル出
現確率とが定義されている.そして、HMMのパラメー
タは、学習用音声を用いて、文献2に述べられているよ
うなフォワード・バックワード(forward − 
backward)アルゴリズムによって推定される。
変形モデルを作或した後、入力音声から求めた特徴ベク
トル時系列を用いて、変形可能音素の位置を各モデル毎
に求める〈「映画」の場合、/ e i /と/ee/
の位置を求めることになる),ここで、特徴ベクトル時
系列の求め方として、.例えば、古井著、1985年、
東海大学出版会発行の「デジタル音声処理」 (以下、
文献3と称す)のベージ154−160に述べられてい
るメルゲプストラムによる方法やLPC分析法などを用
いることができる。
また、ある変形モデルに対する変形可能音素の位置は、
例えば、文献2で述べられているビタービ( Vite
rbi)アルゴリズムを用いて、モデル内での最適な状
態遷移バスを求め、そのバス上での変形可能音素に対す
る音素モデル(以下、変形可能音素モデルと呼ぶ)のバ
スに対応する入カ音声中の区間として求められる. 発声変形の有無は、例えば、各変形可能音素モデル《「
映画』の場合、/ei/および/ e e /に対する
音素モデル)に対してフォワード・バックワードアルゴ
リズムまたはビタービアルゴリズムにより、それぞれの
モデルに対して先に求められた音声区間の音声パターン
の出現確率を求め、確率が最も高いモデルをその区間の
音素として判定することができる. (実施例) 次に本発明による発声変形検出装置の実施例について図
面を参照して説明する. 第1図は本発明の一実施例を示す楕或図である.標準モ
デル記憶部3の中には、文献2で述べられているような
HMMを用いた音素モデルMが保持されている.これら
は、文献2で述べられているフォワード・バックワード
アルゴリズムにより、多量の音声データから作或できる
. 入力された音声信号Sは、特徴分析部1および発声変形
情報検出部2へ入力される. 特徴分析部1では、文献3で述べられているようなメル
ゲプストラムによる方法を用いて、音声信号Sが特徴ベ
クトル時系列Vに変換される.発声変形情報検出部2で
は、音声信号Sの発声内容に対して発生する可能性があ
る発声変形パターがルールに従って求められ、発声内容
中での変形可能音素名とともに発声変形情報Pとして出
力される, 発声変形パターンは、この方法以外に、入カされるすべ
ての音声の発声変形パターンをすべて網羅したメモリを
あらかじめ用意しておき、そのメモリから必要なパター
ンを抽出することによっても求められる. 変形音素抽出部4では、特徴ベクトル時系列V、発声変
形情報Pおよびts準モデル記憶部3に保持されている
音素モデルMを受け、発声変形パターン毎に、音素モデ
ルMが連結されて変形モデルが作或され、文献2で述べ
られているビタービアルゴリズムを用いて特徴ベクトル
時系列Vに対する最適な状態遷移パスが求められ、その
パス上で変形可能音素モデルが占有するパスに対応する
特徴ベクトル時系列V中の区間の始端と終端が変形可能
音素の位置情報として求められ、変形可能音素名ととも
に、変形音素情報【として出カされる.この変形音素情
報工は、変形音素情報記憶部5に蓄えられる、 発声変形検出部6では、変形音素情報記憶部5に蓄えら
れた変形音素情報I′、入カ音声信号の特徴ベクトル時
系列■、音素モデルMを受け、変形音素情報I′内の変
形可能音素名に対応する音素モデル毎に、それぞれのモ
デルに対する変形音素情報I′内の変形可能音素の位置
情報をもとに切り出された特徴ベクトル時系列Vの部分
系列の出現確率が、フォワード・バックワードアルゴリ
ズムにより求められ、確率が最も高いモデルがその区間
の音素と判定され、音素名Rが検出結果として出力され
る. (発明の効果) 以上説明したように、本発明は入力音声に対して発声変
形する可能性がある音素に対する音声区間を切り出し、
その音素に対する標準モデルとその区間の音声パターン
から入力音声の発声変形の有無を自動的に検出するので
、検出者の作業を軽減した高性能な発声変形検出装置を
実現することができる.
【図面の簡単な説明】
第1図は本発明による一実施例を示す構或図である.

Claims (1)

    【特許請求の範囲】
  1. 音声信号を分析して特徴ベクトル時系列を出力する特徴
    分析部と、前記音声信号の発声変形する可能性があり音
    素の音素名と発声変形パターンを求め発声変形情報とし
    て出力する発声変形情報検出部と、音素を単位とした標
    準モデルをあらかじめ蓄えておく標準モデル記憶部と、
    前記特徴ベクトル時系列と前記発声変形情報と前記標準
    モデル記憶部に蓄えられた標準モデルに基づいて前記発
    声変形する可能性がある音素の音素名と発声変形する可
    能性がある音素の位置情報を抽出し変形音素情報として
    出力する変形音素抽出部と、前記変形音素情報を蓄えて
    おく変形音素情報記憶部と、前記特徴ベクトル時系列と
    前記変形音素情報記憶部に蓄えられた変形音素情報と前
    記標準モデル記憶部に蓄えられた標準モデルに基づいて
    発声変形の有無を検出する発声変形検出部とを有するこ
    とを特徴とする発声変形検出装置。
JP01195154A 1989-07-27 1989-07-27 発声変形検出装置 Expired - Lifetime JP3110025B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01195154A JP3110025B2 (ja) 1989-07-27 1989-07-27 発声変形検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01195154A JP3110025B2 (ja) 1989-07-27 1989-07-27 発声変形検出装置

Publications (2)

Publication Number Publication Date
JPH0358099A true JPH0358099A (ja) 1991-03-13
JP3110025B2 JP3110025B2 (ja) 2000-11-20

Family

ID=16336331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01195154A Expired - Lifetime JP3110025B2 (ja) 1989-07-27 1989-07-27 発声変形検出装置

Country Status (1)

Country Link
JP (1) JP3110025B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242887A (ja) * 2000-02-29 2001-09-07 Xanavi Informatics Corp 音声認識装置および音声認識ナビゲーション装置
JP2018072697A (ja) * 2016-11-02 2018-05-10 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001242887A (ja) * 2000-02-29 2001-09-07 Xanavi Informatics Corp 音声認識装置および音声認識ナビゲーション装置
JP2018072697A (ja) * 2016-11-02 2018-05-10 日本電信電話株式会社 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム

Also Published As

Publication number Publication date
JP3110025B2 (ja) 2000-11-20

Similar Documents

Publication Publication Date Title
US5333275A (en) System and method for time aligning speech
Mouaz et al. Speech recognition of Moroccan dialect using hidden Markov models
US6553342B1 (en) Tone based speech recognition
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Mariani Recent advances in speech processing
JP2745562B2 (ja) ノイズ適応形音声認識装置
Fu et al. A survey on Chinese speech recognition
Kameyama et al. A real-time system for summarizing human-human spontaneous spoken dialogues
JP3110025B2 (ja) 発声変形検出装置
Pranjol et al. Bengali speech recognition: An overview
JP2813209B2 (ja) 大語彙音声認識装置
Athiyaa et al. Spoken language identification system using MFCC features and Gaussian Mixture Model for Tamil and Telugu Languages
Elhadj et al. An accurate recognizer for basic arabic sounds
Heo et al. Classification based on speech rhythm via a temporal alignment of spoken sentences
Deekshitha et al. Speech Signal Based Broad Phoneme Classification and Search Space Reduction for Spoken Term Detection
Deekshitha et al. A novel two-stage system for spotting fricative and plosive regions from continuous speech
JP4236502B2 (ja) 音声認識装置
Wu et al. Integration of phonetic and prosodic information for robust utterance verification
Docio-Fernandez et al. Tc-star 2006 automatic speech recognition evaluation: The uvigo system
JP3277522B2 (ja) 音声認識方法
Watanabe et al. Unsupervised speaker adaptation using high confidence portion recognition results by multiple recognition systems.
KR19980065481A (ko) 운율 분석 결과에 근거한 음소 분리 방법
Likitsupin et al. Acoustic-phonetic approaches for improving segment-based speech recognition for large vocabulary continuous speech
Zacharie et al. Keyword spotting on word lattices

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 9

EXPY Cancellation because of completion of term