JPH0358099A

JPH0358099A - 発声変形検出装置

Info

Publication number: JPH0358099A
Application number: JP1195154A
Authority: JP
Inventors: Shinji Koga; 古賀　真二
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1989-07-27
Filing date: 1989-07-27
Publication date: 1991-03-13
Anticipated expiration: 2015-11-20
Also published as: JP3110025B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は発声された音声内に生じている発声変形を高性
能で自動的に検出する発声変形検出装置に関するもので
ある．（従来の技術）従来、未知音声を認識する方法では、あらかじめ発声し
た音声データから作威した複数の標準モデル、即ち、標
準パターンと未知音声から求めた音声パターンとの類似
度を求め、最大の類似度を与える凛準モデルのカテゴリ
を認識結果とする方法が一般的である．したがって、ｗ
Ａ準パターンを作成するための音声データは、当然その
発声内容が既知でなければならず、このことは、認識単
位として音素など単語より小さい単位を用いたとき、よ
り厳密なものとなる．一方、同じ単語を発声した場合でも、単語の種類によっ
ては、無声化や長母音化等の発声変形が生じる場合があ
る．Ｓえば、「拍手Ｊ　／　ｈ　ａ　ｋ　ｕｓｙｕ／の
２つの単音素／ｕ／は無声化して発声されることがあり
、「映画Ｊ　／ｅ　ｉ　ｇａ／の／ｅ１／は／　ｅ　ｅ
　／と長母音化して発声されることがある．その結果、
音素単位で比べた場合、単話名からは同じ音素であるが
、音声パターンが異なるというものがでてくる．なお、
以下、「音素」とは、音韻論的な意味での音声の最小基
本単位という意味だけではなく、音節や複数の音素の連
結をも含む、もっと広い範囲の音声の単位を意味する．
発声変形の検出方法として、例えば、武田、勾坂、片桐
らの、日本音響学会昭和６２年度春季研究発表会講演論
文集Ｉのベージ６９−７０に掲載の論文「音声データベ
ース構築のための音韻ラベリング」　（以下、文献１と
称す）で述べられているような視察による方法が挙げら
れる．ここでは、音声データのスペクトログラム、波形
等をもとに、その音声の音韻ラベルづけを行っており、
その際に発声変形の検出を行っている。

（発明が解決しようとする課題）上述の従来技術として説明したような発声変形の検出を
文献１で述べられているような視察で行う場合、音声デ
ータの数が膨大になると、大変な作業となってしまう．
また、検出結果が検出作業を行った者により異なってし
まう可能性もあるという問題があった．本発明の目的は、以上のような欠点を除き、発声された
音声内に生じている発声変形を高性能で自動的に検出す
る装置を提供することにある．（課題を解決するための
手ＩＳ！）前述の課題を解決するため本発明による発声変形検出装
置は、音声信号を分析して特徴ベクトル時系列を出力す
る特徴分析部と、前記音声信号の発声変形する可能性が
ある音素の音素名と発声変形パターンを求め発声変形情
報として出力する発声変形情報検出部と、音素を単位と
したＷＡ準モデルをあらかじめ蓄えておく標準モデル記
憶部と、前記特徴ベクトル時系列と前記発声変形情報と
前記Ｗ準モデル記憶部に蓄えられた標準モデルに基づい
て前記発声変形する可能性がある音素の音素名と発声変
形する可能性がある音素の位置情報を抽出し変形音素情
報として出力する変形音素抽出部と、前記変形音素情報
を蓄えておく変形音素情報記１１部と、前記特徴ベクト
ル時系列と前記変形音素情報記憶部に蓄えられた変形音
素情報と前記標準モデル記憶部に蓄えられた標準モデル
に基づいて発声変形の有無を検出する発声変形検出部と
を有する．（作用）以下、本発明による発声変形検出装置の作用について説
明する．本発明は、発声された入力音声に対して、発声変形する
可能性がある音素〈以下、変形可能音素と呼ぶ）に対す
る音声区間を切り出し、その音素に対する標準モデルと
その区間の音声パターンから入力音声の発声の発声変形
の有無を自動的に検出するものである．入力音声の発声変形を検出するには、まず、その発声内
容に対して発生する可能性がある発声変形パターンを求
めなければならない．多くの発声変形、特に異音による
発声変形は、前後の音素のコンテキストにより変形の生
じ易さをルール化することができる．「無声子音、語尾
に挟まれた母音／ｉ／，／ｕ／は無声化し易い」　「二
ｆ！母音／ｅ　ｉ／，／ｏｕ／は、それぞれ／ｅｅ／．
／ｏＯ／に長母音化し易いＪ等がその例として挙げられ
る．そして、これらのルールにより作戒されたパターン
やそれ以外の経験的に発声変形することがわかっている
パターンを、発声変形パターンとする．変形可能要素の入力音声中での位置を求めるには、例え
ば、入力音声の発声内容に対応した複数個の発声変形パ
ターンをもとに音素を単位とした標準モデル（以下、音
素モデルと呼ぶ）を連結させて、それぞれのパターンに
対するモデル（以下、変形モデルと呼ぶ）を作戊する（
例えば、「映画」という発声内容に対応する変形モデル
は、／ｅｉｇａ／，／ｅｅｇａ／の２つである〉。音素
モデルとして、例えば、Ｓ．Ｅ．Ｌｅｖｉｎｓｏｎ，　
Ｌ．Ｒ．Ｒａｂｉｎｅｒ、およびＨ．　Ｈ．　Ｓｏｎｄ
ｈ　ｉらの、Ｔｈｅ　Ｂｅｌｌ　ＳｙｓｔｅｎＴｅｃｈ
ｎｉｃａｌ　　Ｊｏｕｒｎａｌ　　、Ｖｏｌ．６２、Ｎ
ｏ．　４、１９８３年　４月のベージ１０３５−　１０
７４に掲載の論文“＾ｎＩｎｔｒｏｄｕｃｔｉｏｎ　ｔ
ｏ　ｔｈｅ　Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　ｔｈｅＴ
ｈｅＯｒｔ７　ｏｆ　ＰｒＯｂａｂｉｌｉＳｔｉＣ　Ｆ
ｕｎｃｔｉｏｎｓ　ｏｆ　ＨａｒｋＯＶＰｒｏｃｅｓｓ
　ｔｏ　ＡｔｌｔｌａｔｉＣ　ＳＤｅｅＣｈ　ＲｅＣＯ
ＱｎｉｔｉＯｎ　”　（以下、文献２と称す）に述べら
れているような隠れマルコフモデル（以下、ＨＭＭと呼
ぶ）を用いることができる。ＨＭＭは、状態遷移ネット
ワークの一種で、各状態には状態遷移確率とベクトル出
現確率とが定義されている．そして、ＨＭＭのパラメー
タは、学習用音声を用いて、文献２に述べられているよ
うなフォワード・バックワード（ｆｏｒｗａｒｄ　−　
ｂａｃｋｗａｒｄ）アルゴリズムによって推定される。

変形モデルを作或した後、入力音声から求めた特徴ベク
トル時系列を用いて、変形可能音素の位置を各モデル毎
に求める〈「映画」の場合、／　ｅ　ｉ　／と／ｅｅ／
の位置を求めることになる），ここで、特徴ベクトル時
系列の求め方として、．例えば、古井著、１９８５年、
東海大学出版会発行の「デジタル音声処理」　（以下、
文献３と称す）のベージ１５４−１６０に述べられてい
るメルゲプストラムによる方法やＬＰＣ分析法などを用
いることができる。

また、ある変形モデルに対する変形可能音素の位置は、
例えば、文献２で述べられているビタービ（　Ｖｉｔｅ
ｒｂｉ）アルゴリズムを用いて、モデル内での最適な状
態遷移バスを求め、そのバス上での変形可能音素に対す
る音素モデル（以下、変形可能音素モデルと呼ぶ）のバ
スに対応する入カ音声中の区間として求められる．発声変形の有無は、例えば、各変形可能音素モデル《「
映画』の場合、／ｅｉ／および／　ｅ　ｅ　／に対する
音素モデル）に対してフォワード・バックワードアルゴ
リズムまたはビタービアルゴリズムにより、それぞれの
モデルに対して先に求められた音声区間の音声パターン
の出現確率を求め、確率が最も高いモデルをその区間の
音素として判定することができる．（実施例）次に本発明による発声変形検出装置の実施例について図
面を参照して説明する．第１図は本発明の一実施例を示す楕或図である．標準モ
デル記憶部３の中には、文献２で述べられているような
ＨＭＭを用いた音素モデルＭが保持されている．これら
は、文献２で述べられているフォワード・バックワード
アルゴリズムにより、多量の音声データから作或できる
．入力された音声信号Ｓは、特徴分析部１および発声変形
情報検出部２へ入力される．特徴分析部１では、文献３で述べられているようなメル
ゲプストラムによる方法を用いて、音声信号Ｓが特徴ベ
クトル時系列Ｖに変換される．発声変形情報検出部２で
は、音声信号Ｓの発声内容に対して発生する可能性があ
る発声変形パターがルールに従って求められ、発声内容
中での変形可能音素名とともに発声変形情報Ｐとして出
力される，発声変形パターンは、この方法以外に、入カされるすべ
ての音声の発声変形パターンをすべて網羅したメモリを
あらかじめ用意しておき、そのメモリから必要なパター
ンを抽出することによっても求められる．変形音素抽出部４では、特徴ベクトル時系列Ｖ、発声変
形情報Ｐおよびｔｓ準モデル記憶部３に保持されている
音素モデルＭを受け、発声変形パターン毎に、音素モデ
ルＭが連結されて変形モデルが作或され、文献２で述べ
られているビタービアルゴリズムを用いて特徴ベクトル
時系列Ｖに対する最適な状態遷移パスが求められ、その
パス上で変形可能音素モデルが占有するパスに対応する
特徴ベクトル時系列Ｖ中の区間の始端と終端が変形可能
音素の位置情報として求められ、変形可能音素名ととも
に、変形音素情報【として出カされる．この変形音素情
報工は、変形音素情報記憶部５に蓄えられる、発声変形検出部６では、変形音素情報記憶部５に蓄えら
れた変形音素情報Ｉ′、入カ音声信号の特徴ベクトル時
系列■、音素モデルＭを受け、変形音素情報Ｉ′内の変
形可能音素名に対応する音素モデル毎に、それぞれのモ
デルに対する変形音素情報Ｉ′内の変形可能音素の位置
情報をもとに切り出された特徴ベクトル時系列Ｖの部分
系列の出現確率が、フォワード・バックワードアルゴリ
ズムにより求められ、確率が最も高いモデルがその区間
の音素と判定され、音素名Ｒが検出結果として出力され
る．（発明の効果）以上説明したように、本発明は入力音声に対して発声変
形する可能性がある音素に対する音声区間を切り出し、
その音素に対する標準モデルとその区間の音声パターン
から入力音声の発声変形の有無を自動的に検出するので
、検出者の作業を軽減した高性能な発声変形検出装置を
実現することができる．

【図面の簡単な説明】

第１図は本発明による一実施例を示す構或図である．

Claims

【特許請求の範囲】

音声信号を分析して特徴ベクトル時系列を出力する特徴
分析部と、前記音声信号の発声変形する可能性があり音
素の音素名と発声変形パターンを求め発声変形情報とし
て出力する発声変形情報検出部と、音素を単位とした標
準モデルをあらかじめ蓄えておく標準モデル記憶部と、
前記特徴ベクトル時系列と前記発声変形情報と前記標準
モデル記憶部に蓄えられた標準モデルに基づいて前記発
声変形する可能性がある音素の音素名と発声変形する可
能性がある音素の位置情報を抽出し変形音素情報として
出力する変形音素抽出部と、前記変形音素情報を蓄えて
おく変形音素情報記憶部と、前記特徴ベクトル時系列と
前記変形音素情報記憶部に蓄えられた変形音素情報と前
記標準モデル記憶部に蓄えられた標準モデルに基づいて
発声変形の有無を検出する発声変形検出部とを有するこ
とを特徴とする発声変形検出装置。