JPS60216391A - 音声認識における辞書作成方式 - Google Patents
音声認識における辞書作成方式Info
- Publication number
- JPS60216391A JPS60216391A JP59073539A JP7353984A JPS60216391A JP S60216391 A JPS60216391 A JP S60216391A JP 59073539 A JP59073539 A JP 59073539A JP 7353984 A JP7353984 A JP 7353984A JP S60216391 A JPS60216391 A JP S60216391A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- voiced
- unvoiced
- parts
- time spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
抜1九夏
本発明は、音声認識、より詳細には、音声認識における
辞書作成方式に関する。
辞書作成方式に関する。
従来基量
単語の音声認識を目的として、マイクロホンから取り入
れた単語の音声信号を特徴抽出部に導き、何らかの方法
によって数m s e c〜数十rr188 C程度の
時間間隔で周波数分析し、音声信号の短時間パワースペ
クトルをめ、これを特徴量とした場合、これ等の特徴量
を周波数と時間を2軸として2次元率面上に表示したパ
ターンは音声のタイムスペクトルパターンとして知られ
ている。本発明は、このタイムスペクトルパターンを基
本として、そのローカルピークを連ねた細線化パターン
と、ある閾値を設け、これによって2値化したプロ・−
ドパターンとの2種類のパターンの重畳比較により類似
度を算出し、認識をおこなう方式に係わるものである。
れた単語の音声信号を特徴抽出部に導き、何らかの方法
によって数m s e c〜数十rr188 C程度の
時間間隔で周波数分析し、音声信号の短時間パワースペ
クトルをめ、これを特徴量とした場合、これ等の特徴量
を周波数と時間を2軸として2次元率面上に表示したパ
ターンは音声のタイムスペクトルパターンとして知られ
ている。本発明は、このタイムスペクトルパターンを基
本として、そのローカルピークを連ねた細線化パターン
と、ある閾値を設け、これによって2値化したプロ・−
ドパターンとの2種類のパターンの重畳比較により類似
度を算出し、認識をおこなう方式に係わるものである。
9面して、」二記2種類のパターンのマツチング処理を
おこなう場合、2種類のパターンの内、いずむか一方を
m準パターンとして予め登録しておくのが一般的であり
、登録しておくパターンを辞書パターンと称し、マツチ
ング処理に際しては、入カバターンをこの辞書パターン
と照合する処理をおこなう。しかし乍ら、辞書パターン
を登録した話者と認識時における入力音声の発話者とが
異なる場合には、声道特性の個人的なバラツキにより上
記タイムスペクトルパターンに周波数方向のヅレを生じ
、そのままマツチングをおこなっても辞書パターンとの
整合性が悪く、認識率が劣化することはすでに明らかで
ある。
おこなう場合、2種類のパターンの内、いずむか一方を
m準パターンとして予め登録しておくのが一般的であり
、登録しておくパターンを辞書パターンと称し、マツチ
ング処理に際しては、入カバターンをこの辞書パターン
と照合する処理をおこなう。しかし乍ら、辞書パターン
を登録した話者と認識時における入力音声の発話者とが
異なる場合には、声道特性の個人的なバラツキにより上
記タイムスペクトルパターンに周波数方向のヅレを生じ
、そのままマツチングをおこなっても辞書パターンとの
整合性が悪く、認識率が劣化することはすでに明らかで
ある。
そこで、本出願人は、先に、多数の不特定な話者に適応
させるための措置として予め選定された複数の話者のタ
イムスペクトルパターンを時間的に線形伸縮して加算す
ることにより得られる荷重平均辞書を標準パターンとし
て用いることにより話者変動を吸収する方式について提
案した。しかし乍ら、この方式は、荷重辞書作成時に複
数の話者の時間的長さのそれぞれ異った2値タイムスペ
クトルパターンを線形伸縮して長さを揃えて加算するこ
とにより荷重値を作っているため不具合を生じる。つま
り、本来人間の単語音声の発声速度は個人によってバラ
ツキがあり、しかもその時間変動は非線形に変化してい
るが、この様に時間的長さと変動の仕方がそれぞれ異な
る複数の2値タイムスペクトルパターンを単に線形に伸
縮して加算した場合、有声音と無声音が加算されるフレ
ームが生じることになる。而して、荷重平均辞書は本来
同じ音韻同志のフレームが加算されて作られて始めて効
果を発揮するものであるから、異った音韻同志の加算は
望ましくないものである。
させるための措置として予め選定された複数の話者のタ
イムスペクトルパターンを時間的に線形伸縮して加算す
ることにより得られる荷重平均辞書を標準パターンとし
て用いることにより話者変動を吸収する方式について提
案した。しかし乍ら、この方式は、荷重辞書作成時に複
数の話者の時間的長さのそれぞれ異った2値タイムスペ
クトルパターンを線形伸縮して長さを揃えて加算するこ
とにより荷重値を作っているため不具合を生じる。つま
り、本来人間の単語音声の発声速度は個人によってバラ
ツキがあり、しかもその時間変動は非線形に変化してい
るが、この様に時間的長さと変動の仕方がそれぞれ異な
る複数の2値タイムスペクトルパターンを単に線形に伸
縮して加算した場合、有声音と無声音が加算されるフレ
ームが生じることになる。而して、荷重平均辞書は本来
同じ音韻同志のフレームが加算されて作られて始めて効
果を発揮するものであるから、異った音韻同志の加算は
望ましくないものである。
目 的
本発明は、上述のごとき実情に鑑みてなされたもので、
少なくとも有声は有声同志また無声音は無声音同志で加
算するようにした辞書、換言すれば、時間的ヅレにより
明らかに異った音韻である有声音と無声音の加算を避け
る様なマツチング方式によって作成される荷重平均辞書
を提供することを目的としてなされたものである。
少なくとも有声は有声同志また無声音は無声音同志で加
算するようにした辞書、換言すれば、時間的ヅレにより
明らかに異った音韻である有声音と無声音の加算を避け
る様なマツチング方式によって作成される荷重平均辞書
を提供することを目的としてなされたものである。
1−一腹
本発明の構成について、以下、実施例に基づいて説明す
る。
る。
3一
本発明においては、荷重平均辞書を作成する前に辞書作
成にあずかる複数話者の各々のタイムスペクトルパター
ンの各フレーム毎にそのフレームが有声音(V)か無音
声(UV)かを予め判定し、各タイムスペクトルパター
ンの全てのフレームにV又はUVの識別符号を付ける。
成にあずかる複数話者の各々のタイムスペクトルパター
ンの各フレーム毎にそのフレームが有声音(V)か無音
声(UV)かを予め判定し、各タイムスペクトルパター
ンの全てのフレームにV又はUVの識別符号を付ける。
この判定方法としては種々の方式が考えられ、例えば、
波形的処理 −とじては周期構造を有するのがVであり
、ランダムな部分がUVに相当することを利用して分割
判定することが出来る。周波数領域における処理として
は、スペクトル包絡の近似直線の傾斜がVの場合は負で
あり、UVの場合は零又は正であるという性質を利用し
て分類することも出来る。以上の様にして、各タイムス
ペクトルパターンの全てのフレーにV又はUVのマーキ
ングを付けることが出来るので、このマーキングを利用
して辞書作成の時に加算フレーム範囲を決定する。つま
り、同一単語の音声は話者が異なると、長さはバラバラ
であるが、■およびUVのマーキングのフレーム毎の系
列順序はほぼ同じであると考えられ、例4− えば、第1図で示すようになる。したがって、今、仮り
に2人の話者のタイムスペクトルパターンを加算して平
均辞書を作成する場合、第2図に示すように、■又はU
Vの同一のマーキングのフレーム同志において長さを線
形伸縮して揃えて加算をおこなう様な部分的線形伸縮加
算をおこなうことにより、異なった話者のタイムスペク
トルパターンにおいても、有声音フレームと無声音フレ
ームが加算されるのを防ぐことが出来る。この様な加算
手続きは2人の話者だけでなくN人の話者の一般の場合
にも当然可能である。
波形的処理 −とじては周期構造を有するのがVであり
、ランダムな部分がUVに相当することを利用して分割
判定することが出来る。周波数領域における処理として
は、スペクトル包絡の近似直線の傾斜がVの場合は負で
あり、UVの場合は零又は正であるという性質を利用し
て分類することも出来る。以上の様にして、各タイムス
ペクトルパターンの全てのフレーにV又はUVのマーキ
ングを付けることが出来るので、このマーキングを利用
して辞書作成の時に加算フレーム範囲を決定する。つま
り、同一単語の音声は話者が異なると、長さはバラバラ
であるが、■およびUVのマーキングのフレーム毎の系
列順序はほぼ同じであると考えられ、例4− えば、第1図で示すようになる。したがって、今、仮り
に2人の話者のタイムスペクトルパターンを加算して平
均辞書を作成する場合、第2図に示すように、■又はU
Vの同一のマーキングのフレーム同志において長さを線
形伸縮して揃えて加算をおこなう様な部分的線形伸縮加
算をおこなうことにより、異なった話者のタイムスペク
トルパターンにおいても、有声音フレームと無声音フレ
ームが加算されるのを防ぐことが出来る。この様な加算
手続きは2人の話者だけでなくN人の話者の一般の場合
にも当然可能である。
夏−一果
以上の説明から明らかように、本発明によると、異なっ
た音韻同志のフレームの加算が比較的避けられるのでよ
りマツチング精度の高い不特定話者用の辞書を得ること
ができる。
た音韻同志のフレームの加算が比較的避けられるのでよ
りマツチング精度の高い不特定話者用の辞書を得ること
ができる。
第1図は、有声音(V)と無声音(UV)のフレーム毎
の系列順序の例を示す図、第2図は、同一マーキングを
フレーム同志において長さを線形伸縮して揃えた図の一
例を示す図である。 ■・・・有声音、UV・・・無声音。 第 1 図 枯老t v v v v uv uv v v v u
v uv話者x v v v uv uv uv uv
v uv uv uv7− 手続祁1正書(自発) 昭和59年6月6[ 1、事件の表示 昭和59年 特許願 第73539号 2、発明の名称 音声認識にお(プる辞書作成方式 3、補正をする者 事件との関係 特許出願人 オオタ り ナカマゴメ 住所 東京都大田区中馬込1丁目3番6号氏名(名称)
(674)株式会社リコー代表者 浜 1) 広 4、代 理 人 住 所 〒231 横浜市中区不老町1−2−76、補
正の対象 明細書の発明の詳細な説明の欄 7、補正の内容 明細書第4頁第12行目に記載の[少なくとも音声は有
声同志」を[有声音は有声音同志」に補正する。
の系列順序の例を示す図、第2図は、同一マーキングを
フレーム同志において長さを線形伸縮して揃えた図の一
例を示す図である。 ■・・・有声音、UV・・・無声音。 第 1 図 枯老t v v v v uv uv v v v u
v uv話者x v v v uv uv uv uv
v uv uv uv7− 手続祁1正書(自発) 昭和59年6月6[ 1、事件の表示 昭和59年 特許願 第73539号 2、発明の名称 音声認識にお(プる辞書作成方式 3、補正をする者 事件との関係 特許出願人 オオタ り ナカマゴメ 住所 東京都大田区中馬込1丁目3番6号氏名(名称)
(674)株式会社リコー代表者 浜 1) 広 4、代 理 人 住 所 〒231 横浜市中区不老町1−2−76、補
正の対象 明細書の発明の詳細な説明の欄 7、補正の内容 明細書第4頁第12行目に記載の[少なくとも音声は有
声同志」を[有声音は有声音同志」に補正する。
Claims (1)
- 周波数と時間を変数とする2次元で表わせるタイムスペ
クトルパターンを基本として辞書および入力のタイムス
ペクトルパターンを2値またはそれ以上のレベルに分割
した後、これら2種の2次元パターンの重なり具合を用
いて類似度を算出する単語音声認識において、辞書作成
時に複数人の話者のタイムスペクトルパターンを加算す
ることにより荷重平均辞書を作成するに当り、予め各話
者のタイムスペクトルパターンの各フレーム毎・に有声
/無声の判定をしてこの情報を付加し、この有声/無声
情報に基づいて有声音部は有声音部同志、無声音部は無
声音部同志で線形伸縮して加算することを特徴とする音
声認識における辞書作成方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59073539A JPS60216391A (ja) | 1984-04-12 | 1984-04-12 | 音声認識における辞書作成方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP59073539A JPS60216391A (ja) | 1984-04-12 | 1984-04-12 | 音声認識における辞書作成方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS60216391A true JPS60216391A (ja) | 1985-10-29 |
Family
ID=13521136
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP59073539A Pending JPS60216391A (ja) | 1984-04-12 | 1984-04-12 | 音声認識における辞書作成方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS60216391A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63226691A (ja) * | 1986-10-03 | 1988-09-21 | 株式会社リコー | 標準パターン作成方式 |
-
1984
- 1984-04-12 JP JP59073539A patent/JPS60216391A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63226691A (ja) * | 1986-10-03 | 1988-09-21 | 株式会社リコー | 標準パターン作成方式 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6829581B2 (en) | Method for prosody generation by unit selection from an imitation speech database | |
| JPS62235998A (ja) | 音節識別方式 | |
| CN110570876B (zh) | 歌声合成方法、装置、计算机设备和存储介质 | |
| JP2002328695A (ja) | テキストからパーソナライズ化音声を生成する方法 | |
| JPS6184694A (ja) | 認識用辞書学習方法 | |
| CN112509550A (zh) | 语音合成模型训练方法、语音合成方法、装置及电子设备 | |
| Amin et al. | Glottal and vocal tract characteristics of voice impersonators | |
| JPS5842098A (ja) | 音声認識装置 | |
| Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
| US10643600B1 (en) | Modifying syllable durations for personalizing Chinese Mandarin TTS using small corpus | |
| KR20210019151A (ko) | 동화 낭독 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램 | |
| JPS60216391A (ja) | 音声認識における辞書作成方式 | |
| US7912708B2 (en) | Method for controlling duration in speech synthesis | |
| Chen et al. | All depressors are not alike: A comparison of Shanghai Chinese and Zulu | |
| JPS60198598A (ja) | 音声認識方式 | |
| JP2864511B2 (ja) | 話者識別方式と装置 | |
| Win et al. | Myanmar text-to-speech system with rule-based tone synthesis | |
| JPS60217399A (ja) | 音声認識方式 | |
| JP3438293B2 (ja) | 音声認識における単語テンプレートの自動作成方法 | |
| JPS61249099A (ja) | 音声認識装置 | |
| JPS6076800A (ja) | 音声認識方式 | |
| JPS63158599A (ja) | 単語検出方式 | |
| JPS6312000A (ja) | 音声認識装置 | |
| JPH10274992A (ja) | 音声モデル学習データ作成方法およびその装置 | |
| JPS63172199A (ja) | 音声合成装置 |