WO2000072308A1

WO2000072308A1 - Interval normalization device for voice recognition input voice

Info

Publication number: WO2000072308A1
Application number: PCT/JP2000/003113
Authority: WO
Inventors: Mikio Oda
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-05-21
Filing date: 2000-05-16
Publication date: 2000-11-30
Anticipated expiration: 2001-11-21
Also published as: EP1102240A1; CN1310839A; KR100423630B1; CN1136538C; KR20010053542A; EP1102240A4

Description

明細書音声認識入力音声の音程正規化装置技術分野

この発明は、不特定話者の音声を認識する音声認識装置において、低音の男性の声や、高音の女性および子供の声にも幅広く音声認識処理が可能な音声認識装置に関するものであり、さらに詳述すれば、認識対象音声の音程を音声認識装置の標準音声の音程に合わせて正規化する入力音声音程正規化装置に関する。景技術

音声 αίέ識技術は近年、デジタル信号処理技術の向上、および処理に用レ、られる L S I の高性能化かつ低価格化などにより、民生機器に数多く導入されて同機器の操作性向上に役立つてレヽる。音尸 6¾識装置の基本原理は、入力された音声をデジタル音声信号に変換し、そのデジタル音声信号をあらカゝじめ用意された音声辞書に登録された標準音声デ — タと照合して、入力された音声を認識するものである。そのため、標準音声データと比較しやすいように音尸 wi-識対象である特定話者に対して、特別な発尸方法を要求したり、それら特疋 S舌 ^ の音声をあらカゝじめ音声認識装置に登録しておくなどの対策がとられている

しかしながら、民生機器として音声認識装置を用いる場合に、話者を特定すれば利便性が著しく殺がれ、その商品価値が損なわれる。そのために、不特定話者により発生された音声を音声入力として認識しなければならなレヽ。言うまでもなく、不特定話者による発声は様々である。このように不特定話者による変化に富んだ発声に関して、音声認識精度を損なわせる音声認識阻害要因は大きく分けて、発声速度と音声音程との二つである。

第 1 の音声認識阻害要因である発声速度に関しては、例えば、早口の人など、話者によって話す速度に差があることである。つまり、音声認識は入力される音声を、あらかじめ用意された音声辞書に登録された標準速度の音声と比較することによって実現される。そのため、両者の発声速度の差が一定以上になると、正しく比較できずに、音声認識も不可能になる。

第 2 の音声認識要因である音声音程に関しては、男性の低音の音声、女性や子供による高音の音声など、話者によつてその音声の音程に差があることである。この場合にも、あらカゝじめ用意された音声辞書に登録された音声の音程と、不特定話者により発声された音声の音程との差が一定以上になると、両音声を正しく比較できずに、音声認識も不可能になる。

図 5 に、上述の問題を解決するものとして特開平 9 — 3 2 5 7 9 8 号公報に提案されている音声認識装置を示す。同図に示すように、音声認識装置 V R A c は、音声入力部 1 1 1 、発声速度算出部 1 1 2 、発声速度変換率決定部 1 1 3 、発声速度変換部 1 1 4 、および音声認識部 1 1 5 を含む。音声入力部 1 1 1 は、不特定話者によって発声された音声を取り込んだアナ口グ音声信号をデジタル信号に変換 A / D 変換して音声信号を生成する。発声速度算出部 1 1 2 は、音声信号に基づいて入力された不特定話者の音声の発声速度を算出する。発声速度変換率決定部 1 1 3 は、発声速度算出部 1 1 2 で算出された発声速度を基準速度と比較して、速度変換率の決定を行なう。発声速度変換部 1 1 4 はその速度変換率に基づいて発声速度を変換する。音声認識部 1 1 5 は、声速度変換部 1 1 4 によって速度変換された入力音声信号の音声認識を行う。

次に、音声認識装置 V R A c の動作について説明する。不特定話者により発声された音声は、音声入力部 1 1 1 のマイクおよび増幅器を経由して取り込まれ、さらに A Z D コンバータにより、アナ口グ信号からデジタル信号に変換される。発声速度算出部 1 1 2 は、変換されたデジタルの音声信号から入力音声の一音を切り出す。そして、発声速度算出部 1 1 2 は切り出された一音の切り出し時間より、一音の発声速度を算出する。

そこで、発声速度算出部 1 1 2 がー音の切り出しに要する所要時間（以降、「 1 音切出時間」と称す）を T s とし、不特定話者が一音の発声に要する基準時間（以降、「 1 音発声基準時間」と称す）を T h とする。そして、発声速度変換率決定部 1 1 3 において、 1 音切出時間 T s および一音発声基準時間 T h に基づいて、 1 音発声速度 1 Z T s と基準一音発声速度 l Z T h とを比較し、速度変換率 _α を決定する。速度変換率 α は次式（ 1 ) によって算出できる a = T s / T h · · · · ( l ) 上記 1 式カゝら明らかなように、 1 音切出時間 T s 力 S 1 音発声基準時間 T h より短い、つまり入力音声の発声速度が音声認識装置 V R A c によって正確に認識できる発声速度に比べて早い場合には、速度変換率 _a は 1 より小さくなる。この場合、入力音声の発声速度を遅くしてやる必要がある。逆に 1 音切出時間 T s 力 1 音発声基準時間 T h より長い、つまり入力音声の発声速度が音声認識装置 V R A c によって正確に認識できる発声速度に比べて遅い場合には、速度変換率 _a は 1 より大きい。この場合、入力音声の発声速度を早くしてやる必要がある。

音声認識装置 V R A c においては、速度変換率 a に基づいて発声速度変換部 1 1 4 が発声速度が一定になるように入力音声信号の速度変換して速度変換入力音声信号を生成する。音声認識部 1 1 5 は、速度変換入力音声信号に対して音声認識処理を施して得られた認識結果を出力する。

上述の速度変換は最近のデジタル技術を使用することで容易に実現できる。例えば、入力音声の発声速度を遅くする場合は、入力音声の一音と相関性を有する母音波形を音声信号に複数個追加して音声信号の発声時間を延ばせば良い。また、入力音声の発声速度を速くする場合は、入力音声の一音の母音波形を複数回に渡って音声信号から間引けば良い。

この処理は、話速変換と呼ばれる入力音声の音程を変化させることなく話速を変換させる技術である。すなわち、音声認識において、発声速度に個人差がある不特定話者のうち、特に早口でしゃべる話者による発声された音声に対して話速変換技術を利用して、早口の話者により発声された音声の認識率向上を図るものである。

しカゝしな力ら、上述の従来の音声認識装置 V R A c におレ、ては、基準一音発声速度 l Z T h に比べて、発声速度の異なる不特定話者による音声に対する認識率を向上させること、つまり第 1 の音声認識阻害要因に対して効果的である。しかしな力 S ら、基準音声に対して高低差のある発声音声、つまり第 2 の音声認識阻害要因である高低差のある発尸 " 尸 (こ対しては、認識率の向上は期待できない。

詳述すれば、音声認識装置 V R A c は、男性の低い声、女性、および子供の高い声などの幅広い周波数レンジに対応できるが、高い音声認識率は実現できない。また、早口の場合は、ゆつくり話してもらうなど注意をうながせば済む問題である力 ^s 、話者に音色を変えて発声することを望むのは困難である。これは、話者の喉の形状および大きさによって、話者の基準発声周波数が決定される。つまり、話者の喉の形状を変えることはできなレ、ので、その発声音色も変えることはできない。

そのため、音声認識装置 V R A c におレ、ては、不特定話者間の発声における音色差に対しても音声認識率の向上を図るには、男性の声、女性、および子供の声など音声認識に必要な異なる音程の標準音声データを複数持ち、話者の音色に応じて、参照する標準音声データを切り換えなければならなレヽとレヽぅ課題を有してレ、る。発明の開示

本発明は、上記のような目的を達成するために、以下に述べるような特徴を有してレ、る。

反発明の第 1 の局面は、音声認識標準データに基づいて

、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、入力音声の音程を音声認識標準データの音程と所定の関係に変換する入力音声音程正規化装置であって入力音声と音声認識標準データとの音程差を判断する音程差判断器と、

音程差判断器によって判断された音程差に基づいて、入力音声の音程が音声認識標準データの音程と所定の関係になるように、入力音声の周波数を変換する音程変換器とを備える。

上述のように、第 1 の局面にぉレ、ては、入力音声の音程が音声認識標準データの音程に合わせて調整されるので、音声認識率を向上できる。

第 2 の局面は、第 1 の局面において、入力音声を一時記憶するメモリと、

入力音声の一繋がりをメモリから読み出して認識対象音声信号を生成する読出制御器とをさらに備え、

音程差判断器は、

認識対象音声信号の周波数成分を分析して周波数成分信号を生成する周波数成分分析器と、

周波数成分信号に基づいて、認識対象音声信号の基本周波数を求めるとともに、音声認識標準データと基本周波数の音程差を判定して音程差信号を生成する音程判定器とを備える。

上述のように、第 2 の局面においては、入力音声が 1 音であっても良いし、数音から成る単語であっても良い。

第 3 の局面は、第 2 の局面において、音程判定器は認識対象音声信号の第 1 ホルマントを基本周波数として求め、

5¾ g 象音声信号の第 1 ホルマントを音声認識標準データの第 1 ホノレマントと比較して、音程差を判定することにより、認識対象音声が 1 音および複数音の何れであっても、音程差を安定して判定できることを特徴とする。

上述のように、第 3 の局面においては、入力音声が 1 音あるいは数音力ゝら成る単語であっても、入力音声単位で周波数特性の安定した第 1 ホルマントで認識標準特性データとの音程比較を行うので、入力される音声の一音切り出し等の処理が不要となり処理が迅速かつ装置構成を簡略にでさる。

第 4 の局面は、第 3 の局面において、音程変換器は、曰手王信号に基づいて認識対象音声信号の周波数が変換されるように、メモリの読み出すタイミングクロックの周波数を決定して読出ク口ック信号を生成する読出ク口ック制御器とを備え、

メモリは m出ク口ック信号に基づいて、音声認識標準データの音程と所定の関係の音程を有するように認識対象音声信号を出力することを特徴とする。

上述のように、第 4 の局面においては、メモリの読み出しタイミングを変えることによって認識対象音声信号の波形特徴を損なうことなくその音程を変えることができるので、補間や間引き処理が不要である。

第 5 の局面は、第 4 の局面における入力音声音程正規化装置を備える音声認識装置。

第 6 の局面は、音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置であって入力音声の音程を音声認識標準データの音程と所定の関係に変換する入力音声音程正規化装置と、

音程を変換された入力音声を音声認識標準データと比較して、入力音声と合致する音声認識標準テータを示す認識信号を生成する音声分析器とを備える。

上述のように、第 6 の局面においては、入力音声の音程が音声認識標準データの音程に合わせて調整されるので、音声認識率を向上できる。

第 7 の局面は、第 6 の局面において、入力音声を一時記憶するメモリと、

音程差判断器は、

上述のように、第 7 の局面においては、入力音声が 1 音であっても良レ、し、数音力ゝら成る単語であっても良い。

第 8 の局面は、第 7 の局面において、音程判定器は認識対象音声信号の第 1 ホルマントを基本周波数として求め、認識対象音声信号の第 1 ホルマントを音声認識標準データの第 1 ホルマン卜と比較して、音程差を判定することにより、認識対象音声が 1 音および複数音の何れであっても、音程差を安定して判定できることを特徴とする。

上述のように、第 8 の局面においては、入力音声が 1 音あるいは数音から成る単語であっても、入力音声単位で周波数特性の安定した第 1 ホルマン卜で認識標準特性データとの音程比較を行うので、入力される音声の一音切り出し等の処理が不要となり処理が迅速かつ装置構成を簡略にできる。

第 9 の局面は、第 8 の局面において、音程変換器は、音程差信号に基づいて認識対象音声信号の周波数が変換されるように、メモリの読み出すタイミングクロックの周波数を決定して読出ク口ック信号を生成する読出ク口ック制御器とを備え、

メモリは読出ク口ック信号に基づいて、音声認識標準デ — タの音程と所定の関係の音程を有するように認識対象音声信号を出力することを特徴とする。

上述のように、第 4 の局面においては、メモリの読み出しタイミングを変えることによって認識対象音声信号の波形特徴を損なうことなくその音程を変えることができるので、補間や間引き処理が不要である。図面の簡単な説明

図 1 は、本発明の実施の形態にかかる入力音声正規化装置を組み込んだ音声認識装置の構成を示すプロック図であ、

2 は、異なる音程を有する音声の周波数スぺクトルを示す図であり、

図 3 は、音声波形の時間変化例およびそれらの間で行われる音程変換方法の説明図であり、

図 4 は、図 1 に示した入力音声正規化装置の動作を示すフ口 — チャートであり、そして、

5 は、従来の音声認識装置の構成を示すプロック図である発明を実施するための最良の形態本発明をより詳細に説述するために、添付の図面に従つてこれを説明する。

図 1 を参照して、本発明の実施形態にかかる入力音声音程正規化装置を組み込んだ音声認識装置について説明する。音声認識装置 V R A p は、 A Z D コンバータ 1 、入力音声正規化装置 T r 、標準音声データ格納器 1 3 、音声分析器 1 5 、および制御器 1 7 を含む。標準音声データ格納器 1 3 は、音声認識の基準となる音声周波数成分パターン P s f を格納し、所定のタイミングで格納している音声周波数ノ《ターン P s f を出力する。なお、不特定話者によって発声された音声はマイクおよび増幅器（図示せず）を経由してアナログ音声信号 S V a として音声認識装置 V R A p に入力される。

制御器 1 7 は、音声認識装置 V R A p の他の構成要素 1 、丁！：、 1 3 、および 1 5 カゝら出力される、それらの動作状態を示す動作状態信号 S s に基づいてそれらの構成要素

1 、 T r 、 1 3 、および 1 5 の動作を制御する制御信号 S c を生成して、音声認識装置 V R A p 全体の動作を制御する。なお、動作状態信号 S s 、動作状態信号 S c 、および制御器 1 7 について公知の技術であるので、説明の簡便化のために特に必要のない限りは言及しない。

A / D コンパータ 1 は、入力されたアナログ音声信号 S V a に A Z D 変換処理を施してデジタル音声信号 S V d を生成して、入力音声正規化装置 T r に入力する。入力音声正規化装置 T r は、入力されたデジタル音声信号 S V d に基づいて、音声認識装置 V R A p の標準音程に合わせて音程変換された音程正規化デジタル音声信号 S V c を生成して、音声分析器 1 5 に出力する。音声分析器 1 5 は、標準音声データ格納器 1 3 から読み出された音声周波数パターン P s f に基づいて、入力音声正規化装置 T r から音程正規化デジタル音声信号 S v c を分析して、入力音声と合致する音声認識標準データを示す認識信号 S r c を出力する。

なお、図 1 に示すように、入力音声正規化装置 T r は、メモリ 3 、読出制御器 5 、周波数成分分析器 7 、音程判定器 9 、および読出クロック制御器 1 1 を含む。メモリ 3 は A / D コンバータ 1 から出力されるデジタル音声信号 S v d を一時的に保存する。読出制御器 5 は、メモリ 3 によるデジタル音声信号 S V d の保存を監視するとともに読出制御信号 S r c を生成して、保存されたデジタル音声信号 S V d のうちで独立した発声に対応するものをデジタル音声信号ュニット S v u として読み出すようにメモリ 3 を制御する。

周波数成分分析器 7 は、メモリ 3 力ら出力されるデジタル音声信号ュニット S v u に高速フ一リェ変換処理を施して、周波数スぺクトル分析を行う。周波数成分分析器 7 は、デジタル音声信号ュニッ卜 S V u の周波数スぺクトル分析結果に基づレヽて、周波数成分信号 S f c を生成する。

音程判定器 9 は、周波数成分分析器 7 から出力される周波数成分信号 S f c の第 1 ホノレマントを抽出し、あらカゝじめ音程判定器 9 内に格納されてレヽる標準音声（標準音声デ — タ格納器 1 3 ) の第 1 ホルマントに基づレ、て、入力音声 ( S V a S V d S v u ) の音程と該標準音声の音程差を求める。求められた音程差に基づレ、て ztr. ί

f 判定器 9 はさらに入力音声（ S V d ^ V a S V U ) の音程をどの程度変換すれば標準音程に合わせることができるかを示す音程変換率信号 S c r を生成する

読出クロック制御器 1 1 は音程判定器 9 カゝら出力される音程変換率信号 S c r に基づレヽて、メモリ 3 に対する読み出しクロック周波数を制御して読出クロック S e c を生成する。

メモリ 3 は読出クロック S c c に規定されるタイミングで、保存されているデジタル音声信号 S V d を読み出すことによって、デジタル音声信号 S V d の音程が標準音声の音程に合わせて調整された音程正規化デジタル音声信号 S v c を出力する。つまり、音程正規化デジタル音声信号 S V c は基準音声周波数成分パターン P s f と所定の音程関係を有する。この所定の音程関係とは、必ずしも同一を意味するものでなく、音声認識装置 V R A p (特に音声分析器 1 5 ) の性能によって自ずと決まる許容範囲が認められることは言うまでもなレ、。

音声分析器 1 5 は、メモリ 3 から入力される音程正規化デジタル音声信号 S V c を分析して、標準音声データ格納器 1 3 から読み出された基準音声周波数成分パターン P s f で合致するものを示す認識信号 S r c を出力する。

次に、図 2 および図 3 を参照して、音声認識装置 V R A p の動作の基本原理について説明する。

図 2 に、周波数成分分析器 7 によるデジタル音声信号 S V d に高速フーリエ変換を施した結果得られる、周波数スベクトルの例を示す。同図において、横軸は周波数 f を示し、縦軸は強度 A を示している。なお、一点鎖線 L 1 はデジタル音声信号 S V d が男性により発声された音声の代表的な音声周波数スぺクトノレ例を示し、破線 L 2 はデジタル音声信号 S V d が女性あるいは子供により発声された音声の代表的な音声周波数スぺクトル例を示してレ、る。

そして実線 L s は音声認識用の標準音声データとして標準音声データ格納器 1 3 に格納されている、音声周波数スぺクトル例を示してレ、る。一般的に、同じ音声（言葉）でも、男性の場合は一鎖線 L 1 に示すように標準音声に比ベて低周波数領域側に周波数スぺクトルが現れ、女性あるいは子供の場合は破 L 2 に示すように、標準音声に比べて高周波数領域側に波数スぺクトルが現れる。

このような周波数成分のそれぞれの基本周波数である第 1 ホルマント周波数を f 1 、 f 2 、および f s とすると、これらの基本周波数は話者に対して概ね一定である。ここで述べる第 1 ホノレマント周波数について簡単に説明する。音声波形を時間領域から周波数領域に変換すると、通常 5 k H z 以下に母音の δ哉別に大きな役割を占めるホノレマントと呼ばれる 4 5 個程度のピークが観測される。ホルマントは周波数の低い方ら第 1 、第 2 、第 3 、 · · · ホノレマントと名付けられるそして、同一の話者により発声された音声の第 1 ホノレマントは、一音であっても、複数の音から構成される句であても概ね一定である。

これは、上述の如 < 話者の喉の形状および大きさによつて、話者の声の基準の発声周波数が決定されることと同じ理由による。つまり上述のような不特定話者により発声された音声の第 1 ホルマント周波数と標準音声データの第 1 ホノレマント周波数スぺクトルの差は、上述の性差や年齢差、さらに発声した葉の内容に限らず話者個人に対して実質上一定である。つまり、発声した音声が 1 音だけであつても、数音力、ら成る単語や句のような音声列であっても、その音声列の第 1 ホルマントは話者個人に対して一定である。

この事実に基づいて、本発明においては周波数成分信号 S f c に基づいて、音程判定器 9 は不特定話者により発声された音声の第 1 ホルマント周波数を求めて不特定話者音声の基本周波数 f i (以降、「入力音声基本周波数 f i 」と称す）を求める。そして、音程判定器 9 において、入力音声基本周波数 f i を標準音声データの基本周波数 f s ( 以降、「標準音声基本周波数 f s 」と称す）と比較して、入力音声基本周波数 f i の標準音声基本周波数 f s に対する音程比 C R を、以下に示す式（ 2 ) に従って算出される

C R = f s / f i • · · · ( 2 )

上述の如く、第 1 ホルマント周波数は、音響的には、話者の喉の形状（長さ、太さ）によって一義的に決まる。つまり、男性は喉が長く太いので、その音声の基本周波数 f m は標準音声の基本周波数 f s より低い。結果、音程比 C R は 1 より大きくなる。一方、高い女性や子供は喉が短く細いので、その基本周波数 f c は標準の音声の基本周波数 f s より高い。結果、音程比 C R は 1 より小さくなる。このような一般的な傾向とともに、話者毎に音程比 C R は固有である。さらに、周波数成分分析器 7 は音程比 C R の値を示す音程変換率信号 S c r を生成する。

出クロック制御器 1 1 は、音程判定器 9 から出力される音程変換率信号 S c r に基づいて、デジタル音声信号 S

V d のサンプリングタイミングの C R 倍のタイミングでメモリ 3 力らァシタル音声信号 S v d を読み出すことで、音程正規化デジタル音声信号 S v c を生成してレヽる。このような目的のために、メモリ 3 は一般にリングメモリと呼ばれる循環メモリで構成される。

音程比 C R が 1 より大きレヽ、つまり入力音声（ S V d ) の音程が低い場合は、サンプリングク口ックより早レヽタイミングで、メモリ 3 からデジタル音信号 S v d を読み出して音程正規化デジタル音声信号 s V c を生成する。一方、音程比 C R が 1 より小さレヽ、つまり入力音声（ S v d ) の音程力高レヽ場合は、サンプリングク口ックより遅レ、タイミングで、デジタノレ音声信号 S V d を読み出して音程正規化デジタル音声信号 S V c を生成する。

図 3 を参照して、音程変換器 9 における音程変換処理につレヽて、さらに説明する。同図にねレ、て横軸は時間 t を示し、縦軸は音声の強度 A を示す。波形 W S は標準音声データ格納器 1 3 に格納されている音声波形の時間変化例を示す。波形 W L は標準音声デ一タに比ベて音程の低い音声波形（例えば男性の音声）を示し、波形 w H は標準音声データに比ベて音程の高い音声波形 (例えば女性や子供の音声 ) を示す。同図におレヽて、波形 W S 、波形 W L 、および波形 W H の 1 周期を、それぞれ P L 、 P S 、および P H と表している。周期 P L および P H は上述の入力音声基本周波数 f i の逆数に相当し、周期 P S は標準音声基本周波数 f s の逆数に相当する

波形 W L を波形 W S に合わせて音程変換するには、入力音声波形を A Z D 変換する時のサンプリングクロックより、速い ( P し / P S 倍）読み出しク口ックで読み出せば実現できる。また、波形 W H を波形 W S に合わせて音程変換するには、入力音声波形を A Z D 変換する時のサンプリングクロックより、遅い ( P H P S 倍）読み出しクロックで読み出せば実現できる。つまり、み出しクロックは、上式（ 2 ) で規定された音程比 C R に基づいて、サンプリングクロックを変換することで得られる

このようにして、デジタル音声信号 S V d の音程を標準音声の音程に合わせて変換した音程正規化デジタル音声信号 S V c 力；得られる。しカゝしながら、音程を上げる場合は音声波形の時間軸が短くなり、音程を下がる場合は音声波形の時間軸が長くなるので、話速度が変化してしまう。これを解決するために、音程を上げる場合には母音波形を追加し、音程を下げる場合には母音波形を間引くことにより話速度を調整できるが、この技術は公知であるとともに、本発明の目的とするところではないので、その説明および図示を省く。さらに、 SJCみ出しクロックの周波数変換も、従来カゝら知られてレ、るマスタ一クロックの分周クロックを用いて容易に作成できる。

次に、図 4 に示すフローチヤートを参照して、音声認識装置 V R A p に組み込まれた入力音声正規化装置 T r の動作について説明する。音声認識装置 V R A p が駆動されて、その音声認識動作が開始される。

ステップ S 2 において、マィク等の装置を通して不特定話者により発声された音声がアナログ音声信号 S V a として A Z D コンバータ 1 に入力される。そして、処理は次のステップ S 4 に進む。

ステップ S 4 において、 A / D コンバータ 1 は入力されたアナ口グ音声信号 S V a を順次 A Z D 変換して、デジタル音声信号 S v d を生成してメモリ 3 に出力する。なお、上述のステップ S 2 および S 4 は、話者により発声された音声の入力受付サブルーチン # 1 0 0 を形成する。

ステップ S 6 において、読出制御器 5 はメモリ 3 の入力状態を監視して、話者による音声入力（アナログ音声信号 S V a ) が終了したか否かを判断する。この判断は、一例として、アナ口グ音声信号 S V a の入力中断時間が所定の閾値に達してレ、るか否かをもってなされる。その他、話者が入力終了の旨を適当な手段を用いて音声認識装置 V R A p または入力音声正規化装置 T r に指示するように構成しても良い。

話者の発声が継続している場合は N o と判断されて、処理は上述のステップ S 4 に戻り、デジタル音声信号 S V d の生成およびメモリ 3 への入力が継続される。そして、話者による一音または数音から成る独立した音声列のアナ口グ音声信号 S V a の入力が終了した時点で Y e s と判断されて、処理は次のステップ S 8 に進む。

ステップ S 8 におレヽて、読出制御器 5 は、メモリ 3 に記憶されているデジタル音声信号 S V d から独立した音声列に対応するデジタル音声信号ュニット S V u を読み出して周波数成分分析器 7 に出力させる。デジタル音声信号ュニット S v u は、音声認識装置 V R A p による音声認識対象である。そして、処理は次のステップ S 1 0 に進む。なお、上述のステップ S 6 および S 8 は、話者により発声された音声のうち、認識対象となる音声を取り出す認識対象音声抽出サブルーチン # 2 0 0 を形成する。ステップ S 1 0 において、周波数成分分析器 7 はメモリ 3 から入力されるデジタル音声信号ュニット S V u に高速フーリエ変換処理を施して、デジタル音声信号ュニット S v u の周波数スぺクトル（図 2 ) の分析を行う。そして、処理は次のステップ S 1 2 に進む。

ステップ S 1 2 において、周波数成分分析器 7 は、図 2 を参照して説明したように、周波数成分信号 S f c を生成する。そして、処理は次のステップ S 1 4 に進む。

ステップ S 1 4 において、周波数成分分析器 7 は生成した周波数成分信号 S f c を音程判定器 9 に出力する。そして、処理は次のステップ S 1 6 に進む。なお、上述のステップ S 1 0 、 S 1 2 、および S 1 4 は、デジタル音声信号ュニット S V u の周波数スぺクトル分析サブルーチン # 3 0 0 を形成する。

ステップ S 1 6 において、音程判定器 9 は周波数成分分析器 7 から入力される周波数成分信号 S f c に基づレ、て、入力された音声（デジタル音声信号ユニット S v u ) の基本周波数である第 1 ホルマントを抽出する。そして、処理は次のステップ S 1 8 に進む。

ステップ S 1 8 におレ、て、音程判定器 9 はステップ S 1 6 で求められた第 1 ホルマントを、標準音声データ格納器 1 3 に格納されてレヽる標準音声データの第 1 ホルマントと比較して、上記（ 2 ) 式に従って、音程比 C R を算出する。そして、処理は次のステップ S 2 0 に進む。

ステップ S 2 0 においては、音程判定器 9 は音程比 C R を表す音程変換率信号 S c r を生成して、読出ク口ック制御器 1 1 に出力する。そして、処理は次のステップ S 2 2 に進む。なお、上述のステップ S 1 6 、 S 1 8 、および S 2 0 は、標準音声に対する入力音声の音程の高低を判定する音程判定サブルーチン # 4 0 0 を形成する。

ステップ S 2 2 におレ、て、読出クロック制御器 1 1 は音程判定器 9 から出力される音程変換率信号 S c r に基づいて、メモリ 3 の読み出しタイミングを決める読出クロック S e c を生成する。そして、処理は次のステップ S 2 4 に進む。

ステップ S 2 4 におレ、て、読出クロック S c c に基づいて、メモリ 3 から音程正規化デジタル音声信号 S V c が読み出される。なお、上述のステップ S 2 2 および S 2 4 は、入力音声の音程正規化サブルーチン # 5 0 0 を形成する上述の如くサブルーチン # 1 0 0 、 # 2 0 0 、 # 3 0 0 、 # 4 0 0 、および # 5 0 0 の処理を経て生成された音程正規化デジタル音声信号 S V c は、音声分析器 1 5 によつて、標準音声データ格納器 1 3 に格納されている標準音声データと照合されて認識処理を受ける。音声分析器 1 5 はさらに、認識結果を示す認識信号 S r c を生成して出力する。

音程判定サブルーチン # 4 0 0 ( S 1 6 ) における基本周波数（第 1 ホルマント）検出は、一音だけでも求まるが、発声単語全体の平均値をとつても良い。これは、上述したように、話者により発声された音声は 1 音であっても、複数音力ゝら成る音声であってもその第 1 ホルマントは話者毎に概ね一定であるカゝらである。

さらに、音程比 C R は厳しく求める必要はなく、音程変換で通常使用される 1 0 0 0 ( セント）単位で近似しても十分に音程変換の効果がある。音声分析器 1 5 は、このようにして音程変換された音声デジタル信号（音程正規化デジタル音声信号 S V c ) を参照する標準音声データ格納器 1 3 に格納されている音声認識の音声周波数成分パターンと入力音声周波数成分パターンとの一致度を算出し、音声認識分析する。

このように不特定話者により発声された入力音声を、あらカゝじめ、格納された標準音声データの音程に音程変換することにより、標準音声データを複数持つ必要がなく、不特定話者の幅広い周波数レンシにも対応でき、音声認識率の向上ができる。なお、入力音声（デジタル音声信号 S V d ) の音程を標準音声データの音程に合わせて音程変換する代わりに、標準音声データの音程を入力音声 (テジタノレ音声信号 S V d ) の音程に合わせて音程変換しても良い。

以上のように、本発明の音尸認 !¾.装置は、入力された音声信号の周波数成分を分析し、入力音声を音声認識用の標準音声データに音程変換することで、話者の音色差による音声認識率の向上を図り、しかも標準音声データを複数持つ必要がなく、メモリ容量を低減でさる。産業上の利用可能性

以上のように、この発明は、テレビジョンのような不特定多数の話者により発声された音声の認識を必要とする用途

io o£ _ ει Is/00 ,3d u

Claims

請求の範囲

1 . 音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置に用いられ、当該入力音声の音程を当該音声認識標準データの音程と所定の関係に変換する入力音声音程正規化装置であって、

前記入力音声と前記音声認識標準データとの音程差を判断する音程差判断手段と、

前記音程差判断手段によって判断された音程差に基づいて、前記入力音声の音程が前記音声認識標準データの音程と所定の関係になるように、当該入力音声の周波数を変換する音程変換手段とを備える入力音声音程正規化装置。

2 . 前記入力音声を一時記憶するメモリ手段と、

前記入力音声の一繋がりを前記メモリ手段から読み出して認識対象音声信号を生成する読出制御手段とをさらに備え、

前記音程差判断手段は、

前記認識対象音声信号の周波数成分を分析して周波数成分信号を生成する周波数成分分析手段と、

前記周波数成分信号に基づいて、前記認識対象音声信号の基本周波数を求めるとともに、前記音声認識標準デ一タと当該基本周波数の音程差を判定して音程差信号を生成する音程判定手段とを備える請求項 1 に記載の入力音声音程正規化装置。

3 . 前記音程判定手段は前記認識対象音声信号の第 1 ホルマントを基本周波数として求め、当該認識対象音声信号の第 1 ホルマントを前記音声認識標準データの第 1 ホルマン卜と比較して、前記音程差を判定することにより、前記認識対象音声が 1 音および複数音の何れであっても、音程差を安定して判定できることを特徴とする請求項 2 に記載の入力音声音程正規化装置。

4 . 前記音程変換手段は、

前記音程差信号に基づいて前記認識対象音声信号の周波数が変換されるように、前記メモリの読み出すタイミングク口ックの周波数を決定して読出ク口ック信号を生成する読出ク口ック制御手段とを備え、

前記メモリは前記読出ク口ック信号に基づいて、前記音声認識標準データの音程と所定の関係の音程を有するように前記認識対象音声信号を出力することを特徴とする請求項 3 に記載の入力音声音程正規化装置。

5 . 請求項 4 に記載の入力音声音程正規化装置を備える音声認識装置。

6 . 音声認識標準データに基づいて、不特定話者が発声した入力音声を認識する音声認識装置であって、

当該入力音声の音程を当該音声認識標準データの音程と所定の関係に変換する入力音声音程正規化装置と

前記音程を変換された入力音声を前記音声認識標準データと比較して、当該入力音声と合致する当該音声認識標準テ一タを示す認識信号を生成する音声分析手段とを備える音声認識装置。

7 . 前記入力音声を一時記憶するメモリ手段と、

前記音程差判断手段は、

前記周波数成分信号に基づいて、前記認識対象音声信号の基本周波数を求めるとともに、前記音声認識標準データと当該基本周波数の音程差を判定して音程差信号を生成する音程判定手段とを備える請求項 6 に記載の音声認識装置。

8 . 前記音程判定手段は前記認識対象音声信号の第 1 ホルマントを基本周波数として求め、当該認識対象音声信号の第 1 ホルマントを前記音声認識標準データの第 1 ホルマントと比較して、前記音程差を判定することにより、前記認識対象音声が 1 音および複数音の何れであっても、音程差を安定して判定できることを特徴とする請求項 7 に記載の音声認識装置。

9 . 前記音程変換手段は、

前記音程差信号に基づいて前記認識対象音声信号の周波数が変換されるように、前記メモリの読み出すタイミングク口ックの周波数を決定して読出ク口ック信号を生成する読出クロック制御手段とを備え、

前記メモリは前記読出クロック信号に基づいて、前記音声認識標準データの音程と所定の関係の音程を有するように前記認識対象音声信号を出力することを特徴とする？ 5H 求項 8 に記載の音声認識装置。