JPH0361959B2 - - Google Patents

Info

Publication number
JPH0361959B2
JPH0361959B2 JP57183604A JP18360482A JPH0361959B2 JP H0361959 B2 JPH0361959 B2 JP H0361959B2 JP 57183604 A JP57183604 A JP 57183604A JP 18360482 A JP18360482 A JP 18360482A JP H0361959 B2 JPH0361959 B2 JP H0361959B2
Authority
JP
Japan
Prior art keywords
sequence
spectral
amplitudes
signal
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57183604A
Other languages
English (en)
Other versions
JPS58100199A (ja
Inventor
Pii Giru Sutefuan
Efu Wagunaa Roorensu
Jii Furai Guregorii
E Bantosukii Kurausuupeetaa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Manitowoc Crane Group France SAS
Original Assignee
Potain SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Potain SA filed Critical Potain SA
Publication of JPS58100199A publication Critical patent/JPS58100199A/ja
Publication of JPH0361959B2 publication Critical patent/JPH0361959B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)

Description

【発明の詳細な説明】 発明の背景 本発明は広く云えば波形分析及び合成装置、そ
の中でも特に話される単語の語彙を学習し、次に
これらの単語が話された時これらの単語を認識
し、電子指令信号により活性化された時これらの
単語を可聴音声として合成して再生する方法及び
装置に関するものである。
人間の会話を認識することは機械にとつて非常
にむずかしい。人間の耳と頭脳の知覚の質と複雑
さは如何なる既知の又は考えられている装置の能
力を遥かに越えている。音声認識の一つの根本的
問題は音響波形から認識特徴を抽出することであ
る。最も広く受け容れられている特徴注出のため
の手段は波形を可聴波数のスペクトルに分解し、
スペクトログラム即ち周波数と時間の両方の関数
として音声エネルギーの「声紋」を作ることであ
る。
従来は、スペクトル分析器をLSI(大規模集積
回路)半導体チツプにのせることがむずかしく、
高価についた。従来の装置は(抵抗、コンデン
サ、トランジスタ増幅器、検出器等のような)ア
ナログ電子回路部品を用いて可聴周波フイルタの
バンクを作つていた。各アナログフイルタは指定
された周波数レンジ内の音響エネルギーについて
の情報を与える。例えばブローデス(Brodes)
の米国特許第3812291号はこのようなアナログフ
イルタを16個必要とし、ヘルシヤー(Herscher)
他の米国特許第3588363号はこのようなアナログ
フイルタを14個用いている。プローニング
(Browning)他の米国特許第4087630号は単一の
アナログフイルタにデイジタルスピンレジスタを
組み合せて多量チヤンネルスペクトル分析を提供
する方法を開示している。
単語認識のもう一つの問題はデータを圧縮し、
声紋をデイジタル記憶することである。ブローデ
ス他の米国特許第3812291号はスペクトル勾配
(即ち、周波数の関数としての音響エネルギーの
変化の割合)に依存する二進デイジタルデータエ
ンコーダを開示している。ヘルジヤー他の米国特
許第3588363号もスペクトル勾配に依存するエン
コーデイング技術を開示している。本発明はエン
コーデイング技術の実質と形式の両方の点で従来
技術と異なつており、全スペクトルチヤネルの振
幅情報と振幅の変化の時間割合(速度)とを保持
する声紋データの二進エンコーデイングを提供す
る。
パターンマツチング即ち一つの声紋と他の声紋
との比較は単語認識の本質的要素であるが、これ
もまたむずかしい問題である。蓋し、一方では類
似する単語間の差を識別しなければならず、地方
では同時に同一単語の種々の話者間の通常の変化
は受容しなければならないからである。この通常
の変化は次のものを含む。即ち、(a)大声で話すか
若しくは穏やかに話すか又はマイクロホンを動か
すことによる振幅の差異、(b)ゆつくり話すか急い
で話すかによる持続時間即ちテンポの差異、(c)マ
イクロホン応答のヘツドコールド(head cold)
即ち変化によるスペクトルの性質の差異及び(d)近
くでの会話、機械の雑音、弱い電話接続その他の
原因による背景雑音である。
この異なる単語の識別と同じ単語の変化の受容
との間の平衡を最も効果的に行なうように設計さ
れているパターンマツチングの従来技術の手段も
多い。振幅効果を除去するために広く使われてい
る手段は一チヤネル内の音響エネルギーに対し対
数即ちデシベルエネルギースケールを用いること
である。スペクトル勾配、即ち選択された周波数
チヤネル間での信号レベルの差は信号の振幅即ち
大きさに依存しない。例えば、マイクロホンを近
くに持つたため振幅が大きくなつても各チヤネル
のレベルはデシベルで測つた同一対数量だけ高く
なり、チヤネル間のスペクトル差だけ用いて各チ
ヤネルのデシベル数の上昇分を差し引くことがで
きる。この方法は例えばヘルシヤー他の米国特許
第3588363号およびブローデス他の米国特許第
3812291号で用おられている。これに対し本発明
では改良された統計的方法を用いて通常のスペク
トル勾配法では失なわれてしまう全信号振幅につ
いての情報を保ち続ける。
会話テンポの変動を考慮に入れるともう一つの
音声認識問題が生ずる。低コストで実現するのに
適した従来の音声認識技術は時分割法を用いてい
るが、これによれば単語のスタートと終了が決定
され、一語内の部分時間間隔毎に音声データが集
められている。この方法は粗末な方法ではあるが
単語の全持続時間の変動は考慮に入れている。し
かし一単語内の音節のタイミング及びテンポの変
動は考慮に入れていない。低コストが求められる
装置で実現するのは困難であるがずつと有効な技
術はダイナミツクプログラミングとか、ダイナミ
ツクタイムウオーピングとして知られている方法
である。このダイナミツクプログラムは複雑なパ
ターン認識技術であつて、時間軸を曲げて単語間
の最適なマツチングをとる。例えばこの技術はた
とえば音節が単語内の異なる相対位置で生ずる時
でも音節を音節に合わせ単語のマツチングをとる
ようになつている。この方法の説明は “Dynamic Programming Algorithm
Optimization for Spoken Word Recogniticn”
(IEEE・Transactions on Accoustics、Speech、
and Signal Processing、第ASSP−26巻第1号、
1978年2月第43〜49頁)と題する論文に見ること
ができる。デイジタル計算機でダイナミツクプロ
グラミングを実行する従来技術はサコエ
(Sakce)他の米国特許第381722号に教示されて
いる。本発明はいくつかの点で従来技術のダイナ
ミツクプログラムの方法と手段に改良を加えてい
る。即ち、(a)新規なスペクトル特徴比較手段を用
いて識別、雑音免役性及び計算速度を改良してい
る。(b)音声信号に匹敵する雑音信号が存在する場
合でも有効なパターンマツチングと単語認識とを
与える最適なサーチ技術をとり入れている。(c)低
コストのLSI半導体チツプでこの方法を具体化す
る手段を具えている。
会話とか機械の雑音のような背景雑音が存在す
る所での単語認識性能は従来技術の認識器では大
きな問題となつている。背景雑音が認識されるべ
き単語内の無声音に匹敵する時にはたいていの装
置は駄目になる。本発明はこの問題を小さくし、
多くの環境では除去する。
本発明の一般的目的は従来技術の単語認識装置
及び方法の上述した問題を解決した改良された音
声ないし単語認識装置を提供するにある。
本発明のもう一つの目的はアナログフイルタを
必要とせず、集積回路半導体(LSI)チツプ上に
のせられる、音声メカのスペクトル分析を行なう
単語認識装置を提供するにある。
本発明の更にもう一つの目的は音声合成もでき
る音声認識装置を提供するにある。本発明に係る
音声認識装置は音声をスペクトル成分に変換する
のにデイジタルプロセスを用いており、これは可
逆的である。
本発明のもう一つの目的は簡単に「トレーン」
され、話される言葉のエントリーが唯一で済む単
語認識装置を提供するにある。もつとも他のエン
トリーも識別と雑音免役性の向上に役立つ。
本発明の更にもう一つの目的は殊に音紋に基づ
いて話者の同定と検査とに有効な単語認識装置を
提供するにある。本発明のスペクトルチヤネルは
デイジタル手段に基づいているから、同一話者に
より話された多くの単語から一つの単語を認識す
る必要に合わせることにも、同一単語を話してい
る多くの人間から一人の話者を同定する必要に合
わせることにも簡単に切り替えることができる。
従来技術のアナログフイルタバンクは相当な困難
を伴なわなければこれを達成することができず、
通常は複雑な回路の変更を必要としていた。
本発明の要旨 本発明の上述した目的と他の目的とは以下の機
能を果すデイジタル処理要素から成る回路で実現
される。即ち、(1)デイジタル形式で各話された単
語のスペクトル分析を行なう;(2)メモリに単語の
符号化されたデイジタル表示を蓄わえる;(3)パタ
ーンマツチングを行つてデイジタル化された単語
形態を同定する;(4)同定が完了した時応答をイニ
シエイトする。広く云えば、この回路はアナログ
−デイジタル変換器を具え、アナログ波形の音声
入力を受け取り、これを均等に離れた時間間隔で
信号の変化する振幅に連続的に変換する。回路内
にはバスラインがあつて、デイジタル化されたデ
ータ入力を処理する要素がこれに接続されてい
る。この回路は中央タイミング装置で動作させら
れるが、これは種々の要素を反復する4相構成で
制御する。2ポートレジスタフアイルのようなメ
モリと組み合わされた演算論理装置(ALU)を
設け、データ処理における標準的な論理機能を達
成させる。回路の種々の計算機能の制御と順序づ
けはシーケンス制御部と入力/出力制御サブ回路
により維持される。RAM制御部がこれらの後者
の要素と関連して回路の動作時に外部メモリ装置
にデータを蓄わえたり取り出したりするのを制御
する。装置の動作時には有限な長さの話された単
語がいくつかの時間フレームに分割され、各フレ
ームが8ビツト符号化により同定された特有の振
幅を有する予じめ選択された数のデイジタルデー
タ点を具える。各フレームの振幅対時間領域から
ALUは制御されてデイジタル化されたデータサ
ンプルをスペクトル線即ち周波数レンジの係数に
変換する計算を行なう。ALUとそれに関連する
記憶装置による他の処理は隣り合うスペクトルの
群を選択的に加算することにより各フレームのス
ペクトル係数を一層少数の周波数チヤネルに変換
する。端数チヤネルの各々のこのようなフレーム
に対し、対数振幅の平均値()を求め、実際の
振幅のこの平均値からのずれを各チヤネル毎に測
定する。処理要素は隣接するフレーム対毎に各チ
ヤネルにつき平均値の瞬時勾配をも測定する。各
フレームの上述した測定された特性の全て、即ち
平均値、隣接するフレームについての平均値の勾
配及び種々のチヤネル毎の平均値からのずれはデ
イジタルエンコーデイングで組み合わされて隣接
するフレームの各対毎の特徴アンサンブルを形成
する。単語全体についてのテンプレートを具える
全ての数の特徴アンサンブルは外部メモリに蓄わ
えられる。
本発明により声紋を蓄わえられているテンプレ
ートにマツチングさせることはダイナミツクプロ
グラミング最適化技術と組み合わされた新規な特
徴比較により行なわれる。
本発明の他の目的と長所と特徴とは図面につき
以下に述べるところから明らかとなろう。
好適な実施例の説明 図面につき本発明を詳細に説明する。
第1図は外部制御装置22と外部装置24とを
設けることを含む本発明の原理を具体化した典型
的な単語認識装置20をブロツク図の形式で示し
たものである。外部装置は音声信号により動作さ
せ得たり或は音声信号を用いることができる種々
の要素又は声紋データを蓄わえたり送出したりで
きる親計算機(ホストコンピユータ)(図示せず)
に接続することができる。外部制御装置22には
デイジタル−アナログ(D−A)変換器26及び
増幅器28を経てスピーカ30に至る音声合成出
力径路が接続される。一般的な言葉で述べれば装
置の単語認識能力は外部装置に接続されている
種々の要素、例えばロボツト装置、表示装置、デ
ータ再生兼通信装置で利用することができる。
装置への音声入力はマイクロホン32から行な
われ、このマイクロホンが音声信号をアナログ電
気信号の形で増幅器34に送り、そこからアナロ
グ−デイジタル(A−D)変換器36に送る。A
−D変換器36は離散的なサンプリング瞬時にア
ナログ音声信号の二進表示を与えることによりア
ナログ信号を二進数の時間系列に変換する。本発
明の一実施例では256レベル(8ビツト)A−D
変換器を用いて毎秒8000回サンプリングを行な
う。そして128個のサンプルがまとめられて持続
時間が16ミリ秒の1フレームを形成する。明らか
に、各話された単語は多重のフレームを有する。
A−D変換器36から出力されるデイジタル情
報は音声処理装置38に送られる。この音声処理
装置は第1図では単に箱で示してあり、後に第2
図及び第3図につき詳述する。音声処理装置38
内ではデイジタルデータのフレームに対し二進論
理及び演算機能が遂行され、予じめ定められた又
はプログラムされている命令に従つて解析され、
音声信号の周波数スペクトル上にデイジタル情報
が与えられる。このようにして音声信号(時間の
関数としての信号振幅)が声紋(時間の関数とし
ての音声信号内の周波数成分)に変換される。
声紋はデイジタル形態で一語を他語と区別する
のに必要な情報を含む。これはまた特定の話者を
認識するのにも役立つ。蓋し、一語の声紋はそれ
を話している当人に特有なものだからである。声
紋は当業者には周知のものであり、単語の認識と
話者の同定のいずれにも用いられてきている。本
発明は声紋を確定し、再生するデイジタル手段を
提供するものである。
音声処理装置38は外部メモリバンク40に接
続するが、この外部メモリバンク40は1個又は
複数個の並列に接続したランダムアクセスメモリ
(RAM)を具えることができる。外部制御装置
22は8ビツトデータライン44を介して音声処
理装置に接続する。前述したように外部装置イン
ターフエース回路24は導体45を用いる双方向
データパスにより接続する。この外部装置インタ
ーフエース回路は外部データ、例えば前もつて形
成した声紋を供給するための親計算機に接続した
り、音声の指令を用いる他の装置、例えばロボツ
ト装置、表示装置又はデータ再生兼通信装置に接
続するのに適するようにすることができる。
第2図に本発明の重要な要素をなす音声処理装
置38のブロツク図を示す。物理的には、これは
通常の態様でプリント回路板上に取り付けられた
個別要素で作ることもできるが、集積回路半導体
装置として作ることもできる。略式図示したよう
にアナログデータを伝送する入力リード線50を
A−D変換器36に接続する。本例では単一の集
積回路装置として作るのに適するようにA−D変
換器を音声処理回路の一部として設けている。
音声処理装置38には2個の導体バス、即ちD
バス52とYバス54とが設けられていて、音声
処理装置の全ての要素はこれらのバスのいずれか
一方又は両方に接続されている。A−D変換器の
出力端子はDバスに接続する。音声処理装置の主
たるサブ要素である演算論理装置(ALU)56
はDバス及び/又はレジスタフアイルからデータ
を受け取り、16通りの演算/論理処理の一つを行
なつた後Yバスに出力を供給する。このALUに
付属してレジスタフアイル58があるが、これは
本質的には2ポートメモリであつて、Yバスから
入力を受け取り、ALUに出力を出す。同じよう
にして入出力(I/O)制御サブ回路60とラン
ダムアクセスメモリ(RAM)制御サブ回路62
とを設け、声紋データの記憶と再生とを制御す
る。これらのサブ回路は各々Yバスから入力を受
け取り、Dバスに出力すると共に夫々データパス
64及び66を具える。これらのデータパス64
及び66は共通8ビツト42に接続され、これが
高声処理装置から外部制御回路22とメモリ40
と迄延在している。加えて、要求、肯定応答ライ
ン68と承認、出力準備完了ライン70とが夫々
外部制御装置からI/O制御装置へとその逆に延
在している。またデータライン72と制御ライン
74(S100、S101及びRAS、CASO、CASO、
WE)とがRAM制御サブ回路62から外部メモ
リ(RAM)40に延在している。計算表とマク
ロ命令とを蓄わえているマクロ読出し専用メモリ
(ROM)76もDバスに接続し、音声処理装置
内に付加的記憶を提供する。
第2図に破線80で略式図示したように上述し
た全ての要素は相互接続されており、回路のタイ
ミング制御はマイクロROM84を具えるシーケ
ンスコントローラサブ回路82により維持され
る。
第2−A図に音声処理装置の多少変更した回路
38aを示すが、ここではA−D変換器36aが
チツプの外部に設けられている。本例では、1個
の8ビツトバス86が専らRAMアドレスデータ
を外部メモリ又はRAMバンク40に転送するの
に捧げられており、もう一個の8ビツトバス88
(システムバスと呼ばれる)が音声処理装置と外
部制御装置22との間のデータ通路を与えてい
る。この後者のシステムバス88は外部A−D変
換器36aと音声処理チツプとの間のデータ通路
としても使うことができる。I/O制御サブ回路
60aから外部A−D変換器36aに向けて3本
の制御ライン90,92及び94(WR、RD及
びCS)を設ける。他の点では外部A−D変換器
を用いるこの音声処理装置38aはチツプ上にA
−D変換器36をのせている音声処理装置38と
同一である。
第2B図に示すように、本発明はまた音声処理
38bが集積回路の形態で作られるのでなく、
別々の個別部品から成る構成で実現することもで
きる。図示したようにこのような回路は3個の大
きな部分、即ち高速計算部96、マクロ及びI/
O制御部98及び共通メモリ部100を具える高
速計算部96はマイクロROM102を具え、こ
れがシーケンスコントローラ104に接続され、
この他にレジスタフアイル106とALU108
とを具える。代表的な具体例では後者の2個の要
素は4個の同一な高速ビツトスライスマイクロプ
ロセツサ要素にそれらの支持部品を加えたもので
作ることができる。高速計算部の各要素は2個の
バス110及び112(D及びY)で相互接続さ
れている。そしてこれらの2個のバスは共通メモ
リ部100とも相互接続されている。
マクロ及びI/O制御部98はマイクロプロセ
サ114と関連システム部品とを具え、後者には
マクロROM116と揮発性(スクラツチパツ
ド)RAM118とか含まれ、これらは一対のバ
ス120及び122と破線124で示した複数個
の制御ラインとにより相互接続されている。バス
CD及びCAにはまたアナログ−デイジタル変換器
(A−D変換器)36bと、外部で用いる装置と
のインターフエースに適合した他の外部装置22
bとが接続されている。
CA及びCDバスはまた共通メモリ100にアク
セスする手段を提供する。共通メモリ100は
RAM制御回路126と、主メモリ128、例え
ば32KRAMとを具える。前述したように、RAM
制御回路126はDバスとYバスとを介して高速
計算部96にも接続されている。他の全ての点で
はこの第2−B図の回路は第2図及び第2−A図
と同じ機能をする。
第3図につき各要素の関係と機能とを説明して
音声処理装置38を詳細に説明する。
第2図で唯一つのブロツクで表わされていた要
素が第3図では展開され、各ブロツクがサブ要素
を包み込む破線で示されている。
A−D変換器36は実時間クロツクインタラプ
ト(RTC)130に接続され、そこから入力を
受け取る。A−D出力はレジスタ(HOLD2)1
32に供給され、その出力がスイツチ(SRC1)
134を介してDバス52の一枝路に送り出され
る。
シーケンスコントローラ82ではマイクロプロ
グラムカウンタ(MPC)136がアドレスをマ
イクロROM84に与え、次に取り出すべきマイ
クロコードを特定する。第5図に示すように、特
定数の情報ビツト(例えば43ビツト)からマイク
ロコードワード137が成つているが、このマイ
クロコードワードが1サイクル中の音声処理装置
の動作を制御するために与えられる。このマイク
ロコードワードについては後に詳述する。マイク
ロプログラムカウンタ136は歩進させられた
り、マルチプレクサ138の出力端子から並列に
ロードされる。マイクロプログラムの制御の下に
このマルチプレクサ138は実時間クロツク
(RTC)ベクトル140又はD/Yバスの内容の
いずれか一方をマイクロプログラムカウンタ13
6に通す。このマイクロプログラムカウンタ13
6の出力端子は保持レジスタ(HOLD1)142
にも接続する。ここでカウンタの電流値が一時的
にセーブされる。この保持レジスタ142の出力
端子はバススイツチ144を介してDバスに接続
される。マイクロROM84の出力は論理回路網
(MASK1)146でゲートされ、PIPEレジスタ
148に送られる。MASK1を経てPIPEレジス
タに至るもう一本の通路はもう一つの論理回路網
(DECOD)150に由来するもので、この論理
回路150はレジスタ(IREG)152に含まれ
ているマイクロ命令をデコードする。このIREG
レジスタはスイツチ(DST10)153を介して
Yバスからロードされる。
PIPEレジスタの内容は特別の制御フイールド
とその関連デコーダとにより装置(システム)の
動作を制御する。これらのデコーダ(図示せず)
は全てのシステムの要素に対する制御信号を発生
するが、このような制御信号は文字「Z」で示さ
れる。マイクロコードワード内でもう一つのささ
げられたフイールドを用いてマイクロコードフロ
ー制御が行なわれる。この後者のフイールドの内
容は(a)論理回路網(MASK2)154を介してマ
クロ命令デコーダ(DECOD)の出力と論理的に
組み合わされるか又は(b)何の変更も加えられずに
MASK2を経てそのままDバス52に送り出され
るかする。
マクロROMブロツク76はROMハイレジス
タ156とROMローレジスタ158とを具える
が、これらのレジスタはいずれもYバス54を介
してALU56から入力を受け取る。ROMハイレ
ジスタの出力とROMローレジスタの出力はいず
れもマイクロROMサブ回路160に供給され
る。そしてこのマイクロROMサブ回路160は
スイツチ(SCRO)162を介してDバスに接続
する。
レジスタフアイル58は本質的には2ポートラ
ンダムアクセスメモリであり、それらの入力はY
バスから取る。Aポートが特定するレジスタの内
容はRマルチプレクサ164に提供され、Bポー
トが特定するレジスタの内容はRマルチプレクサ
164とDマルチプレクサ166の両方に提供さ
れる。Dマルチプレクサ166はまたDバス52
にも接続される。D及びRマルチプレクサの各々
の出力端子は演算論理装置(ALU)56に接続
する。このALU56はシステムに対しての基礎
的な論理演算機能を遂行する回路を具える。
ALU56の出力端子は1個又は複数個のシフト
動作を実行する論理回路網(L/R回路)168
に接続し、L/R回路168の出力端子をYバス
に接続する。ALUのもう一つの出力端子は状況
装置170に接続する。この状況装置170はス
イツチSRC12を介して出力をすると共にALU
又はYバスからの入力を受け取る。
I/O制御サブ回路60とその並列なI/Oポ
ート(P10)172は外部メモリへ及び外部メモ
リからのデータの流れを制御する要素である。
I/O制御サブ回路60はマルチプレクサ174
を具え、その出力端子がバツフア176に接続さ
れ、今度はその出力端子が8ビツトI/Oバス1
78に接続されている。この後者のバスへの出力
は並列I/Oポートの並列入力(PIN)回路18
0にも供給され、その出力がスイツチ(SRC10)
を介してDバスに供給される。並列I/Oポート
はまたPOUT回路184も有し、その入力はY
バスから来、その出力はマルチプレクサ174に
供給される。並列I/Oポートはまた4ビツト
I/O制御ライン186に接続する。
マルチプレクサ174はRAM制御回路62の
第1のセクシヨン192内のROWレジスタ18
8及びCOLレジスタ190からも入力を受け取
る。これらのROW及びCOLレジスタは各々Yバ
スに接続されていて、従つてALUから入力を受
け取る。
RAM制御サブ回路62の第2の部分193は
2個の12ビツトシフトレジスタ194及び196
Yバスからこれらのシフトレジスタにロードする
ためのデマルチプレクサ回路網(DEMUX)1
98並びにスイツチ(SCR3−9)202を介し
てDバスへこれらのシフトレジスタをアンロード
するためのマルチプレクサ回路網(MUX)20
0を具える。これらのシフトレジスタは直列入出
力ライン(S100及びS101)204及び206に
よりRAMアレーに接続されたいる。これらの要
素が相互接続されている態様はいくつかの異つた
フオーマツトで音声処理装置とRAMアレー40
との間で情報を転送するのを許す。例えば、2個
のシフトレジスタの内容は3個の8ビツト量とし
て取り扱うこともできるし、4個の6ビツト量と
して取り扱うこともできる。次に各6ビツト量
を、このような6ビツト量がシフトレジスタから
マルチプレクサ回路網(MUX)200を介して
Dバスにアンロードされる時2個の3ビツト量と
して取り扱うことができる。これらのフオーマツ
トはどこか他で詳細に述べられている音声処理ア
ルゴリズムの要求に関係する。
音声処理装置全体を通して多重に生起する事象
の同期をとるためタイミング発生回路網
(SYSTIMING)208を設ける。これはマスタ
発振器(OSC)210を具え、これが16MHzで
動作してデコーダ段(TMG)212と適当なタ
イミング出力(T)リード線214を用いていく
つかのカウンタを駆動する。
第3図に示し且つ上述した音声処理装置38は
CMOS、NチヤネルMOS、PチヤネルMOS又は
バイポーラ形の設計ルールのような既知の集積回
路技術を用いて簡単に単一の半導体チツプ集積回
路として作ることができる。
Dバス、Yバス、シーケンスコントローラ82
で終了するD/Yバス及び夫々(T)及び(Z)
でまとめて示される種々のタイミング及び制御信
号により相互に結びつけられている種々の要素に
つき音声処理装置38の動作を以下に説明する。
第4図の時間線図に示すように、デコーダ
(TMG)段212は無限に操り返される時間鎖
の形態をした4個の重なり合わない、デユーテイ
サイクルが25%のT状態(T0、T1、T2及びT3
を発生する。T0の立上り線は基本的なマシーン
サイクル(ミクロサイクル)の開始を定め、T3
の立下り縁は終了を定める。T0、T1、T2及びT3
の種々のT持続時間並びに立上り及び立下り縁は
各ミクロンサイクル内で時間障壁を画成し、個別
のサイクル内での事象の開始、持続又は終了を定
める。影を付した区域はデータを転送されつつあ
り、安定していない時間間隔を示す。
第4図の下側の部分に示すように、T0の立上
り縁はマイクロROMの出力端子からPIPEへの情
報の転送のスタートを規定し、T0の立下り縁は
この転送の終了を規定する。T1の立上り縁はマ
イクロROMアクセスのスタートを規定する。こ
のT1の立上り縁からT3の立盛り縁迄の時間間隔
はマイクロROMアクセス時間である。データ源
要素はT0中のどこかでデータをDバスにゲーテ
イングし始め、次のT0の立上り縁迄このデータ
をDバス上にゲーテイングし続ける。ALUはT0
の後半及びT1の前半の間のどこかでスタートし、
その入力端子に提供されたデータに対しその処理
を施し、T3の中心より遅くない時点迄に安定し
た出力をYバスに出す。T3の立上り縁はYバス
の内容をクロツクし、特定の宛先ラツチに分け
る。これでサイクル中での事象系列が完了する。
上述したシステムのタイミングと同期して、シ
ーケンス制御ブロツクがシステムの各種要素ブロ
ツク間で生ずる情報の流れを規定する。これは各
マイクロコードワードのコードパターンとこれら
のワードが実行されるシーケンスとの双方により
達成される。ミクロサイクルと呼ばれる任意の一
マシーンサイクル中にその時PIPEレジスタ14
8内に蓄わえられているマイクロコードワードが
実行されると共に、マイクロコードROM84か
ら次のワードが取り出される(アクセスされる)。
ミクロサイクルの終了時に、マイクロコード
ROMから取り出された新しいワードがPIPEにラ
ツチされ、次のミクロサイクル時に実行される。
マイクロコードワードはいくつかの制御フイール
ドを含み、各制御フイールドが特定の数のビツト
から成る。これらの制御フイールドはマイクロコ
ードワードの実行時にデコードされ、音声処理装
置38全体に必要な制御アインパルスを与える。
マイクロコードワードのシーケンス及びいくつ
かのサブシーケンスを実行する必要のある特別な
シリーズの開始はマクロ命令により規定される。
このようなマクロ命令はマクロROM76から取
り出され、マクロ命令の操作内容を実行する全シ
ーケンスを具える全マイクロコードワードの実行
時間中IREG152内に保持される。DECOD並
びにMASK1及びMASK2の論理によりシーケン
スコントローラ82はその時IREG内に存在する
マクロ命令が含んでいる適当なシーケンスを追つ
て進められる。
いくつかの音声処理装置要素間の情報の流れは
レジスタフアイルからALUへの転送の場合を除
いて全データ/アドレスバスにゆき渡る。レジス
ムフアイルからALUへの転送の時間専用のデー
タパスが設けられている。レジスタフアイルから
ALUへの転送の場合を除いて全ての情報転送源
はこのような情報をDバスにゲートする。全ての
情報転送の宛先きはYバスからこのような情報を
受け取る。但し、マイクロプログラムカウンタ1
36の場合は例外で、これはこのような情報を
D/Yバスから受け取る。このD/Yバスはマイ
クロプログラムカウンタを含む情報転送時には場
合場合でDバスの延長とみることもできるし、Y
バスの延長とみることもできる。
レジスタフアイル58からどこかの宛先きへ又
はレジスタフアイルに戻る情報転送を含んで一つ
の発信源から宛先きへの情報転送はALUを通る
道順をとる。この規則に対する唯一つの例外はD
バスからD/Yバスを介してMPCへ転送される
場合である。ALUは転送中の情報に論理操作を
したり情報操作を施したりせずにDバス上の内容
をYバスに単にそのまま渡すように指定されるこ
ともあるし、転送中の情報に論理又は演算操作を
施してこの操作の結果をYバスに出力するように
指定されることもある。ALUはDマルチプレク
サ166及びRマルチプレクサ164の出力によ
り与えられる2個の8ビツト量に対しこのような
操作を施す。今度はDマルチプレクサ166が情
報源としてDバスをとるかレジスタフアイルのB
ポートをとるかいずれか選択するように指令され
ると共に、Rマルチプレクサがレジスタフアイル
のAポートの出力をとるかBポートの出力をとる
かいずれか選択するように指令され得る。ALU
操作の結果はYバスに出力され、そこから宛先き
へ送られる。
外部ダイナミツクRAMアレー40は大きな記
憶容量を有し、この中にスペクトル分析、テンプ
レートパツキング(temlate packing)及び語認
識段階中全ての音声処理情報が保存される。この
RAMアレーは2個の直列I/Oライン72によ
り相互接続され、これらのラインがデータパス及
びI/Oバスを提供し、この上にアドレス情報が
アレーに向けて出力される。データは2個の12ビ
ツトシフトレジスタ196及び198とRAMア
レーとの間で交換され、他方アドレスはROWレ
ジスタ188及びCOLレジスタ190とを介し
てセツトアツプされる。典型的な音声処理装置か
らRAMアレーへの転送時にあつてはシフトレジ
スタはRAMに送るべき情報をロードされ、次に
ROW及びCOLレジスタに当該転送のためのスタ
ーテイングアドレスがロードされる。先ずROW
アドレスが送られ、次にCOLアドレスが続く。
次にRAM制御サブ回路62とI/O制御サブ回
路60とがROW及びCOLアドレスをRAMアレ
ーに送り、必要なアレー制御ライン(即ち、
WE、RAS、CAS0及びCAS1)を活性化し、実
際の二重ビツト直列情報転送行なう。
音声処理装置への転送に当つてのRAMアレー
の働らきは2、3の例外を除いて大部分前述した
操作のくり返しである。ROW及びCOLは前述し
たようにセツトアツプされ、情報はRAMアレー
から音声処理装置シフトレジスタへクロツクイン
される。そこから情報はDバスへゲートされ、
ALUを通り、そこで音声処理アルゴリズムに従
つて操作され、そこから一時的な記憶のためにレ
ジスタフアイルへ転送される。情報はレジスタフ
アイル内でまとめられ、それからいつか他の時間
にRAMアレーから入力されていた付加的情報と
一緒に操作され、得られた変形された情報が再度
RAMアレーに送られる。
これはスペクトル分析時においても、またパタ
ーンスイツチング操作時においても反復的で高度
に回帰的なプロセスである。このようにして
RAM制御サブ回路62(A及びB)とI/O制
御サブ回路60のハードハウア及びRAMアレー
内の全情報の位置に下在するデータ構造はスルー
プツトを最適化するよう調整されたことになる。
その上でCOL及びROWアドレス情報がRAM
アレー40に向けて出力されるI/Oバスは汎用
のI/Oポートとしても役立ち、これを介して音
声処理装置は外部のコントローラと連絡すること
ができる。PIOバスのアクセス競合はI/O制御
信号(BREQ、GRT、ORDY、ACK)により実
現された完全にインタロツクされた非同期初期接
続手順プロトコルを用いて解決される。このタイ
プのPIOトランザクシヨンの目的でPINは入力と
して役立ち、POUTは転送されつつある情報に
対する出力ラツチとして役立つ。
デイジタル情報(これは前述した操作の結果と
して変形を受けるが)の原の発信源はアナログ−
デイジタル変換器(APC)36である。このA
−D変換器は正しい時間間隔で音声処理装置への
アナログ波形入力をサンプリングし、これらのサ
ンプルをサンプリングが行なわれた瞬時でのサン
プリングされた波形の瞬時振幅に対応するデイジ
タル表示に変換する。サンプリング間の時間間隔
は実時間クロツク(RTC)回路により制御され
る。
RTC論理はシーケンス制御論理に割込みをか
け、RTC割込みサービスルーチンを実行する。
このルーチンは機械文脈をセーブし、HOLD2を
介してA−D変換器36にアクセスし、A−D変
換器で変換された結果をRAMに転送し、機械文
脈を再生して前に占めておいた背景タスクを実行
できるようにする。
各変換された結果はRAMアレー内でのデータ
構造を支配する規則に従つてRAMアレーに転送
される。
現在のサンプルをとり上げ、デイジタル形態に
変換し、RAMアレーに集める(これらは全て
RTC割込みサービスルーチンの周期的な表面化
している活性化を含む)時間間隔では、以前の時
間間隔からのサンプルの集合を時間領域から周波
数領域への変換と次に声紋の特徴を抽出する背景
タスクにより処理する。この変換と特徴抽出を担
当するプロセスについては次のセクシヨンで詳述
する。
デイジタルスペクトル分析 音声処理装置38の主たる要素は前の節で述べ
たように二進数の時間系列の形態をした音声信号
を処理し、音声信号の周波数スペクトルの上にデ
イジタル情報を提供するように機能する。このよ
うにして音声信号(時間の関数としての信号振
幅)は声紋(時間の関数としての音声信号内の周
波数成分)に変換される。声紋はデイジタル形態
で一語を他語から区別するのに必要な情報を含
む。声紋はまた特定の話者を同定するのにも役立
つ。蓋し、一語の声紋はそれを話している話者に
特有なものだからである。声紋は当業者には周知
のものであり、語認識と話者同定の両方に長く使
用されてきた。本発明は声紋を得るためのデイジ
タル手段を提供する。
アナログ−デイジタル変換器36は離散したサ
ンプリング瞬時においてアナログ音声信号の二進
表示を与える。そして音声信号をサンプリングし
て得られた二進形態のデータをまとめてフレーム
を作る。本発明の好適な一実施例では256レベル
(8ビツト)A−D変換器で毎秒8000回アナログ
音声信号をサンプリングし、128個のサンプルを
まとめて持続時間が16ミリ秒の一フレームを形成
する。
本発明に係るデイジタルスペクトル分析法を説
明するのを助ける為に、一連の説明図を用意し、
一つの単語を処理する処理工程を示した。第6図
は各々16ミリ秒の40フレームから成る640ミリ秒
の有限の長さを有する典型的な話された単語の時
間に対して振幅をプロツトした高度に理想化され
たアナログ信号の波形を示したものである。
1フレーム内のサンプルの数は2のベキ(冪)
乗にとる。
N=2p+1 ……(1) 好適な実施例ではN=128でp=6である。この
フレーム内の音声信号サンプルの順次のメンバー
はp二進桁の長さの二進数kとして表わされる。
k=kp2p+kp-12p-1+kp-22p-2…k0 ……(2) ここでkp、kp-1、…k0は二進数であつて0か1
をとり、集まつて二進法で表わした数kを表わ
す。
第7図は16ミリ秒に亘る1フレームのデータを
示したもので、これは各々が125マイクロ秒の128
個の等しいインクレメントに分割されている。各
時点においてインクレメントはその瞬時の音声信
号の振幅値であり、これを8ビツトのデイジタル
信号で表わしたものである。図示されているよう
にこれらの振幅値は一フレームの期間中に話者と
話されている単語の音声特性に依存して基準レベ
ルから正方向に変つたり負方向に変つたりする。
本発明のデイジタル処理法は第8図に棒グラフ
的に示したように音声信号データをスペクトル振
幅系列に変換する。各振幅は複素数として表わす
こともできるが、音声信号の特定の周波数成分の
大きさと位相とを記述する。各スペクトル成分は
通常の正弦及び余弦関数に良く似ているが、二進
表示を簡略化した新しい振動する時間関数で表わ
される。これらの新しい関数は音声信号データを
スペクトル振幅データに変換するのに必要なデイ
ジタル処理工程を相当に少なくする。
この新しい振動する時間関数は時間シーケンス
kを表わす二進数(kp、kp-1、…k0)と、周波数
シーケンスnを表わす二進数(np、np-1、…n0
とに対する複素数演算として表わすことができ
る。
V(n、k)=exp〔jπ(Pr=0 nt=0 np-rkr-t2-t+φ)〕 (3) パラメータmは0からp迄に亘り、各選択はス
ペクトル時間関数の選択を与える。mの最小値は
スペクトル純度を若干犠牲にしてデータ処理の最
少量を要求する。位相補正項φは零とすることも
できるがk及びnに対称的に依存する。式(3)の諸
要素は次のように定義することができる。
m=パラメータ(0−p) r=加算の指標 t=加算の指標 p=範囲(6)の頂上 k=時間シーケンス指標 n=周波数シーケンス指標 好適な実施例の場合にスペクトル純度と計算速
度との間に最も満足のゆく妥協を与える時間関数
のパラメータの好適な選択はm=3であり、 φ=2-m Pr=0 np-rkr-n-1 (4) である。この音声信号からスペクトルデータへの
変換は従来技術で「高速フーリエ変換」(例えば
E.O.Brighamの“The Fast Fourier
Transform”プレンテイスホール社、1974年刊
行を参照されたい)として知られる方法に類似し
た方法で達成されるが、この新しい関数は加算及
び減算操作並びに表を見ることによる変換だけを
用いて遂行できる計算を必要とする。これで得ら
れるスペクトル分析は高速フーリエ変換よりも相
当に速く且つ安価なLSIで実現できる。蓋し、汎
用的な乗算論理が必要でないからである。
この処理動作は複素データアレーAに対する複
素演算操作として極めて便利に表わすことができ
る。こ複素データアレーAはN個の記憶位置の系
列であり、各記憶位置は16ビツトの実数部の数と
16ビツトの虚数部の数とを具えている。
スペクトル分析の第1の段階は音声信号データ
を処理アレーに転送することである。
A0(kp、kp-1…k0) =Z(kp、kp-1…k0) (5) ここでZは音声データを表わすが、これはN個
の実数の系列であり、上付きの0はA0がプロセ
スの原点即ち出発点であることを表わす。音声サ
ンプルの原点シーケンスから出発して時間シーケ
ンスkの1ビツトに代えてスペクトルシーケンス
nの1ビツトを代入する。このプロセスはP+1
回行なわれるが、このP+1という数はシーケン
スを記述するビツトの数に対応する。プロセス内
の各回は前の回の結果に基づき、次の複素演算操
作で極めて便利に表わされる。
Ar+1(n0、n1、…nr;kp-r-1、…k0)=1kp-r=0 Ar(n0、…nr-1;kp-r、…k0)。
exp〔jπnrnt=0 kp-r-t2-t+kp-r-n-12-m)〕 (6) プロセスの最終工程はプロセシングアレーの内
容をビツトを反転した順序で複素スペクトル振幅
の所望の系列Sに変換することから成る。
S(np、np-1、…n0) =Ap+1(n0、n1、…np) (7) 好適な実施例では、上述した操作が加算と減算
と、3個の量(sin(45°)、sin(22.5°)及びsin
(67.5°)の乗算迄縮減される。そして、これらの
乗算は一定量の乗算であり、その数も非常に少な
いから、この好適な実施例ではこの乗算は表を参
照することにより達成される。他の乗算技術、例
えば予じめコンパイルしたシフト及び加算操作を
用いることもできる。これらの操作は高速フーリ
エ変換法で必要とされる乗算プロセスに比較して
非常に高速であり、デイジタル論理で作るのも簡
単である。
ビツト置換プロセスが完了した時、音声信号シ
ーケンスは第8図に示すような128個のスペクト
ル振幅の系列に変換されている。このプロセスは
音声信号内の各16ミリ秒のフレームにつき繰り返
され、スペクトル振幅列を具える声紋を発生す
る。各フレームは16ミリ秒の持続時間と128個の
スペクトル振幅を有し、これが集まつて第9図に
グラフ的に示したような声紋データとなる。
音声信号のスペクトルを得るための上述したデ
イジタル処理手段は可逆的である。上述したよう
に、この方法は時間系例の形態をした音声信号を
処理してスペクトル振幅系列を与える。しかし、
同じプロセスをスペクトル振幅系列に適用すれ
ば、時間系列の形態をした元の音声信号を再生で
きることを示すことができる。
逆の処理操作はスペクトル分析プロセスと同じ
態様で行なわれ、複素データアレーAを用いる。
プロセスの第1の段階は複素スペクトル振幅の与
えられた系列Sをプロセシングアレーに移すこと
である。
A0(np、np-1、…n0) =S*(np、np-1、…n0) (8) ここでS*は与えられた系列Sの共役複素数を
表わす。スペクトル振幅の原点の系列から出発し
て周波数シーケンスnの1ビツトに代えて時間シ
ーケンスkの1ビツトを代入する。プロセス中の
各工程は前の工程の結果に基づいててる。
Ar+1(k0、k1、…kr;np-r-1、…n0)=1kp-r=0 Ar(k0、…kr-1;np-r、…n0) ・exp〔jπkrnt=0 np-r-t2-t+np-r-n-12-m)〕 (9) このプロセスはシーケンスを記述するビツトの
数に対応するP+1回行なわれる。プロセスの最
後の工程はプロセシングアレーの内容をビツトを
逆の順序にして所望の実時間波形振幅のシーケン
スZに変換することから成る。
Z(kp、kp-1、…k0) =ReAp+1(k0、k1、…kp) (10) 再生された音声信号はD−A変換器によりアナ
ログ信号に変換することができる。それ故第1図
に示すようにシステムにD−A変換器26を加え
ることにより音声認識能力に音声合成能力を組み
合わせることができる。この共用デイジタル処理
手段を用いて音声出力を組み合わせることは本発
明独特の特徴である。
認識のための声紋の特徴抽出 好適な実施例では音声信号は各16ミリ秒のフレ
ーム毎に128個のスペクトル振幅に分解される。
このスペクトル情報の精密さの程度はたいていの
音声認識又は音声合成の用途にとつて必要以上に
高く、声紋記憶メモリについての要求は特徴抽出
とデータ圧縮とを行なうことにより小さくするこ
とができる。
声紋データの圧縮法はその声紋が音声認識に使
用される予定なのか、音声合成に使用される予定
なのかによつて異なつてくる。音声認識のための
データ圧縮に関連する問題は正確な音声認識に必
要な声紋の特徴は残しつつ、テンポと振幅におけ
る話者による差異に関する性質は無視することで
ある。またこの方法は背景雑音が存在する時それ
に耐えられねばならない。本発明は雑音が存在す
る状態での認識確度の点で従来技術よりも相当に
勝つている。
音声処理装置38の好適な一実施例から得られ
る声紋データは128個のスペクトル振幅の形態を
している。これらのスペクトル振幅は実験とコス
ト/性能ゴールにより定められた音響心理学的情
報内容に基づいて選択されたスペクトルチヤネル
にまとめられる。好適な実施例では汎用目的の認
識のために16個のチヤネルが選択される。スペク
トルデータを特定のチヤネルに割り当てることは
スペクトルエネルギー量に基づいて行なわれる。
即ち振幅はXをX2で置き換える二進参照表によ
り二乗し、次にまとめて加算してチヤネルの全ス
ペクトルエネルギーを与える。次にこのエネルギ
ー値を当業者には周知で音声スペクトル情報を表
わすのに最適なデシベルスケールに変換する。
第10図に示すように、各フレームの振幅対周
波数データは隣接するスペクトルの群を加え合せ
ることにより圧縮している、即ち128個のスペク
トル線を16個のチヤネルにまとめており、振幅値
はデシベルスケールに変換している。
この点で好適な実施例ではデイジタル声紋デー
タが音声信号の16ミリ秒のフレーム当り16個のス
ペクトルエネルギーデータのチヤネルを具え、デ
シベルスケールで表示している。次に周知のデイ
ジタル平滑化技術を用いてデータを時間的に平滑
化する。この平滑化された声紋データをXj kで表
わす。ここでjはスペクトルチヤネルの指標を表
わし(0から15迄)、kはフレームの指標を表わ
す(16ミリ秒毎に1番上る)。全ての他のフレー
ム(即ち、好適な実施例では各32ミリ秒)では各
スペクトル振幅の時間平均スペクトル振幅およ
び変化の時間速度X〓を抽出する。
j k=(xj k+1+2xj k+xj k-1)/4 (11) x〓 j k=(xj k+1+xj k-1)/2 (12) また声紋特徴データを蓄えるのに必要な二進ビ
ツトの数の減少はスペクトルの平均とその平均か
らの各チヤネルのずれとを蓄えるような周知のエ
ンコーデイング技術により達成される。斯くして
次式が得られる。
j k=xk+Δxj k (13) x〓 j k=xk+Δx〓 j k (14) スペクトル平均は次式で定義される。
x=k=1/1615j=0 j k (15) x〓k=1/1615j=0 x〓 j k (16) 各特徴の平均からのずれΔxj k及びΔx〓 j kは元の
特徴よりも蓄わえるべきビツト数が少なくてす
む。
有効な音声認識を行なうためには振幅の正規化
が必要である。人間の会話では例えば大声で話し
たり穏やかに話したりすることによつたり、或い
はマイクロホンを近づけたり遠ざけたりすること
による全音声振幅内での変化は無視される。デシ
ベルスケールではスピーチレベルの全体の振幅内
での変動はスペクトル振幅に定数をつけ加えるこ
とにより表わされる。そしてスペクトル振幅を減
算することによりデータを処理する時は何時もこ
の定数が除かれ、結果は自動的にスピーチレベル
に依存しなくなる。このようにして変化の時間速
度の特徴x〓 j k並びにスペクトル差の特徴Δxj k及び
Δx〓 j kは自動的にスピーチレベルの変動に対し正
規化される。音声のレベルが残つている唯一つの
声紋データはスペクトル振幅平均xkである。本発
明は単語のピーク振幅pにより正規化された正規
化平均x〓 kを提供する。
p=max{xk} (17) x〓k=xk−P (18) スペクトル振幅x〓kはピークレベルと実際のレベ
ルとの間の差として表わされているから、これは
自動的にスピーチレベルに依存しなくなる。正規
化パラメータPは周波数平均と時間平均との双方
に基づいているから、スペクトル振幅の統計的ふ
らつきに感じない。
この明細書の残りでは式(13)及び(14)で記
述される音響特等j k及びx〓 j kは既に正規化されて
おり、スピーチレベルに依存しないものと看做
す。
第11図は特徴アンサンブル領域、第1部を示
す一つのフレームの図であり、ここでは第10図
の振幅値を用いて正規化されたチヤネル平均値
()を定め、各チヤネル毎にこの平均値からの
ずれ(Δxj)を得ている。
第12図は特徴アンサンブル領域第2部を示す
三次元図であり、ここでは(第6図に示したよう
な)単語の順次のフレームをそれらの時間系列に
よる順序で配置されている。今度は各チヤネルに
つき各フレームの中心点での最高振幅値を隣りの
フレームの最高振幅値と結び、平均値の瞬時勾
配(即ちx)を各フレーム毎に決めている。この
特徴アンサンブル領域は時間領域で32ミリ秒間を
占める迄圧縮される。
単語認識 前述したデイジタル処理手段は音声信号を声紋
に変換するのに使用される。声紋は16個のスペク
トルチヤネルの各々の中での時間平均スペクトル
振幅とスペクトル振幅の変化の時間速度との時間
シーケンス(好適な実施例では各32ミリ秒間のデ
ータ)を具える。
人はデイジタル声紋を作り、蓄わえることによ
り装置をトレーンする。各声紋は話者と話されて
いる単語の両方の固有のスペクトル特性を含んで
いる。認識すべき各仕事にとつてテンプレート
(template)と呼ばれる一つのトレーニング声紋
の最小値が必要となる。多くの認識目的には各単
語当り一つのテンプレートで十分である。例えば
可成り静かな環境内での習熟した話者の場合がそ
うである。大きく変動する声紋を有する未熟な話
者の場合や悪い背景雑音の中での認識の場合は一
単語当り何個かのテンプレートを与えることによ
り認識の確度を高めることができる。極めてクリ
テイカルな用途を除いて全ての場合一単語当り2
個のテンプレートで十分であることが実験的に判
明している。
斯くして第13図は集まつて第1図の単語を特
徴づける一組の特徴アンサンブル(x)を具える
単語テンプレートを示す。各特徴アンサンブルは
56ビツトのデータから成り、これで2048(2×128
×8)ビツトのA−D変換器サンプリングデータ
から導びかれた目立つた情報を表わす。この56ビ
ツトは平均値(5ビツト)、瞬時平均値勾配x
(3ビツト)及び16個の平均値からのずれΔx4
Δx15(各3ビツト)から成る。各単語テンプレー
トについてのこのデータは究局的にはシステムの
外部RAM内に蓄わえられる。
単語を認識するためにはデイジタル声紋を作
り、単語表記憶メモリ内の各テンプレートと比較
する。許容限界内で最もよく合つたものを認識さ
れた単語として認識する。認識の正確さと丈夫さ
(即ち悪い条件下で正確さを維持すること)は強
く単語マツチングプロセスに依存する。そして今
度はこの単語マツチングプロセスがクリテイカル
に音響特徴及び比較手段に依存する。
我々の発明ではダイナミツクプログラミング最
適化技術と組み合わされた新規な特徴比較により
声紋を蓄わえられているテンプレートにマツチン
グさせる。
入来する声紋は音響特徴の系列により定義され
るが、この音響特徴は時間平均したスペクトル振
幅とスペクトル振幅の変化の時間割合(速度)と
である。テンプレートも同じように定義される。
先ずスペクトル系列(j、x〓j)を具える入来単
語の単一の特徴をテンプレート(j、y〓j)の単
一特徴と比較する。類似の程度の尺度は本発明の
特徴である次の新しい測度関数により与えられ
る。
d=15j=0 (xj−yj2/1+a2(xj+yj2 (19) ここで「a」は正規の会話速度を考慮に入れる
ためのスケーリングフアクタであり、6ミリ秒/
dBにとると好適である。
速度dはスペクトル振幅の変化の時間割合を用
いる点で従来技術と異なる。これを用いる効果は
位相数学的(即ち連続な)測度−topological(i.
e.continuous)metric−を与えることで、この位
相的速度は音声信号内での振幅の高速な変化に鈍
感で、雑音に対し免疫となる重要な要素を与え
る。
音響特徴の類似度を評価するための従来技術の
測度はスペクトル振幅の瞬時値に依存し、変化の
時間割合(速度)を含まない。例えば、従来技術
のユークリツド測度は次式で定義できる。
dE15j=0jj2 (20) 第14図には単語とテンプレートとの間に僅か
な時間不整合があり且つ会話信号が急速に変化す
る場合における測度概念間の差が線図的に示され
ている。急勾配の領域での単語とテンプレートと
の間のユークリツド距離dEは時間不整合が小さく
ても非常に大きくなる可能性がある。本発明の位
相速度dは垂直方向の距離ではなく、2個の曲線
間の球の直径として表わすことができる。このた
め時間の不整合が小さければ位相距離dも対応し
て小さくなる。この変化の時間割合をも用いる位
相速度は高速の変化に敏感なユークリツド測度よ
りも一貫して良好な音響特徴間の類似度の測度を
与える。
従来技術にくらべて位相数学的測度が優れてい
るもう一つの利点は雑音に免疫になつていること
である。類似度の密な目安を達成するためには、
スペクトル振幅のマツチングだけではなく、スペ
クトル振幅の変化の時間割合も必要である。雑音
信号が同時に両方の条件に整合することは滅多に
ない。
当業者ならば高度にふらつく会話内での時間整
合についての測度の位相的平滑さを達成する手段
は他の測度、例えばチエビシエフ測度とすること
もできることを認識するであろう。斯くして式
(19)の代りに次式を用いることができる。
本発明の本質的特徴は変化の時間割合に基づく
補正を用いることにより変化の激しい領域でのス
ペクトル振幅の身かけの差を減らす手段を提供す
るにある。
平均振幅とスペクトル差の形でテンプレートデ
ータを蓄わえ、変化の平均時間割合を用いて位相
的な補正を与えれば位相数学的測度の主たる利点
を保ちつつ、計算を大幅に少なくすることができ
る。好適な実施例で用いられる式は次式である。
ここでbは定数であつて、16として式(19)に
最も近くすることもできるし、他のパラメータと
して変えて認識能力を改善することもできる。好
適な実施例ではb=8である。
好適な実施例では式(22)の位相数学的測度は
一連の表の参照(値xをその二乗x2)で置き換え
る)、加算及び勾配補正を行なうための表の参照
により計算する。
当業者には周知の、従来技術のダイナミツクプ
ログラミング最適化技術を用いて入来単語の声紋
と比較対象たるテンプレートとの間の最適時間整
合を達成することもできる。
この本発明の位相測度はダイナミツクプログラ
ミングに基づく従来技術の音声認識に対し2個の
改良を与える。(1)計算努力が相当に減る。(2)雑音
免疫性が改良される。計算努力の減少は位相数学
的測度を用いれば音声パターンが急速に変化する
場合でも長時間に亘る音響特徴を比較できること
により達成される。これに対しダイナミツクプロ
グラミングの計算は時間の二乗に反比例して少な
くなる。例えば時間が2倍になれば計算は1/4に
減る。もう一つの利点はデータによりカバーされ
る時間が長くなる時テンプレートの記憶が少なく
て済むことである。好適な実施例ではこの時間を
32ミリ秒にするが、これはスペクトル分析器から
のスペクトルデータの2個の16ミリ秒フレームか
らの情報を表わす。
好適な実施例では単語の境界を考慮することを
省くことにより雑音免疫性を一層改良している。
単語認識のためのダイナミツクプログラミング技
術を用いる従来の技術は単語のスタートと単語の
終了を識別することを必要とする。単語はしばし
ば歯擦音その他の低エネルギーの無声セグメント
でスタートしたり終了したりするから、従来技術
の単語境界アルゴリズムにとつて雑音は殊に厄介
である。本発明の好適な実施例では任意のスター
ト(第1の有声音が現われる前の200ミリ秒)及
び任意の終了(最後の有声音の後200ミリ秒)を
当てることにより単語の境界を考慮することを省
いている。当業者には既知のダイナミツクプログ
ラミング法に高度に実効的な位相数学的測度を組
み合わせることにより正確な時間の整合が得られ
る。これらの手段により低エネルギーの無声音に
匹敵するレベルの雑音が存在する場合でも正確な
単語認識ができる。そして雑音レベルが大きくな
る時この正確さは劣化するが、単語境界アルゴリ
ズムに基づく従来技術の単語認識器におけるよう
な破滅的な認識の中断が生ずることはない。
音声再生 音声の再生は音声認識に比較して相当に簡単な
仕事であり、本発明ではデイジタル処理能力の一
部を用いるだけで達成できる。
デイジタル声紋を作り、蓄わえることにより音
声再生ユニツトをトレーンする。各蓄わえられて
いる声紋は第8図に示すようなスペクトル振幅の
時間系列を具え、これは外部メモリ、即ちRAM
40にコンパクトに蓄わえるためにデータ内容を
減らすことができる。
会話を再生するためには前述した音声処理装置
38でスペクトル振幅を処理する。本発明の特徴
はデイジタルスペクトル分析法が可逆的で、スペ
クトル振幅のフレームを処理してデイジタル振幅
の形態をした再生音声信号のフレームを出力する
ことである。
そしてこの再生音声信号振幅をD−A変換器2
6に通し、増幅して拡声器、電話器その他のオー
デイオ装置で可聴音を作る。
音声再生のための声紋特徴抽出 音声再生に最適な声紋特徴は必らずしも音声認
識に最適な声紋特徴と一致しない。これは音声認
識では不要な質、例えば話者が男であるか女であ
るか、話者の感情的状態等を再生音声が持つこと
を人々が希望することによる。これらの質を欠く
と機械的なロボツトのような音質となり、多くの
人が拒絶感を持つ。このようにして音声再生に質
を持たせようとするとデイジタル的に蓄わえる声
紋のビツト節が増える。
本発明のもう一つの特徴は認識と再生の両目的
のための声紋を作り、蓄わえることができること
である。
本発明の好適な一実施例では後に再生する予定
で蓄わえる音声信号を認識のために蓄わえるのと
全く同じようにフレームバイフレームに基づいて
スペクトル的に解析する。しかし、特徴抽出プロ
セスは異なる。好適な一実施例では音声処理装置
38のマクロROM内に適当な命令を与えること
によりしきい値以下のスペクトル振幅を無視し、
所望のレベル以上の残りの振幅を有限数のビツト
で表わす。斯くして声紋データはビツト数の少な
いスペクトル振幅系列から成る。
再生された音声の質は直接声紋に保全されてい
るビツト数に依存する。各16ミリ秒の40フレー
ム、即ち全体で640ミリ秒の典型的な単語の場合
初期ビツト数は40960(40×128×8)であるが、
声紋データを8000ビツト迄減らしても秀れた音質
が保たれる。しかし、1000ビツトでは単語は認識
には十分であるが、ロボツトのような音質にな
る。
本発明の関係する分野の当業者ならば本発明の
精神と範囲をはずれないで構造の多くの変形例並
びに幅広く異なる本発明の実施例と用途を思いつ
くであろう。ここに開示し、記述した例は全く説
明のためであつて、如何なる意味でも本発明を限
定するものではない。
【図面の簡単な説明】
第1図は本発明の原理を具体化した音声認識及
び音声合成装置の全体のブロツク図、第2図は本
発明に係る音声認識回路のブロツク図、第2−A
図は第2図に類似の変形された音声認識回路のブ
ロツク図、第2−B図は個別部品を用いるもう一
つの変形された形態の音声認識回路のブロツク
図、第3Aおよび3B図は第2図に示した音声認
識回路の一層詳細なブロツク図、第4図は本発明
に係る音声認識システムの一連の時間線図、第5
図は本発明に係るマクロコードワードに対するビ
ツトの割り当てを示す線図、第6〜12図は本発
明の原理に従つて典型的な話された単語を処理し
て声紋のテンプレートを形成するところを示す一
連の説明図、第13図は典型的な単語テンプレー
トを示す説明図、第14図は声紋特徴の比較に用
いられる測度概念間の差異を示す説明図である。 20……ワード認識装置、22……外部制御装
置、24……外部装置(外部装置インターフエー
ス回路)、26……D−A変換器、28……増幅
器、30……スピーカ、32……マイクロホン、
34……増幅器、36……A−D変換器、38…
…音声処理装置、40……外部メモリバンク、4
2……8ビツトデータパス、44……8ビツトデ
ータライン、50……入力リード線、51……D
バス、54……Yバス、56……演算論理装置、
58……レジスタフアイル、60……I/O制御
サブ回路、62……RAM制御サブ回路、64,
66……データパス、68……要求、肯定応答ラ
イン、70……承認、出力準備完了ライン、72
……データライン、74……制御ライン、76…
…マクロロム、80……要素の相互接続を略式図
示した線、82……シーケンスコントローラサブ
回路、84……マイクロROM、86……RAM
アドレスバス、88……システムバス、90,9
2,94……制御ライン、96……高速計算部、
98……マイクロ及びI/O制御部、100……
共通メモリ部、102……マイクロROM、10
4……シーケンスコントローラ、106……レジ
スタフアイル、108……ALU、110……D
バス、112……Yバス、114……マイクロプ
ロセサ、116……マクロROM、118……揮
発性(スクラツチパツド)RAM、120……
CDバス、122……CAバス、124……制御ラ
イン、126……RAM制御回路、128……主
メモリ、130……実時間クロツクインタラプ
ト、132……レジスタ、134……スイツチ、
136……マイクロプログラムカウンタ、137
……マイクロコードワード、138……マルチプ
レクサ、140……実時間クロツクベクトル、1
42……保持レジスタ、144……バススイツ
チ、146……論理回路網、148……PIPEレ
ジスタ、150……論理回路網、152……レジ
スタ、153……スイツチ、154……論理回路
網、156……ROMハイレジスタ、158……
ROMローレジスタ、160……マクロROMサ
ブ回路、162……スイツチ、164……Rマル
チプレクサ、166……Dマルチプレクサ、16
8……L/R回路、170……状況装置、172
……I/Oポート、174……マルチプレクサ、
176……バツフア、178……8ビツトI/O
バス、180……並列入力(PIM)回路、18
2……スイツチ、184……POUT回路、18
6……4ビツトI/O制御ライン、188……
ROWレジスタ、190……COLレジスタ、19
2……RAM制御回路の第1のセクシヨン、19
3……RAM制御回路の第2のセクシヨン、19
4,196……12ビツトシフトレジスタ、198
……デマルチプレクサ回路網、200……マルチ
プレクサ回路網、202……スイツチ、204,
206……直列入出力ライン、208……タイミ
ング発生回路網、210……マスタ発振器、21
2……デコーダ段(TMG)、214……タイミ
ング出力リード線。

Claims (1)

  1. 【特許請求の範囲】 1 次の諸段階、即ち 全入来アナログ信号と持続時間が等しい、時間
    フレームに分割すること; 各フレーム内でアナログ信号を等しく離れた時
    間間隔で離散的な信号振幅の系列に変換するこ
    と;及び この離散的な信号振幅の系列を複素スペクトル
    振幅の系列に変換し、このような複素スペクトル
    振幅の各々が次式で定義される関数V(n、k)
    の大きさと位相を表わし、 V(n、k)=exp〔jπ(Pr=0 nt=0 np-rkr-t2-t+φ)〕 但しここで k=時間系列指標 n=周波数系列指標 r、t=整数の加算指標 m=保持されるビツトの数を定める時間関数パラ
    レータ φ=位相調整関数 であり、n及びkについての下付き添字の(p−
    r)と(r−t)とは二進表示でのビツト位置に
    関係し、ビツト位置が0から最大値p迄亘り、こ
    の範囲外の下付き添字の値は消滅する値を表わす
    こと; を含むことを特徴とするアナログ信号波形のスペ
    クトル分析を与える方法。 2 位相調整関数φを次式 φ=2-nPr=0 np-rkr-n-1 で定義することを特徴とする特許請求の範囲第1
    項記載の方法。 3 位相調整関数φを零としたことを特徴とする
    特許請求の範囲第1項記載の方法。 4 離散的な信号振幅の系列から複数スペクトル
    振幅の系列への変換を処理アレーを確立すること
    と; 信号振幅データをこの処理アレーに次式: A°(Kp、Kp-1、……K0) =Z(Kp、Kp-1、……K0) 但し、ここでA°はアレーの出発値を表わし、
    Zは二進数の形態をした信号データを表わす に従つて移すことと; 信号データの元の系列から出発して次式: Ar+1(n0、n1、……nr;kp-r-1、……k0)=1kp-r=0 Ar(n0、……nr-1;kp-r1……k0)・ exp〔jπnrnt=0 Kp-r-t2-t+Kp-r-n-12-m)〕 但し、Arはr=0で始まりr=p+1で終了
    するプロセスの第r番目の処理段階の結果、 に従つて、時間系列kの1ビツトに換えてスペク
    トル系列nの1ビツトを代入することと; 式: S(np、np-1、……n0)=Ar+1(n0、n1、……np) 但し、Sは所望の複素スペクトル振幅の系列 に従つて処理アレーの最後の処理段階から複素ス
    ペクトル振幅の系列を求めること; とにより行なうことを特徴とする特許請求の範囲
    第1項記載の方法。 5 次の諸段階、すなわち 複素スペクトル振幅の系列を表わす予じめ定め
    られたデイジタル信号列を与えることと、 複素スペクトル振幅の系列を離散的な時間波形
    の振幅の系列に変換し、このようなスペクトル振
    幅の各々が次式 V(n、k)=exp〔jπ(Pr=0 nt=0 np-rkr-t2-t+φ)〕 但しここで k=時間系列指標 n=周波数系列指標 r、t=整数の加算指標 m=保持されるビツトの数を定める時間関数パラ
    メータ φ=位相調整関数 で定義される関数V(n、k)の大きさと位相を
    表わすことと; 変換されたデイジタルデータをアナログ出力信
    号に変えること; を含むことを特徴とするアナログ信号波形を生成
    する方法。 6 位相調整関数φを次式 φ=2-nPr=0 np-rkr-n-1 で定義することを特徴とする特許請求の範囲第5
    項記載の方法。 7 位相調整関数φを零としたことを特徴とする
    特許請求の範囲第5項記載の方法。 8 複素スペクトル振幅系列から離散的な時間波
    形振幅の系列への変換を 処理アレーを確立することと; スペクトル振幅データの共役複素数をこの処理
    アレーに次式: A°(np、np-1、……n0)=S*(np、np-1、……n0) 但し、ここでA°はアレーの出発値を表わし、
    S*は二進数の形態をしたスペクトル振幅データ
    の共役複素数を表わす、に従つて移すことと; スペクトル振幅データの元の系列から出発して
    次式: Ar+1(k0、k1、……kr;np-r-1、……n0)=1kp-r=0 Ar(k0、……kr-1;np-r……n0) ・exp〔jπkrnt=0 np-r-t2-t+np-r-n-12-m)〕 但し、Arはr=0で始まり、r=p+1で終
    了するプロセスの第r番目の処理段階の結果、 に従つて、スペクトル系列nの1ビツトに換えて
    時間系列kの1ビツトを代入することと; 式 Z(Kp、Kp-1、……K0)=ReAp+1(k0、k1、……
    kp) 但し、Zは所望の時間波形振幅の系列ReAp+1
    は処理の最終段階を表わす複素数値の実数部 に従つて処理アレーの最后の段階から時間波形振
    幅の系列を求めること; とにより行なうことを特徴とする特許請求の範囲
    第5項記載の方法。 9 次の諸段階、即ち 全信号を持続時間が等しい時間フレームに分割
    すること; アナログ信号をこのフレームの各々の中で等し
    い時間間隔だけ離れた点での離散的な信号振幅の
    系列に変換すること; 各フレームの離散的な信号振幅を上記信号振幅
    列の種々の周波数成分の値を表わす予じめ選択さ
    れた数のスペクトル振幅に変換すること; 各フレームのスペクトル振幅を一層少ない数の
    チヤネル迄圧縮し、変換し、各チヤネルが割り当
    てられた周波数レンジ内で対数振幅で表わされた
    振幅のエネルギー和を具え且つ予じめ定められた
    音響の有意性に基づいて割り当てられること; 各フレームのこのチヤネルの全てについての平
    均振幅値を導びき出すこと; 各フレーム内の各別々のチヤネル振幅につきこ
    の平均値からのずれを測定すること; 前記全波形信号の複数個の順次のフレームにつ
    き特徴アンサンブルを求めること;及び 前記全波形信号についての上記特徴アンサンブ
    ルを表わすデイジタル信号を蓄わえてデイジタル
    符号化されたそのテンプレートを形成すること; を含むアナログ波形信号の認識のための声紋テン
    プレートを生成する方法。 10 前記特徴アンサンブルの各々が全波形信号
    の隣り合う順次のフレームの対を具えることを特
    徴とする特許請求の範囲第9項記載の方法。 11 前記特徴アンサンブルの各々が各フレーム
    対の平均振幅と、隣り合うフレーム対の中で同じ
    チヤネルの平均値の差の勾配と、各フレーム対の
    各チヤネルにつき平均値からの平均振幅のずれと
    から成ることを特徴とする特許請求の範囲第10
    項記載の方法。 12 次の諸段階、即ち スペクトル振幅の変化の時間割合を含む、話さ
    れる単語の予じめ選択された音響特徴を表わすデ
    イジタルデータテンプレートを用意することと; 比較されるべき話された単語を受け取り、その
    スペクトル分析を行つてスペクトル振幅の変化の
    時間割合を含むその音響特徴を表わすデータを求
    めること; テンプレートを受け取られた話された単語のス
    ペクトル分析データと比較し、 次の測度関数 但し、 d=類似度 j=チヤネル指標 a=正常の会話の速度を考慮に入れるためのスケ
    ーリングフアクタ b=認識性能を改良するためのパラメータ =話された単語テンプレートの平均振幅値 =蓄わえられている単語テンプレートの平均振
    幅値 =話された単語テンプレートの変化の時間割合 =蓄わえられている単語テンプレートの変化の
    時間割合 Δxj=話された単語テンプレート内での平均値か
    らのチヤネル振幅のずれ Δyj=蓄わえられている単語テンプレート内での
    平均値からのチヤネル振幅のずれ により与えられる特徴間の類似度を求めること
    と;及び 前記テンプレートと前記話された単語データと
    の間の類似度に応答して出力を出すこと; を含む単語認識方法。 13 前記デイジタルデータテンプレートを外部
    メモリから検索することを特徴とする特許請求の
    範囲第12項記載の単語認識方法。 14 前記デイジタルデータテンプレートを、初
    期トレーニング単語を与え; このトレーニング単語をスペクトル分析して前
    記テンプレートを作り; 次に受け取られる前記話された言葉と比較する
    前にこのトレーニング単語テンプレートを一時的
    に蓄わえること により確立することを特徴とする特許請求の範囲
    第12項記載の単語認識方法。 15 出力を出す段階が、予じめ定められたアナ
    ログ信号を表わす蓄わえられているデイジタルデ
    ータを与えるサブ段階と、この蓄わえられている
    データを合成してアナログ信号を出力するサブ段
    階とを含むことを特徴とする特許請求の範囲第1
    2項記載の単語認識方法。 16 入来アナログ信号を離散的なデイジタル信
    号の系列に変換する手段と; 繰り返してタイミングサイクル列を出すための
    タイミング発生器と、全入力信号を長さの等しい
    時間フレームに分割するカウンタ手段と、前記タ
    イミング発生器に接続されていて前記タイミング
    サイクル中にプロセスに動作命令を与えるROM
    手段を具えるシーケンスコントロール手段と、上
    記ROM手段からの命令に応答して受け取られた
    デイジタル信号のスペクトル分析を行なう演算論
    理ユニツトとを具え、 このROM手段が離散している信号振幅をこの
    信号振幅列の種々の周波数要素の値を表わす予じ
    め選択された数のスペクトル振幅に変換する命令
    と、各フレームのスペクトル振幅を一層少い数の
    チヤネルに圧縮し、変換する命令とを具え、 各チヤネルは予じめ定められた音響の有意性に
    基づいて割り振られた宛先きの周波数レンジ内の
    信号振幅の和を具え、 更に各フレームの前記チヤネルの全てにつき平
    均振幅値を導びき出す命令と、 各フレーム内での各個別のチヤネル振幅の上記
    平均値からのずれを測定する命令と、 前記全波形信号の順次のフレームの各対につい
    ての特徴アンサンブルを定める命令とを具える音
    声処理手段と; デイジタル符号化されたテンプレートを含む、
    前記全波形信号についての前記特徴アンサンブル
    のデイジタル表記を蓄わえる外部メモリ手段と; を具えるアナログ波形信号の声紋テンプレートを
    出力する音声認識システム装置。 17 前記ROM手段が離散的な信号振幅の系列
    から複素スペクトル振幅の系列への変換を、処理
    アレーを確立することと信号振幅データをこの処
    理アレーに次式: Å(Kp、Kp-1、……K0)=Z(Kp、Kp-1、……
    K0) 但し、ここでÅはアレーの出発値を表わし、Z
    は二進数の形態をした信号データを表わす に従つて移すこととにより行なう命令を与える手
    段を具え、 前記ROM手段が信号データの元の系列から出
    発して次式: Ar+1(n0、n1、……nr;kp-r-1、……k0)=1kp-r=0 Ar(n0、……nr-1;kp-r……k0) ・exp〔jπnrnt=0 Kp-r-t2-t+kp-r-n-12-m)〕 但し、Arは、r=0で始まり、r=p+1で
    終了するプロセスの第r番目の段階の結果 に従つて、時間系列kの1ビツトに換えてスペク
    トル系列nの1ビツトを代入する命令を含み、 前記ROM手段が更に式: S(np、np-1、……n0)=Ap+1(n0、n1、……np) 但し、S=所望の複素スペクトル振幅の系列 に従つて処理アレーから複素スペクトル振幅の系
    列を求める命令を含むことを特徴とする特許請求
    の範囲第16項記載の音声認識システム装置。 18 前記音声処理装置がアナログ信号のスペク
    トル分析により得られた音声テンプレートを前記
    外部メモリ手段内に蓄わえられている第2のテン
    プレートと比較する手段を具えることを特徴とす
    る特許請求の範囲第17項記載の音声認識システ
    ム装置。 19 前記比較手段が式 に従つて、得られた音声テンプレートと前記第2
    のテンプレートの特徴間の類似度を求めるROM
    命令手段を具えることを特徴とする特許請求の範
    囲第18項記載の音声認識システム装置。 20 入来アナログ信号を離散的なデイジタル信
    号の系列に変換する手段と; 繰り返されるタイミングサイクル列の出力する
    ためのタイミング発生器と、全入力アナログ信号
    を長さが等しい時間フレームに分割するカウンタ
    手段と、前記タイミング発生器に接続されていて
    前記タイミングサイクル中にプロセサに動作命令
    を与えるROM手段を具えるシーケンスコントロ
    ール手段と、このROM手段からの命令に応答し
    て受け取られたアナログ信号をスペクトル分析す
    る演算論理装置を含む手段とを具え、上記ROM
    手段が各フレームの離散的な信号振幅を複素スペ
    クトル振幅の系列に変換する命令を含み、この複
    素スペクトル振幅の各々が次式 V(n、k)=exp〔jπ(Pr=0 nt=0 np-rkr-t2-t+φ)〕 但し、ここで k=時間系列指標 n=周波数系列指標 r、t=整数の加算指標 m=保持されるビツトの数を定める時間関数パラ
    メータ φ=位相調整関数 で定義される関数V(n、k)の大きさと位相と
    を表わし、 前記ROM手段が更に各フレームのスペクトル
    振幅を一層少ない数のチヤネルに圧縮し、変換す
    る命令を具え、各チヤネルが予じめ定められた音
    響の有意性に基づいて割り振られた宛先きの周波
    数レンジ内の信号振幅の和を具え、 更に各フレームの前記チヤネルの全てにつき平
    均振幅値を導き出す命令と、 各フレーム内での各個別のチヤネル振幅の上記
    平均値からのずれを測定する命令と、 前記全波形信号の順次のフレームの各対につい
    ての特徴アンサンブルを定める命令とを具える音
    声処理手段と; デイジタル符号化されたテンプレートを含む、
    前記全波形信号についての前記特徴アンサンブル
    のデイジタル表記を蓄わえる外部メモリ手段と; を具えるアナログ波形信号の声紋テンプレートを
    出力する音声認識システム装置。 21 前記音声処理装置を集積回路半導体装置の
    形態としたことを特徴とする特許請求の範囲第2
    0項記載の音声認識システム装置。 22 前記音声処理装置は、入来アナログ信号を
    デイジタル信号に変換する前記手段を含めて集積
    回路半導体装置の形態としたことを特徴とする特
    許請求の範囲第20項記載の音声認識システム装
    置。 23 予じめ選択された複素スペクトル振幅の系
    列を表わす予じめ定められたデイジタル信号列を
    与える手段と; 複素スペクトル振幅振幅の上記系列を離散的な
    時間波形の振幅の系列に変換し、このようなスペ
    クトル振幅の各々が次式 V(n、k)=exp〔jπ(Pr=0 nt=0 np-rkr-t2-t+φ)〕 但しここで k=時間系列指標 n=周波数系列指標 r、t=整数の加算指標 m=保持されるビツトの数を定める時間関数パラ
    レータ φ=位相調整関数 で定義される関数V(n、k)の大きさと位相と
    を表わすような手段と; 変換されたデイジタルデータをアナログ出力信
    号に変える手段と; を具えることを特徴とする音声合成装置。 24 前記変換手段が、 処理アレーを確立し、その後でスペクトル振幅デ
    ータの共役複素数をこのアレーに次式: Å(np、np-1、……n0)=S*(np、np-1、……n0) 但し、Åはアレーの出発値を表わし、S*は二
    進数の形態をしたスペクトル振幅データの共役複
    素数を表わす に従つて移す手段と; 次式: Z(kp、kp-1、……K0)=ReAp+1(k0、……Kp) 但し、Z=所望の時間波形振幅の系列ReAp+1
    =処理の最終段階を表わす複素数値の実数部 に従つて最后の処理アレーから時間波形振幅の系
    列を求める手段と; 次式: Ar+1(k0、k1、……kr;np-r-1、……n0)=1kp-r=0 Ar(k0、……kr-1;np-r……n0) ・exp〔jπkrnt=0 np-r-t2-t+np-r-n-12-m)〕 但し、Arは、r=0で始まりr=p+1で終
    了するプロセスの第r番目の処理段階の結果 に従つてスペクトル振幅の元の系列から出発して
    スペクトル系列nの1ビツトに換えて時間系列k
    の1ビツトを代入する手段とを具えることを特徴
    とする特許請求の範囲第23項記載の音声合成装
    置。
JP57183604A 1981-10-19 1982-10-19 音声認識及び再生方法とその装置 Granted JPS58100199A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US06/312,801 US4415767A (en) 1981-10-19 1981-10-19 Method and apparatus for speech recognition and reproduction
US312801 1981-10-19

Publications (2)

Publication Number Publication Date
JPS58100199A JPS58100199A (ja) 1983-06-14
JPH0361959B2 true JPH0361959B2 (ja) 1991-09-24

Family

ID=23213066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57183604A Granted JPS58100199A (ja) 1981-10-19 1982-10-19 音声認識及び再生方法とその装置

Country Status (8)

Country Link
US (1) US4415767A (ja)
EP (1) EP0077558B1 (ja)
JP (1) JPS58100199A (ja)
AU (1) AU551937B2 (ja)
CA (1) CA1180812A (ja)
DE (1) DE3272176D1 (ja)
IL (1) IL67124A (ja)
MX (1) MX153759A (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4559602A (en) * 1983-01-27 1985-12-17 Bates Jr John K Signal processing and synthesizing method and apparatus
US4675840A (en) * 1983-02-24 1987-06-23 Jostens Learning Systems, Inc. Speech processor system with auxiliary memory access
US4866777A (en) * 1984-11-09 1989-09-12 Alcatel Usa Corporation Apparatus for extracting features from a speech signal
DE3642591A1 (de) * 1985-12-20 1987-11-12 Bayerische Motoren Werke Ag Verfahren zur spracherkennung in geraeuschvoller umgebung
EP0255523B1 (en) * 1986-01-03 1994-08-03 Motorola, Inc. Method and apparatus for synthesizing speech from speech recognition templates
CA1299750C (en) * 1986-01-03 1992-04-28 Ira Alan Gerson Optimal method of data reduction in a speech recognition system
KR950007859B1 (ko) * 1986-01-03 1995-07-20 모토로라 인코포레이티드 음성화 혹은 핏치정보 없이 음성을 합성하는 방법 및 장치
US4797929A (en) * 1986-01-03 1989-01-10 Motorola, Inc. Word recognition in a speech recognition system using data reduced word templates
JPS62232000A (ja) * 1986-03-25 1987-10-12 インタ−ナシヨナル・ビジネス・マシ−ンズ・コ−ポレ−シヨン 音声認識装置
US4941178A (en) * 1986-04-01 1990-07-10 Gte Laboratories Incorporated Speech recognition using preclassification and spectral normalization
US4856067A (en) * 1986-08-21 1989-08-08 Oki Electric Industry Co., Ltd. Speech recognition system wherein the consonantal characteristics of input utterances are extracted
CA1287910C (en) * 1986-09-30 1991-08-20 Salvador Barron Adjunct processor for providing computer facility access protection via call transfer
US4805225A (en) * 1986-11-06 1989-02-14 The Research Foundation Of The State University Of New York Pattern recognition method and apparatus
US4827520A (en) * 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
US4888806A (en) * 1987-05-29 1989-12-19 Animated Voice Corporation Computer speech system
US4949382A (en) * 1988-10-05 1990-08-14 Griggs Talkwriter Corporation Speech-controlled phonetic typewriter or display device having circuitry for analyzing fast and slow speech
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
JP4203122B2 (ja) * 1991-12-31 2008-12-24 ユニシス・パルスポイント・コミュニケーションズ 音声制御通信装置および処理方法
US5608861A (en) * 1994-02-14 1997-03-04 Carecentric Solutions, Inc. Systems and methods for dynamically modifying the visualization of received data
DE4434255A1 (de) * 1994-09-24 1996-03-28 Sel Alcatel Ag Vorrichtung zur Sprachaufzeichnung mit anschließender Texterstellung
US5706398A (en) * 1995-05-03 1998-01-06 Assefa; Eskinder Method and apparatus for compressing and decompressing voice signals, that includes a predetermined set of syllabic sounds capable of representing all possible syllabic sounds
US5884263A (en) * 1996-09-16 1999-03-16 International Business Machines Corporation Computer note facility for documenting speech training
US5874939A (en) * 1996-12-10 1999-02-23 Motorola, Inc. Keyboard apparatus and method with voice recognition
US7228280B1 (en) * 1997-04-15 2007-06-05 Gracenote, Inc. Finding database match for file based on file characteristics
SE514304C2 (sv) * 1997-10-10 2001-02-05 Ari Ab Anordning och förfarande för bearbetning av en timmerstock
US6467062B1 (en) * 1997-12-10 2002-10-15 Mordecai Barkan Digital data (multi-bit) storage with discrete analog memory cells
US6397364B1 (en) 1998-04-20 2002-05-28 Mordecai Barkan Digital data representation for multi-bit data storage and transmission
EP1852836A3 (en) 1999-05-26 2011-03-30 Johnson Controls Technology Company Wireless communications system and method
US7346374B2 (en) 1999-05-26 2008-03-18 Johnson Controls Technology Company Wireless communications system and method
US6442506B1 (en) * 1999-11-08 2002-08-27 TREVIñO GEORGE Spectrum analysis method and apparatus
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6990453B2 (en) 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7853664B1 (en) * 2000-07-31 2010-12-14 Landmark Digital Services Llc Method and system for purchasing pre-recorded music
US6629077B1 (en) 2000-11-22 2003-09-30 Universal Electronics Inc. Universal remote control adapted to receive voice input
US7110525B1 (en) 2001-06-25 2006-09-19 Toby Heller Agent training sensitive call routing system
JP2004536348A (ja) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド 録音の自動識別
US7065757B2 (en) * 2001-09-28 2006-06-20 Hewlett-Packard Development Company, L.P. Efficient compilation of family of related functions
BR0309598A (pt) * 2002-04-25 2005-02-09 Shazam Entertainment Ltd Método para a caracterização de um relacionamento entre uma primeira e uma segunda amostras de áudio, produto de programa de computador e sistema de computador
WO2005020208A2 (en) * 2003-08-20 2005-03-03 The Regents Of The University Of California Topological voiceprints for speaker identification
US20070198262A1 (en) * 2003-08-20 2007-08-23 Mindlin Bernardo G Topological voiceprints for speaker identification
JP4274419B2 (ja) * 2003-12-09 2009-06-10 独立行政法人産業技術総合研究所 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP4274418B2 (ja) * 2003-12-09 2009-06-10 独立行政法人産業技術総合研究所 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP4933899B2 (ja) 2004-02-19 2012-05-16 ランドマーク、ディジタル、サーヴィセズ、エルエルシー 放送源の識別のための方法および装置
JP4272107B2 (ja) * 2004-05-13 2009-06-03 株式会社フジテレビジョン 音響信号除去装置、音響信号除去方法及び音響信号除去プログラム
JP3827317B2 (ja) * 2004-06-03 2006-09-27 任天堂株式会社 コマンド処理装置
CA2570841A1 (en) * 2004-06-24 2006-02-02 Landmark Digital Services Llc Method of characterizing the overlap of two media segments
EP2437255B1 (en) 2005-02-08 2016-02-03 Shazam Investments Limited Automatic identification of repeated material in audio signals
EP2110000B1 (en) 2006-10-11 2018-12-26 Visteon Global Technologies, Inc. Wireless network selection
US8453170B2 (en) * 2007-02-27 2013-05-28 Landmark Digital Services Llc System and method for monitoring and recognizing broadcast data
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
US7840177B2 (en) * 2007-05-23 2010-11-23 Landmark Digital Services, Llc Device for monitoring multiple broadcast signals
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
US8036891B2 (en) * 2008-06-26 2011-10-11 California State University, Fresno Methods of identification using voice sound analysis
CA2856496A1 (en) * 2010-11-22 2012-05-31 Listening Methods, Llc System and method for pattern recognition and analysis
DE102013214278A1 (de) 2013-07-22 2015-01-22 Digital Endoscopy Gmbh Abdichtungsbauteil für einen endoskopstecker
DE102013222042A1 (de) 2013-10-30 2015-04-30 Digital Endoscopy Gmbh Auslenkbewegungsübertragungseinrichtung, Endoskopdeflectingsteuerung und Endoskop
DE102013222039A1 (de) 2013-10-30 2015-04-30 Digital Endoscopy Gmbh An ein Mutterendoskop anbringbares Sekundärendoskop und Kombination aus Mutterendoskop und Sekundärendoskop
DE102013222041A1 (de) 2013-10-30 2015-04-30 Digital Endoscopy Gmbh Auslenkbewegungsübertragungseinrichtung, Endoskopdeflectingsteuerung und Endoskop
DE102013224683A1 (de) 2013-12-02 2015-06-03 Digital Endoscopy Gmbh Endoskopkopf und endoskop
DE102013226591A1 (de) 2013-12-19 2015-06-25 Digital Endoscopy Gmbh Vorrichtung und verfahren zum herstellen eines länglichen hohlprofilelements, längliches hohlprofilelement und eine abwinkelungseinheit für ein endoskop
DE102014201208A1 (de) 2014-01-23 2015-07-23 Digital Endoscopy Gmbh Fluidblock für ein endoskopbedienteil und endoskop
DE102014201286B4 (de) * 2014-01-24 2019-12-24 Digital Endoscopy Gmbh Verfahren und vorrichtung zur nachführung der grundfrequenz eines stimmsignals in echtzeit
US9589564B2 (en) * 2014-02-05 2017-03-07 Google Inc. Multiple speech locale-specific hotword classifiers for selection of a speech locale
DE102015113016B4 (de) 2015-08-07 2018-03-29 Digital Endoscopy Gmbh Endoskopkopf
WO2020162048A1 (ja) * 2019-02-07 2020-08-13 国立大学法人山梨大学 信号変換システム、機械学習システムおよび信号変換プログラム
CN115620706B (zh) * 2022-11-07 2023-03-10 之江实验室 一种模型训练方法、装置、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3582559A (en) * 1969-04-21 1971-06-01 Scope Inc Method and apparatus for interpretation of time-varying signals
US3816722A (en) * 1970-09-29 1974-06-11 Nippon Electric Co Computer for calculating the similarity between patterns and pattern recognition system comprising the similarity computer
DE2150336B2 (de) * 1971-10-08 1979-02-08 Siemens Ag, 1000 Berlin Und 8000 Muenchen Analysator fuer ein spracherkennungsgeraet
FR2238412A5 (ja) * 1973-07-20 1975-02-14 Trt Telecom Radio Electr
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
JPS6060076B2 (ja) * 1977-12-28 1985-12-27 日本電気株式会社 音声認識装置
US4181821A (en) * 1978-10-31 1980-01-01 Bell Telephone Laboratories, Incorporated Multiple template speech recognition system

Also Published As

Publication number Publication date
IL67124A (en) 1985-12-31
EP0077558B1 (en) 1986-07-23
CA1180812A (en) 1985-01-08
AU8942682A (en) 1983-04-28
DE3272176D1 (en) 1986-08-28
US4415767A (en) 1983-11-15
AU551937B2 (en) 1986-05-15
JPS58100199A (ja) 1983-06-14
IL67124A0 (en) 1983-03-31
EP0077558A1 (en) 1983-04-27
MX153759A (es) 1987-01-05

Similar Documents

Publication Publication Date Title
JPH0361959B2 (ja)
US4087632A (en) Speech recognition system
JPS6128998B2 (ja)
CN113345450A (zh) 语音转换方法、装置、设备及存储介质
JP3354252B2 (ja) 音声認識装置
EP0465639A4 (en) Time series association learning
JPH0345839B2 (ja)
JPS58149099A (ja) パタ−ン認識方式
CN107945807B (zh) 基于静音游程的语音识别方法及其系统
US5899974A (en) Compressing speech into a digital format
JP2989231B2 (ja) 音声認識装置
JPH0426479B2 (ja)
JP2975808B2 (ja) 音声認識装置
JPS58176698A (ja) パターンマッチング装置
Beigi Signal processing of speech and feature extraction
JPS6227798A (ja) 音声認識装置
JPS6120094A (ja) 音声認識合成装置
JPS61281298A (ja) 音声認識装置
JPS6060077B2 (ja) アナログ信号合成装置
JPH06324696A (ja) 音声認識装置及び方法
JPS625299A (ja) 音声認識装置
JPS58195893A (ja) 音声認識装置における前処理方法
WO1988001090A1 (fr) Reconnaissance de la parole
JPH0346838B2 (ja)
JPS6368899A (ja) 音声認識装置