JPH0361959B2

JPH0361959B2 -

Info

Publication number: JPH0361959B2
Application number: JP57183604A
Authority: JP
Inventors: Pii Giru Sutefuan; Efu Wagunaa Roorensu; Jii Furai Guregorii; E Bantosukii Kurausuupeetaa
Original assignee: Potain SA
Current assignee: Manitowoc Crane Group France SAS
Priority date: 1981-10-19
Filing date: 1982-10-19
Publication date: 1991-09-24
Also published as: IL67124A; AU8942682A; CA1180812A; MX153759A; DE3272176D1; JPS58100199A; EP0077558A1; IL67124A0; EP0077558B1; AU551937B2; US4415767A

Description

【発明の詳細な説明】発明の背景本発明は広く云えば波形分析及び合成装置、そ
の中でも特に話される単語の語彙を学習し、次に
これらの単語が話された時これらの単語を認識
し、電子指令信号により活性化された時これらの
単語を可聴音声として合成して再生する方法及び
装置に関するものである。

人間の会話を認識することは機械にとつて非常
にむずかしい。人間の耳と頭脳の知覚の質と複雑
さは如何なる既知の又は考えられている装置の能
力を遥かに越えている。音声認識の一つの根本的
問題は音響波形から認識特徴を抽出することであ
る。最も広く受け容れられている特徴注出のため
の手段は波形を可聴波数のスペクトルに分解し、
スペクトログラム即ち周波数と時間の両方の関数
として音声エネルギーの「声紋」を作ることであ
る。

従来は、スペクトル分析器をLSI（大規模集積
回路）半導体チツプにのせることがむずかしく、
高価についた。従来の装置は（抵抗、コンデン
サ、トランジスタ増幅器、検出器等のような）ア
ナログ電子回路部品を用いて可聴周波フイルタの
バンクを作つていた。各アナログフイルタは指定
された周波数レンジ内の音響エネルギーについて
の情報を与える。例えばブローデス（Brodes）
の米国特許第3812291号はこのようなアナログフ
イルタを16個必要とし、ヘルシヤー（Herscher）
他の米国特許第3588363号はこのようなアナログ
フイルタを14個用いている。プローニング
（Browning）他の米国特許第4087630号は単一の
アナログフイルタにデイジタルスピンレジスタを
組み合せて多量チヤンネルスペクトル分析を提供
する方法を開示している。

単語認識のもう一つの問題はデータを圧縮し、
声紋をデイジタル記憶することである。ブローデ
ス他の米国特許第3812291号はスペクトル勾配
（即ち、周波数の関数としての音響エネルギーの
変化の割合）に依存する二進デイジタルデータエ
ンコーダを開示している。ヘルジヤー他の米国特
許第3588363号もスペクトル勾配に依存するエン
コーデイング技術を開示している。本発明はエン
コーデイング技術の実質と形式の両方の点で従来
技術と異なつており、全スペクトルチヤネルの振
幅情報と振幅の変化の時間割合（速度）とを保持
する声紋データの二進エンコーデイングを提供す
る。

パターンマツチング即ち一つの声紋と他の声紋
との比較は単語認識の本質的要素であるが、これ
もまたむずかしい問題である。蓋し、一方では類
似する単語間の差を識別しなければならず、地方
では同時に同一単語の種々の話者間の通常の変化
は受容しなければならないからである。この通常
の変化は次のものを含む。即ち、(a)大声で話すか
若しくは穏やかに話すか又はマイクロホンを動か
すことによる振幅の差異、(b)ゆつくり話すか急い
で話すかによる持続時間即ちテンポの差異、(c)マ
イクロホン応答のヘツドコールド（head cold）
即ち変化によるスペクトルの性質の差異及び(d)近
くでの会話、機械の雑音、弱い電話接続その他の
原因による背景雑音である。

この異なる単語の識別と同じ単語の変化の受容
との間の平衡を最も効果的に行なうように設計さ
れているパターンマツチングの従来技術の手段も
多い。振幅効果を除去するために広く使われてい
る手段は一チヤネル内の音響エネルギーに対し対
数即ちデシベルエネルギースケールを用いること
である。スペクトル勾配、即ち選択された周波数
チヤネル間での信号レベルの差は信号の振幅即ち
大きさに依存しない。例えば、マイクロホンを近
くに持つたため振幅が大きくなつても各チヤネル
のレベルはデシベルで測つた同一対数量だけ高く
なり、チヤネル間のスペクトル差だけ用いて各チ
ヤネルのデシベル数の上昇分を差し引くことがで
きる。この方法は例えばヘルシヤー他の米国特許
第3588363号およびブローデス他の米国特許第
3812291号で用おられている。これに対し本発明
では改良された統計的方法を用いて通常のスペク
トル勾配法では失なわれてしまう全信号振幅につ
いての情報を保ち続ける。

会話テンポの変動を考慮に入れるともう一つの
音声認識問題が生ずる。低コストで実現するのに
適した従来の音声認識技術は時分割法を用いてい
るが、これによれば単語のスタートと終了が決定
され、一語内の部分時間間隔毎に音声データが集
められている。この方法は粗末な方法ではあるが
単語の全持続時間の変動は考慮に入れている。し
かし一単語内の音節のタイミング及びテンポの変
動は考慮に入れていない。低コストが求められる
装置で実現するのは困難であるがずつと有効な技
術はダイナミツクプログラミングとか、ダイナミ
ツクタイムウオーピングとして知られている方法
である。このダイナミツクプログラムは複雑なパ
ターン認識技術であつて、時間軸を曲げて単語間
の最適なマツチングをとる。例えばこの技術はた
とえば音節が単語内の異なる相対位置で生ずる時
でも音節を音節に合わせ単語のマツチングをとる
ようになつている。この方法の説明は “Dynamic Programming Algorithm
Optimization for Spoken Word Recogniticn”
（IEEE・Transactions on Accoustics、Speech、
and Signal Processing、第ASSP−26巻第１号、
1978年２月第43〜49頁）と題する論文に見ること
ができる。デイジタル計算機でダイナミツクプロ
グラミングを実行する従来技術はサコエ
（Sakce）他の米国特許第381722号に教示されて
いる。本発明はいくつかの点で従来技術のダイナ
ミツクプログラムの方法と手段に改良を加えてい
る。即ち、(a)新規なスペクトル特徴比較手段を用
いて識別、雑音免役性及び計算速度を改良してい
る。(b)音声信号に匹敵する雑音信号が存在する場
合でも有効なパターンマツチングと単語認識とを
与える最適なサーチ技術をとり入れている。(c)低
コストのLSI半導体チツプでこの方法を具体化す
る手段を具えている。

会話とか機械の雑音のような背景雑音が存在す
る所での単語認識性能は従来技術の認識器では大
きな問題となつている。背景雑音が認識されるべ
き単語内の無声音に匹敵する時にはたいていの装
置は駄目になる。本発明はこの問題を小さくし、
多くの環境では除去する。

本発明の一般的目的は従来技術の単語認識装置
及び方法の上述した問題を解決した改良された音
声ないし単語認識装置を提供するにある。

本発明のもう一つの目的はアナログフイルタを
必要とせず、集積回路半導体（LSI）チツプ上に
のせられる、音声メカのスペクトル分析を行なう
単語認識装置を提供するにある。

本発明の更にもう一つの目的は音声合成もでき
る音声認識装置を提供するにある。本発明に係る
音声認識装置は音声をスペクトル成分に変換する
のにデイジタルプロセスを用いており、これは可
逆的である。

本発明のもう一つの目的は簡単に「トレーン」
され、話される言葉のエントリーが唯一で済む単
語認識装置を提供するにある。もつとも他のエン
トリーも識別と雑音免役性の向上に役立つ。

本発明の更にもう一つの目的は殊に音紋に基づ
いて話者の同定と検査とに有効な単語認識装置を
提供するにある。本発明のスペクトルチヤネルは
デイジタル手段に基づいているから、同一話者に
より話された多くの単語から一つの単語を認識す
る必要に合わせることにも、同一単語を話してい
る多くの人間から一人の話者を同定する必要に合
わせることにも簡単に切り替えることができる。
従来技術のアナログフイルタバンクは相当な困難
を伴なわなければこれを達成することができず、
通常は複雑な回路の変更を必要としていた。

本発明の要旨本発明の上述した目的と他の目的とは以下の機
能を果すデイジタル処理要素から成る回路で実現
される。即ち、(1)デイジタル形式で各話された単
語のスペクトル分析を行なう；(2)メモリに単語の
符号化されたデイジタル表示を蓄わえる；(3)パタ
ーンマツチングを行つてデイジタル化された単語
形態を同定する；(4)同定が完了した時応答をイニ
シエイトする。広く云えば、この回路はアナログ
−デイジタル変換器を具え、アナログ波形の音声
入力を受け取り、これを均等に離れた時間間隔で
信号の変化する振幅に連続的に変換する。回路内
にはバスラインがあつて、デイジタル化されたデ
ータ入力を処理する要素がこれに接続されてい
る。この回路は中央タイミング装置で動作させら
れるが、これは種々の要素を反復する４相構成で
制御する。２ポートレジスタフアイルのようなメ
モリと組み合わされた演算論理装置（ALU）を
設け、データ処理における標準的な論理機能を達
成させる。回路の種々の計算機能の制御と順序づ
けはシーケンス制御部と入力／出力制御サブ回路
により維持される。RAM制御部がこれらの後者
の要素と関連して回路の動作時に外部メモリ装置
にデータを蓄わえたり取り出したりするのを制御
する。装置の動作時には有限な長さの話された単
語がいくつかの時間フレームに分割され、各フレ
ームが８ビツト符号化により同定された特有の振
幅を有する予じめ選択された数のデイジタルデー
タ点を具える。各フレームの振幅対時間領域から
ALUは制御されてデイジタル化されたデータサ
ンプルをスペクトル線即ち周波数レンジの係数に
変換する計算を行なう。ALUとそれに関連する
記憶装置による他の処理は隣り合うスペクトルの
群を選択的に加算することにより各フレームのス
ペクトル係数を一層少数の周波数チヤネルに変換
する。端数チヤネルの各々のこのようなフレーム
に対し、対数振幅の平均値（）を求め、実際の
振幅のこの平均値からのずれを各チヤネル毎に測
定する。処理要素は隣接するフレーム対毎に各チ
ヤネルにつき平均値の瞬時勾配をも測定する。各
フレームの上述した測定された特性の全て、即ち
平均値、隣接するフレームについての平均値の勾
配及び種々のチヤネル毎の平均値からのずれはデ
イジタルエンコーデイングで組み合わされて隣接
するフレームの各対毎の特徴アンサンブルを形成
する。単語全体についてのテンプレートを具える
全ての数の特徴アンサンブルは外部メモリに蓄わ
えられる。

本発明により声紋を蓄わえられているテンプレ
ートにマツチングさせることはダイナミツクプロ
グラミング最適化技術と組み合わされた新規な特
徴比較により行なわれる。

本発明の他の目的と長所と特徴とは図面につき
以下に述べるところから明らかとなろう。

好適な実施例の説明図面につき本発明を詳細に説明する。

第１図は外部制御装置２２と外部装置２４とを
設けることを含む本発明の原理を具体化した典型
的な単語認識装置２０をブロツク図の形式で示し
たものである。外部装置は音声信号により動作さ
せ得たり或は音声信号を用いることができる種々
の要素又は声紋データを蓄わえたり送出したりで
きる親計算機（ホストコンピユータ）（図示せず）
に接続することができる。外部制御装置２２には
デイジタル−アナログ（Ｄ−Ａ）変換器２６及び
増幅器２８を経てスピーカ３０に至る音声合成出
力径路が接続される。一般的な言葉で述べれば装
置の単語認識能力は外部装置に接続されている
種々の要素、例えばロボツト装置、表示装置、デ
ータ再生兼通信装置で利用することができる。

装置への音声入力はマイクロホン３２から行な
われ、このマイクロホンが音声信号をアナログ電
気信号の形で増幅器３４に送り、そこからアナロ
グ−デイジタル（Ａ−Ｄ）変換器３６に送る。Ａ
−Ｄ変換器３６は離散的なサンプリング瞬時にア
ナログ音声信号の二進表示を与えることによりア
ナログ信号を二進数の時間系列に変換する。本発
明の一実施例では256レベル（８ビツト）Ａ−Ｄ
変換器を用いて毎秒8000回サンプリングを行な
う。そして128個のサンプルがまとめられて持続
時間が16ミリ秒の１フレームを形成する。明らか
に、各話された単語は多重のフレームを有する。

Ａ−Ｄ変換器３６から出力されるデイジタル情
報は音声処理装置３８に送られる。この音声処理
装置は第１図では単に箱で示してあり、後に第２
図及び第３図につき詳述する。音声処理装置３８
内ではデイジタルデータのフレームに対し二進論
理及び演算機能が遂行され、予じめ定められた又
はプログラムされている命令に従つて解析され、
音声信号の周波数スペクトル上にデイジタル情報
が与えられる。このようにして音声信号（時間の
関数としての信号振幅）が声紋（時間の関数とし
ての音声信号内の周波数成分）に変換される。

声紋はデイジタル形態で一語を他語と区別する
のに必要な情報を含む。これはまた特定の話者を
認識するのにも役立つ。蓋し、一語の声紋はそれ
を話している当人に特有なものだからである。声
紋は当業者には周知のものであり、単語の認識と
話者の同定のいずれにも用いられてきている。本
発明は声紋を確定し、再生するデイジタル手段を
提供するものである。

音声処理装置３８は外部メモリバンク４０に接
続するが、この外部メモリバンク４０は１個又は
複数個の並列に接続したランダムアクセスメモリ
（RAM）を具えることができる。外部制御装置
２２は８ビツトデータライン４４を介して音声処
理装置に接続する。前述したように外部装置イン
ターフエース回路２４は導体４５を用いる双方向
データパスにより接続する。この外部装置インタ
ーフエース回路は外部データ、例えば前もつて形
成した声紋を供給するための親計算機に接続した
り、音声の指令を用いる他の装置、例えばロボツ
ト装置、表示装置又はデータ再生兼通信装置に接
続するのに適するようにすることができる。

第２図に本発明の重要な要素をなす音声処理装
置３８のブロツク図を示す。物理的には、これは
通常の態様でプリント回路板上に取り付けられた
個別要素で作ることもできるが、集積回路半導体
装置として作ることもできる。略式図示したよう
にアナログデータを伝送する入力リード線５０を
Ａ−Ｄ変換器３６に接続する。本例では単一の集
積回路装置として作るのに適するようにＡ−Ｄ変
換器を音声処理回路の一部として設けている。

音声処理装置３８には２個の導体バス、即ちＤ
バス５２とＹバス５４とが設けられていて、音声
処理装置の全ての要素はこれらのバスのいずれか
一方又は両方に接続されている。Ａ−Ｄ変換器の
出力端子はＤバスに接続する。音声処理装置の主
たるサブ要素である演算論理装置（ALU）５６
はＤバス及び／又はレジスタフアイルからデータ
を受け取り、16通りの演算／論理処理の一つを行
なつた後Ｙバスに出力を供給する。このALUに
付属してレジスタフアイル５８があるが、これは
本質的には２ポートメモリであつて、Ｙバスから
入力を受け取り、ALUに出力を出す。同じよう
にして入出力（Ｉ／Ｏ）制御サブ回路６０とラン
ダムアクセスメモリ（RAM）制御サブ回路６２
とを設け、声紋データの記憶と再生とを制御す
る。これらのサブ回路は各々Ｙバスから入力を受
け取り、Ｄバスに出力すると共に夫々データパス
６４及び６６を具える。これらのデータパス６４
及び６６は共通８ビツト４２に接続され、これが
高声処理装置から外部制御回路２２とメモリ４０
と迄延在している。加えて、要求、肯定応答ライ
ン６８と承認、出力準備完了ライン７０とが夫々
外部制御装置からＩ／Ｏ制御装置へとその逆に延
在している。またデータライン７２と制御ライン
７４（S100、S101及びRAS、CASO、CASO、
WE）とがRAM制御サブ回路６２から外部メモ
リ（RAM）４０に延在している。計算表とマク
ロ命令とを蓄わえているマクロ読出し専用メモリ
（ROM）７６もＤバスに接続し、音声処理装置
内に付加的記憶を提供する。

第２図に破線８０で略式図示したように上述し
た全ての要素は相互接続されており、回路のタイ
ミング制御はマイクロROM８４を具えるシーケ
ンスコントローラサブ回路８２により維持され
る。

第２−Ａ図に音声処理装置の多少変更した回路
３８ａを示すが、ここではＡ−Ｄ変換器３６ａが
チツプの外部に設けられている。本例では、１個
の８ビツトバス８６が専らRAMアドレスデータ
を外部メモリ又はRAMバンク４０に転送するの
に捧げられており、もう一個の８ビツトバス８８
（システムバスと呼ばれる）が音声処理装置と外
部制御装置２２との間のデータ通路を与えてい
る。この後者のシステムバス８８は外部Ａ−Ｄ変
換器３６ａと音声処理チツプとの間のデータ通路
としても使うことができる。Ｉ／Ｏ制御サブ回路
６０ａから外部Ａ−Ｄ変換器３６ａに向けて３本
の制御ライン９０，９２及び９４（WR、RD及
びCS）を設ける。他の点では外部Ａ−Ｄ変換器
を用いるこの音声処理装置３８ａはチツプ上にＡ
−Ｄ変換器３６をのせている音声処理装置３８と
同一である。

第２Ｂ図に示すように、本発明はまた音声処理
３８ｂが集積回路の形態で作られるのでなく、
別々の個別部品から成る構成で実現することもで
きる。図示したようにこのような回路は３個の大
きな部分、即ち高速計算部９６、マクロ及びＩ／
Ｏ制御部９８及び共通メモリ部１００を具える高
速計算部９６はマイクロROM１０２を具え、こ
れがシーケンスコントローラ１０４に接続され、
この他にレジスタフアイル１０６とALU１０８
とを具える。代表的な具体例では後者の２個の要
素は４個の同一な高速ビツトスライスマイクロプ
ロセツサ要素にそれらの支持部品を加えたもので
作ることができる。高速計算部の各要素は２個の
バス１１０及び１１２（Ｄ及びＹ）で相互接続さ
れている。そしてこれらの２個のバスは共通メモ
リ部１００とも相互接続されている。

マクロ及びＩ／Ｏ制御部９８はマイクロプロセ
サ１１４と関連システム部品とを具え、後者には
マクロROM１１６と揮発性（スクラツチパツ
ド）RAM１１８とか含まれ、これらは一対のバ
ス１２０及び１２２と破線１２４で示した複数個
の制御ラインとにより相互接続されている。バス
CD及びCAにはまたアナログ−デイジタル変換器
（Ａ−Ｄ変換器）３６ｂと、外部で用いる装置と
のインターフエースに適合した他の外部装置２２
ｂとが接続されている。

CA及びCDバスはまた共通メモリ１００にアク
セスする手段を提供する。共通メモリ１００は
RAM制御回路１２６と、主メモリ１２８、例え
ば32KRAMとを具える。前述したように、RAM
制御回路１２６はＤバスとＹバスとを介して高速
計算部９６にも接続されている。他の全ての点で
はこの第２−Ｂ図の回路は第２図及び第２−Ａ図
と同じ機能をする。

第３図につき各要素の関係と機能とを説明して
音声処理装置３８を詳細に説明する。

第２図で唯一つのブロツクで表わされていた要
素が第３図では展開され、各ブロツクがサブ要素
を包み込む破線で示されている。

Ａ−Ｄ変換器３６は実時間クロツクインタラプ
ト（RTC）１３０に接続され、そこから入力を
受け取る。Ａ−Ｄ出力はレジスタ（HOLD2）１
３２に供給され、その出力がスイツチ（SRC1）
１３４を介してＤバス５２の一枝路に送り出され
る。

シーケンスコントローラ８２ではマイクロプロ
グラムカウンタ（MPC）１３６がアドレスをマ
イクロROM８４に与え、次に取り出すべきマイ
クロコードを特定する。第５図に示すように、特
定数の情報ビツト（例えば43ビツト）からマイク
ロコードワード１３７が成つているが、このマイ
クロコードワードが１サイクル中の音声処理装置
の動作を制御するために与えられる。このマイク
ロコードワードについては後に詳述する。マイク
ロプログラムカウンタ１３６は歩進させられた
り、マルチプレクサ１３８の出力端子から並列に
ロードされる。マイクロプログラムの制御の下に
このマルチプレクサ１３８は実時間クロツク
（RTC）ベクトル１４０又はＤ／Ｙバスの内容の
いずれか一方をマイクロプログラムカウンタ１３
６に通す。このマイクロプログラムカウンタ１３
６の出力端子は保持レジスタ（HOLD1）１４２
にも接続する。ここでカウンタの電流値が一時的
にセーブされる。この保持レジスタ１４２の出力
端子はバススイツチ１４４を介してＤバスに接続
される。マイクロROM８４の出力は論理回路網
（MASK1）１４６でゲートされ、PIPEレジスタ
１４８に送られる。MASK1を経てPIPEレジス
タに至るもう一本の通路はもう一つの論理回路網
（DECOD）１５０に由来するもので、この論理
回路１５０はレジスタ（IREG）１５２に含まれ
ているマイクロ命令をデコードする。このIREG
レジスタはスイツチ（DST10）１５３を介して
Ｙバスからロードされる。

PIPEレジスタの内容は特別の制御フイールド
とその関連デコーダとにより装置（システム）の
動作を制御する。これらのデコーダ（図示せず）
は全てのシステムの要素に対する制御信号を発生
するが、このような制御信号は文字「Ｚ」で示さ
れる。マイクロコードワード内でもう一つのささ
げられたフイールドを用いてマイクロコードフロ
ー制御が行なわれる。この後者のフイールドの内
容は(a)論理回路網（MASK2）１５４を介してマ
クロ命令デコーダ（DECOD）の出力と論理的に
組み合わされるか又は(b)何の変更も加えられずに
MASK2を経てそのままＤバス５２に送り出され
るかする。

マクロROMブロツク７６はROMハイレジス
タ１５６とROMローレジスタ１５８とを具える
が、これらのレジスタはいずれもＹバス５４を介
してALU５６から入力を受け取る。ROMハイレ
ジスタの出力とROMローレジスタの出力はいず
れもマイクロROMサブ回路１６０に供給され
る。そしてこのマイクロROMサブ回路１６０は
スイツチ（SCRO）１６２を介してＤバスに接続
する。

レジスタフアイル５８は本質的には２ポートラ
ンダムアクセスメモリであり、それらの入力はＹ
バスから取る。Ａポートが特定するレジスタの内
容はＲマルチプレクサ１６４に提供され、Ｂポー
トが特定するレジスタの内容はＲマルチプレクサ
１６４とＤマルチプレクサ１６６の両方に提供さ
れる。Ｄマルチプレクサ１６６はまたＤバス５２
にも接続される。Ｄ及びＲマルチプレクサの各々
の出力端子は演算論理装置（ALU）５６に接続
する。このALU５６はシステムに対しての基礎
的な論理演算機能を遂行する回路を具える。
ALU５６の出力端子は１個又は複数個のシフト
動作を実行する論理回路網（Ｌ／Ｒ回路）１６８
に接続し、Ｌ／Ｒ回路１６８の出力端子をＹバス
に接続する。ALUのもう一つの出力端子は状況
装置１７０に接続する。この状況装置１７０はス
イツチSRC１２を介して出力をすると共にALU
又はＹバスからの入力を受け取る。

Ｉ／Ｏ制御サブ回路６０とその並列なＩ／Ｏポ
ート（P10）１７２は外部メモリへ及び外部メモ
リからのデータの流れを制御する要素である。
Ｉ／Ｏ制御サブ回路６０はマルチプレクサ１７４
を具え、その出力端子がバツフア１７６に接続さ
れ、今度はその出力端子が８ビツトＩ／Ｏバス１
７８に接続されている。この後者のバスへの出力
は並列Ｉ／Ｏポートの並列入力（PIN）回路１８
０にも供給され、その出力がスイツチ（SRC10）
を介してＤバスに供給される。並列Ｉ／Ｏポート
はまたPOUT回路１８４も有し、その入力はＹ
バスから来、その出力はマルチプレクサ１７４に
供給される。並列Ｉ／Ｏポートはまた４ビツト
Ｉ／Ｏ制御ライン１８６に接続する。

マルチプレクサ１７４はRAM制御回路６２の
第１のセクシヨン１９２内のROWレジスタ１８
８及びCOLレジスタ１９０からも入力を受け取
る。これらのROW及びCOLレジスタは各々Ｙバ
スに接続されていて、従つてALUから入力を受
け取る。

RAM制御サブ回路６２の第２の部分１９３は
２個の12ビツトシフトレジスタ１９４及び１９６
Ｙバスからこれらのシフトレジスタにロードする
ためのデマルチプレクサ回路網（DEMUX）１
９８並びにスイツチ（SCR3−９）２０２を介し
てＤバスへこれらのシフトレジスタをアンロード
するためのマルチプレクサ回路網（MUX）２０
０を具える。これらのシフトレジスタは直列入出
力ライン（S100及びS101）２０４及び２０６に
よりRAMアレーに接続されたいる。これらの要
素が相互接続されている態様はいくつかの異つた
フオーマツトで音声処理装置とRAMアレー４０
との間で情報を転送するのを許す。例えば、２個
のシフトレジスタの内容は３個の８ビツト量とし
て取り扱うこともできるし、４個の６ビツト量と
して取り扱うこともできる。次に各６ビツト量
を、このような６ビツト量がシフトレジスタから
マルチプレクサ回路網（MUX）２００を介して
Ｄバスにアンロードされる時２個の３ビツト量と
して取り扱うことができる。これらのフオーマツ
トはどこか他で詳細に述べられている音声処理ア
ルゴリズムの要求に関係する。

音声処理装置全体を通して多重に生起する事象
の同期をとるためタイミング発生回路網
（SYSTIMING）２０８を設ける。これはマスタ
発振器（OSC）２１０を具え、これが16MHzで
動作してデコーダ段（TMG）２１２と適当なタ
イミング出力（Ｔ）リード線２１４を用いていく
つかのカウンタを駆動する。

第３図に示し且つ上述した音声処理装置３８は
CMOS、ＮチヤネルMOS、ＰチヤネルMOS又は
バイポーラ形の設計ルールのような既知の集積回
路技術を用いて簡単に単一の半導体チツプ集積回
路として作ることができる。

Ｄバス、Ｙバス、シーケンスコントローラ８２
で終了するＤ／Ｙバス及び夫々（Ｔ）及び（Ｚ）
でまとめて示される種々のタイミング及び制御信
号により相互に結びつけられている種々の要素に
つき音声処理装置３８の動作を以下に説明する。

第４図の時間線図に示すように、デコーダ
（TMG）段２１２は無限に操り返される時間鎖
の形態をした４個の重なり合わない、デユーテイ
サイクルが25％のＴ状態（T₀、T₁、T₂及びT₃）
を発生する。T₀の立上り線は基本的なマシーン
サイクル（ミクロサイクル）の開始を定め、T₃
の立下り縁は終了を定める。T₀、T₁、T₂及びT₃
の種々のＴ持続時間並びに立上り及び立下り縁は
各ミクロンサイクル内で時間障壁を画成し、個別
のサイクル内での事象の開始、持続又は終了を定
める。影を付した区域はデータを転送されつつあ
り、安定していない時間間隔を示す。

第４図の下側の部分に示すように、T₀の立上
り縁はマイクロROMの出力端子からPIPEへの情
報の転送のスタートを規定し、T₀の立下り縁は
この転送の終了を規定する。T₁の立上り縁はマ
イクロROMアクセスのスタートを規定する。こ
のT₁の立上り縁からT₃の立盛り縁迄の時間間隔
はマイクロROMアクセス時間である。データ源
要素はT₀中のどこかでデータをＤバスにゲーテ
イングし始め、次のT₀の立上り縁迄このデータ
をＤバス上にゲーテイングし続ける。ALUはT₀
の後半及びT₁の前半の間のどこかでスタートし、
その入力端子に提供されたデータに対しその処理
を施し、T₃の中心より遅くない時点迄に安定し
た出力をＹバスに出す。T₃の立上り縁はＹバス
の内容をクロツクし、特定の宛先ラツチに分け
る。これでサイクル中での事象系列が完了する。

上述したシステムのタイミングと同期して、シ
ーケンス制御ブロツクがシステムの各種要素ブロ
ツク間で生ずる情報の流れを規定する。これは各
マイクロコードワードのコードパターンとこれら
のワードが実行されるシーケンスとの双方により
達成される。ミクロサイクルと呼ばれる任意の一
マシーンサイクル中にその時PIPEレジスタ１４
８内に蓄わえられているマイクロコードワードが
実行されると共に、マイクロコードROM８４か
ら次のワードが取り出される（アクセスされる）。
ミクロサイクルの終了時に、マイクロコード
ROMから取り出された新しいワードがPIPEにラ
ツチされ、次のミクロサイクル時に実行される。
マイクロコードワードはいくつかの制御フイール
ドを含み、各制御フイールドが特定の数のビツト
から成る。これらの制御フイールドはマイクロコ
ードワードの実行時にデコードされ、音声処理装
置３８全体に必要な制御アインパルスを与える。

マイクロコードワードのシーケンス及びいくつ
かのサブシーケンスを実行する必要のある特別な
シリーズの開始はマクロ命令により規定される。
このようなマクロ命令はマクロROM７６から取
り出され、マクロ命令の操作内容を実行する全シ
ーケンスを具える全マイクロコードワードの実行
時間中IREG１５２内に保持される。DECOD並
びにMASK1及びMASK2の論理によりシーケン
スコントローラ８２はその時IREG内に存在する
マクロ命令が含んでいる適当なシーケンスを追つ
て進められる。

いくつかの音声処理装置要素間の情報の流れは
レジスタフアイルからALUへの転送の場合を除
いて全データ／アドレスバスにゆき渡る。レジス
ムフアイルからALUへの転送の時間専用のデー
タパスが設けられている。レジスタフアイルから
ALUへの転送の場合を除いて全ての情報転送源
はこのような情報をＤバスにゲートする。全ての
情報転送の宛先きはＹバスからこのような情報を
受け取る。但し、マイクロプログラムカウンタ１
３６の場合は例外で、これはこのような情報を
Ｄ／Ｙバスから受け取る。このＤ／Ｙバスはマイ
クロプログラムカウンタを含む情報転送時には場
合場合でＤバスの延長とみることもできるし、Ｙ
バスの延長とみることもできる。

レジスタフアイル５８からどこかの宛先きへ又
はレジスタフアイルに戻る情報転送を含んで一つ
の発信源から宛先きへの情報転送はALUを通る
道順をとる。この規則に対する唯一つの例外はＤ
バスからＤ／Ｙバスを介してMPCへ転送される
場合である。ALUは転送中の情報に論理操作を
したり情報操作を施したりせずにＤバス上の内容
をＹバスに単にそのまま渡すように指定されるこ
ともあるし、転送中の情報に論理又は演算操作を
施してこの操作の結果をＹバスに出力するように
指定されることもある。ALUはＤマルチプレク
サ１６６及びＲマルチプレクサ１６４の出力によ
り与えられる２個の８ビツト量に対しこのような
操作を施す。今度はＤマルチプレクサ１６６が情
報源としてＤバスをとるかレジスタフアイルのＢ
ポートをとるかいずれか選択するように指令され
ると共に、Ｒマルチプレクサがレジスタフアイル
のＡポートの出力をとるかＢポートの出力をとる
かいずれか選択するように指令され得る。ALU
操作の結果はＹバスに出力され、そこから宛先き
へ送られる。

外部ダイナミツクRAMアレー４０は大きな記
憶容量を有し、この中にスペクトル分析、テンプ
レートパツキング（temlate packing）及び語認
識段階中全ての音声処理情報が保存される。この
RAMアレーは２個の直列Ｉ／Ｏライン７２によ
り相互接続され、これらのラインがデータパス及
びＩ／Ｏバスを提供し、この上にアドレス情報が
アレーに向けて出力される。データは２個の12ビ
ツトシフトレジスタ１９６及び１９８とRAMア
レーとの間で交換され、他方アドレスはROWレ
ジスタ１８８及びCOLレジスタ１９０とを介し
てセツトアツプされる。典型的な音声処理装置か
らRAMアレーへの転送時にあつてはシフトレジ
スタはRAMに送るべき情報をロードされ、次に
ROW及びCOLレジスタに当該転送のためのスタ
ーテイングアドレスがロードされる。先ずROW
アドレスが送られ、次にCOLアドレスが続く。
次にRAM制御サブ回路６２とＩ／Ｏ制御サブ回
路６０とがROW及びCOLアドレスをRAMアレ
ーに送り、必要なアレー制御ライン（即ち、
WE、RAS、CAS0及びCAS1）を活性化し、実
際の二重ビツト直列情報転送行なう。

音声処理装置への転送に当つてのRAMアレー
の働らきは２、３の例外を除いて大部分前述した
操作のくり返しである。ROW及びCOLは前述し
たようにセツトアツプされ、情報はRAMアレー
から音声処理装置シフトレジスタへクロツクイン
される。そこから情報はＤバスへゲートされ、
ALUを通り、そこで音声処理アルゴリズムに従
つて操作され、そこから一時的な記憶のためにレ
ジスタフアイルへ転送される。情報はレジスタフ
アイル内でまとめられ、それからいつか他の時間
にRAMアレーから入力されていた付加的情報と
一緒に操作され、得られた変形された情報が再度
RAMアレーに送られる。

これはスペクトル分析時においても、またパタ
ーンスイツチング操作時においても反復的で高度
に回帰的なプロセスである。このようにして
RAM制御サブ回路６２（Ａ及びＢ）とＩ／Ｏ制
御サブ回路６０のハードハウア及びRAMアレー
内の全情報の位置に下在するデータ構造はスルー
プツトを最適化するよう調整されたことになる。

その上でCOL及びROWアドレス情報がRAM
アレー４０に向けて出力されるＩ／Ｏバスは汎用
のＩ／Ｏポートとしても役立ち、これを介して音
声処理装置は外部のコントローラと連絡すること
ができる。PIOバスのアクセス競合はＩ／Ｏ制御
信号（BREQ、GRT、ORDY、ACK）により実
現された完全にインタロツクされた非同期初期接
続手順プロトコルを用いて解決される。このタイ
プのPIOトランザクシヨンの目的でPINは入力と
して役立ち、POUTは転送されつつある情報に
対する出力ラツチとして役立つ。

デイジタル情報（これは前述した操作の結果と
して変形を受けるが）の原の発信源はアナログ−
デイジタル変換器（APC）３６である。このＡ
−Ｄ変換器は正しい時間間隔で音声処理装置への
アナログ波形入力をサンプリングし、これらのサ
ンプルをサンプリングが行なわれた瞬時でのサン
プリングされた波形の瞬時振幅に対応するデイジ
タル表示に変換する。サンプリング間の時間間隔
は実時間クロツク（RTC）回路により制御され
る。

RTC論理はシーケンス制御論理に割込みをか
け、RTC割込みサービスルーチンを実行する。
このルーチンは機械文脈をセーブし、HOLD2を
介してＡ−Ｄ変換器３６にアクセスし、Ａ−Ｄ変
換器で変換された結果をRAMに転送し、機械文
脈を再生して前に占めておいた背景タスクを実行
できるようにする。

各変換された結果はRAMアレー内でのデータ
構造を支配する規則に従つてRAMアレーに転送
される。

現在のサンプルをとり上げ、デイジタル形態に
変換し、RAMアレーに集める（これらは全て
RTC割込みサービスルーチンの周期的な表面化
している活性化を含む）時間間隔では、以前の時
間間隔からのサンプルの集合を時間領域から周波
数領域への変換と次に声紋の特徴を抽出する背景
タスクにより処理する。この変換と特徴抽出を担
当するプロセスについては次のセクシヨンで詳述
する。

デイジタルスペクトル分析音声処理装置３８の主たる要素は前の節で述べ
たように二進数の時間系列の形態をした音声信号
を処理し、音声信号の周波数スペクトルの上にデ
イジタル情報を提供するように機能する。このよ
うにして音声信号（時間の関数としての信号振
幅）は声紋（時間の関数としての音声信号内の周
波数成分）に変換される。声紋はデイジタル形態
で一語を他語から区別するのに必要な情報を含
む。声紋はまた特定の話者を同定するのにも役立
つ。蓋し、一語の声紋はそれを話している話者に
特有なものだからである。声紋は当業者には周知
のものであり、語認識と話者同定の両方に長く使
用されてきた。本発明は声紋を得るためのデイジ
タル手段を提供する。

アナログ−デイジタル変換器３６は離散したサ
ンプリング瞬時においてアナログ音声信号の二進
表示を与える。そして音声信号をサンプリングし
て得られた二進形態のデータをまとめてフレーム
を作る。本発明の好適な一実施例では256レベル
（８ビツト）Ａ−Ｄ変換器で毎秒8000回アナログ
音声信号をサンプリングし、128個のサンプルを
まとめて持続時間が16ミリ秒の一フレームを形成
する。

本発明に係るデイジタルスペクトル分析法を説
明するのを助ける為に、一連の説明図を用意し、
一つの単語を処理する処理工程を示した。第６図
は各々16ミリ秒の40フレームから成る640ミリ秒
の有限の長さを有する典型的な話された単語の時
間に対して振幅をプロツトした高度に理想化され
たアナログ信号の波形を示したものである。

１フレーム内のサンプルの数は２のベキ（冪）
乗にとる。

Ｎ＝2^p+1 ……(1) 好適な実施例ではＮ＝128でｐ＝６である。この
フレーム内の音声信号サンプルの順次のメンバー
はｐ二進桁の長さの二進数ｋとして表わされる。

ｋ＝k_p2^p＋k_p-12^p-1＋k_p-22^p-2…k₀ ……(2) ここでk_p、k_p-1、…k₀は二進数であつて０か１
をとり、集まつて二進法で表わした数ｋを表わ
す。

第７図は16ミリ秒に亘る１フレームのデータを
示したもので、これは各々が125マイクロ秒の128
個の等しいインクレメントに分割されている。各
時点においてインクレメントはその瞬時の音声信
号の振幅値であり、これを８ビツトのデイジタル
信号で表わしたものである。図示されているよう
にこれらの振幅値は一フレームの期間中に話者と
話されている単語の音声特性に依存して基準レベ
ルから正方向に変つたり負方向に変つたりする。

本発明のデイジタル処理法は第８図に棒グラフ
的に示したように音声信号データをスペクトル振
幅系列に変換する。各振幅は複素数として表わす
こともできるが、音声信号の特定の周波数成分の
大きさと位相とを記述する。各スペクトル成分は
通常の正弦及び余弦関数に良く似ているが、二進
表示を簡略化した新しい振動する時間関数で表わ
される。これらの新しい関数は音声信号データを
スペクトル振幅データに変換するのに必要なデイ
ジタル処理工程を相当に少なくする。

この新しい振動する時間関数は時間シーケンス
ｋを表わす二進数（k_p、k_p-1、…k₀）と、周波数
シーケンスｎを表わす二進数（n_p、n_p-1、…n₀）
とに対する複素数演算として表わすことができ
る。

Ｖ（ｎ、ｋ）＝exp〔jπ（_P 〓^r=0 _n 〓^t=0 n_p-rk_r-t2^-t＋φ）〕 (3) パラメータｍは０からｐ迄に亘り、各選択はス
ペクトル時間関数の選択を与える。ｍの最小値は
スペクトル純度を若干犠牲にしてデータ処理の最
少量を要求する。位相補正項φは零とすることも
できるがｋ及びｎに対称的に依存する。式(3)の諸
要素は次のように定義することができる。

ｍ＝パラメータ（０−ｐ）ｒ＝加算の指標ｔ＝加算の指標ｐ＝範囲(6)の頂上ｋ＝時間シーケンス指標ｎ＝周波数シーケンス指標好適な実施例の場合にスペクトル純度と計算速
度との間に最も満足のゆく妥協を与える時間関数
のパラメータの好適な選択はｍ＝３であり、 φ＝2^-m _P 〓^r=0 n_p-rk_r-n-1 (4) である。この音声信号からスペクトルデータへの
変換は従来技術で「高速フーリエ変換」（例えば
E.O.Brighamの“The Fast Fourier
Transform”プレンテイスホール社、1974年刊
行を参照されたい）として知られる方法に類似し
た方法で達成されるが、この新しい関数は加算及
び減算操作並びに表を見ることによる変換だけを
用いて遂行できる計算を必要とする。これで得ら
れるスペクトル分析は高速フーリエ変換よりも相
当に速く且つ安価なLSIで実現できる。蓋し、汎
用的な乗算論理が必要でないからである。

この処理動作は複素データアレーＡに対する複
素演算操作として極めて便利に表わすことができ
る。こ複素データアレーＡはＮ個の記憶位置の系
列であり、各記憶位置は16ビツトの実数部の数と
16ビツトの虚数部の数とを具えている。

スペクトル分析の第１の段階は音声信号データ
を処理アレーに転送することである。

A⁰（k_p、k_p-1…k₀）＝Ｚ（k_p、k_p-1…k₀） (5) ここでＺは音声データを表わすが、これはＮ個
の実数の系列であり、上付きの０はA⁰がプロセ
スの原点即ち出発点であることを表わす。音声サ
ンプルの原点シーケンスから出発して時間シーケ
ンスｋの１ビツトに代えてスペクトルシーケンス
ｎの１ビツトを代入する。このプロセスはＰ＋１
回行なわれるが、このＰ＋１という数はシーケン
スを記述するビツトの数に対応する。プロセス内
の各回は前の回の結果に基づき、次の複素演算操
作で極めて便利に表わされる。

A^r+1（n₀、n₁、…n_r；k_p-r-1、…k₀）＝₁ 〓^kp-r=0 A^r（n₀、…n_r-1；k_p-r、…k₀）。

exp〔jπn_r（_n 〓^t=0 k_p-r-t2^-t＋k_p-r-n-12^-m）〕 (6) プロセスの最終工程はプロセシングアレーの内
容をビツトを反転した順序で複素スペクトル振幅
の所望の系列Ｓに変換することから成る。

Ｓ（n_p、n_p-1、…n₀）＝A^p+1（n₀、n₁、…n_p） (7) 好適な実施例では、上述した操作が加算と減算
と、３個の量（sin（45°）、sin（22.5°）及びsin
（67.5°）の乗算迄縮減される。そして、これらの
乗算は一定量の乗算であり、その数も非常に少な
いから、この好適な実施例ではこの乗算は表を参
照することにより達成される。他の乗算技術、例
えば予じめコンパイルしたシフト及び加算操作を
用いることもできる。これらの操作は高速フーリ
エ変換法で必要とされる乗算プロセスに比較して
非常に高速であり、デイジタル論理で作るのも簡
単である。

ビツト置換プロセスが完了した時、音声信号シ
ーケンスは第８図に示すような128個のスペクト
ル振幅の系列に変換されている。このプロセスは
音声信号内の各16ミリ秒のフレームにつき繰り返
され、スペクトル振幅列を具える声紋を発生す
る。各フレームは16ミリ秒の持続時間と128個の
スペクトル振幅を有し、これが集まつて第９図に
グラフ的に示したような声紋データとなる。

音声信号のスペクトルを得るための上述したデ
イジタル処理手段は可逆的である。上述したよう
に、この方法は時間系例の形態をした音声信号を
処理してスペクトル振幅系列を与える。しかし、
同じプロセスをスペクトル振幅系列に適用すれ
ば、時間系列の形態をした元の音声信号を再生で
きることを示すことができる。

逆の処理操作はスペクトル分析プロセスと同じ
態様で行なわれ、複素データアレーＡを用いる。
プロセスの第１の段階は複素スペクトル振幅の与
えられた系列Ｓをプロセシングアレーに移すこと
である。

A⁰（n_p、n_p-1、…n₀）＝S^*（n_p、n_p-1、…n₀） (8) ここでS^*は与えられた系列Ｓの共役複素数を
表わす。スペクトル振幅の原点の系列から出発し
て周波数シーケンスｎの１ビツトに代えて時間シ
ーケンスｋの１ビツトを代入する。プロセス中の
各工程は前の工程の結果に基づいててる。

A^r+1（k₀、k₁、…k_r；n_p-r-1、…n₀）＝₁ 〓^kp-r=0 A^r（k₀、…k_r-1；n_p-r、…n₀）・exp〔jπk_r（_n 〓^t=0 n_p-r-t2^-t＋n_p-r-n-12^-m）〕 (9) このプロセスはシーケンスを記述するビツトの
数に対応するＰ＋１回行なわれる。プロセスの最
後の工程はプロセシングアレーの内容をビツトを
逆の順序にして所望の実時間波形振幅のシーケン
スＺに変換することから成る。

Ｚ（k_p、k_p-1、…k₀）＝R_eA^p+1（k₀、k₁、…k_p） (10) 再生された音声信号はＤ−Ａ変換器によりアナ
ログ信号に変換することができる。それ故第１図
に示すようにシステムにＤ−Ａ変換器２６を加え
ることにより音声認識能力に音声合成能力を組み
合わせることができる。この共用デイジタル処理
手段を用いて音声出力を組み合わせることは本発
明独特の特徴である。

認識のための声紋の特徴抽出好適な実施例では音声信号は各16ミリ秒のフレ
ーム毎に128個のスペクトル振幅に分解される。
このスペクトル情報の精密さの程度はたいていの
音声認識又は音声合成の用途にとつて必要以上に
高く、声紋記憶メモリについての要求は特徴抽出
とデータ圧縮とを行なうことにより小さくするこ
とができる。

声紋データの圧縮法はその声紋が音声認識に使
用される予定なのか、音声合成に使用される予定
なのかによつて異なつてくる。音声認識のための
データ圧縮に関連する問題は正確な音声認識に必
要な声紋の特徴は残しつつ、テンポと振幅におけ
る話者による差異に関する性質は無視することで
ある。またこの方法は背景雑音が存在する時それ
に耐えられねばならない。本発明は雑音が存在す
る状態での認識確度の点で従来技術よりも相当に
勝つている。

音声処理装置３８の好適な一実施例から得られ
る声紋データは128個のスペクトル振幅の形態を
している。これらのスペクトル振幅は実験とコス
ト／性能ゴールにより定められた音響心理学的情
報内容に基づいて選択されたスペクトルチヤネル
にまとめられる。好適な実施例では汎用目的の認
識のために16個のチヤネルが選択される。スペク
トルデータを特定のチヤネルに割り当てることは
スペクトルエネルギー量に基づいて行なわれる。
即ち振幅はＸをX²で置き換える二進参照表によ
り二乗し、次にまとめて加算してチヤネルの全ス
ペクトルエネルギーを与える。次にこのエネルギ
ー値を当業者には周知で音声スペクトル情報を表
わすのに最適なデシベルスケールに変換する。

第１０図に示すように、各フレームの振幅対周
波数データは隣接するスペクトルの群を加え合せ
ることにより圧縮している、即ち128個のスペク
トル線を16個のチヤネルにまとめており、振幅値
はデシベルスケールに変換している。

この点で好適な実施例ではデイジタル声紋デー
タが音声信号の16ミリ秒のフレーム当り16個のス
ペクトルエネルギーデータのチヤネルを具え、デ
シベルスケールで表示している。次に周知のデイ
ジタル平滑化技術を用いてデータを時間的に平滑
化する。この平滑化された声紋データをX^j _kで表
わす。ここでｊはスペクトルチヤネルの指標を表
わし（０から15迄）、ｋはフレームの指標を表わ
す（16ミリ秒毎に１番上る）。全ての他のフレー
ム（即ち、好適な実施例では各32ミリ秒）では各
スペクトル振幅の時間平均スペクトル振幅およ
び変化の時間速度Ｘ〓を抽出する。

^j _k＝（x^j _k+1＋2x^j _k＋x^j _k-1）／４（11） x〓 ^j _k＝（x^j _k+1＋x^j _k-1）／２（12）また声紋特徴データを蓄えるのに必要な二進ビ
ツトの数の減少はスペクトルの平均とその平均か
らの各チヤネルのずれとを蓄えるような周知のエ
ンコーデイング技術により達成される。斯くして
次式が得られる。

^j _k＝x_k＋Δx^j _k （13） x〓 ^j _k＝x_k＋Δx〓 ^j _k （14）スペクトル平均は次式で定義される。

ｘ＝_k＝１／16₁₅ 〓^j=0 ^j _k （15） x〓_k＝１／16₁₅ 〓^j=0 x〓 ^j _k （16）各特徴の平均からのずれΔx^j _k及びΔx〓 ^j _kは元の
特徴よりも蓄わえるべきビツト数が少なくてす
む。

有効な音声認識を行なうためには振幅の正規化
が必要である。人間の会話では例えば大声で話し
たり穏やかに話したりすることによつたり、或い
はマイクロホンを近づけたり遠ざけたりすること
による全音声振幅内での変化は無視される。デシ
ベルスケールではスピーチレベルの全体の振幅内
での変動はスペクトル振幅に定数をつけ加えるこ
とにより表わされる。そしてスペクトル振幅を減
算することによりデータを処理する時は何時もこ
の定数が除かれ、結果は自動的にスピーチレベル
に依存しなくなる。このようにして変化の時間速
度の特徴x〓 ^j _k並びにスペクトル差の特徴Δx^j _k及び
Δx〓 ^j _kは自動的にスピーチレベルの変動に対し正
規化される。音声のレベルが残つている唯一つの
声紋データはスペクトル振幅平均x_kである。本発
明は単語のピーク振幅ｐにより正規化された正規
化平均x〓 _kを提供する。

ｐ＝max｛x_k｝（17） x〓_k＝x_k−Ｐ（18）スペクトル振幅x〓_kはピークレベルと実際のレベ
ルとの間の差として表わされているから、これは
自動的にスピーチレベルに依存しなくなる。正規
化パラメータＰは周波数平均と時間平均との双方
に基づいているから、スペクトル振幅の統計的ふ
らつきに感じない。

この明細書の残りでは式（13）及び（14）で記
述される音響特等^j _k及びx〓 ^j _kは既に正規化されて
おり、スピーチレベルに依存しないものと看做
す。

第１１図は特徴アンサンブル領域、第１部を示
す一つのフレームの図であり、ここでは第１０図
の振幅値を用いて正規化されたチヤネル平均値
（）を定め、各チヤネル毎にこの平均値からの
ずれ（Δxj）を得ている。

第１２図は特徴アンサンブル領域第２部を示す
三次元図であり、ここでは（第６図に示したよう
な）単語の順次のフレームをそれらの時間系列に
よる順序で配置されている。今度は各チヤネルに
つき各フレームの中心点での最高振幅値を隣りの
フレームの最高振幅値と結び、平均値の瞬時勾
配（即ちｘ）を各フレーム毎に決めている。この
特徴アンサンブル領域は時間領域で32ミリ秒間を
占める迄圧縮される。

単語認識前述したデイジタル処理手段は音声信号を声紋
に変換するのに使用される。声紋は16個のスペク
トルチヤネルの各々の中での時間平均スペクトル
振幅とスペクトル振幅の変化の時間速度との時間
シーケンス（好適な実施例では各32ミリ秒間のデ
ータ）を具える。

人はデイジタル声紋を作り、蓄わえることによ
り装置をトレーンする。各声紋は話者と話されて
いる単語の両方の固有のスペクトル特性を含んで
いる。認識すべき各仕事にとつてテンプレート
（template）と呼ばれる一つのトレーニング声紋
の最小値が必要となる。多くの認識目的には各単
語当り一つのテンプレートで十分である。例えば
可成り静かな環境内での習熟した話者の場合がそ
うである。大きく変動する声紋を有する未熟な話
者の場合や悪い背景雑音の中での認識の場合は一
単語当り何個かのテンプレートを与えることによ
り認識の確度を高めることができる。極めてクリ
テイカルな用途を除いて全ての場合一単語当り２
個のテンプレートで十分であることが実験的に判
明している。

斯くして第１３図は集まつて第１図の単語を特
徴づける一組の特徴アンサンブル（ｘ）を具える
単語テンプレートを示す。各特徴アンサンブルは
56ビツトのデータから成り、これで2048（２×128
×８）ビツトのＡ−Ｄ変換器サンプリングデータ
から導びかれた目立つた情報を表わす。この56ビ
ツトは平均値（５ビツト）、瞬時平均値勾配ｘ
（３ビツト）及び16個の平均値からのずれΔx₄〜
Δx₁₅（各３ビツト）から成る。各単語テンプレー
トについてのこのデータは究局的にはシステムの
外部RAM内に蓄わえられる。

単語を認識するためにはデイジタル声紋を作
り、単語表記憶メモリ内の各テンプレートと比較
する。許容限界内で最もよく合つたものを認識さ
れた単語として認識する。認識の正確さと丈夫さ
（即ち悪い条件下で正確さを維持すること）は強
く単語マツチングプロセスに依存する。そして今
度はこの単語マツチングプロセスがクリテイカル
に音響特徴及び比較手段に依存する。

我々の発明ではダイナミツクプログラミング最
適化技術と組み合わされた新規な特徴比較により
声紋を蓄わえられているテンプレートにマツチン
グさせる。

入来する声紋は音響特徴の系列により定義され
るが、この音響特徴は時間平均したスペクトル振
幅とスペクトル振幅の変化の時間割合（速度）と
である。テンプレートも同じように定義される。
先ずスペクトル系列（^j、x〓^j）を具える入来単
語の単一の特徴をテンプレート（^j、y〓^j）の単
一特徴と比較する。類似の程度の尺度は本発明の
特徴である次の新しい測度関数により与えられ
る。

ｄ＝₁₅ 〓^j=0 （x^j−y^j）²／１＋a²（x^j＋y^j）² （19）ここで「ａ」は正規の会話速度を考慮に入れる
ためのスケーリングフアクタであり、６ミリ秒／
dBにとると好適である。

速度ｄはスペクトル振幅の変化の時間割合を用
いる点で従来技術と異なる。これを用いる効果は
位相数学的（即ち連続な）測度−topological（i.
e.continuous）metric−を与えることで、この位
相的速度は音声信号内での振幅の高速な変化に鈍
感で、雑音に対し免疫となる重要な要素を与え
る。

音響特徴の類似度を評価するための従来技術の
測度はスペクトル振幅の瞬時値に依存し、変化の
時間割合（速度）を含まない。例えば、従来技術
のユークリツド測度は次式で定義できる。

d_E＝₁₅ 〓^j=0 （^j＋^j）² （20）第１４図には単語とテンプレートとの間に僅か
な時間不整合があり且つ会話信号が急速に変化す
る場合における測度概念間の差が線図的に示され
ている。急勾配の領域での単語とテンプレートと
の間のユークリツド距離d_Eは時間不整合が小さく
ても非常に大きくなる可能性がある。本発明の位
相速度ｄは垂直方向の距離ではなく、２個の曲線
間の球の直径として表わすことができる。このた
め時間の不整合が小さければ位相距離ｄも対応し
て小さくなる。この変化の時間割合をも用いる位
相速度は高速の変化に敏感なユークリツド測度よ
りも一貫して良好な音響特徴間の類似度の測度を
与える。

従来技術にくらべて位相数学的測度が優れてい
るもう一つの利点は雑音に免疫になつていること
である。類似度の密な目安を達成するためには、
スペクトル振幅のマツチングだけではなく、スペ
クトル振幅の変化の時間割合も必要である。雑音
信号が同時に両方の条件に整合することは滅多に
ない。

当業者ならば高度にふらつく会話内での時間整
合についての測度の位相的平滑さを達成する手段
は他の測度、例えばチエビシエフ測度とすること
もできることを認識するであろう。斯くして式
（19）の代りに次式を用いることができる。

本発明の本質的特徴は変化の時間割合に基づく
補正を用いることにより変化の激しい領域でのス
ペクトル振幅の身かけの差を減らす手段を提供す
るにある。

平均振幅とスペクトル差の形でテンプレートデ
ータを蓄わえ、変化の平均時間割合を用いて位相
的な補正を与えれば位相数学的測度の主たる利点
を保ちつつ、計算を大幅に少なくすることができ
る。好適な実施例で用いられる式は次式である。

ここでｂは定数であつて、16として式（19）に
最も近くすることもできるし、他のパラメータと
して変えて認識能力を改善することもできる。好
適な実施例ではｂ＝８である。

好適な実施例では式（22）の位相数学的測度は
一連の表の参照（値ｘをその二乗x²）で置き換え
る）、加算及び勾配補正を行なうための表の参照
により計算する。

当業者には周知の、従来技術のダイナミツクプ
ログラミング最適化技術を用いて入来単語の声紋
と比較対象たるテンプレートとの間の最適時間整
合を達成することもできる。

この本発明の位相測度はダイナミツクプログラ
ミングに基づく従来技術の音声認識に対し２個の
改良を与える。(1)計算努力が相当に減る。(2)雑音
免疫性が改良される。計算努力の減少は位相数学
的測度を用いれば音声パターンが急速に変化する
場合でも長時間に亘る音響特徴を比較できること
により達成される。これに対しダイナミツクプロ
グラミングの計算は時間の二乗に反比例して少な
くなる。例えば時間が２倍になれば計算は1/4に
減る。もう一つの利点はデータによりカバーされ
る時間が長くなる時テンプレートの記憶が少なく
て済むことである。好適な実施例ではこの時間を
32ミリ秒にするが、これはスペクトル分析器から
のスペクトルデータの２個の16ミリ秒フレームか
らの情報を表わす。

好適な実施例では単語の境界を考慮することを
省くことにより雑音免疫性を一層改良している。
単語認識のためのダイナミツクプログラミング技
術を用いる従来の技術は単語のスタートと単語の
終了を識別することを必要とする。単語はしばし
ば歯擦音その他の低エネルギーの無声セグメント
でスタートしたり終了したりするから、従来技術
の単語境界アルゴリズムにとつて雑音は殊に厄介
である。本発明の好適な実施例では任意のスター
ト（第１の有声音が現われる前の200ミリ秒）及
び任意の終了（最後の有声音の後200ミリ秒）を
当てることにより単語の境界を考慮することを省
いている。当業者には既知のダイナミツクプログ
ラミング法に高度に実効的な位相数学的測度を組
み合わせることにより正確な時間の整合が得られ
る。これらの手段により低エネルギーの無声音に
匹敵するレベルの雑音が存在する場合でも正確な
単語認識ができる。そして雑音レベルが大きくな
る時この正確さは劣化するが、単語境界アルゴリ
ズムに基づく従来技術の単語認識器におけるよう
な破滅的な認識の中断が生ずることはない。

音声再生音声の再生は音声認識に比較して相当に簡単な
仕事であり、本発明ではデイジタル処理能力の一
部を用いるだけで達成できる。

デイジタル声紋を作り、蓄わえることにより音
声再生ユニツトをトレーンする。各蓄わえられて
いる声紋は第８図に示すようなスペクトル振幅の
時間系列を具え、これは外部メモリ、即ちRAM
４０にコンパクトに蓄わえるためにデータ内容を
減らすことができる。

会話を再生するためには前述した音声処理装置
３８でスペクトル振幅を処理する。本発明の特徴
はデイジタルスペクトル分析法が可逆的で、スペ
クトル振幅のフレームを処理してデイジタル振幅
の形態をした再生音声信号のフレームを出力する
ことである。

そしてこの再生音声信号振幅をＤ−Ａ変換器２
６に通し、増幅して拡声器、電話器その他のオー
デイオ装置で可聴音を作る。

音声再生のための声紋特徴抽出音声再生に最適な声紋特徴は必らずしも音声認
識に最適な声紋特徴と一致しない。これは音声認
識では不要な質、例えば話者が男であるか女であ
るか、話者の感情的状態等を再生音声が持つこと
を人々が希望することによる。これらの質を欠く
と機械的なロボツトのような音質となり、多くの
人が拒絶感を持つ。このようにして音声再生に質
を持たせようとするとデイジタル的に蓄わえる声
紋のビツト節が増える。

本発明のもう一つの特徴は認識と再生の両目的
のための声紋を作り、蓄わえることができること
である。

本発明の好適な一実施例では後に再生する予定
で蓄わえる音声信号を認識のために蓄わえるのと
全く同じようにフレームバイフレームに基づいて
スペクトル的に解析する。しかし、特徴抽出プロ
セスは異なる。好適な一実施例では音声処理装置
３８のマクロROM内に適当な命令を与えること
によりしきい値以下のスペクトル振幅を無視し、
所望のレベル以上の残りの振幅を有限数のビツト
で表わす。斯くして声紋データはビツト数の少な
いスペクトル振幅系列から成る。

再生された音声の質は直接声紋に保全されてい
るビツト数に依存する。各16ミリ秒の40フレー
ム、即ち全体で640ミリ秒の典型的な単語の場合
初期ビツト数は40960（40×128×８）であるが、
声紋データを8000ビツト迄減らしても秀れた音質
が保たれる。しかし、1000ビツトでは単語は認識
には十分であるが、ロボツトのような音質にな
る。

本発明の関係する分野の当業者ならば本発明の
精神と範囲をはずれないで構造の多くの変形例並
びに幅広く異なる本発明の実施例と用途を思いつ
くであろう。ここに開示し、記述した例は全く説
明のためであつて、如何なる意味でも本発明を限
定するものではない。

【図面の簡単な説明】

第１図は本発明の原理を具体化した音声認識及
び音声合成装置の全体のブロツク図、第２図は本
発明に係る音声認識回路のブロツク図、第２−Ａ
図は第２図に類似の変形された音声認識回路のブ
ロツク図、第２−Ｂ図は個別部品を用いるもう一
つの変形された形態の音声認識回路のブロツク
図、第３Ａおよび３Ｂ図は第２図に示した音声認
識回路の一層詳細なブロツク図、第４図は本発明
に係る音声認識システムの一連の時間線図、第５
図は本発明に係るマクロコードワードに対するビ
ツトの割り当てを示す線図、第６〜１２図は本発
明の原理に従つて典型的な話された単語を処理し
て声紋のテンプレートを形成するところを示す一
連の説明図、第１３図は典型的な単語テンプレー
トを示す説明図、第１４図は声紋特徴の比較に用
いられる測度概念間の差異を示す説明図である。２０……ワード認識装置、２２……外部制御装
置、２４……外部装置（外部装置インターフエー
ス回路）、２６……Ｄ−Ａ変換器、２８……増幅
器、３０……スピーカ、３２……マイクロホン、
３４……増幅器、３６……Ａ−Ｄ変換器、３８…
…音声処理装置、４０……外部メモリバンク、４
２……８ビツトデータパス、４４……８ビツトデ
ータライン、５０……入力リード線、５１……Ｄ
バス、５４……Ｙバス、５６……演算論理装置、
５８……レジスタフアイル、６０……Ｉ／Ｏ制御
サブ回路、６２……RAM制御サブ回路、６４，
６６……データパス、６８……要求、肯定応答ラ
イン、７０……承認、出力準備完了ライン、７２
……データライン、７４……制御ライン、７６…
…マクロロム、８０……要素の相互接続を略式図
示した線、８２……シーケンスコントローラサブ
回路、８４……マイクロROM、８６……RAM
アドレスバス、８８……システムバス、９０，９
２，９４……制御ライン、９６……高速計算部、
９８……マイクロ及びＩ／Ｏ制御部、１００……
共通メモリ部、１０２……マイクロROM、１０
４……シーケンスコントローラ、１０６……レジ
スタフアイル、１０８……ALU、１１０……Ｄ
バス、１１２……Ｙバス、１１４……マイクロプ
ロセサ、１１６……マクロROM、１１８……揮
発性（スクラツチパツド）RAM、１２０……
CDバス、１２２……CAバス、１２４……制御ラ
イン、１２６……RAM制御回路、１２８……主
メモリ、１３０……実時間クロツクインタラプ
ト、１３２……レジスタ、１３４……スイツチ、
１３６……マイクロプログラムカウンタ、１３７
……マイクロコードワード、１３８……マルチプ
レクサ、１４０……実時間クロツクベクトル、１
４２……保持レジスタ、１４４……バススイツ
チ、１４６……論理回路網、１４８……PIPEレ
ジスタ、１５０……論理回路網、１５２……レジ
スタ、１５３……スイツチ、１５４……論理回路
網、１５６……ROMハイレジスタ、１５８……
ROMローレジスタ、１６０……マクロROMサ
ブ回路、１６２……スイツチ、１６４……Ｒマル
チプレクサ、１６６……Ｄマルチプレクサ、１６
８……Ｌ／Ｒ回路、１７０……状況装置、１７２
……Ｉ／Ｏポート、１７４……マルチプレクサ、
１７６……バツフア、１７８……８ビツトＩ／Ｏ
バス、１８０……並列入力（PIM）回路、１８
２……スイツチ、１８４……POUT回路、１８
６……４ビツトＩ／Ｏ制御ライン、１８８……
ROWレジスタ、１９０……COLレジスタ、１９
２……RAM制御回路の第１のセクシヨン、１９
３……RAM制御回路の第２のセクシヨン、１９
４，１９６……12ビツトシフトレジスタ、１９８
……デマルチプレクサ回路網、２００……マルチ
プレクサ回路網、２０２……スイツチ、２０４，
２０６……直列入出力ライン、２０８……タイミ
ング発生回路網、２１０……マスタ発振器、２１
２……デコーダ段（TMG）、２１４……タイミ
ング出力リード線。

Claims

【特許請求の範囲】１次の諸段階、即ち全入来アナログ信号と持続時間が等しい、時間
フレームに分割すること；各フレーム内でアナログ信号を等しく離れた時
間間隔で離散的な信号振幅の系列に変換するこ
と；及びこの離散的な信号振幅の系列を複素スペクトル
振幅の系列に変換し、このような複素スペクトル
振幅の各々が次式で定義される関数Ｖ（ｎ、ｋ）
の大きさと位相を表わし、Ｖ（ｎ、ｋ）＝exp〔jπ（_P 〓^r=0 _n 〓^t=0 n_p-rk_r-t2^-t＋φ）〕但しここでｋ＝時間系列指標ｎ＝周波数系列指標ｒ、ｔ＝整数の加算指標ｍ＝保持されるビツトの数を定める時間関数パラ
レータ φ＝位相調整関数であり、ｎ及びｋについての下付き添字の（ｐ−
ｒ）と（ｒ−ｔ）とは二進表示でのビツト位置に
関係し、ビツト位置が０から最大値ｐ迄亘り、こ
の範囲外の下付き添字の値は消滅する値を表わす
こと；を含むことを特徴とするアナログ信号波形のスペ
クトル分析を与える方法。２位相調整関数φを次式 φ＝2_-nP 〓^r=0 n_p-rk_r-n-1 で定義することを特徴とする特許請求の範囲第１
項記載の方法。３位相調整関数φを零としたことを特徴とする
特許請求の範囲第１項記載の方法。４離散的な信号振幅の系列から複数スペクトル
振幅の系列への変換を処理アレーを確立すること
と；信号振幅データをこの処理アレーに次式： A°（K_p、K_p-1、……K₀）＝Ｚ（K_p、K_p-1、……K₀）但し、ここでA°はアレーの出発値を表わし、
Ｚは二進数の形態をした信号データを表わすに従つて移すことと；信号データの元の系列から出発して次式： A^r+1（n₀、n₁、……n_r；k_p-r-1、……k₀）＝₁ 〓^kp-r=0 A^r（n₀、……n_r-1；k_p-r1……k₀）・ exp〔jπn_r（_n 〓^t=0 K_p-r-t2^-t＋K_p-r-n-12^-m）〕但し、A^rはｒ＝０で始まりｒ＝ｐ＋１で終了
するプロセスの第ｒ番目の処理段階の結果、に従つて、時間系列ｋの１ビツトに換えてスペク
トル系列ｎの１ビツトを代入することと；式：Ｓ（n_p、n_p-1、……n₀）＝A^r+1（n₀、n₁、……n_p）但し、Ｓは所望の複素スペクトル振幅の系列に従つて処理アレーの最後の処理段階から複素ス
ペクトル振幅の系列を求めること；とにより行なうことを特徴とする特許請求の範囲
第１項記載の方法。５次の諸段階、すなわち複素スペクトル振幅の系列を表わす予じめ定め
られたデイジタル信号列を与えることと、複素スペクトル振幅の系列を離散的な時間波形
の振幅の系列に変換し、このようなスペクトル振
幅の各々が次式Ｖ（ｎ、ｋ）＝exp〔jπ（_P 〓^r=0 _n 〓^t=0 n_p-rk_r-t2^-t＋φ）〕但しここでｋ＝時間系列指標ｎ＝周波数系列指標ｒ、ｔ＝整数の加算指標ｍ＝保持されるビツトの数を定める時間関数パラ
メータ φ＝位相調整関数で定義される関数Ｖ（ｎ、ｋ）の大きさと位相を
表わすことと；変換されたデイジタルデータをアナログ出力信
号に変えること；を含むことを特徴とするアナログ信号波形を生成
する方法。６位相調整関数φを次式 φ＝2_-nP 〓^r=0 n_p-rk_r-n-1 で定義することを特徴とする特許請求の範囲第５
項記載の方法。７位相調整関数φを零としたことを特徴とする
特許請求の範囲第５項記載の方法。８複素スペクトル振幅系列から離散的な時間波
形振幅の系列への変換を処理アレーを確立することと；スペクトル振幅データの共役複素数をこの処理
アレーに次式： A°（n_p、n_p-1、……n₀）＝S^*（n_p、n_p-1、……n₀）但し、ここでA°はアレーの出発値を表わし、
S^*は二進数の形態をしたスペクトル振幅データ
の共役複素数を表わす、に従つて移すことと；スペクトル振幅データの元の系列から出発して
次式： A^r+1（k₀、k₁、……k_r；n_p-r-1、……n₀）＝₁ 〓^kp-r=0 A^r（k₀、……k_r-1；n_p-r……n₀）・exp〔jπk_r（_n 〓^t=0 n_p-r-t2^-t＋n_p-r-n-12^-m）〕但し、A^rはｒ＝０で始まり、ｒ＝ｐ＋１で終
了するプロセスの第ｒ番目の処理段階の結果、に従つて、スペクトル系列ｎの１ビツトに換えて
時間系列ｋの１ビツトを代入することと；式Ｚ（K_p、K_p-1、……K₀）＝ReA^p+1（k₀、k₁、……
k_p）但し、Ｚは所望の時間波形振幅の系列ReA^p+1
は処理の最終段階を表わす複素数値の実数部に従つて処理アレーの最后の段階から時間波形振
幅の系列を求めること；とにより行なうことを特徴とする特許請求の範囲
第５項記載の方法。９次の諸段階、即ち全信号を持続時間が等しい時間フレームに分割
すること；アナログ信号をこのフレームの各々の中で等し
い時間間隔だけ離れた点での離散的な信号振幅の
系列に変換すること；各フレームの離散的な信号振幅を上記信号振幅
列の種々の周波数成分の値を表わす予じめ選択さ
れた数のスペクトル振幅に変換すること；各フレームのスペクトル振幅を一層少ない数の
チヤネル迄圧縮し、変換し、各チヤネルが割り当
てられた周波数レンジ内で対数振幅で表わされた
振幅のエネルギー和を具え且つ予じめ定められた
音響の有意性に基づいて割り当てられること；各フレームのこのチヤネルの全てについての平
均振幅値を導びき出すこと；各フレーム内の各別々のチヤネル振幅につきこ
の平均値からのずれを測定すること；前記全波形信号の複数個の順次のフレームにつ
き特徴アンサンブルを求めること；及び前記全波形信号についての上記特徴アンサンブ
ルを表わすデイジタル信号を蓄わえてデイジタル
符号化されたそのテンプレートを形成すること；を含むアナログ波形信号の認識のための声紋テン
プレートを生成する方法。１０前記特徴アンサンブルの各々が全波形信号
の隣り合う順次のフレームの対を具えることを特
徴とする特許請求の範囲第９項記載の方法。１１前記特徴アンサンブルの各々が各フレーム
対の平均振幅と、隣り合うフレーム対の中で同じ
チヤネルの平均値の差の勾配と、各フレーム対の
各チヤネルにつき平均値からの平均振幅のずれと
から成ることを特徴とする特許請求の範囲第１０
項記載の方法。１２次の諸段階、即ちスペクトル振幅の変化の時間割合を含む、話さ
れる単語の予じめ選択された音響特徴を表わすデ
イジタルデータテンプレートを用意することと；比較されるべき話された単語を受け取り、その
スペクトル分析を行つてスペクトル振幅の変化の
時間割合を含むその音響特徴を表わすデータを求
めること；テンプレートを受け取られた話された単語のス
ペクトル分析データと比較し、次の測度関数但し、ｄ＝類似度ｊ＝チヤネル指標ａ＝正常の会話の速度を考慮に入れるためのスケ
ーリングフアクタｂ＝認識性能を改良するためのパラメータ＝話された単語テンプレートの平均振幅値＝蓄わえられている単語テンプレートの平均振
幅値＝話された単語テンプレートの変化の時間割合＝蓄わえられている単語テンプレートの変化の
時間割合 Δx^j＝話された単語テンプレート内での平均値か
らのチヤネル振幅のずれ Δy^j＝蓄わえられている単語テンプレート内での
平均値からのチヤネル振幅のずれにより与えられる特徴間の類似度を求めること
と；及び前記テンプレートと前記話された単語データと
の間の類似度に応答して出力を出すこと；を含む単語認識方法。１３前記デイジタルデータテンプレートを外部
メモリから検索することを特徴とする特許請求の
範囲第１２項記載の単語認識方法。１４前記デイジタルデータテンプレートを、初
期トレーニング単語を与え；このトレーニング単語をスペクトル分析して前
記テンプレートを作り；次に受け取られる前記話された言葉と比較する
前にこのトレーニング単語テンプレートを一時的
に蓄わえることにより確立することを特徴とする特許請求の範囲
第１２項記載の単語認識方法。１５出力を出す段階が、予じめ定められたアナ
ログ信号を表わす蓄わえられているデイジタルデ
ータを与えるサブ段階と、この蓄わえられている
データを合成してアナログ信号を出力するサブ段
階とを含むことを特徴とする特許請求の範囲第１
２項記載の単語認識方法。１６入来アナログ信号を離散的なデイジタル信
号の系列に変換する手段と；繰り返してタイミングサイクル列を出すための
タイミング発生器と、全入力信号を長さの等しい
時間フレームに分割するカウンタ手段と、前記タ
イミング発生器に接続されていて前記タイミング
サイクル中にプロセスに動作命令を与えるROM
手段を具えるシーケンスコントロール手段と、上
記ROM手段からの命令に応答して受け取られた
デイジタル信号のスペクトル分析を行なう演算論
理ユニツトとを具え、このROM手段が離散している信号振幅をこの
信号振幅列の種々の周波数要素の値を表わす予じ
め選択された数のスペクトル振幅に変換する命令
と、各フレームのスペクトル振幅を一層少い数の
チヤネルに圧縮し、変換する命令とを具え、各チヤネルは予じめ定められた音響の有意性に
基づいて割り振られた宛先きの周波数レンジ内の
信号振幅の和を具え、更に各フレームの前記チヤネルの全てにつき平
均振幅値を導びき出す命令と、各フレーム内での各個別のチヤネル振幅の上記
平均値からのずれを測定する命令と、前記全波形信号の順次のフレームの各対につい
ての特徴アンサンブルを定める命令とを具える音
声処理手段と；デイジタル符号化されたテンプレートを含む、
前記全波形信号についての前記特徴アンサンブル
のデイジタル表記を蓄わえる外部メモリ手段と；を具えるアナログ波形信号の声紋テンプレートを
出力する音声認識システム装置。１７前記ROM手段が離散的な信号振幅の系列
から複素スペクトル振幅の系列への変換を、処理
アレーを確立することと信号振幅データをこの処
理アレーに次式： Å（K_p、K_p-1、……K₀）＝Ｚ（K_p、K_p-1、……
K₀）但し、ここでÅはアレーの出発値を表わし、Ｚ
は二進数の形態をした信号データを表わすに従つて移すこととにより行なう命令を与える手
段を具え、前記ROM手段が信号データの元の系列から出
発して次式： A^r+1（n₀、n₁、……n_r；k_p-r-1、……k₀）＝₁ 〓^kp-r=0 A^r（n₀、……n_r-1；k_p-r……k₀）・exp〔jπn_r（_n 〓^t=0 K_p-r-t2^-t＋k_p-r-n-12^-m）〕但し、A^rは、ｒ＝０で始まり、ｒ＝ｐ＋１で
終了するプロセスの第ｒ番目の段階の結果に従つて、時間系列ｋの１ビツトに換えてスペク
トル系列ｎの１ビツトを代入する命令を含み、前記ROM手段が更に式：Ｓ（n_p、n_p-1、……n₀）＝A^p+1（n₀、n₁、……n_p）但し、Ｓ＝所望の複素スペクトル振幅の系列に従つて処理アレーから複素スペクトル振幅の系
列を求める命令を含むことを特徴とする特許請求
の範囲第１６項記載の音声認識システム装置。１８前記音声処理装置がアナログ信号のスペク
トル分析により得られた音声テンプレートを前記
外部メモリ手段内に蓄わえられている第２のテン
プレートと比較する手段を具えることを特徴とす
る特許請求の範囲第１７項記載の音声認識システ
ム装置。１９前記比較手段が式に従つて、得られた音声テンプレートと前記第２
のテンプレートの特徴間の類似度を求めるROM
命令手段を具えることを特徴とする特許請求の範
囲第１８項記載の音声認識システム装置。２０入来アナログ信号を離散的なデイジタル信
号の系列に変換する手段と；繰り返されるタイミングサイクル列の出力する
ためのタイミング発生器と、全入力アナログ信号
を長さが等しい時間フレームに分割するカウンタ
手段と、前記タイミング発生器に接続されていて
前記タイミングサイクル中にプロセサに動作命令
を与えるROM手段を具えるシーケンスコントロ
ール手段と、このROM手段からの命令に応答し
て受け取られたアナログ信号をスペクトル分析す
る演算論理装置を含む手段とを具え、上記ROM
手段が各フレームの離散的な信号振幅を複素スペ
クトル振幅の系列に変換する命令を含み、この複
素スペクトル振幅の各々が次式Ｖ（ｎ、ｋ）＝exp〔jπ（_P 〓^r=0 _n 〓^t=0 n_p-rk_r-t2^-t＋φ）〕但し、ここでｋ＝時間系列指標ｎ＝周波数系列指標ｒ、ｔ＝整数の加算指標ｍ＝保持されるビツトの数を定める時間関数パラ
メータ φ＝位相調整関数で定義される関数Ｖ（ｎ、ｋ）の大きさと位相と
を表わし、前記ROM手段が更に各フレームのスペクトル
振幅を一層少ない数のチヤネルに圧縮し、変換す
る命令を具え、各チヤネルが予じめ定められた音
響の有意性に基づいて割り振られた宛先きの周波
数レンジ内の信号振幅の和を具え、更に各フレームの前記チヤネルの全てにつき平
均振幅値を導き出す命令と、各フレーム内での各個別のチヤネル振幅の上記
平均値からのずれを測定する命令と、前記全波形信号の順次のフレームの各対につい
ての特徴アンサンブルを定める命令とを具える音
声処理手段と；デイジタル符号化されたテンプレートを含む、
前記全波形信号についての前記特徴アンサンブル
のデイジタル表記を蓄わえる外部メモリ手段と；を具えるアナログ波形信号の声紋テンプレートを
出力する音声認識システム装置。２１前記音声処理装置を集積回路半導体装置の
形態としたことを特徴とする特許請求の範囲第２
０項記載の音声認識システム装置。２２前記音声処理装置は、入来アナログ信号を
デイジタル信号に変換する前記手段を含めて集積
回路半導体装置の形態としたことを特徴とする特
許請求の範囲第２０項記載の音声認識システム装
置。２３予じめ選択された複素スペクトル振幅の系
列を表わす予じめ定められたデイジタル信号列を
与える手段と；複素スペクトル振幅振幅の上記系列を離散的な
時間波形の振幅の系列に変換し、このようなスペ
クトル振幅の各々が次式Ｖ（ｎ、ｋ）＝exp〔jπ（_P 〓^r=0 _n 〓^t=0 n_p-rk_r-t2^-t＋φ）〕但しここでｋ＝時間系列指標ｎ＝周波数系列指標ｒ、ｔ＝整数の加算指標ｍ＝保持されるビツトの数を定める時間関数パラ
レータ φ＝位相調整関数で定義される関数Ｖ（ｎ、ｋ）の大きさと位相と
を表わすような手段と；変換されたデイジタルデータをアナログ出力信
号に変える手段と；を具えることを特徴とする音声合成装置。２４前記変換手段が、処理アレーを確立し、その後でスペクトル振幅デ
ータの共役複素数をこのアレーに次式： Å（n_p、n_p-1、……n₀）＝S^*（n_p、n_p-1、……n₀）但し、Åはアレーの出発値を表わし、S^*は二
進数の形態をしたスペクトル振幅データの共役複
素数を表わすに従つて移す手段と；次式：Ｚ（k_p、k_p-1、……K₀）＝ReA^p+1（k₀、……K_p）但し、Ｚ＝所望の時間波形振幅の系列ReA^p+1
＝処理の最終段階を表わす複素数値の実数部に従つて最后の処理アレーから時間波形振幅の系
列を求める手段と；次式： A^r+1（k₀、k₁、……k_r；n_p-r-1、……n₀）＝₁ 〓^kp-r=0 A^r（k₀、……k_r-1；n_p-r……n₀）・exp〔jπk_r（_n 〓^t=0 n_p-r-t2^-t＋n_p-r-n-12^-m）〕但し、A^rは、ｒ＝０で始まりｒ＝ｐ＋１で終
了するプロセスの第ｒ番目の処理段階の結果に従つてスペクトル振幅の元の系列から出発して
スペクトル系列ｎの１ビツトに換えて時間系列ｋ
の１ビツトを代入する手段とを具えることを特徴
とする特許請求の範囲第２３項記載の音声合成装
置。