JPS5834498A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPS5834498A JPS5834498A JP56133476A JP13347681A JPS5834498A JP S5834498 A JPS5834498 A JP S5834498A JP 56133476 A JP56133476 A JP 56133476A JP 13347681 A JP13347681 A JP 13347681A JP S5834498 A JPS5834498 A JP S5834498A
- Authority
- JP
- Japan
- Prior art keywords
- matching degree
- input
- voice
- value
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は音声認識方式、具体的には成る幅を持って11
1語認識を行なうことにより、認識率を向上させた音声
認識方式に関する。
1語認識を行なうことにより、認識率を向上させた音声
認識方式に関する。
現在、オフィスコンピュータの入力手段としては、キー
デート、タッチイン、センサノやネル等が、出力手段と
してはシリアルプリンタ、ラインプリンタ等が、外部記
憶媒体としては、フロッピーディスク、固定磁気ディス
クメモリ等が常識的に使用されている。
デート、タッチイン、センサノやネル等が、出力手段と
してはシリアルプリンタ、ラインプリンタ等が、外部記
憶媒体としては、フロッピーディスク、固定磁気ディス
クメモリ等が常識的に使用されている。
ところで、音声合成、音声認識の技術畝新により、オフ
ィスコンピュータへの音声による入出力手段が・提供さ
れてさている。音声入力は認識技術によるところが大で
あり、認識する話者の数、単語数、装置の大永さ、コス
ト等を考慮に入れると、オフィスコンピュータへの適用
にあたっては複数の特定話者で認識する単語数を数百語
に求めるのが妥当と考えられる。
ィスコンピュータへの音声による入出力手段が・提供さ
れてさている。音声入力は認識技術によるところが大で
あり、認識する話者の数、単語数、装置の大永さ、コス
ト等を考慮に入れると、オフィスコンピュータへの適用
にあたっては複数の特定話者で認識する単語数を数百語
に求めるのが妥当と考えられる。
本発明はオフィスコンピュータの入力子1?、1して音
声を用い、あらかじめファイルされている音声パターン
と一致をとることにより、入力された音声を計′W−機
入力データとして扱うことを特徴とするものである。又
、音声言忍識における照合度の計算は成る一定の値で判
断しているが、単語によっては成る幅を持って認識した
いものがある。この幅は単語により異ってくるものであ
り、従って本発明はこの値を任意に変化させることによ
り認識率をより向上させる音声認識方式を提供すること
を目的とする。
声を用い、あらかじめファイルされている音声パターン
と一致をとることにより、入力された音声を計′W−機
入力データとして扱うことを特徴とするものである。又
、音声言忍識における照合度の計算は成る一定の値で判
断しているが、単語によっては成る幅を持って認識した
いものがある。この幅は単語により異ってくるものであ
り、従って本発明はこの値を任意に変化させることによ
り認識率をより向上させる音声認識方式を提供すること
を目的とする。
以下1図面を使用して本発明(二関し詳細に説明するっ
第1図は本発明が使用される情報処理システムの構成例
を示すブロック図である。図において、1はプログラム
乃至データが格納される主記憶装置である。2は前記主
記憶装置1に格納されたプログラムに従いシステム全体
をコントロールする中央処理装置(以下、CPUと称す
る)である。3は入出力制御装置であって、キーボード
、CRTデイスゾンイ、シリアルプリンタ等の入出力装
置が接続される。4は本発明が実現される音声認識装置
であり、音声アンプ。
を示すブロック図である。図において、1はプログラム
乃至データが格納される主記憶装置である。2は前記主
記憶装置1に格納されたプログラムに従いシステム全体
をコントロールする中央処理装置(以下、CPUと称す
る)である。3は入出力制御装置であって、キーボード
、CRTデイスゾンイ、シリアルプリンタ等の入出力装
置が接続される。4は本発明が実現される音声認識装置
であり、音声アンプ。
フィルター回路、アナログ−ディジタル変換器。
バッファメモリ回路、マイクロプロセッサを含めたファ
ームウェア回路(いずれも図示せず)から成る。機能的
には、入力手段のマイクロフォンを介して得られる音声
アナログ信号をディジタル信号に変換し音声・そターン
信号とする入力制御部と、前記入力制御部から得られる
音声パターン信号とあらかじめファイルされである認識
データとを比較照合し、音声入力を認識する音声晴識部
とから成る。音声認識装置4に関する詳細は第2図なら
びに後述するその説明文にて詳細に示される。5はファ
イルコントローラである。このファイルコントローラ5
には磁気ディスク装置が接続されており、磁気ディスク
装置には認識データがあらかじめファイルされている。
ームウェア回路(いずれも図示せず)から成る。機能的
には、入力手段のマイクロフォンを介して得られる音声
アナログ信号をディジタル信号に変換し音声・そターン
信号とする入力制御部と、前記入力制御部から得られる
音声パターン信号とあらかじめファイルされである認識
データとを比較照合し、音声入力を認識する音声晴識部
とから成る。音声認識装置4に関する詳細は第2図なら
びに後述するその説明文にて詳細に示される。5はファ
イルコントローラである。このファイルコントローラ5
には磁気ディスク装置が接続されており、磁気ディスク
装置には認識データがあらかじめファイルされている。
6はシステムパスである。前記各装置1,2,3,4.
5はシステムパス6に対し共通接続されて成る。システ
ムパス6はデータライン、アドレスライン、コントロー
ルラインがそれぞれ複数本で構成される。
5はシステムパス6に対し共通接続されて成る。システ
ムパス6はデータライン、アドレスライン、コントロー
ルラインがそれぞれ複数本で構成される。
第2図は第1図における音声認識装置の内部4! 53
9 ’l 示スブロック図である。図において、11は
音声認識装置4をシステムに妾続する際に設けられるパ
スインターフェースユニットである。パスインターフェ
ースユニット11は音声認識装置としてのチャネルの他
にファイルコントローラ5に相当するチャネルから成る
。これは音声認識装置4が磁気ディスク装置なCPU2
から独立して独自に使用することがあるからである。
9 ’l 示スブロック図である。図において、11は
音声認識装置4をシステムに妾続する際に設けられるパ
スインターフェースユニットである。パスインターフェ
ースユニット11は音声認識装置としてのチャネルの他
にファイルコントローラ5に相当するチャネルから成る
。これは音声認識装置4が磁気ディスク装置なCPU2
から独立して独自に使用することがあるからである。
12はマイクロプロセッサ、13はROM。
14はRAMである。ROMJ Jには音声認識を行な
うための各種ファームウェアルーチンが格納され、マイ
クロプロセッサ12はこのファームウェアの内容に基づ
き装置6全体のコントロールを行なう。RAM14は前
記ファームウェアのワークエリアとして使用される他、
後述する音声入力データの特徴正規化時のワーク用とし
て、あるいは正規化データの収納エリアとして使われる
。15はDMAコントロールモジュール(以下、単にD
MA15と称する)である。
うための各種ファームウェアルーチンが格納され、マイ
クロプロセッサ12はこのファームウェアの内容に基づ
き装置6全体のコントロールを行なう。RAM14は前
記ファームウェアのワークエリアとして使用される他、
後述する音声入力データの特徴正規化時のワーク用とし
て、あるいは正規化データの収納エリアとして使われる
。15はDMAコントロールモジュール(以下、単にD
MA15と称する)である。
DMA、15は主記憶装置1における辞書データのRF
fAD/WRITEの他、後述する音声バッファから標
準ノ臂ターンな読出すためのコントロールを行なったり
、照合度計算実行1寺、正規化された音声へカッ4’タ
ーンを内部RAMJ4から読出す動作をコントロールし
、更に読出されたデータを照合r¥ift′M一部16
に転送する機能を持つ。
fAD/WRITEの他、後述する音声バッファから標
準ノ臂ターンな読出すためのコントロールを行なったり
、照合度計算実行1寺、正規化された音声へカッ4’タ
ーンを内部RAMJ4から読出す動作をコントロールし
、更に読出されたデータを照合r¥ift′M一部16
に転送する機能を持つ。
いわゆる照合度計算部16等の要求に従い、各種メモリ
装置との間でデータのRE A、D/WRITEを行な
うため、連続的にメモリ番地を発生するダイレクトメモ
リアクセスのためのコントローラである。
装置との間でデータのRE A、D/WRITEを行な
うため、連続的にメモリ番地を発生するダイレクトメモ
リアクセスのためのコントローラである。
16は照合度計算部である。照合度計算部I6は、標準
ノ4ターンと入カバターンの照合度計算を自動的に行な
うハードウェアロジックであり、辞書エリアからDMk
i5に従い転送された標準ノ’?ターン1バイトと相当
する入力音声・fターン1バイトの差の絶対値を算出す
るものである。17は音声信号入力部である。音声信号
入力部17はマイクロフォンから入力された音声アナロ
グ信号を周波数分析し、ファームウェア動作時間毎にそ
れぞれの川波数帯のピーク値をサンプルホールドし、8
ビツトのディジタル値に変換する機能を持つ。1記RO
M I J 。
ノ4ターンと入カバターンの照合度計算を自動的に行な
うハードウェアロジックであり、辞書エリアからDMk
i5に従い転送された標準ノ’?ターン1バイトと相当
する入力音声・fターン1バイトの差の絶対値を算出す
るものである。17は音声信号入力部である。音声信号
入力部17はマイクロフォンから入力された音声アナロ
グ信号を周波数分析し、ファームウェア動作時間毎にそ
れぞれの川波数帯のピーク値をサンプルホールドし、8
ビツトのディジタル値に変換する機能を持つ。1記RO
M I J 。
RAM 14 、 DMA 15 、照合度計算部16
.音声入力部17はマイクロプロセッサ12の持つ内部
パス19へ共通に接続される。
.音声入力部17はマイクロプロセッサ12の持つ内部
パス19へ共通に接続される。
尚、18は音声バッファである。音声ノ9ツファ18は
主記憶装置1のアドレス延長tに存在し、頻繁に使用さ
れる辞書が格納されるエリアで構成される。主記憶装置
1の一部写しであっても良い。
主記憶装置1のアドレス延長tに存在し、頻繁に使用さ
れる辞書が格納されるエリアで構成される。主記憶装置
1の一部写しであっても良い。
第3図は、あらかじめ磁気ディスク装置にファイルされ
ている認識データのフォーマットを示す。データは、照
合度数値”I(IGH#。
ている認識データのフォーマットを示す。データは、照
合度数値”I(IGH#。
uLOWflと音声コード、音声パターンから成る。
照合度数値”HIGI(す、” LOWMについては後
述する。
述する。
以下、本発明の動作につき詳細に説明する。
まず、外界より入力された音声はマイクロフォンによっ
て収集され、音声信号入力部17にて適当な処置がなさ
れる。即ち、ここでは場当なレベルまで音声増幅がなさ
れ、且つ音声信号の標醜的な情報量の分布に従って分割
された複数チャネルの帯域フィルタにより分析がなされ
る。
て収集され、音声信号入力部17にて適当な処置がなさ
れる。即ち、ここでは場当なレベルまで音声増幅がなさ
れ、且つ音声信号の標醜的な情報量の分布に従って分割
された複数チャネルの帯域フィルタにより分析がなされ
る。
各帯域フィルタの出力は、それぞれの帯域内の信号レベ
ルを検出するために整流され、低域フィルタを通して平
滑化される。この出力はアナログ−ディジタル変換器を
介して複数ビット(本発明実施例では8ビツト)のディ
ジタル信号に変換される。これらの情報は一定時間毎に
サンプリングされ、一旦パツファメモリ内へ記憶される
。この様にして入力された音声信号はファームウェアに
よりデータ圧縮がなされる。このEE縮作業は、ソフト
ウェアが音声入力情報の変化を読取り、語の始まりを検
出した時に開始される。各フィルタ毎出力されたディジ
タル量は毎サンプル時数ビットのデータ量に変換され、
更に圧縮され収集される。収集されたデータ群は時間軸
の適正化処理を受は数百ビットの特徴ノ臂ターンとして
扱われる。
ルを検出するために整流され、低域フィルタを通して平
滑化される。この出力はアナログ−ディジタル変換器を
介して複数ビット(本発明実施例では8ビツト)のディ
ジタル信号に変換される。これらの情報は一定時間毎に
サンプリングされ、一旦パツファメモリ内へ記憶される
。この様にして入力された音声信号はファームウェアに
よりデータ圧縮がなされる。このEE縮作業は、ソフト
ウェアが音声入力情報の変化を読取り、語の始まりを検
出した時に開始される。各フィルタ毎出力されたディジ
タル量は毎サンプル時数ビットのデータ量に変換され、
更に圧縮され収集される。収集されたデータ群は時間軸
の適正化処理を受は数百ビットの特徴ノ臂ターンとして
扱われる。
上記手法にて入力された音声は成るビット・9グーンと
して置換される。そしてあらかじめ登録済みの音声A?
ターンと入力された音声/lターンがDMA 15によ
り読出され、1つ類似度が照合度計算部16にて計算さ
れ、ここで最も値の高い用語が抽出される。最も値の高
い用語の値があらかじめ設定された照合度数値”HIG
Hjj。
して置換される。そしてあらかじめ登録済みの音声A?
ターンと入力された音声/lターンがDMA 15によ
り読出され、1つ類似度が照合度計算部16にて計算さ
れ、ここで最も値の高い用語が抽出される。最も値の高
い用語の値があらかじめ設定された照合度数値”HIG
Hjj。
′ILOWnより低いとき、その入力された音声はリジ
ェクトされる。
ェクトされる。
より詳細に動作を述べる。CPU2から音声認識のため
のコマンドが発せられると、音声認識装置4により音声
入力可の表示がなされる。
のコマンドが発せられると、音声認識装置4により音声
入力可の表示がなされる。
これは付属のコンソール等に存在するラン!表示で良い
。次に、マイクロフォンより音声信号の入力がなされる
と前述した手順により音声・母ターン信号が生成される
。
。次に、マイクロフォンより音声信号の入力がなされる
と前述した手順により音声・母ターン信号が生成される
。
一方、音声認識装置4は、CPU 2より音声認識のた
めのコマンドを受付けた際、ディスクアドレスをノやラ
メータとして受信しており、これを基にファイルコント
ローラ5に対し、該当単語辞書を音声バッファ18へ転
送する旨の指令を発している。ファイルコントローラ5
はこれを受け、磁気ディスク装置をアクセスし、指定さ
れたディスクアドレスから指定長の認識データを音声バ
ッファ18に対し転送する。音声ノ々ツファ18に格納
された標準・母ターンはDMA15により読出され、照
合度計算部16へ入力される。照合度計算部16の他方
へは前記音声信号人力部17を介して受付けられ、ファ
ームクエア(マイクロプロセッサ13)を介して変換さ
れた音声へカッやターンが供給されている。
めのコマンドを受付けた際、ディスクアドレスをノやラ
メータとして受信しており、これを基にファイルコント
ローラ5に対し、該当単語辞書を音声バッファ18へ転
送する旨の指令を発している。ファイルコントローラ5
はこれを受け、磁気ディスク装置をアクセスし、指定さ
れたディスクアドレスから指定長の認識データを音声バ
ッファ18に対し転送する。音声ノ々ツファ18に格納
された標準・母ターンはDMA15により読出され、照
合度計算部16へ入力される。照合度計算部16の他方
へは前記音声信号人力部17を介して受付けられ、ファ
ームクエア(マイクロプロセッサ13)を介して変換さ
れた音声へカッやターンが供給されている。
照合度計算部16では入力された両ノターンの類似度計
算が行なわれ、一番高い値の音声ノ母ターンが抽出され
る。
算が行なわれ、一番高い値の音声ノ母ターンが抽出され
る。
磁気ディスク装置に格納されている認識データのフォー
マットは第3図に示したとおりである。これで特徴的な
ことは照合度数値’ HIGH,、。
マットは第3図に示したとおりである。これで特徴的な
ことは照合度数値’ HIGH,、。
“L O’W pyが設定されであるということである
。
。
これは、照合度計算をした結果の値があらかじめ指定し
である値(照合度数値゛′HI oH+j )以上とな
ったときに認定されたと判定されるが、” HI GH
nで示される値に達しないとリジェクトされてしまうこ
とになる。そこで次のステップとして、言忍識される#
iHpが全てu)(IGHPjの値に達しなかったとき
、次のレベルとして照合度の値を下げて照合することに
なるが、その時にはuL OW nの値を用いて照合す
る。RB Jする単語はその内容によってMF Haの
密度を変える必要があるノテ各単語毎、” HI GH
jp 、 uL OW nの値を変えることにより認識
率をより向上させることができる。この照合度数値はプ
ログラムにより自由に変帳することが出来、同じ音声・
母ターンでもプログラムにより照合度数値を変えて音声
認識に幅を持たせている。
である値(照合度数値゛′HI oH+j )以上とな
ったときに認定されたと判定されるが、” HI GH
nで示される値に達しないとリジェクトされてしまうこ
とになる。そこで次のステップとして、言忍識される#
iHpが全てu)(IGHPjの値に達しなかったとき
、次のレベルとして照合度の値を下げて照合することに
なるが、その時にはuL OW nの値を用いて照合す
る。RB Jする単語はその内容によってMF Haの
密度を変える必要があるノテ各単語毎、” HI GH
jp 、 uL OW nの値を変えることにより認識
率をより向上させることができる。この照合度数値はプ
ログラムにより自由に変帳することが出来、同じ音声・
母ターンでもプログラムにより照合度数値を変えて音声
認識に幅を持たせている。
1
16・・・照合度計算部、17・・・音声信号人力)τ
(九以1説明の如く、本発明によれば音声パターンに対
し、” HI G Hpy 、 L OW nの照合度
数値情報を付加することにより、音声パターンによって
はその認識のレベルに柔軟性を持たせることができる。
(九以1説明の如く、本発明によれば音声パターンに対
し、” HI G Hpy 、 L OW nの照合度
数値情報を付加することにより、音声パターンによって
はその認識のレベルに柔軟性を持たせることができる。
即ち、従来音声認識における照合度の計算はある一定の
値で判断していたが、本発明により単語によってはある
幅を持って認識することが出来、この幅を示す照合度数
値軸HI G Hn 、 ′JL OW nを任意に可
変とすることによりr:、tシ識率をより向上させるこ
とができるものである。
値で判断していたが、本発明により単語によってはある
幅を持って認識することが出来、この幅を示す照合度数
値軸HI G Hn 、 ′JL OW nを任意に可
変とすることによりr:、tシ識率をより向上させるこ
とができるものである。
第1図は本発明が使用される情報処理ンステムの構成例
を示すブロック図、第2図は第1図における音声S忍識
装置の内部構成を示すブロック図、第3図は本発明にお
いて用いられる認識データのデータフォーマットを示す
図である。 1・・・主記憶装置、2・・・中央処理装置(CPU)
、4・・・音声認識装置、5・・・ファイルコントロー
ラ、15・・・DMAコントロールモジュール(DMA
)、2
を示すブロック図、第2図は第1図における音声S忍識
装置の内部構成を示すブロック図、第3図は本発明にお
いて用いられる認識データのデータフォーマットを示す
図である。 1・・・主記憶装置、2・・・中央処理装置(CPU)
、4・・・音声認識装置、5・・・ファイルコントロー
ラ、15・・・DMAコントロールモジュール(DMA
)、2
Claims (1)
- 音声認識装置が参照可能な記憶装置へ辞井を格納し、こ
の辞書によって入力音声を認識し、認識単語を入力デー
タとして扱う音声人力d1゛算機システムにおいて、あ
らかじめ登録される単語毎、第1と第2の照合度数値を
付加し辞書エリアへ格納して成る記憶装置と、入力音声
をディジタル値に変換し音声人力i4ターンとして取込
む音声信号人力部と、前記記憶装置から得られる登録パ
ターンと前記音声信号入力部を介して得られる音声入力
・2ターンとを前記第1と第2の照合度数値に基づき照
合度計算を行なう照合度計算部とを備え、前記照合度計
算部はまず第1の照合度数値に基づいて照合度計算を行
ない、この値に達しなかったとき、更に第2の照合度数
値に基づいて照合度#tKを行ない、あらかじめ設定さ
れた値(照合度数(if )以上となつたことを確認し
たうえで音声入カッ4ターンを入力データとして認識す
ることを特徴とする音声t、N識方式。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56133476A JPS5834498A (ja) | 1981-08-26 | 1981-08-26 | 音声認識方式 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP56133476A JPS5834498A (ja) | 1981-08-26 | 1981-08-26 | 音声認識方式 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPS5834498A true JPS5834498A (ja) | 1983-02-28 |
Family
ID=15105663
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP56133476A Pending JPS5834498A (ja) | 1981-08-26 | 1981-08-26 | 音声認識方式 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS5834498A (ja) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09106296A (ja) * | 1995-07-31 | 1997-04-22 | At & T Corp | 音声認識装置及び方法 |
-
1981
- 1981-08-26 JP JP56133476A patent/JPS5834498A/ja active Pending
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH09106296A (ja) * | 1995-07-31 | 1997-04-22 | At & T Corp | 音声認識装置及び方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US5764852A (en) | Method and apparatus for speech recognition for distinguishing non-speech audio input events from speech audio input events | |
| JP2989211B2 (ja) | 音声認識装置における辞書制御方式 | |
| CN108831477B (zh) | 一种语音识别方法、装置、设备及存储介质 | |
| JPS5834498A (ja) | 音声認識方式 | |
| CN110600003A (zh) | 机器人的语音输出方法、装置、机器人和存储介质 | |
| CN114842828A (zh) | 一种合成语音的音量控制方法及装置 | |
| JPS587697A (ja) | 音声認識方式 | |
| JPS5834499A (ja) | 音声認識装置 | |
| JPH01321499A (ja) | 音声認識装置 | |
| JP3108121B2 (ja) | 音声認識装置の辞書制御方式 | |
| JPS6191700A (ja) | 音声入力装置 | |
| JPS587698A (ja) | 音声認識方式 | |
| JPS6017498A (ja) | 音声認識装置 | |
| JP3004749B2 (ja) | 標準パターン登録方法 | |
| CN109545200A (zh) | 编辑语音内容的方法及存储装置 | |
| JPS59111697A (ja) | 音声認識方式 | |
| KR890001098Y1 (ko) | 음성 인식기 | |
| JPS6344699A (ja) | 音声認識装置 | |
| JPS6125199A (ja) | 音声認識方式 | |
| JPH06167997A (ja) | 音声認識装置 | |
| JPH11242497A (ja) | 音声認識による制御装置及び方法並びに音声認識による制御用プログラムを記録した記録媒体 | |
| JPS62206596A (ja) | 音声認識システム | |
| CN113593584A (zh) | 一种有效抑制响应时间延迟的电子产品语音控制系统 | |
| JPS63223696A (ja) | 音声パタ−ン作成方式 | |
| JPS6147994A (ja) | 音声認識方式 |