JPH02289004A - 音声による文字入力装置 - Google Patents

音声による文字入力装置

Info

Publication number
JPH02289004A
JPH02289004A JP1075525A JP7552589A JPH02289004A JP H02289004 A JPH02289004 A JP H02289004A JP 1075525 A JP1075525 A JP 1075525A JP 7552589 A JP7552589 A JP 7552589A JP H02289004 A JPH02289004 A JP H02289004A
Authority
JP
Japan
Prior art keywords
input
voice
button
mora
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1075525A
Other languages
English (en)
Inventor
Yuichi Murakami
裕一 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to JP1075525A priority Critical patent/JPH02289004A/ja
Publication of JPH02289004A publication Critical patent/JPH02289004A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野】
この発明は、音声入力信号を識別して、コンピュータや
ワープロに等に、文章や操作指示等を入力する音声によ
る文字入力装置に関する。
【従来の技術】
従来は、コンピュータ等に文章や操作指示を与え′る方
法としてキーボードが主に使われてきた。 キーボードに代わって、音声で入力できると、以下の特
長を実現できる。 ■ キーボードに比べて練習時間が少なくてすみ、不慣
れな者でも取り付き易く、コンピュータ等の普及を老若
問わず促進できる。 ■ 図形等の入力をするとにきに、マウスやデジタイザ
等のボインテングデバイスと、キーボードの双方を同時
に操作するので、操作が繁雑となる。これに対して、音
声で文字や操作等を入力し、手でボインテングデバイス
を操作すれば大変に扱い易い。 ■ キーボードは自閉的であり、肩凝り等の職業病を引
き起こしやすい。これに対して、音声で入力できると、
適当なストレス発散になる。 ■ キーボードに比へ部品点数が少なく、パーソナルコ
ンピュータ等の小型情報処理機器をより小型で安価に出
来る。 音声入力は、このように優れた特長があるにもかかわら
ず、特殊な用途以外には殆ど普及していないのが実状で
ある。処理が複雑で、安価な回路で認識率を高くできな
いことが理由である。簡便な音声入力装置を、小型で安
価な装置へ応用することが切望されている。 従来、比較的安価な音声入力装置は、使用者が事前に自
分の声を登録し、その声との比較により認識を行う方式
と、昭和63年特許願第199533号に記載された、
フォルマント情報を表示して発声者の調整により入力す
るものに分けられる。 登録方式は、単語単位の認識を行うものが多い。 一般文書入力に使えるものは、言葉をハツキリと区切っ
て発音しなければならない。従って、入力スピードはあ
がらず、良くてもキーボード並の使用感しか得られない
。しかも、音声入力を識別する回路には、高速の比較処
理能力が要求され、キーボードに比較して著しく高価に
なる欠点があった。 フォルマント表示型は、原理的には単語登録の必要がな
い。このため、言葉を区切って発音することなく入力で
きる筈である。しかしながら、実際に音声信号を区切り
なく連続して入力すると、コンピュータ等の識別手段で
区切り点を見つける必要がある。それにはプログラムス
テップが必要であり、応答性の悪いものとなる。また、
区切り精度が悪いと言葉を全く勘違いしてしまう場合が
ありえる。 例えば「縫子jを「あやこjと3文字に発音したつもり
が「あえあこ」と4文字に発音したと入力してしまうこ
とがままある。
【発明が解決しようとする問題点】
日本語はモーラと呼ばれる単位にほぼ等時間に発声され
る。モーラは、多くの場合カナ1文字車位である。例外
は、後ろに小文字の「やゆよ」が付く言葉と、長い音を
表す「−」と、声帯の振動停止を表す小文字の「っ」が
付く言葉とがある。 これ等の言葉は、「きゃ」等がひとつのモーラとなる。 特殊なものに小文字の「あ」が付く「ファ」などのよう
な外来語を表現したものがある。 すなわち、俳句を作るときの5.7.5の1単位がモー
ラに他ならない。 大型の記憶装置があれば、全ての単語の発声情報を記録
することにより、モーラに触れず認識可能である。しか
しながら、この方式では、全体のコストが著しく高くな
る。大型の記憶装置を使用することなく、自然な発声の
日本語を処理する場合、言葉をモーラに分解することが
必要である。 モーラに分解する作業は、言葉に子音系の音が含まれて
いれば比較的容易である。特に破裂系の子音である「ば
行、た行、か行」の音であれば、−瞬の無音期間がある
ことから明確に分解できる。 しかしr大尾を追う」なとの文章を平仮名で書けば「お
おおをおう」となり、曖昧に喋ると6つのモーラを区別
するのは極めて難しい。 つまり、「ア行音、ヤ行音、ワ行音Jが連続すると、モ
ーラ区切りをつけるのが非常に難しくなる。例えば、ア
ヤという音はアの音に続いて工(人によってはイ)の音
が短く入り、アの音に戻る。 ゆっくり発音すれば問題はないが、早口になると時間的
に区別をつけることが難しくなり、アヤの2文字がアエ
アの3文字にもとれるようになる。 これにより「はえある」と「はやる」の区別が出来なく
なる。これらを解決するプログラムアルゴリズムは開発
が難しく、原理的に煩雑であり、実行に長時間を要し、
使用感を損なう。
【問題点を解決する手段】
この発明の音声による文字入力装置は、音声を電気信号
に変換する入力手段1と、この入力手段1から出力され
る音声信号を識別し、識別した音声をデジタル信号で出
力する音声識別手段2とを備えている。 さらに、この発明の音声による文字入力Hpは、モーラ
の区切り信号を入力する区切入力部材3も備えている。 区切入力部材3から入力されるトリガー信号は、音声識
別手段2に入力される。音声識別手段2は、区切入力部
材3からのトリガー信号で、モーラの区切りを識別する
ように構成されている。 すなわち、この発明の文字入力装置は、モーラの区切り
処理を、プログラムアルゴリズムではなく、文字入力者
の意志をもって行うようにしている。例えば、モーラの
区切り入力を、ボタンを手で押す等の動作で行えるよう
にしている。手でスイッチを押す以外に、モーラに合わ
せて頭を振り、あるいは、足でスイッチを踏む動作で、
モーラの区切りを入力できる。 手を使わないでモーラの区切りを入力できる装置は、手
を別に使いたい作業現場に最適である。
【作用効果】
本発明の音声による文字入力装置は、モーラの区切りを
入力する区切入力部材を備えている。区切入力部材は、
マイクから入力される音声信号とは別に、押しボタンス
イッチ等によりモーラの区切りを入力する。このため、
モーラの区切り判断のためにプログラム実行時間を必要
としない。これにより、より快適な操作環境が得られ、
安価な装置で処理時間を速くでき、しかも、正確に判断
できる特長が実現される。 以下、この発明の文字入力装置の操作方法を説明をする
。本発明を使用して、「赤い」という文字を入力しよう
とする場合、口で「あかい」と普通に喋り、区切入力部
材の押しボタンスイッチを、「あかい」にあわせてボン
ボンボンと3回押す。 特に好ましい使用状態においては、発声が完了する最後
の1回は、スイッチをギューと連続して押し込むように
押す。だから、3文字(3モーラ)l単語の場合は、発
声に合わせて、ボン・ボン・ギューと押す。「いろ」の
ような2文字(2モーラ)の場合はボン・ギューと押す
。1文字なら当然ギューと押すだけである。 つまり、ギューと押されたことをもって、1単語を喋り
終ったことを使用者から装置に知らせることによって、
単語の句切りを音声識別手段2に入力することによって
、さらに処理時間を短くすることができる。 区切入力部材3からモーラの句切りが入力されない、従
来の装置と、本発明の装置とを比較して、操作上の良否
を比べてみると次のようになる。 区切入力部材3がない装置は、ソフトウェアアルゴリズ
ムで、lモーラ、1単語の句切りを判断しなければなら
ない。簡易で安価な文字入力装置が1単語の終了を検出
する場合、そのアルゴリズムとして、一定の無音期間を
検出する方式とせざるをえない。その場合の問題は、「
札幌」の「っ」のような声帯停止期間を、単語終了と誤
判断することである。この誤判断を防止するには、単語
終了無音期間を、単語間に起こる声帯停止期間よりも長
時間に設定せざるをえない。 よって、このような装置は、利用者の発声が終ってすぐ
に応答出来るものでなく、一定の時間、待時間が必要で
ある。つまり、音声による文字入力装置が、手を使わず
利用出来るというのは手に障害のある方にはまことに便
利なものであるが、キーボードの代替えとしての利用を
考えると、利用者にとフでいまひとつ応答の遅い不便な
ものとなってしまう。 これに対して、この発明の装置は、最後のモーラを発声
中に、区切入力部材3のスイッチなギューと押し込むよ
うに押すことによって、1単語の終了を入力することが
可能である。よってこの発明の装置は、一定の入力信号
によって、l単語終了を検出できる。したがって、母音
の発声中であっても単語の終了を判断でき、判断、表示
に入るタイミングを最適に設計できる。これにより、こ
の発明の文字入力装置は、キーボードの代替えとして充
分に利用可能になる。 単語終了の合図としてだけであれば、モーラに合わせて
押しボタンスイッチ等を押す必要はない。 単語終了の時にボタンを押せば良いことになる。 単語終了を入力するには、次の状態で押しボタンスイッ
チを押せばよい。 ■ 単語発音中ボタンを押し続ける。 ■ 単語の区切りにボタンを押す。 ■と■の方法は、簡単そうに思えるが、実際には決して
簡単でない。すなわち、発音しながらスイッチを押し続
け、発音終了と共にボタンを離すのは馴れないものには
難しい動作である。初心者に「ボタンを押してから喋っ
て離す」と説明すると、ボタンを押してから喋り始める
までに何秒もかかり、さらに喋り終ってから離すのを忘
れる。 これでは不必要な音声の記録が増え、それを処理するの
に余分な時間も必要となる。 単語の区切りにボタンを押すのは、リズムが取り難い動
作である。これに対して、モーラ毎に押す動作はリズム
が取り易く、老人でも快適に操作出来る。なぜなら、モ
ーラとは日本語の等時間に話される単位を意味しており
、モーラ毎にボタンを押すという動作は、当然等時間に
押されることになるからである。 つまり、モーラ毎に押す動作は初心者にも簡単で、熟練
者の高速入力にも対応出来る、日本語入力には最適な方
式であると言える。 さらに、初心者への指導も簡単で「アカイと言うのに合
わせて、スイッチをボン・ボン・ギューとおして下さい
」と説明すれば、普通の人であれば、1回で操作を習得
出来る。これは俳句などで日本語をモーラに分解する訓
練が十分にされているからに他ならない。 キーボードのようにたくさん並んでいるボタンを捜して
押す操作は初心者には大変に苦痛で、取り付き難いもの
であるが、ひとつのボタンを言葉にあわせてボン・ボン
と押す操作は、極めて簡単である。 特に、日本語の文字入力装置は、外国語に比較してモー
ラが明確であるため、モーラの区切りを入力することに
よって、音声識別の処理能率を著しく改善できる特長が
ある。 本発明の装置は、単にボタンスイッチの存在で構成され
るのではなく、区切入力部材3で駆動される音声識別プ
ログラムアルゴリズムという技術思想の存在により構成
される点に注目して頂きたい。つまり、ボタンの形状や
種類に関係なく、使用者が「あかい」と言いながらボン
・ボン・ギューと操作して、モーラの区切りを入力して
、 「赤い」と入力されるようにした装置が本発明を構
成するものである。 本発明の構成は極めて簡単である。すなわち、この発明
の装置は、キーボードからの入力に代わって、区切入力
部材3を設けたことを特徴とするものである。キーボー
ドはスイッチで構成され、区切入力部材3もスイッチで
構成できる。しかしながら、両者の使用状態は極めて異
なり、区切入力部材3は発声と一緒に単一のスイッチを
押して使用でき、キーボードは、入力文字に合わせて特
定のキーを選択して押す必要がある。この発明の文字入
力装置は、モーラの区切りを入力するという、新しい技
術思想により実現されたものである。 また本発明の装置は、モーラの区切りを識別するために
、特別な電子回路を必要とせず、汎用のCPU (マイ
クロプロセッサ)と、音声識別手段2だけを利用して、
キーボードに匹敵する入力速度と、キーボード以上の簡
易さを実現した点において特筆に値する特長を実現して
いる。
【好ましい実施例】
以下、この発明の実施例を図面に基づいて説明する。但
し、以下に示す実施例は、この発明の技術思想を具体化
する為の文字入力装置を例示すものであって、この発明
の装置は、回路構成を下記のもの特定しない。この発明
の装置は、特許請求の範囲に記載の範囲に於て、種々の
変更が加えられる。 更に、この明細書は、特許請求の範囲が理解し易いよう
に、実施例に示される部材に対応する番号を、特許請求
の範囲に示される部材に付記している。ただ、特許請求
の範囲に記述される部材を、実施例に示す部材に特定す
るものでは決してない。 本発明の実施例として第1図の回路構成を示す。 第1図に示す音声による文字入力装置は、音声を電気信
号に変換する入力手段lと、この入力手段lから出力さ
れる音声信号を識別し、識別した音声をデジタル信号で
出力する音声識別手段2と、モーラの区切り信号を入力
する区切入力部材3を備えている。 この文字入力装置は、コンピュータの入力手段1として
、キーボードに代わって使用される。 音声の入力手段1は、音声信号を電気信号に変換するマ
イクと、マイクからの信号を増幅するマイクアンプとを
備えている。 音声識別手段2には、現在市販されているパーソナルコ
ンピュータをそのまま利用することができる。すなわち
、入力手段lと音声識別手段2とは、パーソナルコンピ
ュータに、マイクとマイクアンプを追加しもので構成で
きる。 音声識別手段2は、マイクアンプから入力されるアナロ
グ信号をデジタル信号に変換して、入力された音声を識
別する。音声識別手段2は、区切入力部材3からのトリ
ガー信号で、音声信号のモーラの区切りを識別する。 音声識別手段2に利用されるパーソナルコンピューター
は汎用のもので充分である。必ずしも、音声識別専用の
文字入力用のものを使用する必要はない。 このため、この発明の文字入力装置は、パーソナルコン
ピュータ上で動くアプリケーションソフトに、文字入力
や指示を入力するのに利用して、キーボードに代わって
音声で入力できる。 音声識別手段2は、入力された音声信号を、区切入力部
材3からのトリガー信号をモーラの句切りとして識別で
きる全てものを利用できる。区切入力部材3でモーラの
句切りが特定された音声入力信号は、音声識別手段2で
正確に認識される。 この発明は、音声識別手段2の音声信号識別方式を特定
しない。音声識別手段2には、現在使用され、あるいは
、これから開発される、区切りが明確にされたモーラを
識別できる全ての方式を採用できる。 区切入力部材3は、音声の発声に合わせて、モーラの区
切りを入力するスイッチを備えている。 このスイッチには、コンピュータに接続されたマウスに
付いているものが最も便利に利用できる。 マウスとはボインテングデバイスのひとつであり、安価
な普及品として多くのコンピュータに接続されている。 区切入力部材3は、音声信号と共に、モーラの区切りを
示すトリガー信号を音声識別手段2に入力する。従って
、区切入力部材3には、マウスボタンに限らず、モーラ
に合わせて、トリガー信号を音声識別手段2に入力でき
る全てのものを使用できる。例えば、キーボードの一部
の特定のキー(スペースバー等)を区切入力部材3のス
イッチとして使用することも可能である。 キーボードに代わフて、音声による文字入力装置を使用
してコンピュータに入力する場合、下記の状態で使用す
ることが可能である。 CR7表示画面の一部に、「窓」と呼ばれる小領域を常
時表示しておく。マウスのカーソルが窓を指した時、キ
ーボードからの入力に代わって、音声による文字入カプ
ログラムを動かすようにする。もちろんアプリケーショ
ンソフトが画面の窓領域に表示要求を出した時、不都合
が生じないよう窓を消去し、アプリケーションの表示が
終了してから再度窓表示するようにすることもできる。 音声による文字入力がなされた後、それにより作られた
データー列がアプリケーションに渡され、アプリケーシ
ョンソフトが継続して実行される。 音声による文字入力装置の使用者は、以下のように操作
して、キーボードに代わって文字を入力する。 ■ まず、音声による文字入力画面をマウスの操作によ
り選択する。 ■ 使用者は発音しながら、発声するモーラに合わせて
、ボン・ボン・ギューとマウスボタンを押す。 ■ 最後のギューとおし込んだ時に、画面には、単語単
位で複数の文字候補が表示される。 ■ 使用者はマウスボタンを押し続けながらマウスを動
かし、単語候補を選択する。マウスボタンを離して、選
択した単語をコンピュータに入力する。 文章の場合これを繰り返し続けながら入力してゆく。 上記のような操作を実現するプログラムは多くある。そ
の内のひとつを具体的に説明する。 また本発明は、本発明者が先に出願した「特願昭62−
199533号公報」に記載された発明と組み合わせる
ことにより、より効果を発揮する。 この実施例においても、前記の公報に開示されている方
式に基づいて説明する。特に周期の検出とフォルマント
検出に関してはこれを引用する。 コンピュータに音声信号入力とボタン入力が接続されて
いる状態を考える。 (音声のサンプル周波数) 音声入力信号はサンプリング周波数1万3千ヘルツ以上
から2万ヘルツ程度の範囲内で選択するのが最もよい。 実施例においては15600ヘルツを使用している。 (音声の入力ビツト数) 音声信号は音声識別手段2のADコンバータ(以下AD
C)で、アナログ信号からデジタル信号に変換される。 要求されるのは、小さな音量の子音が十分な精度で取れ
、大きな音量の母音でオーバーフローを生じないことで
ある。オーバーフローが生じると波形は矩型となり、不
必要な高周波成分を生じさせる。よって音声信号そのま
まを入力する場合、14ビット程度のADコンバータを
使用する。 しかし、マイク入力からDACの間に自動増幅率調整を
するアナログ回路を挿入することで小さな音量の時に増
幅率をあげ、大きな音量の時に増幅率を下げることによ
りDACに必要な精度を8ビット程度まで下げることが
出来る。この工夫はマイクの位置による音量の変化を吸
収し、使いかつてを向上させる。 (音声信号の入力) デジタル量に変換された音声入力は、メモリー上に連続
して入力させる。つまり、配列型と呼ばれるデータ型に
格納する。連続して大きなメモリーが取れない場合や、
逆に巨大なメモリがあって、音声入力を常時し続けつつ
文字変換処理し、古いデータを捨てつつメモリーを利用
したい場合は、アレイチェーンテーブルと呼ばれるテク
ニック、つまり確保したメモリーの最初と大きさを格納
しておき、それを参照しながらメモリーを使うといった
こともするが、配列型の変形と考えれはよい。 入力の実際は、DMAと呼ばれるCPUと別のコントロ
ーラによりサンプリング時間待にメモリーバスを横取り
して入力するか、サンプリング周期毎に割り込みと呼ば
れろ強制分岐によりCPUのプログラム実行時間を定期
的に割当て、プログラムにより入力される。CPUの処
理能力が太きい時は割り込みによる入力でもよいがクロ
ック周波数がlOメガヘルツ程度の汎用16ビツ)CP
UクラスではDMAを使用しなければ処理時間不足にな
る場合がある。 連続して入力出来るメモリーの大きさは1.5秒分以上
あれば十分である。普通の単語はこの時間内に充分発声
出来る。よって音声の入力用メモリーは64キロバイト
程度あればよい。 (ボタン入力) ボタンはボンボンと押された時と、ギューと押された時
の区別をつけなければならない。その区別の為にタイマ
ーを用意し、ボタンが離されている時はクリアし、押さ
れている時に増え、一定量に達した時にギューで、次に
離される迄に達しない時ポンと判断する。これは電子回
路でも可能であるしプログラムアルゴリズムによる実現
も容易である。たとえば、 CPUはボタンのボートを常時監視し、■ ボタンが離
された状態から初めて押された時(前回がオフで今回オ
ン) その時の音声入力メモリーアドレスを記録し、時間の記
録の代替えとする。 ■ 連続して押された時(前回オンで今回オン)現在の
音声入力メモリーアドレスと記録したアドレスとの差よ
り時間を判断する。 という処理をすればよい。 ボンがギューかの区別の時間は、150ミリ秒から40
0ミリ秒の間におけばよい。短すぎるとポンと押したつ
もりがギューになり易いし、長すぎると早口の人をイラ
イラさせる。この時間は使用者により選択させることも
可能であるし、ボンボンの時間間隔から早口かどうかを
判断し自動的に可変することも可能である。つまり、ボ
ンボンの時間間隔程度から、その半分程度にすればよい
のであるから、例えば、設定時間の倍よりボンボンの間
隔が長ければ設定時間を長く、設定時間より短かければ
設定時間を短くすればよい。こうすれば使用者が代わっ
ても自動的に対応出来る。 ボタンのボートの監視は割り込みを利用するかソフトウ
ェア的に20ミリ秒に1回程度の頻度で行う。人間のボ
タン押し精度より、5ミリ秒に1回以」−の頻度は無意
味であるし、これ以下の例えは100ミリに1回ではよ
い結果は得られない。 練習すればボタン押し精度を数ミリ単位に持ってゆくこ
とが出来、その方がプログラム処理上都合がよい。しか
し、初心者や老人にそれを期待出来ない以上、20ミリ
に1回程度で十分である。 訓練していない使用者にとってモーラの始まりとボタン
押しとのタイミングのバラツキは50ミリ秒程度であり
、1秒に5モ一ラ程度の早さであれば十分に入力出来る
ことが分かる。 ボタン入力は、押された時の音声入力データの位置を示
す形、つまりポインタ型配列と呼はれる型に記録してお
くのが最も効率がよい。 (音声信号処理の最初) 処理の最初は必ずボタンを押してから話すことにすれば
、音声信号のサンプリングは最初のボタン押しがあって
から行えばよい。しかし、それは使用者に苦痛を強いる
し、最初の音がす行のような摩擦子音を持つものの場合
に、夕行のような破裂音と誤入力してしまう場合がある
。 そこで、音声信号は常時入力しておき、最初のボタン押
しがあってから、それより一定時間手前よりを必要デー
タとする。一定時間とはボタン押しのバラツキを考えて
50ミリ秒程度以上を取ればよい。サンプリングデータ
にして1000個以上である。 これを実現するには、最初のボタン押しを待っている状
態では、空いているメモリーをリングバッファと呼ばれ
る技術で使用し、ボタンが入力された時にその時点から
1000個以上遡って必要な場所に転送すればよい。空
いてるメモリーには音声信号保存用のメモリーの下位を
利用すればよく、そこに、入力された音声信号を、一番
古いデータを消すように書き込んでゆくのである。 (音声信号処理) 得られた音声信号データは加工しなければならない。そ
の方法は無数にあり、音声信号データの加工方法と本発
明の主旨は無間係である。しかし、本発明は汎用の安価
なマイクロプロセッサのみで音声入力を実現するのが目
的である以上、マイクロプロセッサのみで可能な音声信
号加工方法のひとつを示す必要がある。よって実際の使
用例を簡単に説明する。但し、このことは本発明がマイ
クロプロセッサを使用したもののみに利用されることを
意味しない。 (周期検出) 入力された音声信号より、まず周期検出を行う。 普通に喋られる音声の基本ピッチは80ヘルツから35
0ヘルツまで広い範囲を取りうる。同一の単語中でもl
オクターブ近い周波数シフトを行う場合がある。関西の
方言では「家」のイから工に移る時、音の高さはlオク
ターブ近く下がる。 また、母音のフォルマントの存在が周期検出を非常に難
しくしている。フォルマントとはピッチによりあまり変
動しない共震周波数のことで、基本ピッチの周波数成分
よりフォルマント周波数成分が非常に強く、一番低いフ
ォルマント周波数を基本ピッチと誤り易い。この傾向は
よく訓練された話者になる程激しい。 さらに、女性のような高い声では基本ピッチ成分と一番
低いフォルマント周波数が重なることがあり、問題を難
しくしている。 これらのことと、その対策は昭和63年特許願第199
533号の明細書に記載された周期検出方法に詳しい。 対策を、簡単に説明すると、まず初めに候補になりそう
な箇所をデーター列として得た後、それから適当でない
ものを除くという方法を取っている。 つまり、最初に音声信号波形の頂点のアドレスを求め、
頂点の値が周囲より小さいものを捨て、そのアドレス間
の時間差から周期として適当でないものを除いてゆくと
いう方法である。 周期検出の結果は、音声入力データの位置を示す形、つ
まりポインタ配列型に記録しておく。 (フォルマント算出) 周期が検出される期間は、アイウェオの5母音の期間の
外、「やゆより」の重母音、「ン、な行ま行」の鼻音、
「ら行」等の子音が周期性が高く、外に「が行ざ行だ行
ば行」の濁音にも雑音性信号と周期性信号が混在してい
る。 この内、母音と重母音についてはフォルマント周波数を
求めればよい。フォルマント周波数は、昭和63年特許
願第199533号の明細書に詳しく記載されている通
り、1次のHPF、LPFの比として容易に算出出来る
。昭和63年特許願第199533号を実施し、画面に
フォルマント情報及び音強度を表示することにより、こ
れらについて曖昧性の無い確定入力のレベルで入力出来
ることも利用出来る。馴れた利用者の為にフォルマント
表示を停止可能にすることも容易な工夫である。 (母音解析) 母音は、ボタン入力された区切りの間にある。 十分に強度が大きく、周期性がある期間が連続すればそ
れが母音である。母音の区別はフォルマント周波数だけ
で容易に出来る。周期性があり強度が小さい場合は「ん
」である。 ボタン入力された間が全く無音であれば小文字のrつ」
にする。 ボタン入力された間に周期性のある信号がなく、またそ
の次の子音が「は行さ行」の場合もrつ」にする。 なお、 「ち、つ、し」は特別な場合がある。例えば「
シ」は「さしすせそ」の中でひとつだけ歯に舌が触れず
出す音であり、「ち、つ」は「たちつてと」の中で、他
の子音が破裂音であるのにさ行系の摩擦音が短くなった
ものであり、子音だけで母音が判断出来てしまう。だか
ら人間は不精なものだからこれらの語は子音だけですま
せ、母音を省略してしまう。省略までいかなくとも母音
を小さく発音することが多い。例えば数字の1の「チ」
とか椅子の「ス」によく見られる。これがさらに、1寸
のことを「いつすん」のように子音迄省略し、小文字の
「つ」だけですむようになれば逆に簡単である。母音だ
けの省略は人によって省略したりしなかったりがあるの
で面倒を増す。 これらの母音省略を利用者に許さないことにすれば問題
はない。もし許す場合には、例えば「写せ」という言葉
を「うつせ」のように発音されても判断出来るように工
夫する必要があり、面倒な割に使い勝手はそれほど向上
しない。 (子音解析と文字変換) 子音はボタン入力された付近にある。そこで、その前後
一定時間の範囲を調査し、付近に比べ十分に弱い信号か
、非周期性信号期間があればそこに子音があるとする。 子音の期間が発見されたら、母音の始まる直前から25
6個程度のデータを取り出し、FFT演算を行い絶対値
を求め、128個の周波数情報に変換する。 子音については事前に周波数情報のテーブルを用意し、
それと比較し、差の2乗和とか絶対値和により各テーブ
ルとの類似度を数字化する。類似度の高いものから順に
推定するのである。 コンピュータには読み漢字の辞書データを用意し、推定
された順に検索し、合致したものから順に画面表示する
。その表示から利用者が自分の希望する語を選び確定す
る。 周波数情報のテーブルを、確定した時の子音の場所に今
回発声した周波数情報を書き込むことで話者が換わって
も自動的に学習されるようになる。 この時、音の高さも辞書に書き込むようにし、次回検索
する時は音の高さについても比較するようにすれば、よ
り希望する語がすぐに出るようになる。いわゆるヒツト
率が高くなる訳である。ただし、辞書には最初から音の
高さを書き込まないことが必要で、そうしなければ方言
による発音の差を吸収出来ない。また、音の高さは、周
波数を対数表示つまり音階表示し、高さの差情報でもっ
て比較するのが話者交代に対応出来、有利である。 なお、音の高さの他に音の強さも情報として考えられる
が、音の強さは不安定すぎ、利用してもそれほどヒツト
率をあげられず、逆に体調や話者交代による差が大きす
ぎることになる。 単純に周波数情報で検索するだけでなく、少しの工夫で
より検索の範囲を狭められ、検索が高速になり、かつ確
度が高まる。 母音と母音の間に完全な無音期間が存在すればそれは破
裂音であり、「ば行た行か行」のどれかである。その場
合は、子音の始まりより母音の始まり迄の時間を測定し
、その時間の長さも検索の要素に加える。 母音と母音の間に無音期間に代わり非周期性の−様な弱
い信号があれば「さ行は行」の摩擦音である。 母音と母音の間に無音間間に代わり非常に弱い周y月性
が検出されたら「が行だ行ば行」のいずれかの濁音であ
る。濁音は声帯の振動が止まらない状態で、口も鼻へも
音が抜けない期間があるのでそうなる。ただし、濁音の
中て「ざ母音」の摩擦濁音では、口が摩擦音が生じる程
度に開けられており、音の強度が大きい、また同じガ行
でも鼻濁音の、力°行と書かれる音も鼻への通路が問い
ている分音の強度が大きく、大きさで判断出来る。 つまり、子音期間に比較的長く弱い周期性が検出された
時、その強さが十分に弱ければ「が行だ行は行」より検
索し、それ以外であれば「ざ打力。 行な行ま行」より検索する。 短く弱い周期性が検出されたなら「ヤ行ワ行う行」より
検索する。
【図面の簡単な説明】
第1図はこの発明の一実施例を示す音声による文字入力
装置のブロック線図である。 l・・・・・・入力手段、   2・・・・・・音声識
別手段、3・・・・・・区切入力部材。

Claims (1)

  1. 【特許請求の範囲】 音声を電気信号に変換する入力手段1と、この入力手段
    1から出力される音声信号を識別し、識別した音声をデ
    ジタル信号で出力する音声識別手段2とを備える文字入
    力装置において、 モーラの区切り信号を入力する区切入力部材3を備えて
    おり、この区切入力部材3から入力されるトリガー信号
    が音声識別手段2に入力され、音声識別手段2が区切入
    力部材3からのトリガー信号で、モーラの区切りを識別
    するように構成されたことを特徴とする音声による文字
    入力装置。
JP1075525A 1989-03-27 1989-03-27 音声による文字入力装置 Pending JPH02289004A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1075525A JPH02289004A (ja) 1989-03-27 1989-03-27 音声による文字入力装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1075525A JPH02289004A (ja) 1989-03-27 1989-03-27 音声による文字入力装置

Publications (1)

Publication Number Publication Date
JPH02289004A true JPH02289004A (ja) 1990-11-29

Family

ID=13578733

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1075525A Pending JPH02289004A (ja) 1989-03-27 1989-03-27 音声による文字入力装置

Country Status (1)

Country Link
JP (1) JPH02289004A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008257668A (ja) * 2007-03-31 2008-10-23 Yasushi Nakamoto 音声入力式各国語パーソナルコンピューター、ワードプロセッサ、文書作成ソフトウェア

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5665232A (en) * 1979-10-31 1981-06-02 Toshiba Corp Japanese language information input device
JPS61246869A (ja) * 1985-03-28 1986-11-04 Fujitsu Ltd 音声日本語情報処理装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5665232A (en) * 1979-10-31 1981-06-02 Toshiba Corp Japanese language information input device
JPS61246869A (ja) * 1985-03-28 1986-11-04 Fujitsu Ltd 音声日本語情報処理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008257668A (ja) * 2007-03-31 2008-10-23 Yasushi Nakamoto 音声入力式各国語パーソナルコンピューター、ワードプロセッサ、文書作成ソフトウェア

Similar Documents

Publication Publication Date Title
Forsberg Why is speech recognition difficult
JP7362929B2 (ja) アテンションベースのクロックワーク階層型変分エンコーダ
JPS6147440B2 (ja)
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP3476007B2 (ja) 認識単語登録方法、音声認識方法、音声認識装置、認識単語登録のためのソフトウエア・プロダクトを格納した記憶媒体、音声認識のためのソフトウエア・プロダクトを格納した記憶媒体
JP6127422B2 (ja) 音声認識装置及び方法、並びに、半導体集積回路装置
JP2006251147A (ja) 音声認識方法
JP2010197644A (ja) 音声認識システム
CN116052655A (zh) 音频处理方法、装置、电子设备和可读存储介质
Hanifa et al. Malay speech recognition for different ethnic speakers: an exploratory study
JPH02289004A (ja) 音声による文字入力装置
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム
JP2002268680A (ja) 悪環境下でのキーパッド/音声を用いたハイブリッドな東洋文字認識技術
Green et al. Friendly interfacing to simple speech recognizers
Tunalı A speaker dependent, large vocabulary, isolated word speech recognition system for Turkish
JP2004170466A (ja) 音声認識方法と電子装置
Batlouni et al. Mathifier—Speech recognition of math equations
JP2001056698A (ja) 音声認識装置及びそれに用いられるプログラムを格納した記録媒体
JP2000242295A (ja) 音声認識装置および音声対話装置
JP3568972B2 (ja) 音声合成方法および装置
KR20260044355A (ko) 네거티브 키워드 자동생성 방법 및 장치
Abdeen et al. An architecture for multi-lingual hands-free desktop control system for PC windows
JP2578771B2 (ja) 音声認識装置
KR100777569B1 (ko) 멀티모달을 이용한 음성 인식 방법 및 그 장치
JP2004294659A (ja) 音声認識装置