JPH026098B2 - - Google Patents

Info

Publication number
JPH026098B2
JPH026098B2 JP56011514A JP1151481A JPH026098B2 JP H026098 B2 JPH026098 B2 JP H026098B2 JP 56011514 A JP56011514 A JP 56011514A JP 1151481 A JP1151481 A JP 1151481A JP H026098 B2 JPH026098 B2 JP H026098B2
Authority
JP
Japan
Prior art keywords
character string
kanji
character
dictionary
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP56011514A
Other languages
English (en)
Other versions
JPS57127267A (en
Inventor
Shuji Ichimura
Shunpei Takenaka
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP56011514A priority Critical patent/JPS57127267A/ja
Publication of JPS57127267A publication Critical patent/JPS57127267A/ja
Publication of JPH026098B2 publication Critical patent/JPH026098B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 本発明は、辞書を備えて入力文字列の変換を行
なう文字処理方式に関し、辞書による検索が不可
能の部分を含んだ入力文字列を効率よく処理し得
るようにしたものである。
一般に、この種の文字処理方式において入力文
字列の変換を行なうに当つては、連続した入力文
字列を、例えば仮名漢字変換における漢字区切り
キー、文節区切キー、読点「、」、句点「。」など
の区切りデータ毎に分割して入力単位文字列を順
次に構成し、それら複数の入力単位文字列毎に辞
書を検索してそれぞれ該当する変換文字列を抽出
することによつて、所要の各種文字変換の処理を
行なうようになつている。
しかして、入力文字列を分割した入力単位文字
列中に、誤入力、例えば、キーボードによりデー
タを入力する場合の打鍵ミス、あるいは音声入力
やCCRの場合に辞書を検索しても該当する変換
文字が見当らないものなどがあると、従来は、文
字変換処理の失敗として文字処理を施さず、入力
単位文字列をそのままの形態で出力するようにし
ていた。したがつて、かかる場合には、入力文字
列の区切り方を変換して入力単位文字列の区切り
を変え、もしくは、縮小するなどしたうえで、再
度、入力文字列全体を改めて入力しなければなら
ないという欠点があつた。例えば、「ないかくそ
うりだいり」なる入力文字列を漢字に変換する場
合に「内閣」、「総理」の漢字単語は辞書内にあつ
ても「代理」なる漢字単語が辞書内に存在しない
ときには、仮名文字変換の失敗として「ないかく
そうりだいり」なる入力文字列がそのままの形態
で出力されてしまつていた。このように、例えば
仮名漢字変換の際に入力仮名文字列中の一部に支
障があつた場合にその仮名文字列全体がそのまま
出力されてしまうのを防ぐためには、例えば1単
語毎のように入力単位文字列を最小限に縮小する
か、あらゆる単語を辞書に格納しておかなけらば
ならず、入力操作の手数が増大し、あるいは、辞
書用メモリの必要な記憶容量が著しく増大すると
いう欠点があつた。
本発明の目的は、上述した従来の欠点を除去
し、入力文字列中に辞書の検索が不能の部分があ
つても、その入力文字列がそのままの形態で出力
されることなく、しかも、辞書の必要記憶容量を
増大させることなく、簡単な操作で効率よく文字
変換等を行ない得るようにした文字処理方式を提
供することにある。
そのために、本発明文字処理方式では、入力単
位文字列中に辞書の検索が不能の部分があれば、
その部分のみを入力文字列と同じ形態で出力し、
また、辞書の検索が可能で正常に信号処理を施し
得た部分はその正常な変換文字列を出力する。し
たがつて、入力単位文字列全体を再入力する手間
が省かれ、入力文字列と同じ形態で出力された部
分のみを再処理すれば足り、また、特殊な単語が
入力単位文字列中に存在していても、その単語に
ついてのみ変換出力文字列を修正すれば足りるの
で、辞書の収容語数を過度に増大させる必要がな
くなる。
以下に図面を参照して本発明を詳細に説明す
る。
まず、本発明方式による信号処理装置を仮名漢
字変換を行なう日本語ワードプロセツサとした場
合の構成例を第1図に示す。図示の構成におい
て、1は装置全体のデータを処理するマイクロプ
ロセツサ、2はアドレスバスであつて、各入出力
メモリの記憶番地を指定するアドレス信号を伝送
する。また、3は各種のデータを各構成要素間で
転送するために用いる双方向性のデータバスであ
り、4はコントロールバスであつて、各メモリ装
置等の書込み、読出し、インタラプトの受付け、
データセツトのタイミング等のコントロール信号
を伝送するために用いる。
さらに、5はキーボードであつて、第2図にそ
の構成配置の例を示すように、アルフアベツトキ
ー、平仮名キー、片仮名キー等の文字キー群とと
もに配列した漢字の区切りを指定する漢字区切り
キー5A、および、文章表示面上のカーソルを操
作するカーソルキー群5Bを備えている。
つぎに、6はキーボードコントローラであつ
て、キーボード5から入力されたデータをエンコ
ードするとともに、インタラプト信号をコントロ
ールバス4に送出する。また、7はCRTコント
ローラであつて、CRT表示装置8、キヤラクタ
ジエネレータ9、リフレツシユメモリ10、リフ
レツシユメモリコントローラ11等の制御を行な
う。しかして、CRT表示装置8では、通常のテ
レビジヨン受像機と同様の表示を行なうことがで
き、キヤラクタジエネレータ9では、文字コー
ド、文字パターンの行アドレス等のコード入力に
よつてそれらの文字パターンの該当する行のパタ
ーンを順次に出力し、リフレツシユメモリ10で
は、CRT表示装置8に表示する文字の文字コー
ドを記憶し、CRTコントローラ7からの表示の
指示に応じて繰返し読出した文字コードを出力
し、さらに、リフレツシユメモリコントローラ1
1では、CRTコントローラ7からの指示に応じ
たCRT表示のためのリフレツシユサイクルとマ
イクロプロセツサ1に対するデータの書込み、読
出しを制御する。
つぎに、12は読出し専用メモリ、すなわち、
いわゆるROMであつて、装置全体の制御手順を
記憶するとともに各種の処理手順をも記憶してお
り、13はそのROM12のコントローラであ
る。また、14はランダムアクセスメモリ、すな
わち、いわゆるRAMであつて、各種のデーター
の一時記憶に用い、また、文字変換のための辞書
等の各種情報や処理手順も記憶し、例えば、入力
された仮名文章を記憶するセンテンスバツフアメ
モリSB、辞書の検索で後述する文字列区画から
変換された漢字単語または仮名による仮想単語を
一時記憶するサーチ単語バツフアメモリ
(SWB)、仮名漢字変換の際に生成される複数個
の同音語を記憶する同音語テーブルメモリST、
キーボード5から入力されるキー信号を記憶する
入力データレジスタINDR、カーソルの位置を記
憶するカーソルレジスタCR、CRT表示装置に表
示する文章の先頭の位置を記憶する表示レジスタ
DR、モニタラインの表示面に表示する同音語列
の先頭の位置を記憶するモニタレジスタMR等か
らなつている。さらに、15はRAM14のコン
トローラであり、16は辞書としてのフロツピデ
イスクであり、17はフロツピデイスク16を駆
動するフロツピデイスクドライブ装置であり、1
8はフロツピデイスクドライブコントローラであ
る。また、19はプリンタであり、20はそのプ
リンタ19を制御するプリンタコントローラであ
る。
上述のような各構成要素からなる本発明文字処
理装置は、キーボード5からの入力データにより
作動し、キーボード5からのデータが入力する
と、インターラプト信号がマイクロプロセツサ1
に伝えられて、ROM12内に記憶されている制
御手順に従つて各種の文字処理動作が行なわれ
る。
つぎに、本発明方式による仮名漢字変換の信号
処理手順を表わしたフローチヤートを第3図に示
す。図示の信号処理手順において、例えば「{な
いかくそうり}」なる仮名文字列をキーボード5
のキー操作により入力したものとする。ここで
「{」および「}」は漢字単語の始端および終端を
それぞれ示す記号であり、キーボード5上の漢字
区切りキー5Aを打鍵することによつて入力する
ことができる。かかる区切り記号「{」、「}」によ
つて囲んだ部分が1入力単位の文字列となる。か
かる1入力単位の文字列データが揃つたか否かを
ステツプ31においてチエツクし、揃つていない場
合には、キーボード5からの入力を待期する。ま
た、1入力単位の文字列データが揃つている場合
には、ステツプ32において1入力単位の文字列を
分割して複数の文字列区画に分け、ステツプ33に
おいて各文字列区画に対応する単語が辞書内に記
憶されているか否かのチエツクを行なう。かかる
入力単位文字列の分割はステツプ32において、
第4図に示すようにして行なう。すなわち、さ
ず、入力単位文字列「ないかくそうり」を、第4
図aに示すように、先頭の文字「な」からのつな
がりにより分割して「な」(A−1)、「ない」(A
−2)、「ないか」(A−3)、「ないかく」(A−
4)と、順次に区画内文字数を増加させ文字列区
画を構成し、ステツプ33において、それらの各文
字列区画について、ランダムアクセスメモリ
(RAM)14内の辞書を検索し、それぞれの文
字列区画に対応する漢字単語が登録されているか
否かを次のステツプ34において判別する。
上述のような辞書の検索により見付けた文字列
区画に対応する漢字単語の変換文字列を次のステ
ツプ35においてサーチ単語バツフアメモリSWB
に書込む。ついで、ステツプ36において、入力単
位文字列の終端の文字を含んだ文字列区画に到る
までかかる辞書検索が行なわれたか否かを判別す
る。
すなわち、辞書中に「な」という単語が見つか
つたとすると、まだ、入力単位文字列の終端の文
字「り」は含まれていないので、ステツプ35から
ステツプ32に戻つて「な」に続く文字「い」から
始まる文字列区画を構成し、それらの文字列区画
につきステツプ33において再度辞書検索を行な
う。ついで、ステツプ34において、検索中の
「い」から始まる文字列区画が辞書中に登録され
ていないと判別すると、ステツプ40に移り、「い」
から始まる他の文字列区画があるか否かを判別
し、他の文字列区画があれば再びステツプ32に戻
り、例えば「いか」(B−2)という文字列区画
につき辞書検索を行なう。さらに、文字列区画
「いか」についても辞書中に該当する漢字単語が
見つからないときには、上述と同様に、文字列区
画「いかく」(B−3)について辞書検索を繰返
し行なう。
上述のようにして、入力単位文字列の始端から
順に文字列を分割して仮名文字変換の文字処理を
行ない、例えば、「な(A−1)−いかく(B−
3)−そうり(E−3)」なる文字列区画群に対応
する漢字列「菜威嚇総理」が得られ、しかも、入
力単位文字列の終端「り」も最終文字列区画「そ
うり」中に含まれているので、入力単位文字列に
対応した漢字単語列が、ステツプ36までの文字処
理において一応得られたことになる。そこで、ス
テツプ37に移り、さらに同一入力単位文字列につ
いて他の態様に分割できる他の文字列区画の組合
せが存在し得るか否かを判別する。すなわち、上
述のようにして得た仮名漢字変換出力の漢字単語
列は、先頭の入力文字列区画が「な」のみからな
つているので、他の態様の分割による先頭文字列
区画「ない」、「ないか」、「ないかく」等からなる
文字列区画群について変換出力漢字単語列が存在
し得るか否かを、再びステツプ32に戻つて上述の
信号処理を繰返すことにより検討する。かかる検
討の結果、他の入力文字列区画群に対応した変換
出力漢字単語列、例えば「ない(A−2)−かく
(C−2)−そうり(E−3)」に対応した「内−
角−総理」、また、「ないかく(A−4)−そうり
(E−3)」に対応した「内閣−総理」なる変換出
力漢字単語列が得られたとする。そこで、これら
の各変換出力漢字単語列につき、ステツプ38にお
いて文法的あるいは意味的な判定を行なつた後
に、正当な変換出力漢字単語列をステツプ39によ
り出力する。以上の信号処理におけるサーチ単語
バツフアメモリSWBの記憶内容は第4図aに示
すようになる。
しかして、上述した態様の信号処理は、入力単
位文字列を分割した各文字列区画にそれぞれ対応
した漢字単語がすべて辞書中に登録されていた場
合であるが、例えば、入力キー操作の誤りにより
「{ないかくんうり}」が入力され、この入力単位
文字列について信号処理を行なう場合には、上述
した正常な入力単位文字列に対する信号処理と同
様な態様の信号処理を行なうと、「な」→「く」
までの入力文字列に対する信号処理は、例えば
「内閣」なる漢字単語を得て上述したと同様の信
号処理が行なわれるが、「ん」以降の入力文字列
によつて得られる各文字列区画「ん」、「んう」、
「んうり」、「う」、「うり」、「り」に対応する漢字
単語が辞書中に登録されていないとすると、第3
図示のフローチヤートにおけるステツプ34からス
テツプ40に移る。そのステツプ40において他の態
様の文字列区画、例えば「ないかくん」、「ないか
くんう」、「ないかくんうり」について辞書検索を
行なつても、再度、そのステツプ40に戻つて来る
ことになるので、入力単位文字列について対応す
る漢字単語列や得られる分割の態様がなくなり、
ステツプ41に移ることになる。このステツプ41に
おいては、入力単位文字列中、いずれの文字まで
の文字列区画について対応する漢字単語または漢
字単語列が得られたか、あるいは対応する漢字単
語が得られない文字列は入力単位文字列中のいず
れの部分であるかを判別し、対応する漢字単語が
得られなかつた部分の入力文字列をサーチ単語バ
ツフアメモリSWBに記憶させ、その部分の入力
文字列に対して仮想的に単語を割当てる。
すなわち、まず、「ないかく(A−4)」に続く
文字「ん(E−1)」をステツプ35においてサー
チ単語バツフアメモリSWBに記憶させ、正常の
信号処理におけると同様の信号処理を施した後
に、ステツプ33において、「ん」に続く文字列区
画「う(F−1)」について辞書検索を行なう。
しかして、「う(F−1)」については対応する漢
字単語が得られないので、再びステツプ40を介し
てステツプ41に移るが、ステツプ41において上述
したように仮想単語を割当てるに当つて、すでに
文字「ん」が仮想単語としてサーチ単語バツフア
メモリに記憶させてある。したがつて、さらに
「う」をも仮想単語とすると、仮想単語が連続す
ることになるので、「んう(E−2)」なる文字列
区画に新たに仮想単語を割当ててサーチ単語バツ
フアメモリSWBに入れ直す。ついで、ステツプ
35において、いままでの信号処理を繰返しても、
文字列区画「んう」に続く文字「り」に対応する
漢字単語が辞書に登録されていないために、再
度、ステツプ41に戻つて来ることになる。そのス
テツプ41においては、さらに「んうり(E−3)」
なる仮想単語を割当て、ステツプ35においてサー
チ単語バツフアメモリSWBに書込む。ついで、
ステツプ36において、入力単位文字列の終端文字
「り」が含まれていることが判別されるので、ス
テツプ37に移り、ここまでの信号処理によつて
「内閣(A−4)−んうり(E−3)」なる変換出
力文字列が得られたことになる。
つぎに、同様のキー操作の誤りにより入力単位
文字列「ないかんそうり」が入力された場合に
は、上述の場合と同様に、入力文字列「ないかん
そうり」について登録単語が辞書内に見つかるま
で分割して文字列区画を構成し(第3図ステツプ
32)、分割した「ないか」については対応する
「内科」が辞書に登録されていたので、それを検
索して割り当てサーチバツフアswbに書き込み、
「んそうり」については「んそ」と「うり」、「ん
そう」と「り」、「んそうり」について辞書を検索
して対応する登録漢字単語がないので他の分割方
法で「ん」と「そうり」を得(ステツプ32)、
「ん」については他に分割方法がなく仮想単位と
して割り当て記憶し(ステツプ40、41)「そうり」
について辞書を検索して「総理」なる単語が登録
されていたのでそれを割り当てることにより「内
科ん総理」なる変換出力文字列が得られ、結局サ
ーチ単語バツフアメモリSWBに第4図bおよび
cに示すような変換文字列がそれぞれ記憶され
る。
本発明信号処理方式においては、仮名漢字変換
不能の文字が入力単位文字列中に含まれていて
も、その入力単位文字列が、そのまますべて仮名
文字列の形態のままで変換出力として取出される
ことがなく、仮名と漢字との混在する文字列とし
て出力されるので、その変換出力文字列中の一部
を修正するのみによつて所望の仮名漢字変換出力
文字列が簡単に得られる。
以上の説明においては、本発明信号処理方式を
漢字部指定による仮名漢字変換に適用した実施例
について述べたが、文節指定による仮名漢字変換
にも同様に適用し得ること勿論である。また、外
国語翻訳に適用しても該当単語が辞書に登録され
ていない場合に、本発明によれば、入力文字列の
全文を翻訳不能とすることなく、辞書に登録され
ていない部分以外は正常に翻訳することができ
る。例えば、“I give her a hon.”を翻訳す
ると「私は彼女にhonを与える。」なる翻訳出力
が得られ、前述した仮名漢字変換処理におけると
同様の効果が得られる。
以上の説明から明らかなように、本発明によれ
ば、辞書に含まれていない単語には仮想的な単語
を割当てるという信号処理を施すことにより、通
常の信号処理過程を大きく変更することなく、辞
書に含まれていない部分のみを入力文字列のまま
として他の部分については、正常な信号処理を施
した変換出力文字列を得ることができる。したが
つて、入力単位文字列に誤入力文字が含まれ、あ
るいは、辞書に登録されていない文字もしくは文
字列が含まれていても、入力単位文字列全体を再
度入力し直す必要がなく、一部の変換出力文字列
を修正するだけで所望の変換出力文字列を得るこ
とができ、また、そのための入力文字列の態様と
して1単語毎に区切る必要もなく、あらかじめ用
意すべき辞書の登録単語数を著しく増大させる必
要もないという顕著な効果が得られる。
【図面の簡単な説明】
第1図は本発明による文字信号処理装置の構成
例を示すブロツク線図、第2図は同じくそのキー
ボード上のキー配置例を示す配置図、第3図は同
じくその信号処理の態様の例を示すフローチヤー
ト、第4図a〜cは同じくそのサーチ単語バツフ
アメモリの記憶内容の例をそれぞれ示す線図であ
る。 1……マイクロプロセツサ、2……アドレスバ
ス、3……データバス、4……コントロールバ
ス、5……キーボード、5A……漢字区切りキ
ー、5B……カーソル移動キー、6……キーボー
ドコントローラ、7……CRTコントローラ、8
……CRT表示器、9……キヤラクタジエネレー
タ、10……リフレツシユメモリ、11……リフ
レツシユメモリコントローラ、12……専出し専
用メモリ(ROM)、13……ROMコントロー
ラ、14……ランダムアクセスメモリ(RAM)、
15……RAMコントローラ、16……辞書とし
てのフロツピデイスク、17……フロツピデイス
クドライブ装置、18……フロツピデイスクドラ
イブコントローラ、19……プリンタ、20……
プリンタコントローラ。

Claims (1)

  1. 【特許請求の範囲】 1 仮名データを漢字データに変換する文字処理
    装置において、 仮名データおよび該仮名データに対応する漢字
    データを記憶した辞書手段と、 漢字データに変換すべき仮名データを記憶する
    仮名データ記憶手段と、 前記記憶手段に記憶された仮名データを、前記
    辞書手段を参照して、対応する漢字データが存在
    する毎に分割する分割手段と、 前記分割手段によつて分割を変化させても漢字
    データが存在しない仮名データを仮想単語として
    記憶する記憶手段と、 前記記憶手段に記憶された仮名データとそれに
    引き続く前記仮名データ記憶手段に記憶された仮
    名データとを合わせた仮名データを前記分割手段
    によつて処理させる制御手段と を具えたことを特徴とする文字処理装置。
JP56011514A 1981-01-30 1981-01-30 Character processing system Granted JPS57127267A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56011514A JPS57127267A (en) 1981-01-30 1981-01-30 Character processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56011514A JPS57127267A (en) 1981-01-30 1981-01-30 Character processing system

Publications (2)

Publication Number Publication Date
JPS57127267A JPS57127267A (en) 1982-08-07
JPH026098B2 true JPH026098B2 (ja) 1990-02-07

Family

ID=11780108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56011514A Granted JPS57127267A (en) 1981-01-30 1981-01-30 Character processing system

Country Status (1)

Country Link
JP (1) JPS57127267A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0724055B2 (ja) * 1984-07-31 1995-03-15 株式会社日立製作所 単語分割処理方法
JPH0630098B2 (ja) * 1984-09-17 1994-04-20 セイコーエプソン株式会社 かな漢字変換装置
CN1041356C (zh) * 1992-03-24 1998-12-23 松下电器产业株式会社 数据检索装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS584378B2 (ja) * 1978-04-21 1983-01-26 株式会社東芝 カナ漢字変換装置
JPS54139355A (en) * 1978-04-21 1979-10-29 Agency Of Ind Science & Technol Word separator
JPS5549771A (en) * 1978-10-02 1980-04-10 Canon Inc Character processing unit

Also Published As

Publication number Publication date
JPS57127267A (en) 1982-08-07

Similar Documents

Publication Publication Date Title
EP0233996B1 (en) Process in an information processing system for compaction and replacement of phrases
EP0813156A2 (en) Method and apparatus for language translation
JPS62203273A (ja) 機械翻訳システム
EP0222572A2 (en) Stenographic translation systems and methods
JPH026098B2 (ja)
JP3290451B2 (ja) 電子辞書
JPS5843062A (ja) かな漢字辞書システム
JPS6246029B2 (ja)
JP2959769B2 (ja) 日本語文字列の形態素解析方法及び装置
JPS6371767A (ja) 文書作成装置
JP2603269B2 (ja) 文字処理装置
JP5229448B2 (ja) 読み付与装置、およびプログラム
JPH0260022B2 (ja)
JPS5899829A (ja) 誤り文字検出・修正支援装置
JPS6198475A (ja) 日本語文章入力装置
JPH03137768A (ja) 文書処理装置
JPH06119379A (ja) ふりがな機能つき機械翻訳装置および方法
JPS59161722A (ja) 文字処理装置
JPH04158477A (ja) 機械翻訳装置
JPS6265162A (ja) かな漢字変換方法及び装置
JPH0341551A (ja) 文字入力装置
JPS6252908B2 (ja)
JPH0131229B2 (ja)
JPH0628338A (ja) 文章作成装置
JPH01237877A (ja) 漢字変換方式