JPH0221021B2

JPH0221021B2 -

Info

Publication number: JPH0221021B2
Application number: JP58236836A
Authority: JP
Inventors: Hiromi Saito; Kimito Takeda; Tsutomu Kawada
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1983-12-15
Filing date: 1983-12-15
Publication date: 1990-05-11
Also published as: JPS60128559A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は例えば文単位として入力されるような
長さの長い連続仮名文字系列を適宜文節単位に区
切りながら仮名漢字変換を行つて漢字仮名混じり
の日本語文章を効果的に作成することのできる仮
名漢字変換装置に関する。

〔発明の技術的背景とその問題点〕

従来の日本語ワードプロセツサ等における仮名
漢字入力の単位は、一般に単一文節に限られてお
り、また名詞の複合語の入力においても高々数単
位程度に限定されているものが殆んどである。従
つて、この種の装置を用いて日本語文章を入力作
成する場合、単語あるいは文節の単位を常に意識
しなければならず、オペレータにとつて大きな負
担となつた。そこで最近では文章入力の単位を制
限することなく、文単位の読み仮名列、所謂ベタ
文を入力し、このベタ文に対して仮名漢字変換処
理を行う研究が種々試みられている。それらは具
体的には、例えば文節解析処理を再帰的に行うこ
とでその目的を達成している。然し乍ら、この為
には相当長い処理時間を必要とし、またバツフア
メモリを大量に消費せざるを得ないという問題が
あつた。また処理時間およびメモリ量を制限して
文節解析処理のアルゴリズムを簡素化することが
考えられているが、その変換処理精度が劣化する
ことが否めなかつた。しかも、このようにして得
られた変換結果をどのように表示出力すれば、そ
の同音語選択の指示を扱い易くできるかが大きな
課題となつていた。

例えば、「ざんだかをもとめる」なる文字列を
仮名入力した場合、「ざんだかを／もとめる」と
機械的に文節分割ができることが予想されるが、
あるいは「ざんだかをも／とめる」という分割形
式も文法的にありうる。この場合、一般に経験的
にみて所謂最長一致するものが確からしいと考え
られるが、このような経験則だけに基いて、常に
入力文字列の前方から文節解析処理を行い、例え
ば「残高をも／止める」だけを抽出したのではそ
の変換精度が著しく悪くなる。従つて、結局「残
高をも／止める」、及び「残高を／求める」等の
複数の変換候補を抽出し、その選択をオペレータ
の判断に委ねることが必要となる。

また、「けいさんしき」という入力に対しても、
もし装置内の辞書に「計算式」という単語が登録
されていないとすると、結果は同様にして「計
算／式」、「計算し／木」と云うように複数の変換
結果が生じる。更には「毛／遺産／式」のような
変換結果も生じる。更には仮に「るけい＝“流
刑”」という単語が辞書登録されているとすれば、
「残高を／求め／流刑／算式」という候補も出現
する。

ところで、このような入力に対する多様な変換
結果の中で、最も確からしいものを第１順位に出
力するための評価処理として、例えば、全体を構
成する文節数あるいは単語数の少ない順に優先度
を決定する方法が考えられている。具体的には、
例えば「こうがくしよとく」の入力に対して、
「高額／所得」を「項が／句／所得」や「項が／
区処と／句」より確からしいと判定するものであ
る。尚、この場合、同音語については使用頻度の
大なる単語から優先して出力するのが自然であ
り、好ましい。しかし、全体を構成する文節数が
同じであつてもその区切り方が異なる場合もあ
り、また変換漏れを少なくするために構成数の多
い解析結果をも含めて出力する場合には、その取
扱うデータ構造が複雑になる。しかもオペレータ
がより選択操作を行い易くする為に、それらの複
数の変換結果をどのように表示出力するかが問題
となる。例えば各々の文節内の同音語部分のみを
輝度変更等の属性を付加して示すだけでは、異な
る文節の区切りを持つ他の文節系列が存在するの
か否かが判らない。更には、同音異議語の選択の
他に、同音異文節構造を選択する必要があること
も有り、問題が多かつた。

〔発明の目的〕

本発明はこのような事情を考慮してなされたも
ので、その目的とするところは、所謂ベタ文のよ
うに長さの長い入力文字列に対する複数の変換候
補単位に対する結果を、判り易く表示出力して文
書作成の効率を図り得る仮名漢字変換装置を提供
することにある。

〔発明の概要〕

本発明は、複数の単語を辞書登録した辞書検索
部を用いて一連の入力文字列からその文節単位の
系列を抽出し、これらの各文節をその文節の読み
に対応する仮名漢字混じり表記にそれぞれ変換し
て出力するに際し、前記入力文字列に対する複数
の文節系列の相互に異なる区切り位置の中で最も
前方にある文節区切り位置を基準点として定め、
この基準点を含む文節の該基準点以降に存在する
文字部分である該文節の付属語部分と、この文節
に続く次の文節とを結合し、これを１つの変換候
補の単位として仮名漢字変換出力を行うようにし
たことを特徴とするものである。

〔発明の効果〕

かくして本発明によれば、例えば上述した例の
「ざんだかをもとめるけいさんしき」という入力
に対して、「残高をも／止める」や「残高を／求
める」のように文節系列の候補を作成し、その変
換候補結果を「［残高］を［も止］める」、「［残
高］を［求］める」等のように求め、これを順に
表示出力するので、同音次候補の選択処理を非常
に簡単化することができる。即ち、例えば、前記
［も止］の部分については、実際上「も止」とい
う単語は存在しないが、その読み仮名である「も
と」の部分に他の同音単語情報や別表記語が存在
している、つまり同じ読みに対応する他の候補が
存在することが示され、文節内の同音語の選択と
同様に同音語次候補の切り換え指示により、異構
造文節列の選択操作を簡易に、且つ効率良く行う
ことができる。従つて、異構造文節列の中の別の
候補を選択する為の特殊な指示キーを設けること
なく、従来の同音語次候補キーを用いてその選択
処理を効率良く行うことが可能となる等の絶大な
る効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例装置に
つき説明する。

第１図は実施例装置の概略構成図である。入力
装置１は鍵盤装置や音声認識装置、仮名文字読取
り装置等からなる。この入力装置１を介して入力
される読みを表わす文字列（第１の文字列）は、
例えば仮名文字コードに変換された後、仮名漢字
変換部２に与えられる。尚、上記読みを表わす第
１の文字列は、例えば平仮名、片仮名、ローマ字
等として示されるものである。

仮名漢字変換部２は、例えばブロツク抽出部２
ａ、総文節系列抽出部２ｂ、文節抽出部２ｃ、お
よび変換辞書３により構成される。この仮名漢字
変換部２は、前記入力装置１より転送された第１
の文字列に対して、それに該当する漢字混じりの
表示文字列からなる第２の文字列を求め、これを
出力制御部４に与えている。ブロツク抽出部２ａ
は、上記第１の文字列に対して、特に長さの長い
入力文字列を能率よく解析する為に設けられたも
のでり、予め設定されている数値Ｎ、例えばＮ＝
４として、Ｎ文節以内の文節系列として対応づけ
る文節解析結果を求めるもので、対応した文節解
析結果がない時には、上記第１の入力文字列を幾
つかのブロツク区間に分割している。そしてこの
ようにして分割した各ブロツクの読み仮名列を総
文節系列抽出部２ｂに送り、またこの総文節系列
抽出部２ｂで求められた前記各ブロツクについて
の仮名漢字変換結果、即ち第２の文字列を順次出
力制御部４に送つている。

上記総文節系列抽出部２ｂは、文節抽出部２ｃ
を用いて前記第１の文字列を分割可能な文節系列
に分割し、これらの文節系列についてそれぞれ求
められた仮名漢字混り表記の変換結果を上記ブロ
ツク抽出部２ａに出力するものである。文節系列
は前記入力文字列の文節分割可能な全ての組合せ
について求められ、例えば優先度の評価によつ
て、その確からしい候補の順に順位付されたの
ち、その第１順位のものから順に出力される。
尚、優先度の評価としては、一般に文節個数が少
ないもののほうが入力目的とする漢字混り文に対
応している傾向が高いことから、例えば文節個数
の少ない文節系列を優先して出力する等して行わ
れる。

文節抽出部２ｃは、入力された文字コード列と
変換辞書３に予め登録された文字列（単語）との
間で照合検索を行い、上記第１の文字列に該当す
る漢字混りの表記文字からなる第２の文字列を求
めている。変換辞書３は、例えば第２図にそのメ
モリ構成例を示すように、入力見出し表領域３
ａ、出力見出し表領域３ｂおよび品詞領域３ｃと
を備え、上記入力見出し表領域３ａに読みを表わ
す第１の文字列を格納し、またこの第１の文字列
に対応する漢字混じりの表記文字からなる第２の
文字列を上記出力見出し表領域３ｂに格納したも
のとなつている。そして品詞領域３ｃには、上記
第１および第２の文字列に対する品詞の情報を格
納している。

しかして文節抽出部２ｃは、与えられた入力文
字列に対して、例えば公知の前方最長一致法によ
り、変換辞書３の入力見出し表領域３ａに予め登
録されている文字列（単語）を検索し、その活用
語尾や付属語の解析等を行つて、前記入力文字列
の頭字より最も長く一致した入力文字列部分を文
節抽出結果として求めている。この時、上記の活
用語尾の解析は品詞領域３ｃに格納された品詞項
目に基いて行われる。そして、この解析によつて
見出された文節抽出結果に対応する漢字混りの表
記文字からなる第２の文字列を前記出力見出し表
領域３ｂから読出し、これを出力している。更に
このとき、前記総文節系列抽出部２ｂは、前記文
節抽出部２ｃへの入力単位（文節抽出結果）を、
前記入力文字列に対して定められたブロツク区間
における文節分割可能な組合せについて様々に変
化させ、その中の最も確からしい文節系列を求め
ている。

仮名漢字変換部２は、このような文節系列に対
して求められた仮名漢字混じり表記からなる第２
の文字列を出力制御部４の出力データメモリ５に
転送している。出力制御部４はこれらのデータを
所定の表示出力形式に変換し、文書表示用メモリ
６を介して表示装置７に出力している。

ここで前記出力データメモリ５は第３図ａに示
すように組合せテーブル５ａ、マツピングテーブ
ル５ｂ、見出し語テーブル５ｃからなり、上記辞
書検索部２によつて変換された見出し語を、各組
合せの構造と併わせて記憶するものである。この
例は第４図ａに示す日本語文の例をデータ格納構
造を表現したもので、組合せテーブル５ａは、前
記入力文字列の文節構造に対応して番号付けされ
た各文節の並びを記述している。このテーブル５
ａの行は文節構造の解釈上の種類を、列は個々の
文節構造における文節の繋がりを順に記述したも
のとなつている。即ち、最初のブロツクでは候補
が１種類、２番目のブロツクは２種類、３番目は
３種類の系列候補が有ることが示される。またこ
れらの各数値はマツピングテーブル５ｂの要素番
号を示している。また各文節単位毎に存在する同
音異議語の見出し語をテーブル５ｃでグループ化
して記憶し、マツピングテーブル５ｂの各要素を
ポインタとして、見出し語テーブル５ｃの各グル
ープをそれぞれ記述している。このようにして入
力の読み仮名位置との対応関係も同時に記述して
いる。

第３図ｂは前記出力データメモリ６の内容を表
示装置７に出力する為の文字表示情報を記憶する
前記文書表示用メモリ６のテーブル構造である。
このメモリ６は前記出力データメモリ５の内容に
基いて、同じ読み仮名位置にある同音意義語や異
構造文節列について比較照合し、先ず入力文字列
に対する全ての文節系列候補中の共通の文節区切
り箇所で前記入力文字列を分割し、さらに共通の
付属語文字部分および唯一通り求められる変換結
果部分とをそれぞれ他の部分から切離して記述し
ている。また、ある文節の頭部の見出し語文字に
対して、同じ読み仮名を付属語部分に持つ変換候
補結果については、先の文節頭部に合せて区切
り、区切られた後ろ側の付属語部分の文字列を次
に続く文節に結合させて記述している。即ち、或
る文節系列の文節における付属語の文字であつて
も、対応する同じ読みの部分が他の文節系列中に
おいて自立語の始りの一部になつていれば、その
付属語の文字は次に続く文節の変換候補に結合さ
せて記述している。これらの同音語は後述するよ
うに、その表示属性を通常の表示属性とは異なら
せて表示出力される。第５図ａ〜ｄはその表示例
であり、斜線部が表示属性の異なりを示してい
る。この表示属性の変更は、例えば表示文字の反
転、ブリンク、輝度変更、下線付等によつて行わ
れる。

次に第３図に示す仮名文字入力例を用いて、上
記仮名漢字変換部２における仮名漢字変換処理に
つき説明する。

ブロツク抽出部２ａは入力された文字系列の先
頭から最大Ｎ文節の系列を可能な限り求めてい
る。ここでＮを例えば４とすると第４図ａに示す
例では、先づ入力系列全体を文節抽出部２ｃに入
力し、最長一致法により「そして」を第１の文節
結果として得る。次にこの文節切れ目以降を始点
（次の文節開始文字位置）として同様に最長一致
結果を求め、「こんごのと」なる文節を得る。こ
のような処理を順に繰返して第１の文節系列候補
「そして／こんごのと／うしは／かいていし」を
第４図ｂ中の項目「ア」の如く得る。次にこの項
目「ア」で得られた文節系列と別の文節系列を得
るために、第３番目の文節結果「うしは」の最後
の１文字、つまりその文節において付属語として
解析される「は」を削除してこれを文節抽出部２
ｃに送り、同様にして最長一致結果「うし」なる
文節を得、続く「は」で始まる文節として「は」
を求める。以下、同様にして上記第３、第２およ
び第１の文節により短い文節が得られる都度、更
にこれらに続く別の文節列を順次求める。このよ
うにして入力文字列に対して文節分割可能な全て
の４文節系列を第４図ｂに示す如く求める。尚こ
の時、対応する漢字混じりの見出し語候補（第２
の文字列）も同時に求めておく。

次にこれらの系列のうちで、その全体の長さが
最長となる候補（文節系列）だけに着目する。こ
のことは先に示したように入力による文節数が最
小となる系列が、入力目的とする変換結果に合つ
ている傾向が高いと云うことに立脚している。こ
のことは、一つのブロツクの文節構成数が最小で
あればよく、また文節の構成数が同じであれば、
そのブロツクはより長い長さをもつことを意味し
ている。

しかして前記第４図ｂに示される結果の中で、
最長の文節系列となるものは、項目「ア」と項目
「ウ」に示されるものである。そこで次にこれら
文節系列が共通に文節の切れ目をもつている個所
を見つける。この例では「そして／〜」と「〜
は／〜」とが共通の文節区切り箇所として求めら
れる。ブロツク抽出部２ａはこのような２つの位
置をブロツクの区切りと判定するもので、第１ブ
ロツク区間を「そして」、第２ブロツク区間を
「こんごのとうしは」とする。そして順次これら
の区間の文字列を総文節列解析部２ｂに解析さ
せ、それらの変換結果を出力制御部４へ送つてい
る。この結果、上記第１のブロツク区間は「そし
て」のみの候補となり、この情報が先ず出力制御
部４へ送られる。尚、この場合、他に同音語が無
いので、そのまま文書中の文字データ（変換結
果）として通常形態で表示される。しかる後、第
２ブロツク区間の解析が行われる。

ここで、前記総文節列解析部２ｂは、与えられ
たブロツク区間の読みに対応した文字系列を総当
りで求めるものであるが、実際には第４図ｂに示
すように既に文節系列が求められているので、そ
の指定区間の範囲に対応するものだけ選べば十分
である。そして優先度の評価として、例えば文節
数最小の構成の候補だけを選ぶと、その解析結果
は第４図ｄの項目「」のようになる。勿論、そ
の他の文節候補列も出力データメモリ５に与えて
おくようにしてもよい。例えば「今後の／問う／
誌は」をも、出力結果に加えることも可能であ
る。

さて、ブロツク抽出部２ａは、次に前記入力文
字系列のうちで未だにブロツクが決定していない
残りの部分、つまり「かいていしげ……」なる文
字列について、同様の方法でブロツクの単位を求
め、第４図ｄの項目「」に示す如き変換結果を
求める。続いて変換結果「限つて」を第３図ｄの
項目「」のように求め、その入力系列全体に対
する変換処理を終了することになる。

以上の変換結果は各ブロツク毎に出力制御部４
へ送られる。出力制御部４は出力データメモリ５
に格納された各ブロツク毎のデータをそれぞれ変
換し、文書表示用メモリ６に順次スタツクし、表
示装置７に出力する。即ち、出力制御部４では文
書表示用データを前記第３図ｂの如く作成し、こ
れを先ず第４図ａに示すように表示装置７に出力
している。上記の例では、「今後のと」の文節候
補に対しては、自立語部が、“今後”として、付
属語部が“のと”として分離される。文節候補
「牛は」も同様に“牛”と“は”に分離される。
また第２文節系列候補では自立語部が“今後”、
付属語部が“の”として分離され、「投資は」は
“投資”と“は”とに分離される。従つてこの場
合、“の”と“は”は共に共通の付属語文字であ
り、また“今後”には他に同音語がないので、こ
れらの文字部分については通常の表示形態で表示
される。また他の文字については複数の変換候補
（同音異字）が存在することから、これを強調し
て示すために例えば高輝度で表示される。つま
り、文節「今後のと」における“と”は付属語で
はあるが、次の文節単語「牛」と共に扱われる。

従つて、表示装置７には、「そして今後の［と
牛］は［改定し限界発に］限つて」と表示される
ことになる。尚、［］内は高輝度表示される文
字を示している。

ここで目的とする見出し語の選択の為に、入力
装置１には例えば第１図中１ａに示すように選択
キーが設けられている。この選択キー１ａは、例
えば第５図に示すように［と牛］の部分にカーソ
ル１ｂを合わせ、この状態で前記選択キー１ａが
操作されたとき、その表示を次の候補に変更する
役割を担うものである。従つてこの場合には、第
４図ａに示されるテーブル５ａの第１行目の構造
に代えて、第２行目に示す文節列構造、即ち「今
後の［投資］は」が第５図ｂに示す如く出力表示
される。そして、更に前記選択キー１ａを操作し
ていくと［投資］が［闘志］、［透視］の如く、順
次他の同音語に変更され、再び元の［と牛］の表
示に戻ることになる。尚、これらの動作は前記第
３図ｂに示した文書表示用メモリ６に格納された
データに基づいて行われる。

ところで前記第３図ｂに示される文書対応テー
ブル６ａは、表示装置７の表示画面上の座標値ｉ
１〜ｉ７と出力データ（変換結果）との対応を表
したものである。表示語テーブル６ｂは出力デー
タの内容を示している。しかして変換候補の表示
は、先ず文書対応テーブル６ａのデータｉ３によ
つて表示語テーブル６ｂの「と牛」が指示さ
れ、これが表示される。しかる後、前記選択キー
１ａが操作されると、データｉ３によつてそのブ
ロツクにおける次の候補「投資」にポインタが
進められ、表示が切換えられる。このようにして
ポインタが進められて「凍死」まで表示が切替
えられると、その次には再び「と牛」に戻るよ
うに制御されている。この表示語テーブル６ｂに
示されるように、前述したように文節単位に基い
て解析された複数の変換候補結果は、同音異字の
関係に従つて整理され、部分的にその区切りの単
位が変更されている。同様にして「かいていしげ
…」なる文字列についても、自立語部が“改定”、
付属語部が“し”として扱われ、“し”の部分に
ついては他に“資源”という文節単語が存在して
いるので、この“し”は次の文節“限界”と結合
して出力される。続く「発に」までは全候補が共
通に持つ単語の区切りがないので、これらはまと
めて出力される。なお機械処理上、自立語は１単
語毎に文節として扱われる。

第６図乃至第９図は本装置の上述した処理の流
れを示すものである。第６図に示す制御フローに
おいて、入力装置１からから得られる入力キーコ
ードは常時調べられており、その入力コードが日
本語文の読みに対応する仮名文字コードであれ
ば、順次スタツクに蓄えられる。また上記入力コ
ードが変換要求を示すものであれば第７図に示さ
れる仮名漢字変換処理が行われる。この変換要求
は、入力装置が変換要求キーを有している場合、
オペレータが適当な長さの文字列を入力後、この
変換要求キーを打鍵することにより発生される。
また入力装置が変換要求キーを有するか否かに拘
らず、入力文字が例えば句読点を示すコードであ
つたことを検出した場合には、上記変換要求を自
動的に発生することが望ましい。

また入力コードが前記選択キー１ａに対応した
ものであれば、第８図に示す同音語選択処理を行
ない、その他のコード、例えば訂正、挿入、削除
等のコードの場合には既に表示された文章につい
て編集処理が行なわれる。また第９図は本発明に
おける第７図中の変換候補の編集出力処理を示す
ものである。

尚、一般にワードプロセツサでは、同音語の選
択を各変換結果毎に逐次実行するものと、例えば
１頁分の文字列の入力後に一括して選択するもの
が知られているが、本発明装置にあつては、その
いずれの方式であつてもよい。

以上説明したように本装置によれば、比較的長
い入力仮名文字列を解析し、仮名漢字混りの文字
列列に変換して日本語文章を作成していく際、そ
の結果として生ずる多数の文節列候補を、単純明
快に表示することができ、オペレータの同音語選
択の操作の能率を上げることができる。つまり、
一つの文節候補における同音語の選択ばかりでは
なく、文節区切りの異なる異文節系列の候補につ
いても前述したように一括して同音字の選択を行
い得る。従つて、同音異議語および同音異文節の
変換候補文字から目的とする仮名漢字変換文字を
簡易に選択して日本語文章を極めて効率良く作成
することができる。またオペレータの負担を大幅
に軽減することができ、その実用的利点は絶大で
ある。

尚、本発明は上記実施例に限定されるものでは
ない。例えば、表示出力用の同音語を順次文書中
表示することに代えて、同音語グループの語句を
文書の下方に表示し、これをオペレータが選択す
るようにしても良い。また同音語グループの中か
ら目的とする文字が選ばれないときには、その後
の変換結果を表示しないようにして、その選択を
促すようにしても良い。要するに本発明はその要
旨を逸脱しない範囲で種々変形して実施すること
ができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す装置概略構成
図、第２図は変換辞書のメモリの構成を示す図、
第３図は出力データメモリと文書表示用メモリの
構成を示す図、第４図は入力文字列とその変換処
理を示す図、第５図は変換候補の表示例を示す
図、第６図乃至第９図は変換処理の制御フローの
一例を示す図である。１…入力装置、２…仮名漢字変換部、３…変換
辞書、４…出力制御部、５…出力データメモリ、
６…制御テーブル、７…表示装置、１ａ…第１の
選択キー、２ａ…ブロツク抽出部、２ｂ…総文節
系列抽出部、２ｃ…文節抽出部、３ａ…入力見出
し表領域、３ｂ…出力見出し表領域、６ａ…文書
対応テーブル、６ｂ…表示語テーブル。

Claims

【特許請求の範囲】１一連の入力文字列を得るための入力装置と、
複数の単語を辞書登録した辞書検索部と、この辞
書検索部を用いて前記入力文字列より文節単位の
系列を抽出する文節系列抽出部と、この文節系列
抽出部によつて求められた各々の文節を該文節の
読みに対応する仮名漢字混じり表記にそれぞれ変
換して出力する結果出力部とを具備し、前記結果出力部は、前記文節系列抽出部が入力
文字列に対して複数の文節系列を得たとき、これ
らの文節系列の相互に異なる区切り位置の中で最
も前方にある文節区切り位置を基準点として定
め、この基準点を文節区切り位置としない文節系
列に対しては該基準点の直後に存在する付属語と
この付属語に続いて存在する少くとも自立語から
なる文節とを結合して１つの変換候補の単位と
し、前記基準点を文節区切り位置とする文節系列
に対しては該基準点の直後に存在する少くとも自
立語からなる文節を１つの変換候補の単位として
仮名漢字変換出力を行なうことを特徴とする仮名
漢字変換装置。２結果出力部は、基準点直後の変換候補の単位
を反転、ブリンク、輝度変更、あるいは下線付け
により表示属性の変更を行つて表示出力するもの
である特許請求の範囲第１項記載の仮名漢字変換
装置。３基準点直後の変換候補単位の表示結果は、同
音異語次候補への切換え要求に対して、共通の基
準点を有する複数の変換候補単位の仮名漢字変換
結果を順に出力するものである特許請求の範囲第
１項記載の仮名漢字変換装置。