JPH0836571A

JPH0836571A - 文書処理装置

Info

Publication number: JPH0836571A
Application number: JP6169250A
Authority: JP
Inventors: Takao Ikoma; 孝夫生駒
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1994-07-21
Filing date: 1994-07-21
Publication date: 1996-02-06
Anticipated expiration: 2019-08-11
Also published as: JP3552750B2

Abstract

(57)【要約】【目的】ペン入力による漢字仮名交じりの文字列や、
一度変換処理を行っている漢字仮名交じりの文字列を、
漢字と仮名のすべての組み合わせを登録した大規模な辞
書を用いることなく、変換することを目的とする。【構成】漢字仮名交じりの変換対象文字列１を文字列
を漢字仮名変換２によってすべて仮名である中間仮名文
字列群３に変換し、それを仮名漢字変換４によって、変
換することによって、一次候補文字列群５を生成する。
前記一次候補文字列群と変換対象文字列１を照合処理６
によって照合し、条件を満たしているものを最終候補文
字列群７とする。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、ペン入力機能をもつ
ワードプロセッサ、コンピュータ、携帯情報端末など、
手書き文字入力および手書き文字認識機能をもち、直接
漢字を入力することが可能である日本語文処理装置、あ
るいは、一般のコンピュータおよびワードプロセッサな
どで、一度入力した日本語テキストを事後に再度変換で
きる機能をもつ文書処理装置に関する。

【０００２】

【従来の技術】現在、ペンなどによるペン入力機能を有
するワードプロセッサ、コンピュータなどが数多く存在
する。図９はペン入力機能を有する携帯情報端末の一例
である。表示部Ａは表示一体型のタブレットである。該
表示部Ａに入力手段である入力用ペンＢにより入力する
ことができる。図１０は入力中の画面の例である。記入
枠ＣにペンＢで入力することにより、ペン入力された漢
字、仮名、英数字等を認識し、認識された文字が入力行
Ｄに表示される。入力枠はどの枠（Ｃ１〜４）に書いて
もよく、認識された文字は記入枠から消えるため、空い
ている枠に順次入力していけばよく、書いた順に入力行
に表示される。

【０００３】従来のキーボード入力方式ではひらがなか
ら漢字に変換を行っていたが、ペン入力方式において
は、漢字も直接入力が可能である。しかし、漢字を混在
させた入力や、いったん変換済みの仮名漢字文節のテキ
ストを変換することはできない。漢字の前後の仮名部分
ごとに個別に変換を行う場合、例えば「公えん」と入力
して、ひらがな部の「公えん」の部分を変換した場合、
変換単位が短く、直前の文字「公」となんら関係のない
ものも候補としてしまうため、変換精度が非常に悪い。

【０００４】特公平４−３５７８５において、漢字と仮
名の混在する見出し語ごとに対応する漢字を格納した専
用の辞書を用いることにより、入力させた仮名漢字まじ
り文字列を変換する方式が開示されている。この方式に
おいて用いられる辞書の例を図８に示す。仮名漢字変換
辞書の見出し語に漢字をも含んだ文字列も記述した辞書
を用いている。しかし、「日本語」に対する見出し語に
関して、すべての漢字と仮名の組み合わせを考えると
「にほんご」「日ほんご」「に本ご」「にほん語」「日
本ご」「日ほん語」「に本語」の７つが必要になる。変
換結果である漢字列の文字数をＲとすると、見出し語数
は２^R−１となり膨大な量に膨れ上がる。このためかな
り大規模な辞書を用意することが必要となり、検索効
率、メンテナンスの負荷などの問題があった。

【０００５】

【発明が解決しようとする課題】ペン入力以外の入力方
式として一般的にはキーボードによる入力方式がある。
仮名漢字まじりの日本語文を入力する手段として、キー
ボードより入力文をひらがなで入力した後に、［変換］
キーなどの操作により、ひらがな文字列を漢字に変換す
るといった方式があった。

【０００６】ペン入力方式においては漢字を直接入力す
ることが可能であるため、例えば「公園」という文字列
を入力したい場合、直接前述の記入枠Ｃに「公園」と入
力し、認識させることができるが、実際は「園」という
漢字は画数も多く、ユーザとしては「公えん」と入力し
て、変換要求を行うと、「公園」と変換してくれると非
常に都合がよい。また、一般の入力方式による機器にお
いても、既に入力済みの日本語のテキストの一部もしく
は全部を再度、漢字に変換したいケースがありうる。Ｏ
ＣＲ(Optical Character Reader)から入力された文章の
一部に再変換を行いたい場合も考えられる。そのために
は従来の仮名のみからなる文字列を変換の対象とするの
ではなく、漢字も含んだ、仮名漢字まじりの文字列から
変換を行えるようにする必要がある。

【０００７】特公平４−３５７８５において、仮名漢字
まじりの文字列を変換する方式として、従来の仮名漢字
変換辞書の見出し語に漢字をも含んだ文字列も記述した
辞書を用いる手法が考案されている。しかし、この方式
では辞書の項目数が非常に大きくなってしまう。また、
上記の例でも明らかなように、可能なすべての組み合わ
せのうち、ほとんど参照されることのないであろう見出
し語（例えば「に本ご」など）を多く含んだ辞書になっ
てしまう一方、使われる可能性のある見出し語に限定し
て登録するとなると、その境界線を引く作業は容易では
ない。そのような辞書の作成には多大な負荷がかかるう
えに、さらに辞書の更新や利用者による単語登録などに
おいて、他の辞書と一貫性を持たせるためには多大な労
力を要することが考えられる。

【０００８】本発明では、このような巨大な辞書をもつ
必要なく、漢字を含んだ漢字を含んだ文字列を一度、ひ
らがなのみの文字列に変換するという手法を用いること
により、仮名漢字まじりの文字列を変換する。

【０００９】

【課題を解決するための手段】請求項１の発明におい
て、変換対象文字列である仮名漢字まじり文字列を漢字
を含まない文字列に変換し、中間仮名文字列を得る漢字
仮名変換手段と、前記中間仮名文字列を仮名漢字まじり
の文字列に変換し、一次候補文字列を得る仮名漢字変換
手段、および、前記一次候補文字列と変換対象文字列を
照合する。

【００１０】請求項２の発明において、変換対象文字列
中で漢字の連続する部分文字列はそのまま一次候補文字
列に保存されており、かつ、変換対象文字列中で仮名の
連続する部分文字列は一次候補文字列中で空でない任意
の文字列に対応している場合に最終候補文字列とする照
合手段を備える。

【００１１】

【作用】請求項１の発明によれば、漢字仮名変換手段に
よって、入力された変換対象の、漢字と仮名文字が混在
する文字列を仮名のみの文字列に変換する。ここで、中
間仮名文字列が得られる。仮名漢字変換手段によって、
仮名漢字まじりの文字列に変換する。ここで、一次候補
文字列が得られる。

【００１２】また、請求項２の発明によれば、照合手段
によって、変換対象文字列と各一次候補文字列を照合
し、一次候補文字列のうち、変換対象文字列に含まれる
漢字が正しい位置に、同じ順序で現れるもの以外を排除
し、残ったものを正解の候補として、利用者に出力表示
する。

【００１３】

【実施例】図１は本発明の処理の流れを示すブロック図
である。変換対象文字列１を仮名漢字変換２の処理によ
り、中間仮名文字列群３が得られる。この中間仮名文字
列群３に仮名漢字変換４による処理を加えると、一次候
補文字列群５が得られる。この一次候補文字列群５と変
換対象文字列１を照合処理６により照合すると最終候補
文字列群７が得られるという流れである。

【００１４】本発明の一実施例のブロック図を図２に示
す。８はタブレット、９は文字認識回路、１０は変換対
象文字列バッファ、１１は漢字仮名変換回路、１２は漢
字仮名変換用回路、１３は中間仮名文字列バッファ、１
４は仮名漢字変換回路、１５は仮名漢字変換用辞書、１
６は一次候補文字列バッファ、１７は文字列照合手段、
１８は最終候補文字列バッファ、１９は表示回路、２０
は表示装置、２１は変換過程制御回路を表している。

【００１５】上記各ブロックについて、処理にもとづい
て詳細に説明する。タブレット８は図９のＡに示したよ
うに、通常は表示部を兼ねている。図９の記入部Ｃにペ
ンＢを用いて文字を入力する。入力された文字は文字認
識回路９によって、認識される。文字認識回路９では、
入力された文字のイメージ情報や、入力される入力のス
トローク情報（筆使い）などの情報を用いて、入力され
た文字を認識する。認識された文字列は、まず変換対象
文字列バッファ１０に格納される。この変換対象文字列
バッファの内容は、漢字仮名変換用辞書１２を利用し
て、漢字仮名変換回路１１により、仮名のみを含む文字
列に変換され、中間文字列バッファ１３に格納される。

【００１６】中間仮名文字列バッファ１３に格納され
た、仮名のみを含む文字列は、仮名漢字変換用辞書１５
を利用する仮名漢字変換回路１４によって、漢字まじり
の文字列に変換され、一次候補文字列バッファ１６に格
納される。変換対象文字列バッファ１０の内容と、一次
候補文字列バッファ１６の内容は、照合回路１７によっ
て比較され、この両バッファの内容が矛盾しないと判断
された場合にのみ、一次候補文字列バッファ１６の内容
が、最終候補文字列バッファ１８にコピーされる。

【００１７】この最終候補文字列バッファ１８に得られ
た文字列は、変換結果の候補として表示回路２０を通じ
て表示装置２１に表示され、利用者に出力表示され、利
用者が承認すると確定され、そうでなければ、次の一次
候補文字列または中間仮名文字列を得て、同様の処理を
繰り返す。

【００１８】変換処理の起動および候補の提示は、タブ
レット８より入力され、文字認識回路９によって認識さ
れた変換命令として、変換過程制御回路２１に渡され、
この変換過程制御回路２１は図３に示すフローチャート
にもとづいて処理を進める。図３、図４を用いて、ひと
つの実施例を詳細に説明する。ここで実際の例として、
「公えん」という文字列をタブレット８より入力し、文
字認識回路９によって認識され、変換をすることとす
る。

【００１９】まず、ステップ２２において変換対象文字
列をＳとする。Ｓは変換対象文字列バッファである。つ
まりここでＳには“公えん”が格納される。ステップ２
３で最終候補文字列バッファであるＲＲに空集合を代入
してクリアする。ステップ２４において、Ｓを漢字仮名
変換する。つまり“公えん”に対して漢字仮名変換を行
う。その結果の文字列の集合をＩＩとして格納する。こ
こではＩＩとして“こうえん”“きみえん”が格納され
る。これが中間仮名文字列バッファである。ステップ２
５において、ＩＩより要素の文字列をひとつ取り出して
Ｉとする。つまりＩとして“こうえん”が取り出され
る。もし取り出す要素がなければステップ３０の処理を
行う。ステップ２６において、Ｉに仮名漢字変換を適用
し、その結果の文字列とＣＣとする。例ではＣＣとし
て、“公園”“公演”“後援”“講演”“高遠”が得ら
れる。これが一次候補文字列バッファである。ステップ
２７でＣＣの要素の一つを取り出してＣとする。もし、
要素がなければステップ２５に戻る。ステップ２５にお
いて、ＩＩの全要素を取り出したら、ステップ３０にす
すむ。ステップ２８において、ＣとＳを照合する。Ｃと
Ｓが矛盾するならば、ステップ２７に戻る。矛盾しない
ならばステップ２９において、集合ＲＲ（最終候補文字
列バッファ）の要素としてＣを加えたのち、ステップ２
７に戻る。つまりステップ２７、２８でＣＣの要素であ
る“公園”“公演”“後援”“講演”“高遠”において
照合が行われ、Ｓに矛盾しない“公園”“公演”が最終
候補文字列バッファＲＲに格納され、ステップ２５にも
どり、Ｉとして“きみえん”を取り出し、ステップ２６
において仮名漢字変換を適用する。しかし、“きみえ
ん”に仮名漢字変換を適用すると候補が得られないた
め、またステップ２５にもどる。ステップ２５ではＩＩ
にはもう取り出すＩがないため、ステップ３０に処理の
処理を行うことになる。ステップ３０では、ＲＲより要
素の文字列をひとつ取り出してＲとする。要素がなけれ
ばステップ３１で候補なしとして終了する。ステップ３
２においてＲを利用者に表示する。ステップ３３におい
て、利用者がＲを採用すれば終了し、そうでない場合は
ステップ３０に戻る。つまり候補として“公園”“公
演”が表示されたわけである。

【００２０】上記ステップ２４での漢字仮名変換は、文
字列Ｓを引き数としてとり、仮名のみに変換した候補の
文字列の集合を返す関数である。また、ステップ２６の
仮名漢字変換は仮名のみの文字列Ｉを引き数としてと
り、漢字まじりの文字列に変換した文字列の集合を返す
関数である。

【００２１】上記ステップ２８においてＣとＳの照合を
行い、矛盾があるかどうかを判断するわけであるが、そ
の判断方法について、図５を用いて詳しく説明する。前
記の例における、変換対象文字列Ｓが「公えん」の場合
に、一次候補文字列群ＣＣとして「“公園”“公演”
“後援”“講演”“高遠”」が得られたとする。“公
園”“公園”は漢字『公』が変換対象文字列Ｓと同じ位
置に現れ、かつ、仮名『えん』の部分がなんらかの漢字
に置き換えられているのに対し、“後援”“講演”“高
遠”については、漢字『公』が現れていないので、明ら
かに利用者が入力しようとした文字列と異なることがわ
かる。その結果、“公園”“公演”は最終候補文字列と
して残り、“後援”“講演”“高遠”については却下さ
れることになる。

【００２２】また、もう一つの例として、変換対象文字
列として「ひ行き」を変換したとする。Ｓに「ひ行き」
が格納され、漢字仮名変換が行われる。漢字仮名変換の
結果として、中間仮名文字列としてＩに“ひこうき”
“ひぎょうき”“ひいき”（下線部は『行』が変換され
た部分）が得られる。これらの中間仮名文字列のそれぞ
れについて、仮名漢字変換を行うことにより、一次候補
文字列Ｃとして、“飛行機”“非行期”“罷業期”“贔
屓”等が得られる。このうち、元の変換対象文字列に含
まれていた漢字『行』を含まない“罷業期”“贔屓”等
を排除し、残った“飛行機”“非行期”は、「ひ行き」
の『ひ』『き』に相当する部分になんらかの漢字が現れ
ているため、これらを正解の候補として提示することに
なる。

【００２３】上記の照合処理において、一次候補文字列
を最終候補として残すか否かを決定するには、以下の方
法による。変換対象文字列を、仮名のみが連続する部分
文字列と、漢字のみが連続する部分文字列に分割する。

【００２４】Ｓ＝Ｓ１＆Ｓ２＆・・・＆ＳｎただしＮＫ（Ｓｉ）［ｉが奇数のとき］かつＫ（Ｓｉ）［ｉが偶数のとき］またはＫ（Ｓｉ）［ｉが奇数のとき］ＮＫ（Ｓｉ）［ｉが偶数のとき］で表す。ここでＳは変換対象文字列、Ｓｉ(ｉ＝1,2,・・
・,ｎ;ｎは自然数)はその部分文字列、＆は文字列の連結
演算子を表し、Ｋ（Ｘ）は文字列Ｘが漢字のみを含むこ
とを表す述語、ＮＫ（Ｘ）は文字列Ｘが仮名のみを含む
ことを表す述語とする。このような分割は必ず一意に定
まる。

【００２５】つまり、例として「ひ行き」が変換対象文
字列であった場合、Ｓ＝［ひ行き］であり、Ｓ１は仮名
が連続する部分文字列である［ひ］である、Ｓ２は漢字
が連続する部分文字列［行］、Ｓ３は同様に、仮名が連
続する部分文字列である［き］である。また変換対象文
字列Ｓが［公えん］であった場合は、Ｓ１は漢字が連続
する部分文字列である［公］、Ｓ２が仮名が連続する部
分文字列である［えん］となる。

【００２６】このとき、一次候補文字列が以下のような
条件を満たす部分文字列に分割できるならば、この文字
列は変換対象文字列と矛盾しておらず、最終候補文字列
として残すものとする。このような分割が可能でない一
次候補文字列は却下し、最終候補文字列から排除する。

【００２７】Ｔ＝Ｔ１＆Ｔ２＆・・・＆Ｔｎ（ｎは変換対象文字列Ｓが分割された部分文字列の個
数）ただしＴｉは空でない任意の文字列［ｉが奇数のと
き］かつＴｉ＝ＳｉかつＫ（Ｔｉ）［ｉが偶数のとき］またはＴｉ＝ＳｉかつＫ（Ｔｉ）［ｉが奇数のと
き］かつＴｉは空でない任意の文字列［ｉが偶数のとき］ここで、Ｔは一次候補文字列、Ｔｉ(ｉ＝1,2,・・・,ｎ;ｎ
は自然数)はその部分文字列を表す。

【００２８】たとえば、変換対象文字列Ｓが「公えん」
であれば、Ｓ１＝「公」、Ｓ２＝「えん」と一意に分割
できる（ｎ＝２）。これに対する一次候補文字列が「公
園」であれば、Ｔ１＝「公」＝Ｓ１、Ｔ２＝「園」と分
割でき、「公演」でも同様であるが、「講演」「後援」
等は、Ｔ１＝Ｓ１、かつＴ２が空でないような分割は存
在しないため、最終候補文字列から排除される。

【００２９】また、変換対象文字列Ｓを「ひ行き」とす
ると、Ｓ１＝「ひ」、Ｓ２＝「行」、Ｓ３＝「き」と分
割できる。これに対する一次候補文字列を「飛行機」と
すると、Ｔ１＝「飛」、Ｔ２＝「行」、Ｔ３＝「機」と
分割でき、「非行期」においても同様に分割できるの
で、最終候補文字列として残るが、「罷業期」や「贔
屓」についてはＴ１とＴ３が空でなく、かつ、Ｔ２＝Ｓ
２となるような分割は存在しない。

【００３０】すなわち、図６に示すように、変換対象文
字列中で漢字の連続する部分文字列はそのまま一次候補
文字列に保存されており、かつ、変換対象文字列中で仮
名の連続する部分文字列は一次候補文字列中で空でない
任意の文字列に対応しているならば、その時に限り、そ
の一次候補文字列を最終候補文字列として残すことにな
る。

【００３１】また、上記実施例では、漢字仮名変換、仮
名漢字変換をおこなうときに、すべての候補をバッファ
に格納して一次候補文字列を生成し、照合手段によっ
て、最終候補文字列を提示していた。以下の実施例は大
きなバッファを要しない実施例である。図７をもとに説
明する。

【００３２】まず、ステップ３５において、変換対象文
字列をＳとする。次にステップ２３で、Ｓに漢字仮名変
換を適用し、その結果をＩとする。ステップ２４でも
し、Ｉが空文字列であれば、ステップ２５で候補なしと
して終了する。Ｉが空文字列でない場合には、ステップ
２６において、Ｉに仮名漢字変換を適用して、その結果
をＣとする。ステップ２７において、もし空文字列であ
ればステップ２３に戻り、次の候補をＩとし、処理を続
ける。空文字列でない場合は、ステップ２８で、Ｓ（変
換対象文字列バッファ）とＣ（一次候補文字列バッフ
ァ）の照合を行う。もし、ここで照合により矛盾するな
らば、またステップ２３にもどり次候補をＩとし、処理
をつづける。矛盾しなかった場合は、ステップ２９にお
いて、Ｃ（一次候補文字列バッファ）の内容をＲ（最終
候補文字列バッファ）に代入し、ステップ３０で利用者
に提示する。ステップ３１において、利用者が採用すれ
ばステップ３２で終了し、採用せずに、次候補を要求し
た場合はステップ２３にもどる。以上のようにバックト
ラックを繰り返して候補を生成することも可能である。

【００３３】

【発明の効果】手書き入力文字を入力、認識できる機器
においては、直接漢字を入力できるため部分的に漢字を
含んだ文字列を入力できる。しかし、たとえば入力の繁
雑さ、あるいは困難さのために文字列の一部を仮名で入
力したものを変換したい場合や、また、入力済みの日本
語文を再度変換したい場合において、入力された文字列
に含まれる漢字とその位置の情報を有効に利用すること
により、不要な候補を排除することができ、変換の精度
を高めることができる。

【００３４】漢字仮名まじり文字列を仮名文字列に変換
するための辞書はテキスト音声合成やソーティング用の
読みの生成などに汎用的に利用でき、特別な専用辞書を
用意する必要はない。仮名漢字変換においては従来の技
術をそのまま利用できる。このように、汎用的なソフト
ウェア技術を組み合わせたものであるため、個々の要素
技術をそれぞれ置き換えることが容易である。

【図面の簡単な説明】

【図１】本発明の処理の流れを示すフローチャートであ
る。

【図２】本発明における実施例１のブロック図である。

【図３】本発明における実施例１のフローチャートであ
る。

【図４】本発明の実施例における変換過程を示した図で
ある。

【図５】本発明における入力文字列例に対する中間かな
文字列群、一次候補文字列群、最終候補文字列群の例を
示した図である。

【図６】照合処理によって、最終候補文字列として残す
条件の例を示した図である。

【図７】本発明における実施例２のフローチャートであ
る。

【図８】従来例における、辞書の例を示した図である。

【図９】ペン入力機能を持った携帯情報端末を示した図
である。

【図１０】ペンによる手書き入力モードでの画面図の一
例である。

【符号の説明】

１変換対象文字列２仮名漢字変換処理３中間仮名文字列群４仮名漢字変換処理５一次候補文字列群６照合処理７最終候補文字列群８タブレット９文字認識回路１０変換対象文字列バッファ１１漢字仮名変換回路１２漢字仮名変換用辞書１３中間仮名文字列バッファ１４仮名漢字変換回路１５仮名漢字変換用辞書１６一次候補文字列バッファ１７文字列照合回路１８最終候補文字列バッファ１９表示回路２０表示装置２１変換過程制御回路

Claims

【特許請求の範囲】

【請求項１】仮名漢字まじり文字列を漢字を含まない
文字列に変換する漢字仮名変換手段と、前記手段により
得られた漢字を含まない文字列を仮名漢字まじりの文字
列に変換する仮名漢字変換手段と、前記変換対象の仮名
漢字まじり文字列と、変換処理によって得られた仮名漢
字まじり文字列を照合する照合手段を備えることを特徴
とする文書処理装置。
【請求項２】変換対象文字列である仮名漢字まじり文
字列を漢字を含まない文字列に変換し、中間仮名文字列
を得る漢字仮名変換手段と、前記中間仮名文字列を仮名
漢字まじりの文字列に変換し、一次候補文字列を得る仮
名漢字変換手段、および、前記一次候補文字列と変換対
象文字列を照合し、変換対象文字列中で漢字の連続する
部分文字列はそのまま一次候補文字列に保存されてお
り、かつ、変換対象文字列中で仮名の連続する部分文字
列は一次候補文字列中で空でない任意の文字列に対応し
ている場合に最終候補文字列とする照合手段を備えるこ
とを特徴とする文書処理装置。