JPH11212976A

JPH11212976A - 形態素解析装置

Info

Publication number: JPH11212976A
Application number: JP10018486A
Authority: JP
Inventors: Takashi Fukui; 毅至福居
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1998-01-30
Filing date: 1998-01-30
Publication date: 1999-08-06

Abstract

(57)【要約】【課題】ユーザが複数の形態素解析結果候補から、最
適候補を効率良く認識できるようにする。【解決手段】本発明の形態素解析装置は、ユーザに提
示する形態素解析結果候補が複数ある場合において、全
ての形態素解析結果候補で結果が一致している部分と、
それ以外の不一致部分とを弁別する一致不一致部分弁別
手段と、不一致部分を一致部分から区別してユーザに形
態素解析結果候補を提示する解析結果出力手段とを有す
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は形態素解析装置に関
し、特に、形態素解析結果の選択や修正が容易なような
形態素解析結果の提示方法の改良に関するものである。

【０００２】

【従来の技術】日本語に対する形態素解析処理の手法と
してこれまで一般的であったのは、単語辞書と単語間の
連接の情報を利用するものであった。この手法には単語
辞書にない単語が入力文中に現れたときに解析の精度が
低くなるという未知語の問題がある。

【０００３】これに対して、確率モデルを使用すること
によって未知語に強い形態素解析手法が提案されてい
る。この手法では、大きなテキストから品詞やタグ系列
の確率モデルを推定し、その確率モデルに従って形態素
列と各形態素に付与されたタグ列の同時確率を最大とす
るような形態素列及びタグ列を求める。この手法の日本
語への応用の一例として、特開平８−３１５０７８号公
報に記載された日本語文字認識方法及び装置がある。

【０００４】

【発明が解決しようとする課題】確率モデルを用いた手
法には、形態素列及びタグ列の同時確率に基づいて複数
の解析結果の尤もらしさに順序を付けることができると
いう特徴がある。上記の手法においては、尤もらしい順
に並列的に又は順次提示される解析結果の中から正解と
思われるものをユーザが選ぶようになっているが、似た
ような解析結果から正解を１つ選択するのは容易ではな
く効率が悪い。

【０００５】そのため、複数の形態素解析結果の中から
ユーザが正しいものを選択することが効率良くできるよ
うに、複数の形態素解析結果をユーザに提示できる形態
素解析装置が望まれている。

【０００６】

【課題を解決するための手段】かかる課題を解決するた
め、本発明は、入力文字列を形態素解析し、形態素解析
結果をユーザに提示する形態素解析装置において、
（１）入力文字列を形態素解析し、ユーザに提示する１
以上の形態素解析結果候補を得る形態素解析手段と、
（２）ユーザに提示する形態素解析結果候補が複数ある
場合において、全ての形態素解析結果候補で結果が一致
している部分と、それ以外の不一致部分とを弁別する一
致不一致部分弁別手段と、（３）不一致部分を一致部分
から区別してユーザに形態素解析結果候補を提示する解
析結果出力手段とを有することを特徴とする。

【０００７】本願発明者は、複数の形態素解析結果候補
の中で異なる解析結果を持つ部分は全体の中から見れば
少ない部分であることを見いだした。そして、そのこと
に着目し、不一致部分を一致部分から区別してユーザに
提示する構成とした。これにより、ユーザは一致部分を
考慮しないで不一致部分だけに基づいて、最適候補を選
択することができ、効率良く正しい形態素解析結果を得
ることができるようになる。

【０００８】

【発明の実施の形態】（Ａ）一実施形態以下、本発明を、確率モデル（拡張文字単位の時系列モ
デル）を利用した形態素解析装置に適用した一実施形態
を図面を参照しながら詳述する。

【０００９】（Ａ−１）一実施形態の構成この実施形態の形態素解析装置は、パソコンやワークス
テーションなどの情報処理装置上に構成されるものであ
るが、機能的には、図１に示すブロック図で表すことが
できる。

【００１０】図１において、この実施形態の形態素解析
装置は、大きくは、記憶装置１、入力装置２、解析装置
３、出力情報生成装置４及び表示装置５を有する。

【００１１】入力装置２は、自然言語テキストを当該形
態素解析装置へ入力させるためのキーボード、マウス、
ＯＣＲ（光学式文字認識装置）、音声認識装置等の任意
の手段で構成しても良いし、ネットワーク等の通信媒体
を経て外部からの通信信号を受信する手段として構成し
ても良い。

【００１２】記憶装置１は、連鎖確率テーブル１１、ス
コアテーブル１２及び入力文字列格納部１３からなる。

【００１３】入力文字列格納部１３は、入力装置２から
入力された形態素解析対象の文字列を格納するものであ
る。

【００１４】連鎖確率テーブル１１は、拡張文字列格納
部１１１と連鎖確率格納部１１２とからなり、拡張文字
列とその連鎖確率（部分連鎖確率）を格納するものであ
り、訓練テキスト（コーパス）により予め学習されて作
成されているものである。

【００１５】ここで、拡張文字とは、文字と拡張情報と
が組となったものであり、拡張情報として、少なくとも
その文字の後が単語の区切りになっているか否かを表す
単語区切り情報を含む。拡張情報としては、単語区切り
情報の他、品詞情報などもあるが、この実施形態の説明
では、単語区切り情報だけが拡張情報として付与されて
いるとする。

【００１６】連鎖確率テーブル１１には、Ｎ（Ｎは例え
ば１、２又は３）文字の拡張文字列と、その拡張文字列
がコーパスの中でどの位の頻度で現れたかを示す連鎖確
率とが、多数のＮ文字拡張文字列について格納されてい
る。

【００１７】スコアテーブル１２は、候補拡張文字列格
納部１２１及び同時確率格納部１２２からなり、候補拡
張文字列とその候補拡張文字列についての同時確率とを
格納するものである。

【００１８】ここで、候補拡張文字列とは、入力文字列
の各文字を拡張文字に置き換えたものをいう。各文字に
対する拡張文字は、単語区切り情報として区切りである
ことを示す拡張情報が付加されたものと、単語区切り情
報として区切りでないことを示す拡張情報が付加された
ものとの２種類があり、候補拡張文字列はそれらの組み
合わせであるので、入力文字列に対する候補拡張文字列
の種類はかなり多くなる。この実施形態では、候補拡張
文字列格納部１２１には最大でＬ＋１個（Ｌは２以上）
の候補拡張文字列が格納できるようになされている。

【００１９】また、同時確率（スコア）とは、候補拡張
文字列を構成する、文頭から文末までの全てのＮ文字の
拡張文字列の連鎖確率を乗算したものである。この実施
形態では、同時確率格納部１２２にも、候補拡張文字列
に対応した最大でＬ＋１個（Ｌは２以上）の同時確率が
格納できるようになされている。

【００２０】解析装置３は、候補拡張文字列生成部３
１、同時確率計算部３２及びスコア比較部３３とからな
る。

【００２１】候補拡張文字列生成部３１は、入力文字列
についての全ての候補拡張文字列を生成するものであ
る。この実施形態の場合、候補拡張文字列生成部３１
は、全ての候補拡張文字列を順次生成するものであり、
生成した候補拡張文字列を候補拡張文字列格納部１２１
に、Ｌ＋１番目のレコードとして（Ｌ個の候補拡張文字
列が格納されていない場合は最後尾のレコードとして）
格納させるものである。

【００２２】同時確率計算部３２は、候補拡張文字列格
納部１２１のＬ＋１番目のレコード（Ｌ個の候補拡張文
字列が格納されていない場合に最後尾のレコード）に係
る候補拡張文字列の同時確率を計算するものであり、計
算によって得られた同時確率を同時確率格納部１２２の
Ｌ＋１番目のレコードとして（Ｌ個の同時確率が格納さ
れていない場合に最後尾のレコードとして）格納させる
ものである。

【００２３】スコア比較部３３は、同時確率計算部３２
による現時点で生成された候補拡張文字列についての同
時確率の計算が終了すると、候補拡張文字列格納部１２
１及び同時確率格納部１２２に格納されているＬ＋１個
の情報（候補拡張文字列及び同時確率の組）の中から、
同時確率が大きい方からＬ個を残し、Ｌ＋１番目のレコ
ードを空にするものである。なお、この実施形態の場
合、スコア比較部３３は、候補拡張文字列格納部１２１
及び同時確率格納部１２２にＬ＋１個の情報が格納され
るまでは処理を実行しない。

【００２４】出力情報生成装置４は、出力情報生成部４
１、出力情報格納部４２及び出力情報表示部４３を有す
る。

【００２５】出力情報生成部４１は、候補拡張文字列生
成部３１が最後の候補拡張文字列を生成し、それに対す
るスコア比較部３３の処理が終了したときに起動され、
候補拡張文字列格納部１２１に格納されているＬ個の候
補拡張文字列が示す形態素列のうち、全てに共通する部
分と、それ以外の部分とを認識するものである。そし
て、出力情報生成部４１は、認識した共通部分を確定文
字列として出力情報格納部４２の確定文字列格納部４２
１に格納すると共に、異なっている部分を出力情報格納
部４２の候補テーブル４２２に格納する。

【００２６】出力情報格納部４２は、確定文字列格納部
４２１及び候補テーブル４２２でなる。

【００２７】確定文字列格納部４２１には、上述のよう
に、出力情報生成部４１によって、Ｌ個の候補拡張文字
列で共通する拡張文字列（確定文字列）が格納されるも
のである。なお、この確定文字列格納部４２１には、共
通していない部分については共通していない部分である
ことを表す制御拡張文字が該当位置に格納される。ここ
で、共通している拡張文字列部分か否かは、形態素の区
切り方が一致している部分か否かである。

【００２８】候補テーブル４２２は、位置情報格納部４
２２１、候補番号格納部４２２２及び不一致文字列格納
部４２２３からなり、出力情報生成部４１によって、Ｌ
個の候補拡張文字列において一致していないと認識され
た複数の部分拡張文字列を、元の拡張文字列中のどの位
置にあたるものかを示す位置情報と、同じ位置にあたる
候補を識別するための候補番号と共に格納するものであ
る。

【００２９】なお、Ｌ個の候補拡張文字列において一致
していないと認識された複数の部分拡張文字列が、拡張
文字列を挟んで異なる位置に複数ある場合には、各位置
毎に、複数の部分拡張文字列と位置情報と候補番号とが
格納される。

【００３０】出力情報表示部４３は、変換部４３１及び
表示部４３２でなり、出力情報格納部４２に格納されて
いる情報を、表示装置５に表示させるための処理を行う
ものである。

【００３１】変換部４３１は、確定文字列格納部４２１
に格納されている情報や、候補テーブル４２２に格納さ
れている情報から、形態素解析結果に対する表示用の文
字列を生成するものである。

【００３２】表示部４３２は、この変換部４３１によっ
て変換された表示用文字列を表示装置５に表示させる処
理を行うものであり、複数の形態素解析結果に共通する
確定部分はそのまま（１候補で）、複数の形態素解析結
果に共通していない部分は複数の候補を並列に表示させ
る。

【００３３】表示装置５は、出力情報生成装置４によっ
て処理された形態素解析結果を表示するものである。表
示装置５は、通信回線を介して遠隔地に設けられている
ものであっても良い。また、この実施形態では、表示出
力を意図しているが、印刷出力を行う印刷装置に表示装
置を置き換えることもできる。

【００３４】（Ａ−２）一実施形態の動作次に、以上のような各部からなるこの実施形態の形態素
解析装置の動作を説明する。ここで、図２が、この実施
形態の形態素解析装置の動作を説明するフローチャート
である。

【００３５】この実施形態においては、形態素解析は１
文を入力単位として行われる。また、以下の説明におい
ては、文字列「ここではきものぬぐ」が入力された場合
を例にして、処理の流れを具体的にも説明する。この実
施形態では単語区切り情報として、その文字の直後に単
語境界があることを「１」で、単語境界がないことを
「０」で表現する。

【００３６】形態素解析処理が起動されると、解析装置
３は入力装置２から入力文字列を読み込んで入力文字列
格納部１３に格納させる（ステップ１）。

【００３７】その後、候補拡張文字列生成部３１は、読
み込んだ入力文字列に対して、まだ生成していない候補
拡張文字列を生成し、候補拡張文字列格納部１２１の空
状態の最後尾のレコードに格納する（ステップ２）。以
下の説明では、文字ｃに対して拡張情報ｅを付与した拡
張文字を＜ｃ，ｅ＞のように表現する。上述した入力文
字列に対する候補拡張文字列の例としては、＜こ，０＞
＜こ，０＞＜で，１＞＜は，０＞＜き，０＞＜も，０＞
＜の，１＞＜を，１＞＜ぬ，０＞＜ぐ，１＞を挙げるこ
とができる。この候補拡張文字列の例は、「／ここ／で
／はきもの／を／ぬぐ／」という分割（「／」は単語区
切りを意味している）を示している。

【００３８】次に、同時確率計算部３２は、連鎖確率テ
ーブル１１の格納情報を利用して、今回生成された候補
拡張文字列についての同時確率を計算し、同時確率格納
部１２２の空状態の最後尾のレコードに格納する（ステ
ップ３）。

【００３９】連鎖確率テーブル１１に、３文字の拡張文
字列とその連鎖確率が格納されているとすると、候補拡
張文字列例＜こ，０＞＜こ，０＞＜で，１＞＜は，０＞
＜き，０＞＜も，０＞＜の，１＞＜を，１＞＜ぬ，０＞
＜ぐ，１＞に対しては、＜こ，０＞＜こ，０＞＜で，１
＞の連鎖確率と、＜こ，０＞＜で，１＞＜は，０＞の連
鎖確率と、…、＜を，１＞＜ぬ，０＞＜ぐ，１＞の連鎖
確率とを取り出し、それらをかけ合わせることにより候
補拡張文字列の同時確率を求める。

【００４０】その後、スコア比較部３３は、候補拡張文
字列格納部１２１及び同時確率格納部１２２に情報が格
納されているレコード数がＬ＋１個であるか否かを確認
し、Ｌ＋１個未満であると何らの処理も実行せず、Ｌ＋
１個であると、同時確率が最も大きいものが１番目にく
るようにスコアテーブル１２内の要素（候補拡張文字列
及び同時確率）をソートした後、（Ｌ＋１）番目のレコ
ードの内容を削除する（ステップ４）。このステップ４
の処理により、今まで生成された候補拡張文字列がＬ＋
１個以上あっても、同時確率が大きい方のＬ個がスコア
テーブル１２内の残ることになる。

【００４１】例えば、図４に示したスコアテーブル１２
の格納状態において（Ｌ＝３とする）、同時確率が格納
済みのものより大きい候補拡張文字列＜こ，０＞＜こ，
１＞＜で，１＞＜は，１＞＜き，０＞＜も，０＞＜の，
１＞＜を，１＞＜ぬ，０＞＜ぐ，１＞（同時確率１．５
４９８×１０^-8）がＬ＋１番目のレコードとして格納さ
れた後、ステップ４の処理を施した結果を図５に示して
いる。

【００４２】ステップ４の処理が終了すると、候補拡張
文字列生成部３１が全ての候補拡張文字列を生成したか
を判断し（ステップ５）、生成していなければステップ
２の処理に戻る。

【００４３】一方、全ての候補拡張文字列を生成してい
ると、ステップ６以降の出力情報生成装置４による処理
に移行する。

【００４４】ステップ６の処理に移行したときには、上
述したステップ２〜５の処理ループの繰り返しにより、
全ての候補拡張文字列のうち、同時確率が大きい順に
（尤もらしさが高い順に）Ｌ個の候補拡張文字列がスコ
アテーブル１２に格納されていることになる。

【００４５】出力情報生成装置４においては、出力情報
生成部４１が、スコアテーブル１２の候補拡張文字列格
納部１２１に格納されているＬ個の候補拡張文字列に共
通している確定文字列とそれ以外のものとを識別して、
それらを区別して出力情報格納部４２に格納させると共
に（ステップ６）、出力情報表示部４３が、出力情報格
納部４２に格納された情報に基づいて、Ｌ個の候補拡張
文字列に共通する部分については、１候補として、異な
る部分については複数の候補を並列に表示装置５に表示
させる（ステップ７）。この表示は、単語区切り情報が
「０」である拡張文字については文字だけを、単語区切
り情報が「１」である拡張文字については文字に後に区
切りを示す「／」を付与して行う。

【００４６】以下、図３のフローチャートを参照しなが
ら、上述したステップ６の処理を詳述する。

【００４７】なお、このステップ６の処理及び次のステ
ップ７の処理は、候補数パラメータＬを適切に設定して
おけば、同時確率（尤もらしさ）が高い方からＬ個の候
補拡張文字列は、実際上、ほとんどが同じ拡張文字列の
ならびになっていて僅かな部分だけが異なるようにな
る、ことに鑑みて設けられた処理である。

【００４８】図５の例では、同時確率の高い順に、「／ここ／で／は／きもの／を／ぬぐ／」「／ここ／で／はきもの／を／ぬぐ／」「／ここ／では／きもの／を／ぬぐ／」という形態素解析結果に対応している。この３個の形態
素解析結果では、「ここ」、「を」及び「ぬぐ」という
形態素が共通している。このように、得られた形態素解
析結果（候補拡張文字列）の全てに共通する形態素を表
現する部分拡張文字列を確定し、共通していない部分に
ついては未確定部分として複数の部分拡張文字列を記録
するようにしたのがステップ６の処理である。

【００４９】図３に示す処理を開始すると、出力情報生
成部４１は、スコアテーブル１２内の１番目の拡張文字
列をコピーして内蔵するバッファに格納する（ステップ
６０１）。

【００５０】その後、スコアテーブル１２のインデック
スｉを２にセットした後（ステップ６０２）、スコアテ
ーブル１２内のｉ番目の候補拡張文字列とバッファ内の
候補拡張文字列とを比較し、バッファ内の候補拡張文字
列を部分的に、比較結果に応じて変更に格納する（ステ
ップ６０３）。

【００５１】ステップ６０３の処理を詳述する。比較す
るのは、文字は同じであるので、同じ文字位置にある単
語区切り情報のみとする。２個の候補拡張文字列で異な
る単語区切り情報をもつ文字位置をｄとする。ｄよりも
小さい文字位置で単語区切り情報が「１」で一致するも
ののうち最大の文字位置をｄｌとし、ｄよりも大きい文
字位置で単語区切り情報が「１」で一致するもののうち
最小の文字位置をｄｒとする。ｄｌに該当するものがな
い場合、ｄｌ＝０とする。バッファ内の候補拡張文字列
のｄl ＋１番目からｄr −１番目の拡張文字を、それぞ
れ「０」の単語区切り情報を持つ制御拡張文字で置き換
え、ｄr 番目の拡張文字を「１」の単語区切り情報を持
つ制御拡張文字で置き換える。ここでは、２種類の制御
拡張文字を、＜＠，０＞あるいは＜＠，１＞とする。以
上の処理を、全ての不一致点について行なう。

【００５２】ステップ６０３の処理が終了すると、イン
デックスｉと候補拡張文字列の種類数Ｌとが一致してい
るか否かを判別し（ステップ６０４）、不一致ならば、
インデックスｉを１インクリメントした後に上述したス
テップ６０３に戻る（ステップ６０５）。

【００５３】ステップ６０３〜６０５の処理を繰り返す
ことにより、やがて、バッファ内の候補拡張文字列（一
部が制御拡張文字列に置き換えられていることがある）
と、スコアテーブル１２内のＬ（＝ｉ）番目の候補拡張
文字列との比較処理も終了し、ステップ６０４でｉ＝Ｌ
という結果を得ると、バッファの内容を確定文字列格納
部４２１に格納する（ステップ６０６）。確定文字列格
納部４２１に格納された情報のうち、制御拡張文字列以
外が全ての候補拡張文字列に共通する部分を表してお
り、制御拡張文字列部分が候補拡張文字列間で異なる部
分を表している。

【００５４】その後、候補テーブル４２２への格納処理
に移行する。候補テーブル４２２への格納処理ではま
ず、スコアテーブル１２のインデックスｉを１にセット
する（ステップ６０７）。

【００５５】そして、スコアテーブル１２内のｉ番目の
候補拡張文字列から、バッファ内の候補拡張文字列中の
制御拡張文字列の位置にあたる部分拡張文字列をコピー
して出力情報格納部４２の候補テーブル４２２に格納す
る（ステップ６０８）。このとき、部分拡張文字列の先
頭の文字位置と、その位置での何番目の候補かを表す候
補番号も同時に格納する。

【００５６】ステップ６０８の処理が終了すると、イン
デックスｉと候補拡張文字列の種類数Ｌとが一致してい
るか否かを判別し（ステップ６０９）、不一致ならば、
インデックスｉを１インクリメントした後に上述したス
テップ６０８に戻る（ステップ６１０）。

【００５７】ステップ６０８〜６１０の処理を繰り返す
ことにより、スコアテーブル１２内のＬ（＝ｉ）番目の
候補拡張文字列についての情報を候補テーブルに格納す
ることも終了し、ステップ７の処理に移行する。

【００５８】上述したステップ７の処理は、詳細には、
以下の通りである。確定文字列格納部４２１の拡張文字
列を参照し、制御拡張文字でなければ拡張文字の文字を
表示する。単語区切り情報が「１」ならば文字に続いて
単語区切りを示す記号（ここでは「／」）を表示する。
制御拡張文字列部分については、候補テーブル４２２を
参照して複数の候補を並列に表示する。

【００５９】スコアテーブル１２の格納内容が図５に示
す場合を例として、ステップ６０１〜ステップ６１０の
処理を具体的に説明する。

【００６０】まず、スコアテーブル１２内の１番目の候
補拡張文字列「＜こ，０＞＜こ，１＞＜で，１＞＜は，
１＞＜き，０＞＜も，０＞＜の，１＞＜を，１＞＜ぬ，
０＞＜ぐ，１＞」をバッファにコピーする（ステップ６
０１）。

【００６１】次に、バッファ内の候補拡張文字列「＜
こ，０＞＜こ，１＞＜で，１＞＜は，１＞＜き，０＞＜
も，０＞＜の，１＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」
と、スコアテーブル１２のｉ（＝２）番目の「＜こ，０
＞＜こ，１＞＜で，１＞＜は，０＞＜き，０＞＜も，０
＞＜の，１＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」を比較
し、バッファ内の候補拡張文字列の一部を制御拡張文字
で置き換える（ステップ６０２、６０３）。この際の置
き換えにより、バッファ内の内容は、「＜こ，０＞＜
こ，１＞＜で，１＞＜＠，０＞＜＠，０＞＜＠，０＞＜
＠，０＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」となる。

【００６２】次に、バッファ内の候補拡張文字列「＜
こ，０＞＜こ，１＞＜で，１＞＜＠，０＞＜＠，０＞＜
＠，０＞＜＠，０＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」
と、スコアテーブル１２のｉ（＝３）番目の「＜こ，０
＞＜こ，１＞＜で，０＞＜は，１＞＜き，０＞＜も，０
＞＜の，１＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」を比較
し、バッファ内の候補拡張文字列の一部を制御拡張文字
で置き換える（ステップ６０４、６０５、６０３）。こ
の際の置き換えにより、バッファ内の内容は、「＜こ，
０＞＜こ，１＞＜＠，０＞＜＠，０＞＜＠，０＞＜＠，
０＞＜＠，０＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」とな
る。スコアテーブル１２内の最終番目（３番目）の候補
拡張文字列に対する比較処理も終了したので、バッファ
の内容を確定文字列格納部４２１にコピーする（ステッ
プ６０６）。

【００６３】この際のバッファ内容「＜こ，０＞＜こ，
１＞＜＠，０＞＜＠，０＞＜＠，０＞＜＠，０＞＜＠，
０＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」は、「／ここ／
＊＊＊／を／ぬぐ／」という分割を示し、＊＊＊の部分
は複数の候補をとりうる。

【００６４】スコアテーブル１２内の３個の解析結果
（候補拡張文字列）は、「／ここ／で／は／きもの／を／ぬぐ／」「／ここ／で／はきもの／を／ぬぐ／」「／ここ／では／きもの／を／ぬぐ／」というものであったから、この際のバッファ内容は、全
てに共通する形態素が抜き出せていることがわかる。

【００６５】その後、スコアテーブル１２内の１番目の
候補拡張文字列「＜こ，０＞＜こ，１＞＜で，１＞＜
は，１＞＜き，０＞＜も，０＞＜の，１＞＜を，１＞＜
ぬ，０＞＜ぐ，１＞」から、制御拡張文字列の位置に対
応する部分「＜で，１＞＜は，１＞＜き，０＞＜も，０
＞＜の，１＞」を候補テーブル４２２に格納し、次に、
スコアテーブル１２の２番目の「＜こ，０＞＜こ，１＞
＜で，１＞＜は，０＞＜き，０＞＜も，０＞＜の，１＞
＜を，１＞＜ぬ，０＞＜ぐ，１＞」から、制御拡張文字
列の位置に対応する部分「＜で，１＞＜は，０＞＜き，
０＞＜も，０＞＜の，１＞」を候補テーブル４２２に格
納し、最後に、スコアテーブル１２の３番目の「＜こ，
０＞＜こ，１＞＜で，０＞＜は，１＞＜き，０＞＜も，
０＞＜の，１＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」か
ら、制御拡張文字列の位置に対応する部分「＜で，０＞
＜は，１＞＜き，０＞＜も，０＞＜の，１＞」を候補テ
ーブル４２２に格納する（ステップ６０７〜６１０）。

【００６６】図６は、かかる処理が終了したときの候補
テーブル４２２の格納内容を示したものである。

【００６７】確定文字列格納部４２１の内容「＜こ，０
＞＜こ，１＞＜＠，０＞＜＠，０＞＜＠，０＞＜＠，０
＞＜＠，０＞＜を，１＞＜ぬ，０＞＜ぐ，１＞」と、図
６に示した候補テーブル４２２の格納内容に基づいて、
ステップ７の処理を行い、表示装置５に表示させた結果
を図７に示している。

【００６８】（Ａ−３）一実施形態の効果上記実施形態の形態素解析装置によれば、複数の形態素
解析結果の全てに共通する解析結果部分と、共通してい
ない解析結果部分とを弁別し、共通していない解析結果
部分だけを並列的にユーザに提示するようにしたので、
ユーザはその異なる部分だけに着目して最適な形態素解
析結果を認識することができ、ユーザが正しい結果を効
率良く得ることができるようになる。

【００６９】（Ｂ）他の実施形態上記実施形態では、拡張情報が単語区切り情報のみであ
るものを示したが、これに加えて、品詞や選択訳語など
も拡張情報として付加しているものであっても良い。こ
の場合に、品詞や選択訳語の相違も、形態素解析結果の
相違部分として取り扱うことができる。選択訳語を拡張
情報として付加した場合には、本発明の形態素解析装置
を機械翻訳装置の要素として組み込んだ場合の効果は大
きい。

【００７０】また、上記実施形態においては、形態素解
析結果（候補拡張文字列）の候補数がＬに固定されたも
のを示したが、これを可変にしても良い。例えば、Ｌ個
を定めた後、最大の同時確率で他の同時確率を正規化
し、その正規化同時確率を閾値と比較することを通じ
て、候補数をＬ以下に絞り込むようにしても良い。

【００７１】さらに、上記実施形態においては、複数の
形態素解析結果で異なる部分を並列表示するものを示し
たが、複数の形態素解析結果を、前候補キーや次候補キ
ーの操作に応じて切り替えて表示する装置であれば、複
数の形態素解析結果で異なる部分と、全ての形態素解析
結果で共通する部分とを、色分けや網掛けなどによって
区別して表示するようにしても良い。このようにして
も、上記実施形態と同様な効果を奏することができる。

【００７２】さらにまた、上記実施形態においては、異
なる部分が２カ所以上に分かれている場合において、各
位置での複数の候補の中に共通なものがあっても全て表
示するものであったが、各位置で同じものは１個に統合
して表示するようにしても良い。

【００７３】また、上記実施形態においては、確率モデ
ルを利用した形態素解析装置に本発明を適用したものを
示したが、単語辞書を利用した形態素解析装置に対して
も、本発明を適用することができる。要は、複数の形態
素解析結果の全てに共通する解析結果部分と、共通して
いない解析結果部分とを弁別し、共通していない解析結
果部分を共通している部分から浮き出させて表示するも
のであれば良い。

【００７４】さらに、上記実施形態においては、形態素
解析の対象が日本語文であるものを示したが、他の言語
を対象とする形態素解析装置に対しても、本発明を適用
することができる。

【００７５】

【発明の効果】以上のように、本発明の形態素解析装置
によれば、入力文字列を形態素解析し、ユーザに提示す
る１以上の形態素解析結果候補を得る形態素解析手段
と、ユーザに提示する形態素解析結果候補が複数ある場
合において、全ての形態素解析結果候補で結果が一致し
ている部分と、それ以外の不一致部分とを弁別する一致
不一致部分弁別手段と、不一致部分を一致部分から区別
してユーザに形態素解析結果候補を提示する解析結果出
力手段とを有するので、ユーザは一致部分を考慮しない
で不一致部分だけに基づいて、最適候補を認識すること
ができ、効率良く正しい形態素解析結果を得ることがで
きるようになる。

【図面の簡単な説明】

【図１】実施形態の構成を示すブロック図である。

【図２】実施形態の全体動作を示すフローチャートであ
る。

【図３】実施形態の出力情報生成処理を示すフローチャ
ートである。

【図４】実施形態のスコアテーブルの格納例（１）を示
す説明図である。

【図５】実施形態のスコアテーブルの格納例（２）を示
す説明図である。

【図６】実施形態の候補テーブルの格納例を示す説明図
である。

【図７】実施形態の形態素解析結果の表示例を示す説明
図である。

【符号の説明】

１…記憶装置、１２１…候補拡張文字列格納部、２…入
力装置、３…解析装置、４…出力情報生成装置、４１…
出力情報生成部、４２…出力情報格納部、４２１…確定
文字列格納部、４２２…候補テーブル、４３…出力情報
表示部、５…表示装置。

Claims

【特許請求の範囲】

【請求項１】入力文字列を形態素解析し、形態素解析
結果をユーザに提示する形態素解析装置において、入力文字列を形態素解析し、ユーザに提示する１以上の
形態素解析結果候補を得る形態素解析手段と、ユーザに提示する形態素解析結果候補が複数ある場合に
おいて、全ての形態素解析結果候補で結果が一致してい
る部分と、それ以外の不一致部分とを弁別する一致不一
致部分弁別手段と、不一致部分を一致部分から区別してユーザに形態素解析
結果候補を提示する解析結果出力手段とを有することを
特徴とする形態素解析装置。
【請求項２】上記解析結果出力手段は、不一致部分に
ついては、各形態素解析結果候補のその内容を並列提示
すると共に、一致部分については、１列で提示すること
を特徴とする請求項１に記載の形態素解析装置。
【請求項３】上記解析結果出力手段は、候補選択指令
に応じて、形態素解析結果候補を１個ずつ提示するもの
であり、不一致部分と一致部分とで色分けや網掛けなど
の提示態様を変えて提示することを特徴とする請求項１
に記載の形態素解析装置。