JPH11212976A - 形態素解析装置 - Google Patents

形態素解析装置

Info

Publication number
JPH11212976A
JPH11212976A JP10018486A JP1848698A JPH11212976A JP H11212976 A JPH11212976 A JP H11212976A JP 10018486 A JP10018486 A JP 10018486A JP 1848698 A JP1848698 A JP 1848698A JP H11212976 A JPH11212976 A JP H11212976A
Authority
JP
Japan
Prior art keywords
character string
candidate
analysis result
extended
morphological analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10018486A
Other languages
English (en)
Inventor
Takashi Fukui
毅至 福居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10018486A priority Critical patent/JPH11212976A/ja
Publication of JPH11212976A publication Critical patent/JPH11212976A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 ユーザが複数の形態素解析結果候補から、最
適候補を効率良く認識できるようにする。 【解決手段】 本発明の形態素解析装置は、ユーザに提
示する形態素解析結果候補が複数ある場合において、全
ての形態素解析結果候補で結果が一致している部分と、
それ以外の不一致部分とを弁別する一致不一致部分弁別
手段と、不一致部分を一致部分から区別してユーザに形
態素解析結果候補を提示する解析結果出力手段とを有す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は形態素解析装置に関
し、特に、形態素解析結果の選択や修正が容易なような
形態素解析結果の提示方法の改良に関するものである。
【0002】
【従来の技術】日本語に対する形態素解析処理の手法と
してこれまで一般的であったのは、単語辞書と単語間の
連接の情報を利用するものであった。この手法には単語
辞書にない単語が入力文中に現れたときに解析の精度が
低くなるという未知語の問題がある。
【0003】これに対して、確率モデルを使用すること
によって未知語に強い形態素解析手法が提案されてい
る。この手法では、大きなテキストから品詞やタグ系列
の確率モデルを推定し、その確率モデルに従って形態素
列と各形態素に付与されたタグ列の同時確率を最大とす
るような形態素列及びタグ列を求める。この手法の日本
語への応用の一例として、特開平8−315078号公
報に記載された日本語文字認識方法及び装置がある。
【0004】
【発明が解決しようとする課題】確率モデルを用いた手
法には、形態素列及びタグ列の同時確率に基づいて複数
の解析結果の尤もらしさに順序を付けることができると
いう特徴がある。上記の手法においては、尤もらしい順
に並列的に又は順次提示される解析結果の中から正解と
思われるものをユーザが選ぶようになっているが、似た
ような解析結果から正解を1つ選択するのは容易ではな
く効率が悪い。
【0005】そのため、複数の形態素解析結果の中から
ユーザが正しいものを選択することが効率良くできるよ
うに、複数の形態素解析結果をユーザに提示できる形態
素解析装置が望まれている。
【0006】
【課題を解決するための手段】かかる課題を解決するた
め、本発明は、入力文字列を形態素解析し、形態素解析
結果をユーザに提示する形態素解析装置において、
(1)入力文字列を形態素解析し、ユーザに提示する1
以上の形態素解析結果候補を得る形態素解析手段と、
(2)ユーザに提示する形態素解析結果候補が複数ある
場合において、全ての形態素解析結果候補で結果が一致
している部分と、それ以外の不一致部分とを弁別する一
致不一致部分弁別手段と、(3)不一致部分を一致部分
から区別してユーザに形態素解析結果候補を提示する解
析結果出力手段とを有することを特徴とする。
【0007】本願発明者は、複数の形態素解析結果候補
の中で異なる解析結果を持つ部分は全体の中から見れば
少ない部分であることを見いだした。そして、そのこと
に着目し、不一致部分を一致部分から区別してユーザに
提示する構成とした。これにより、ユーザは一致部分を
考慮しないで不一致部分だけに基づいて、最適候補を選
択することができ、効率良く正しい形態素解析結果を得
ることができるようになる。
【0008】
【発明の実施の形態】(A)一実施形態 以下、本発明を、確率モデル(拡張文字単位の時系列モ
デル)を利用した形態素解析装置に適用した一実施形態
を図面を参照しながら詳述する。
【0009】(A−1)一実施形態の構成 この実施形態の形態素解析装置は、パソコンやワークス
テーションなどの情報処理装置上に構成されるものであ
るが、機能的には、図1に示すブロック図で表すことが
できる。
【0010】図1において、この実施形態の形態素解析
装置は、大きくは、記憶装置1、入力装置2、解析装置
3、出力情報生成装置4及び表示装置5を有する。
【0011】入力装置2は、自然言語テキストを当該形
態素解析装置へ入力させるためのキーボード、マウス、
OCR(光学式文字認識装置)、音声認識装置等の任意
の手段で構成しても良いし、ネットワーク等の通信媒体
を経て外部からの通信信号を受信する手段として構成し
ても良い。
【0012】記憶装置1は、連鎖確率テーブル11、ス
コアテーブル12及び入力文字列格納部13からなる。
【0013】入力文字列格納部13は、入力装置2から
入力された形態素解析対象の文字列を格納するものであ
る。
【0014】連鎖確率テーブル11は、拡張文字列格納
部111と連鎖確率格納部112とからなり、拡張文字
列とその連鎖確率(部分連鎖確率)を格納するものであ
り、訓練テキスト(コーパス)により予め学習されて作
成されているものである。
【0015】ここで、拡張文字とは、文字と拡張情報と
が組となったものであり、拡張情報として、少なくとも
その文字の後が単語の区切りになっているか否かを表す
単語区切り情報を含む。拡張情報としては、単語区切り
情報の他、品詞情報などもあるが、この実施形態の説明
では、単語区切り情報だけが拡張情報として付与されて
いるとする。
【0016】連鎖確率テーブル11には、N(Nは例え
ば1、2又は3)文字の拡張文字列と、その拡張文字列
がコーパスの中でどの位の頻度で現れたかを示す連鎖確
率とが、多数のN文字拡張文字列について格納されてい
る。
【0017】スコアテーブル12は、候補拡張文字列格
納部121及び同時確率格納部122からなり、候補拡
張文字列とその候補拡張文字列についての同時確率とを
格納するものである。
【0018】ここで、候補拡張文字列とは、入力文字列
の各文字を拡張文字に置き換えたものをいう。各文字に
対する拡張文字は、単語区切り情報として区切りである
ことを示す拡張情報が付加されたものと、単語区切り情
報として区切りでないことを示す拡張情報が付加された
ものとの2種類があり、候補拡張文字列はそれらの組み
合わせであるので、入力文字列に対する候補拡張文字列
の種類はかなり多くなる。この実施形態では、候補拡張
文字列格納部121には最大でL+1個(Lは2以上)
の候補拡張文字列が格納できるようになされている。
【0019】また、同時確率(スコア)とは、候補拡張
文字列を構成する、文頭から文末までの全てのN文字の
拡張文字列の連鎖確率を乗算したものである。この実施
形態では、同時確率格納部122にも、候補拡張文字列
に対応した最大でL+1個(Lは2以上)の同時確率が
格納できるようになされている。
【0020】解析装置3は、候補拡張文字列生成部3
1、同時確率計算部32及びスコア比較部33とからな
る。
【0021】候補拡張文字列生成部31は、入力文字列
についての全ての候補拡張文字列を生成するものであ
る。この実施形態の場合、候補拡張文字列生成部31
は、全ての候補拡張文字列を順次生成するものであり、
生成した候補拡張文字列を候補拡張文字列格納部121
に、L+1番目のレコードとして(L個の候補拡張文字
列が格納されていない場合は最後尾のレコードとして)
格納させるものである。
【0022】同時確率計算部32は、候補拡張文字列格
納部121のL+1番目のレコード(L個の候補拡張文
字列が格納されていない場合に最後尾のレコード)に係
る候補拡張文字列の同時確率を計算するものであり、計
算によって得られた同時確率を同時確率格納部122の
L+1番目のレコードとして(L個の同時確率が格納さ
れていない場合に最後尾のレコードとして)格納させる
ものである。
【0023】スコア比較部33は、同時確率計算部32
による現時点で生成された候補拡張文字列についての同
時確率の計算が終了すると、候補拡張文字列格納部12
1及び同時確率格納部122に格納されているL+1個
の情報(候補拡張文字列及び同時確率の組)の中から、
同時確率が大きい方からL個を残し、L+1番目のレコ
ードを空にするものである。なお、この実施形態の場
合、スコア比較部33は、候補拡張文字列格納部121
及び同時確率格納部122にL+1個の情報が格納され
るまでは処理を実行しない。
【0024】出力情報生成装置4は、出力情報生成部4
1、出力情報格納部42及び出力情報表示部43を有す
る。
【0025】出力情報生成部41は、候補拡張文字列生
成部31が最後の候補拡張文字列を生成し、それに対す
るスコア比較部33の処理が終了したときに起動され、
候補拡張文字列格納部121に格納されているL個の候
補拡張文字列が示す形態素列のうち、全てに共通する部
分と、それ以外の部分とを認識するものである。そし
て、出力情報生成部41は、認識した共通部分を確定文
字列として出力情報格納部42の確定文字列格納部42
1に格納すると共に、異なっている部分を出力情報格納
部42の候補テーブル422に格納する。
【0026】出力情報格納部42は、確定文字列格納部
421及び候補テーブル422でなる。
【0027】確定文字列格納部421には、上述のよう
に、出力情報生成部41によって、L個の候補拡張文字
列で共通する拡張文字列(確定文字列)が格納されるも
のである。なお、この確定文字列格納部421には、共
通していない部分については共通していない部分である
ことを表す制御拡張文字が該当位置に格納される。ここ
で、共通している拡張文字列部分か否かは、形態素の区
切り方が一致している部分か否かである。
【0028】候補テーブル422は、位置情報格納部4
221、候補番号格納部4222及び不一致文字列格納
部4223からなり、出力情報生成部41によって、L
個の候補拡張文字列において一致していないと認識され
た複数の部分拡張文字列を、元の拡張文字列中のどの位
置にあたるものかを示す位置情報と、同じ位置にあたる
候補を識別するための候補番号と共に格納するものであ
る。
【0029】なお、L個の候補拡張文字列において一致
していないと認識された複数の部分拡張文字列が、拡張
文字列を挟んで異なる位置に複数ある場合には、各位置
毎に、複数の部分拡張文字列と位置情報と候補番号とが
格納される。
【0030】出力情報表示部43は、変換部431及び
表示部432でなり、出力情報格納部42に格納されて
いる情報を、表示装置5に表示させるための処理を行う
ものである。
【0031】変換部431は、確定文字列格納部421
に格納されている情報や、候補テーブル422に格納さ
れている情報から、形態素解析結果に対する表示用の文
字列を生成するものである。
【0032】表示部432は、この変換部431によっ
て変換された表示用文字列を表示装置5に表示させる処
理を行うものであり、複数の形態素解析結果に共通する
確定部分はそのまま(1候補で)、複数の形態素解析結
果に共通していない部分は複数の候補を並列に表示させ
る。
【0033】表示装置5は、出力情報生成装置4によっ
て処理された形態素解析結果を表示するものである。表
示装置5は、通信回線を介して遠隔地に設けられている
ものであっても良い。また、この実施形態では、表示出
力を意図しているが、印刷出力を行う印刷装置に表示装
置を置き換えることもできる。
【0034】(A−2)一実施形態の動作 次に、以上のような各部からなるこの実施形態の形態素
解析装置の動作を説明する。ここで、図2が、この実施
形態の形態素解析装置の動作を説明するフローチャート
である。
【0035】この実施形態においては、形態素解析は1
文を入力単位として行われる。また、以下の説明におい
ては、文字列「ここではきものぬぐ」が入力された場合
を例にして、処理の流れを具体的にも説明する。この実
施形態では単語区切り情報として、その文字の直後に単
語境界があることを「1」で、単語境界がないことを
「0」で表現する。
【0036】形態素解析処理が起動されると、解析装置
3は入力装置2から入力文字列を読み込んで入力文字列
格納部13に格納させる(ステップ1)。
【0037】その後、候補拡張文字列生成部31は、読
み込んだ入力文字列に対して、まだ生成していない候補
拡張文字列を生成し、候補拡張文字列格納部121の空
状態の最後尾のレコードに格納する(ステップ2)。以
下の説明では、文字cに対して拡張情報eを付与した拡
張文字を<c,e>のように表現する。上述した入力文
字列に対する候補拡張文字列の例としては、<こ,0>
<こ,0><で,1><は,0><き,0><も,0>
<の,1><を,1><ぬ,0><ぐ,1>を挙げるこ
とができる。この候補拡張文字列の例は、「/ここ/で
/はきもの/を/ぬぐ/」という分割(「/」は単語区
切りを意味している)を示している。
【0038】次に、同時確率計算部32は、連鎖確率テ
ーブル11の格納情報を利用して、今回生成された候補
拡張文字列についての同時確率を計算し、同時確率格納
部122の空状態の最後尾のレコードに格納する(ステ
ップ3)。
【0039】連鎖確率テーブル11に、3文字の拡張文
字列とその連鎖確率が格納されているとすると、候補拡
張文字列例<こ,0><こ,0><で,1><は,0>
<き,0><も,0><の,1><を,1><ぬ,0>
<ぐ,1>に対しては、<こ,0><こ,0><で,1
>の連鎖確率と、<こ,0><で,1><は,0>の連
鎖確率と、…、<を,1><ぬ,0><ぐ,1>の連鎖
確率とを取り出し、それらをかけ合わせることにより候
補拡張文字列の同時確率を求める。
【0040】その後、スコア比較部33は、候補拡張文
字列格納部121及び同時確率格納部122に情報が格
納されているレコード数がL+1個であるか否かを確認
し、L+1個未満であると何らの処理も実行せず、L+
1個であると、同時確率が最も大きいものが1番目にく
るようにスコアテーブル12内の要素(候補拡張文字列
及び同時確率)をソートした後、(L+1)番目のレコ
ードの内容を削除する(ステップ4)。このステップ4
の処理により、今まで生成された候補拡張文字列がL+
1個以上あっても、同時確率が大きい方のL個がスコア
テーブル12内の残ることになる。
【0041】例えば、図4に示したスコアテーブル12
の格納状態において(L=3とする)、同時確率が格納
済みのものより大きい候補拡張文字列<こ,0><こ,
1><で,1><は,1><き,0><も,0><の,
1><を,1><ぬ,0><ぐ,1>(同時確率1.5
498×10-8)がL+1番目のレコードとして格納さ
れた後、ステップ4の処理を施した結果を図5に示して
いる。
【0042】ステップ4の処理が終了すると、候補拡張
文字列生成部31が全ての候補拡張文字列を生成したか
を判断し(ステップ5)、生成していなければステップ
2の処理に戻る。
【0043】一方、全ての候補拡張文字列を生成してい
ると、ステップ6以降の出力情報生成装置4による処理
に移行する。
【0044】ステップ6の処理に移行したときには、上
述したステップ2〜5の処理ループの繰り返しにより、
全ての候補拡張文字列のうち、同時確率が大きい順に
(尤もらしさが高い順に)L個の候補拡張文字列がスコ
アテーブル12に格納されていることになる。
【0045】出力情報生成装置4においては、出力情報
生成部41が、スコアテーブル12の候補拡張文字列格
納部121に格納されているL個の候補拡張文字列に共
通している確定文字列とそれ以外のものとを識別して、
それらを区別して出力情報格納部42に格納させると共
に(ステップ6)、出力情報表示部43が、出力情報格
納部42に格納された情報に基づいて、L個の候補拡張
文字列に共通する部分については、1候補として、異な
る部分については複数の候補を並列に表示装置5に表示
させる(ステップ7)。この表示は、単語区切り情報が
「0」である拡張文字については文字だけを、単語区切
り情報が「1」である拡張文字については文字に後に区
切りを示す「/」を付与して行う。
【0046】以下、図3のフローチャートを参照しなが
ら、上述したステップ6の処理を詳述する。
【0047】なお、このステップ6の処理及び次のステ
ップ7の処理は、候補数パラメータLを適切に設定して
おけば、同時確率(尤もらしさ)が高い方からL個の候
補拡張文字列は、実際上、ほとんどが同じ拡張文字列の
ならびになっていて僅かな部分だけが異なるようにな
る、ことに鑑みて設けられた処理である。
【0048】図5の例では、同時確率の高い順に、 「/ここ/で/は/きもの/を/ぬぐ/」 「/ここ/で/はきもの/を/ぬぐ/」 「/ここ/では/きもの/を/ぬぐ/」 という形態素解析結果に対応している。この3個の形態
素解析結果では、「ここ」、「を」及び「ぬぐ」という
形態素が共通している。このように、得られた形態素解
析結果(候補拡張文字列)の全てに共通する形態素を表
現する部分拡張文字列を確定し、共通していない部分に
ついては未確定部分として複数の部分拡張文字列を記録
するようにしたのがステップ6の処理である。
【0049】図3に示す処理を開始すると、出力情報生
成部41は、スコアテーブル12内の1番目の拡張文字
列をコピーして内蔵するバッファに格納する(ステップ
601)。
【0050】その後、スコアテーブル12のインデック
スiを2にセットした後(ステップ602)、スコアテ
ーブル12内のi番目の候補拡張文字列とバッファ内の
候補拡張文字列とを比較し、バッファ内の候補拡張文字
列を部分的に、比較結果に応じて変更に格納する(ステ
ップ603)。
【0051】ステップ603の処理を詳述する。比較す
るのは、文字は同じであるので、同じ文字位置にある単
語区切り情報のみとする。2個の候補拡張文字列で異な
る単語区切り情報をもつ文字位置をdとする。dよりも
小さい文字位置で単語区切り情報が「1」で一致するも
ののうち最大の文字位置をdlとし、dよりも大きい文
字位置で単語区切り情報が「1」で一致するもののうち
最小の文字位置をdrとする。dlに該当するものがな
い場合、dl=0とする。バッファ内の候補拡張文字列
のdl +1番目からdr −1番目の拡張文字を、それぞ
れ「0」の単語区切り情報を持つ制御拡張文字で置き換
え、dr 番目の拡張文字を「1」の単語区切り情報を持
つ制御拡張文字で置き換える。ここでは、2種類の制御
拡張文字を、<@,0>あるいは<@,1>とする。以
上の処理を、全ての不一致点について行なう。
【0052】ステップ603の処理が終了すると、イン
デックスiと候補拡張文字列の種類数Lとが一致してい
るか否かを判別し(ステップ604)、不一致ならば、
インデックスiを1インクリメントした後に上述したス
テップ603に戻る(ステップ605)。
【0053】ステップ603〜605の処理を繰り返す
ことにより、やがて、バッファ内の候補拡張文字列(一
部が制御拡張文字列に置き換えられていることがある)
と、スコアテーブル12内のL(=i)番目の候補拡張
文字列との比較処理も終了し、ステップ604でi=L
という結果を得ると、バッファの内容を確定文字列格納
部421に格納する(ステップ606)。確定文字列格
納部421に格納された情報のうち、制御拡張文字列以
外が全ての候補拡張文字列に共通する部分を表してお
り、制御拡張文字列部分が候補拡張文字列間で異なる部
分を表している。
【0054】その後、候補テーブル422への格納処理
に移行する。候補テーブル422への格納処理ではま
ず、スコアテーブル12のインデックスiを1にセット
する(ステップ607)。
【0055】そして、スコアテーブル12内のi番目の
候補拡張文字列から、バッファ内の候補拡張文字列中の
制御拡張文字列の位置にあたる部分拡張文字列をコピー
して出力情報格納部42の候補テーブル422に格納す
る(ステップ608)。このとき、部分拡張文字列の先
頭の文字位置と、その位置での何番目の候補かを表す候
補番号も同時に格納する。
【0056】ステップ608の処理が終了すると、イン
デックスiと候補拡張文字列の種類数Lとが一致してい
るか否かを判別し(ステップ609)、不一致ならば、
インデックスiを1インクリメントした後に上述したス
テップ608に戻る(ステップ610)。
【0057】ステップ608〜610の処理を繰り返す
ことにより、スコアテーブル12内のL(=i)番目の
候補拡張文字列についての情報を候補テーブルに格納す
ることも終了し、ステップ7の処理に移行する。
【0058】上述したステップ7の処理は、詳細には、
以下の通りである。確定文字列格納部421の拡張文字
列を参照し、制御拡張文字でなければ拡張文字の文字を
表示する。単語区切り情報が「1」ならば文字に続いて
単語区切りを示す記号(ここでは「/」)を表示する。
制御拡張文字列部分については、候補テーブル422を
参照して複数の候補を並列に表示する。
【0059】スコアテーブル12の格納内容が図5に示
す場合を例として、ステップ601〜ステップ610の
処理を具体的に説明する。
【0060】まず、スコアテーブル12内の1番目の候
補拡張文字列「<こ,0><こ,1><で,1><は,
1><き,0><も,0><の,1><を,1><ぬ,
0><ぐ,1>」をバッファにコピーする(ステップ6
01)。
【0061】次に、バッファ内の候補拡張文字列「<
こ,0><こ,1><で,1><は,1><き,0><
も,0><の,1><を,1><ぬ,0><ぐ,1>」
と、スコアテーブル12のi(=2)番目の「<こ,0
><こ,1><で,1><は,0><き,0><も,0
><の,1><を,1><ぬ,0><ぐ,1>」を比較
し、バッファ内の候補拡張文字列の一部を制御拡張文字
で置き換える(ステップ602、603)。この際の置
き換えにより、バッファ内の内容は、「<こ,0><
こ,1><で,1><@,0><@,0><@,0><
@,0><を,1><ぬ,0><ぐ,1>」となる。
【0062】次に、バッファ内の候補拡張文字列「<
こ,0><こ,1><で,1><@,0><@,0><
@,0><@,0><を,1><ぬ,0><ぐ,1>」
と、スコアテーブル12のi(=3)番目の「<こ,0
><こ,1><で,0><は,1><き,0><も,0
><の,1><を,1><ぬ,0><ぐ,1>」を比較
し、バッファ内の候補拡張文字列の一部を制御拡張文字
で置き換える(ステップ604、605、603)。こ
の際の置き換えにより、バッファ内の内容は、「<こ,
0><こ,1><@,0><@,0><@,0><@,
0><@,0><を,1><ぬ,0><ぐ,1>」とな
る。スコアテーブル12内の最終番目(3番目)の候補
拡張文字列に対する比較処理も終了したので、バッファ
の内容を確定文字列格納部421にコピーする(ステッ
プ606)。
【0063】この際のバッファ内容「<こ,0><こ,
1><@,0><@,0><@,0><@,0><@,
0><を,1><ぬ,0><ぐ,1>」は、「/ここ/
***/を/ぬぐ/」という分割を示し、***の部分
は複数の候補をとりうる。
【0064】スコアテーブル12内の3個の解析結果
(候補拡張文字列)は、 「/ここ/で/は/きもの/を/ぬぐ/」 「/ここ/で/はきもの/を/ぬぐ/」 「/ここ/では/きもの/を/ぬぐ/」 というものであったから、この際のバッファ内容は、全
てに共通する形態素が抜き出せていることがわかる。
【0065】その後、スコアテーブル12内の1番目の
候補拡張文字列「<こ,0><こ,1><で,1><
は,1><き,0><も,0><の,1><を,1><
ぬ,0><ぐ,1>」から、制御拡張文字列の位置に対
応する部分「<で,1><は,1><き,0><も,0
><の,1>」を候補テーブル422に格納し、次に、
スコアテーブル12の2番目の「<こ,0><こ,1>
<で,1><は,0><き,0><も,0><の,1>
<を,1><ぬ,0><ぐ,1>」から、制御拡張文字
列の位置に対応する部分「<で,1><は,0><き,
0><も,0><の,1>」を候補テーブル422に格
納し、最後に、スコアテーブル12の3番目の「<こ,
0><こ,1><で,0><は,1><き,0><も,
0><の,1><を,1><ぬ,0><ぐ,1>」か
ら、制御拡張文字列の位置に対応する部分「<で,0>
<は,1><き,0><も,0><の,1>」を候補テ
ーブル422に格納する(ステップ607〜610)。
【0066】図6は、かかる処理が終了したときの候補
テーブル422の格納内容を示したものである。
【0067】確定文字列格納部421の内容「<こ,0
><こ,1><@,0><@,0><@,0><@,0
><@,0><を,1><ぬ,0><ぐ,1>」と、図
6に示した候補テーブル422の格納内容に基づいて、
ステップ7の処理を行い、表示装置5に表示させた結果
を図7に示している。
【0068】(A−3)一実施形態の効果 上記実施形態の形態素解析装置によれば、複数の形態素
解析結果の全てに共通する解析結果部分と、共通してい
ない解析結果部分とを弁別し、共通していない解析結果
部分だけを並列的にユーザに提示するようにしたので、
ユーザはその異なる部分だけに着目して最適な形態素解
析結果を認識することができ、ユーザが正しい結果を効
率良く得ることができるようになる。
【0069】(B)他の実施形態 上記実施形態では、拡張情報が単語区切り情報のみであ
るものを示したが、これに加えて、品詞や選択訳語など
も拡張情報として付加しているものであっても良い。こ
の場合に、品詞や選択訳語の相違も、形態素解析結果の
相違部分として取り扱うことができる。選択訳語を拡張
情報として付加した場合には、本発明の形態素解析装置
を機械翻訳装置の要素として組み込んだ場合の効果は大
きい。
【0070】また、上記実施形態においては、形態素解
析結果(候補拡張文字列)の候補数がLに固定されたも
のを示したが、これを可変にしても良い。例えば、L個
を定めた後、最大の同時確率で他の同時確率を正規化
し、その正規化同時確率を閾値と比較することを通じ
て、候補数をL以下に絞り込むようにしても良い。
【0071】さらに、上記実施形態においては、複数の
形態素解析結果で異なる部分を並列表示するものを示し
たが、複数の形態素解析結果を、前候補キーや次候補キ
ーの操作に応じて切り替えて表示する装置であれば、複
数の形態素解析結果で異なる部分と、全ての形態素解析
結果で共通する部分とを、色分けや網掛けなどによって
区別して表示するようにしても良い。このようにして
も、上記実施形態と同様な効果を奏することができる。
【0072】さらにまた、上記実施形態においては、異
なる部分が2カ所以上に分かれている場合において、各
位置での複数の候補の中に共通なものがあっても全て表
示するものであったが、各位置で同じものは1個に統合
して表示するようにしても良い。
【0073】また、上記実施形態においては、確率モデ
ルを利用した形態素解析装置に本発明を適用したものを
示したが、単語辞書を利用した形態素解析装置に対して
も、本発明を適用することができる。要は、複数の形態
素解析結果の全てに共通する解析結果部分と、共通して
いない解析結果部分とを弁別し、共通していない解析結
果部分を共通している部分から浮き出させて表示するも
のであれば良い。
【0074】さらに、上記実施形態においては、形態素
解析の対象が日本語文であるものを示したが、他の言語
を対象とする形態素解析装置に対しても、本発明を適用
することができる。
【0075】
【発明の効果】以上のように、本発明の形態素解析装置
によれば、入力文字列を形態素解析し、ユーザに提示す
る1以上の形態素解析結果候補を得る形態素解析手段
と、ユーザに提示する形態素解析結果候補が複数ある場
合において、全ての形態素解析結果候補で結果が一致し
ている部分と、それ以外の不一致部分とを弁別する一致
不一致部分弁別手段と、不一致部分を一致部分から区別
してユーザに形態素解析結果候補を提示する解析結果出
力手段とを有するので、ユーザは一致部分を考慮しない
で不一致部分だけに基づいて、最適候補を認識すること
ができ、効率良く正しい形態素解析結果を得ることがで
きるようになる。
【図面の簡単な説明】
【図1】実施形態の構成を示すブロック図である。
【図2】実施形態の全体動作を示すフローチャートであ
る。
【図3】実施形態の出力情報生成処理を示すフローチャ
ートである。
【図4】実施形態のスコアテーブルの格納例(1)を示
す説明図である。
【図5】実施形態のスコアテーブルの格納例(2)を示
す説明図である。
【図6】実施形態の候補テーブルの格納例を示す説明図
である。
【図7】実施形態の形態素解析結果の表示例を示す説明
図である。
【符号の説明】
1…記憶装置、121…候補拡張文字列格納部、2…入
力装置、3…解析装置、4…出力情報生成装置、41…
出力情報生成部、42…出力情報格納部、421…確定
文字列格納部、422…候補テーブル、43…出力情報
表示部、5…表示装置。

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 入力文字列を形態素解析し、形態素解析
    結果をユーザに提示する形態素解析装置において、 入力文字列を形態素解析し、ユーザに提示する1以上の
    形態素解析結果候補を得る形態素解析手段と、 ユーザに提示する形態素解析結果候補が複数ある場合に
    おいて、全ての形態素解析結果候補で結果が一致してい
    る部分と、それ以外の不一致部分とを弁別する一致不一
    致部分弁別手段と、 不一致部分を一致部分から区別してユーザに形態素解析
    結果候補を提示する解析結果出力手段とを有することを
    特徴とする形態素解析装置。
  2. 【請求項2】 上記解析結果出力手段は、不一致部分に
    ついては、各形態素解析結果候補のその内容を並列提示
    すると共に、一致部分については、1列で提示すること
    を特徴とする請求項1に記載の形態素解析装置。
  3. 【請求項3】 上記解析結果出力手段は、候補選択指令
    に応じて、形態素解析結果候補を1個ずつ提示するもの
    であり、不一致部分と一致部分とで色分けや網掛けなど
    の提示態様を変えて提示することを特徴とする請求項1
    に記載の形態素解析装置。
JP10018486A 1998-01-30 1998-01-30 形態素解析装置 Pending JPH11212976A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10018486A JPH11212976A (ja) 1998-01-30 1998-01-30 形態素解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10018486A JPH11212976A (ja) 1998-01-30 1998-01-30 形態素解析装置

Publications (1)

Publication Number Publication Date
JPH11212976A true JPH11212976A (ja) 1999-08-06

Family

ID=11972979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10018486A Pending JPH11212976A (ja) 1998-01-30 1998-01-30 形態素解析装置

Country Status (1)

Country Link
JP (1) JPH11212976A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014238690A (ja) * 2013-06-07 2014-12-18 コニカミノルタ株式会社 操作支援プログラム及び操作支援方法並びに情報処理装置
WO2025046741A1 (ja) * 2023-08-29 2025-03-06 ファナック株式会社 自然言語処理装置、及びコンピュータ読み取り可能な記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014238690A (ja) * 2013-06-07 2014-12-18 コニカミノルタ株式会社 操作支援プログラム及び操作支援方法並びに情報処理装置
WO2025046741A1 (ja) * 2023-08-29 2025-03-06 ファナック株式会社 自然言語処理装置、及びコンピュータ読み取り可能な記録媒体

Similar Documents

Publication Publication Date Title
US5526259A (en) Method and apparatus for inputting text
US20100023318A1 (en) Method and device for retrieving data and transforming same into qualitative data of a text-based document
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JPH10326275A (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JP3309174B2 (ja) 文字認識方法及び装置
US20240037129A1 (en) Search device, search method, and recording medium
JPH11212976A (ja) 形態素解析装置
JP3080066B2 (ja) 文字認識装置、方法及び記憶媒体
JPH10232863A (ja) かな漢字変換装置および方法、並びに記録媒体
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
JP3758241B2 (ja) 音声情報検索装置
JP2007122660A (ja) 文書データ処理装置および文書データ処理プログラム
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
US20030110451A1 (en) Practical chinese classification input method
JP3048793B2 (ja) 文字変換装置
JP2024085139A (ja) テキスト生成方法、テキスト生成装置
KR100476100B1 (ko) 실용적인 중국어 입력 방법
JPS61177575A (ja) 日本語文章作成装置
JP2001051992A (ja) 日本語統計データ作成装置および方法、並びにディクテーションシステム
JP2730308B2 (ja) 自然言語解析方式
JPH0916575A (ja) 発音辞書装置
JP2020071668A (ja) 要約生成方法及び要約生成プログラム
JPH11175522A (ja) 自然言語処理方法及び装置
JPH04213754A (ja) 文節区切り学習方式