JPH0895976A

JPH0895976A - 自然言語解析装置

Info

Publication number: JPH0895976A
Application number: JP6232745A
Authority: JP
Inventors: Kazuhiro Takahashi; 一裕高橋
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1994-09-28
Filing date: 1994-09-28
Publication date: 1996-04-12

Abstract

(57)【要約】【目的】未登録語の抽出に、文字列の反復出現と、反
復出現文字列に後続する文字列の出現状況とを利用す
る。【構成】入力部１は、入力された文章を未登録語候補
抽出部２と言語解析部５とに送る。未登録語候補抽出部
２は、入力部１から送られた文章中から未登録語候補を
抽出して前後に接続する文字列とともに未登録語候補出
現情報記録部３に記録する。未登録語候補評価部４は、
未登録語候補出現情報記録部３に記録された情報を分析
して各未登録語候補の評価を行なう。言語解析部５は、
未登録語候補出現情報評価部４の評価結果を参照しなが
ら入力部１から送られた文章の解析を行ない、結果を出
力部７に送る言語解析を行なう。出力部６が解析結果を
出力する。以上の方法によって、自然言語解析を行な
う。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、言語処理分野で広く利
用される自然言語解析装置に関する。

【０００２】

【従来の技術】近年、機械翻訳や自然言語インタフェー
スの実用化などに伴い、自然言語処理分野は急速に発展
してきている。これに伴って、解析対象とする自然言語
文もまた多様なものになってきている。

【０００３】しかし、自然言語は常に変化を続けてお
り、そこで使用される単語も常に変化し続ける。そのた
めシステム作成時に組み込まれなかった単語、いわゆる
未登録語を適切に扱う能力が自然言語解析装置には不可
欠である。

【０００４】これに対して従来は、解析に失敗した部分
の文字を未登録語としたり失敗した部分を含む字種ブロ
ックを未登録語としたりするなどの方法で未登録語を検
出し、それを名詞であると想定したり、あるいは接続検
定に成功する品詞の中で最も出現頻度の高いものと想定
したりするなどの処理を行なっていた。これらの方法
は、未登録語の多くが漢字またはカタカナから構成され
る名詞であるということを利用したヒューリスティック
スであると考えることもでき、それなりの有効性がある
ことが実証されている。

【０００５】

【発明が解決しようとする課題】しかしながら上記の方
法による検出精度は必ずしも充分なものではなく、字種
境界が単語の区切りと一致しない単語や相対的に出現頻
度の低い品詞の単語などは人間ならば容易に把握できる
ような単語でも検出が困難であった。例えば、「……。
サケがね鯔鰯ってしまった。……。ね鯔鰯るともう使え
ない。……」という文章があったとき、人間ならば意味
などの高度な内容を用いることなく「ね鯔鰯る」という
ラ行五段動詞を把握することが出来る。しかし、従来の
技術でこれを検出することは困難であった。

【０００６】本発明の目的は、このような字種が混合し
ている未登録語や相対的に出現頻度が低い品詞の未登録
語などを適切に処理できる自然言語解析装置を提供する
ことである。

【０００７】

【課題を解決するための手段】本発明の自然言語解析装
置は、入力文章を受け取る入力部と、前記言語解析部の
解析結果を出力する出力部と、前記入力部から入力文章
を受け取り、該文章中から未登録語の可能性がある文字
列を抽出する未登録語候補抽出部と、前記未登録語候補
抽出部が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部と、前
記未登録語出現情報記録部に記録された情報をもとに未
登録語候補の評価を行なう未登録語候補評価部と、前記
未登録語候補評価部の評価結果を参照し、前記入力部か
ら受け取った入力文章を解析する言語解析部とを具備す
ることを特徴とする。

【０００８】本発明の自然言語解析方法は、入力された
文章の中から未登録語候補を抽出し、該未登録語候補と
該未登録語候補に隣接する文字列とを記録し、この記録
内容から未登録語候補出現情報を獲得し、各未登録語候
補の評価を行ない、未登録語候補評価を利用して、入力
文章を解析し、解析結果を出力することを特徴とする。

【０００９】

【実施例】次に本発明の実施例について、図面を参照し
て説明する。

【００１０】図１は、請求項１の発明の一実施例を示す
ブロック図である。

【００１１】この自然言語解析装置は、入力文章を受け
取る入力部１と、前記入力部１から受け取った入力文章
を解析する言語解析部５と、前記言語解析部５の解析結
果を出力する出力部６と前記入力部１から入力文章を受
け取り、該文章中から未登録語の可能性がある文字列を
抽出する未登録語候補抽出部２と、前記未登録語候補抽
出部２が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部３と、
前記未登録語候補出現情報記録部３に記録された情報を
もとに未登録語候補の評価を行なう未登録語候補評価部
４とを備えている。

【００１２】入力部１に入力された文章は、データ線１
２を通して未登録語候補抽出部２に、データ線１５を通
して言語解析部６に、送られる。未登録語候補抽出部２
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線２
３を通して未登録語候補出現情報記録部３に記録する。
未登録語候補評価部４はデータ線３４を通して未登録語
候補出現情報記録部３から未登録語候補出現情報を獲得
し、各未登録語候補の評価を行なう。言語解析部５は、
データ線４５を通して得られる未登録語候補評価部の未
登録語候補評価を利用して、入力部１から送られた入力
文章を解析し、解析結果をデータ線５６を通して出力部
６に送る。出力部６は解析結果を出力する。

【００１３】次に、具体例を用いて動作原理を説明す
る。

【００１４】まず、図４（ａ）に示す文章が入力された
とする。

【００１５】未登録語候補抽出部２は、図４（ａ）の文
章中から図４（ｂ）のような未登録語候補を抽出し、隣
接文字列とともに未登録語候補出現情報記録部３に記録
する。このときの未登録語候補出現情報記録部３の記録
内容の一部を図_５に示す。

【００１６】未登録語候補評価部４は、未登録語候補出
現情報記録部３の記録内容をもとに各未登録語候補の評
価を行なう。図_６に評価方法の一例を、図_７に評価結果
の一例を示す。

【００１７】言語解析部５は、未登録語候補評価部４の
評価を参考にしながら入力部１から送られてきた文章の
解析を行なう。図_８に解析結果の一例を示す。

【００１８】なお、本実施例の未登録語候補出現情報記
録部３には先行および後続文字列の文境界までの部分が
記録されている。しかし、未登録語候補評価部４の評価
方法によっては先行または後続のどちらか一方だけで済
ませてもよい。記録される文字列の長さも文境界までで
あることは本発明の本質ではなく、より短い又はより長
い文字列を記録しても構わない。

【００１９】次に、請求項２の発明について説明する。

【００２０】図２は、請求項２の発明の一実施例を示す
ブロック図である。

【００２１】この自然言語解析装置は、入力文章を受け
取る入力部１と、前記入力部１から受け取った入力文章
を解析する言語解析部５と、前記言語解析部５の解析結
果を出力する出力部６と前記入力部１から入力文章を受
け取り、該文章中から未登録語の可能性がある文字列を
抽出する未登録語候補抽出部２と、前記未登録語候補抽
出部２が抽出した未登録語候補と該未登録語候補に隣接
する文字列とを記録する未登録語出現情報記録部３と、
文字とその文字に対応する意味情報とを格納した文字意
味辞書７と、前記未登録語候補出現情報記録部３に記録
された情報と前記文字意味辞書７に格納された情報とを
もとに未登録語候補の評価を行なう未登録語候補評価部
４とを備えている。

【００２２】入力部１に入力された文章は、データ線１
２を通して未登録語候補抽出部２に、データ線１５を通
して言語解析部６に、送られる。未登録語候補抽出部２
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線２
３を通して未登録語候補出現情報記録部３に記録する。
未登録語候補評価部４はデータ線３４を通して未登録語
候補出現情報記録部３から未登録語候補出現情報を、デ
ータ線４７を通して文字意味辞書７から各未登録語候補
の構成文字列の意味情報を獲得し、各未登録語候補の評
価を行なう。言語解析部５は、データ線４５を通して得
られる未登録語候補評価部の未登録語候補評価を利用し
て、入力部１から送られた入力文章を解析し、解析結果
をデータ線５６を通して出力部６に送る。出力部６は解
析結果を出力する。

【００２３】以下、具体例を用いて説明する。

【００２４】まず、図９（ａ）に示す文章が入力された
とする。

【００２５】未登録語候補抽出部２は、図９（ａ）の文
章中から図９（ｂ）のような未登録語候補を抽出し、隣
接文字列とともに未登録語候補出現情報記録部３に記録
する。このときの未登録語候補出現情報記録部３の記録
内容の一部を図１０に示す。

【００２６】未登録語候補評価部４は、未登録語候補出
現情報記録部３の記録内容と文字意味辞書７から得られ
る意味情報とをもとに各未登録語候補の評価を行なう。
図１１（ａ）に文字味辞書７から得た意味情報の一例
を、図１１（ｂ）に意味情報を利用した評価方法の一例
を、図１２に評価結果の一例を示す。

【００２７】言語解析部５は、未登録語候補評価部４の
評価を参考にしながら入力部１から送られてきた文章の
解析を行なう。図１３に解析結果の一例を示す。

【００２８】図３は、請求項３の発明の一実施例を示す
ブロック図である。

【００２９】この自然言語解析装置は、入力文章を受け
取る入力部１と、言語解析用情報を格納した更新可能な
辞書８と、前記入力部１から受け取った入力文章を前記
辞書８を参照しながら解析し、解析結果を元に前記辞書
８の内容を更新する言語解析部５と、前記言語解析部５
の解析結果を出力する出力部６と前記入力部１から入力
文章を受け取り、該文章中から未登録語の可能性がある
文字列を抽出する未登録語候補抽出部２と、前記未登録
語候補抽出部２が抽出した未登録語候補と該未登録語候
補に隣接する文字列とを記録する未登録語出現情報記録
部３と、前記未登録語候補出現情報記録部３に記録され
た情報をもとに未登録語候補の評価を行ない、評価結果
を元に前記辞書８の内容を更新する未登録語候補評価部
４とを備えている。

【００３０】入力部１に入力された文章は、データ線１
２を通して未登録語候補抽出部２に、データ線１５を通
して言語解析部６に、送られる。未登録語候補抽出部２
は入力文章の中から未登録語候補を抽出し、該未登録語
候補と該未登録語候補に隣接する文字列とをデータ線２
３を通して未登録語候補出現情報記録部３に記録する。
未登録語候補評価部４はデータ線３４を通して未登録語
候補出現情報記録部３から未登録語候補出現情報を獲得
し、各未登録語候補の評価を行ない、評価結果を元にデ
ータ線４８を通して辞書８の内容を更新する。言語解析
部５は、データ線４５を通して得られる未登録語候補評
価部の未登録語候補評価とデータ線５８を通して得られ
る辞書情報とを利用して、入力部１から送られた入力を
解析し、解析結果を元にデータ線５８を通して辞書８の
内容を更新し、解析結果をデータ線５６を通して出力部
６に送る。出力部６は解析結果を出力する。

【００３１】以下、具体例を用いて説明する。

【００３２】まず、図１４（ａ）に示す文章が入力され
たとする。

【００３３】未登録語候補抽出部２は、図１４（ａ）の
文章中から図１４（ｂ）のような未登録語候補を抽出
し、隣接文字列とともに未登録語候補出現情報記録部３
に記録する。このときの未登録語候補出現情報記録部３
の記録内容の一部を図１５に示す。

【００３４】未登録語候補評価部４は、未登録語候補出
現情報記録部３の記録内容をもとに各未登録語候補の評
価を行ない、評価結果をもとに辞書８の内容を更新す
る。図１６に評価結果の一例を、図１７に評価結果によ
る辞書８の内容の更新の一例を示す。

【００３５】言語解析部５は、未登録語候補評価部４の
評価を参考にしながら入力部１から送られてきた文章の
解析を行ない、解析結果を元に辞書８の内容を更新す
る。

【００３６】図１８に解析結果を元にした辞書８の内容
の更新の一例を示す。

【００３７】別の具体例として、未登録語候補抽出部２
が抽出用テンプレートを用いて抽出を行なう場合を説明
する。

【００３８】図１９に示す文章が入力されたとする。更
に、未登録語候補抽出部２が図２０に示す抽出用テンプ
レートを用いるとする。但し、抽出用テンプレート中の
［］は任意の長さの文字列を意味する。未登録語候補抽
出部２は、入力文章に対して抽出用テンプレートを適用
することで未登録語候補を抽出する。その結果、未登録
語候補出現情報記録部３には、図２１に示す未登録語候
補が記録される。

【００３９】別の具体例として、未登録語候補評価部４
が出現頻度を用いて評価を行なう場合を説明する。

【００４０】未登録語候補評価部４が未登録語候補出現
情報記録部３に記録されている情報を検索し、各表層語
とその表層語の出現回数とを計数する。図２２に計数結
果の一例を示す。未登録語候補評価部４は計数結果をも
とに各表層の評価を行なう。図２３に評価結果の一例を
示す。

【００４１】別の具体例として、未登録語候補評価部４
が候補の音の並びを用いて評価を行なう場合を説明す
る。

【００４２】未登録語候補評価部４が用いる評価方法の
一例を図２４に示す。

【００４３】未登録語候補評価部４は未登録語候補出現
情報記録部３に記録されている未登録語候補に該評価方
法を適用して評価を行なう。評価結果の一例を図２５に
示す。

【００４４】別の例として、複数の評価部を持つ例を図
２６に示す。

【００４５】２つの異なった方法で未登録語候補の評価
を行なう未登録語候補評価部αと未登録語候補評価部β
とがあり、両評価部の評価を総合する評価総合部とがあ
る。このとき、点線で囲んだ部分全体を１つの未登録語
候補評価部であるとみなすことができ、請求項１と同じ
発明であるといえる。

【００４６】ここでは２つの評価部を持つ例を示した
が、３つ以上の評価部を持つ場合も同様に考えることが
できる。

【００４７】また、本実施例では説明文、数値、記号、
などが用いられているが、これらの表現方式は本発明の
本質ではなく、同等の説明文、数値、記号などに適宜置
き換えても構わない。

【００４８】

【発明の効果】以上に述べたように、本発明では未登録
語候補を該当候補出現回数と隣接文字列情報とによって
評価しており、従来の手法では困難であった複数の字種
からなる未登録語や出現頻度の低い品詞である未登録語
などを高精度に抽出することが可能になる。

【図面の簡単な説明】

【図１】請求項１の発明の一実施例を示すブロック図で
ある。

【図２】請求項２の発明の一実施例を示すブロック図で
ある。

【図３】請求項３の発明の一実施例を示すブロック図で
ある。

【図４】入力文章、未登録語候補抽出の一例を示すブロ
ック図である。

【図５】未登録語候補出現情報記録部の内容を一例を示
す説明図である。

【図６】未登録語候補評価部の評価方法の一例を示す説
明図である。

【図７】未登録語候補候補評価結果の一例を示す説明図
である。

【図８】入力文章の解析結果の一例を示す説明図であ
る。

【図９】入力文章、未登録語候補抽出の一例を示す説明
図である。

【図１０】未登録語候補出現情報記録部の内容の一例を
示す説明図である。

【図１１】文字意味辞書の内容と文字意味辞書の内容を
利用した評価方法の一例を示す説明図である。

【図１２】文字意味辞書の内容を利用した評価結果の一
例を示す説明図である。

【図１３】入力文章の解析結果の一例を示す説明図であ
る。

【図１４】入力文章、未登録語候補抽出の一例を示す説
明図である。

【図１５】未登録語候補出現情報記録部の内容の一例を
示す説明図である。

【図１６】未登録語候補評価結果の一例を示す説明図で
ある。

【図１７】未登録語候補評価結果を用いた辞書の内容更
新の一例を示す説明図である。

【図１８】言語解析部の解析結果を基にした辞書内容更
新の一例を示す説明図である。

【図１９】入力文章の一例を示す説明図である。

【図２０】抽出用テンプレートの一例を示す説明図であ
る。

【図２１】抽出用テンプレートによって抽出された未登
録語候補の一例を示す説明図である。

【図２２】頻度情報の一例を示す説明図である。

【図２３】頻度情報を用いた評価結果の一例を示す説明
図である。

【図２４】音の並びを用いた評価方法の一例を示す説明
図である。

【図２５】音の並びを用いた評価結果の一例を示す説明
図である。

【図２６】複数の評価部を持つ例を示すブロック図であ
る。

【符_号の説明】

１入力部２未登録語候補抽出部３未登録語候補出現情報記録部４未登録語候補評価部５言語解析部６出力部７文字意味辞書８辞書

Claims

【特許請求の範囲】

【請求項１】入力文章を受け取る入力部と、前記言語解析部の解析結果を出力する出力部と、前記入力部から入力文章を受け取り、該文章中から未登
録語の可能性がある文字列を抽出する未登録語候補抽出
部と、前記未登録語候補抽出部が抽出した未登録語候補と該未
登録語候補に隣接する文字列とを記録する未登録語出現
情報記録部と、前記未登録語出現情報記録部に記録された情報をもとに
未登録語候補の評価を行なう未登録語候補評価部と、前記未登録語候補評価部の評価結果を参照し、前記入力
部から受け取った入力文章を解析する言語解析部とを具
備することを特徴とする自然言語解析装置。
【請求項２】文字とその文字に対応する意味情報とを
格納した文字意味辞書を更に備え、前記未登録語候補評価部が未登録語候補を評価する際に
前記文字意味辞書を参照して行なうことを特徴とする請
求項１記載の自然言語解析装置。
【請求項３】言語解析用情報を格納した更新可能な辞
書を更に備え、前記未登録語候補評価部が評価結果に基づいて前記辞書
の内容を更新し、前記言語解析部が解析結果に基づいて
前記辞書の内容を更新し、前記言語解析部が入力文章を
解析する際に前記辞書の情報を参照することを特徴とす
る請求項１記載の自然言語解析装置。
【請求項４】入力された文章の中から未登録語候補を
抽出し、該未登録語候補と該未登録語候補に隣接する文
字列とを記録し、この記録内容から未登録語候補出現情
報を獲得し、各未登録語候補の評価を行ない、未登録語
候補評価を利用して、入力文章を解析し、解析結果を出
力することを特徴とする自然言語解析方法。