JPH11282842A

JPH11282842A - 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JPH11282842A
Application number: JP10103927A
Authority: JP
Inventors: Ikuaki Kobayashi; 生明小林
Original assignee: Brother Industries Ltd
Current assignee: Brother Industries Ltd
Priority date: 1998-03-30
Filing date: 1998-03-30
Publication date: 1999-10-15

Abstract

(57)【要約】【課題】日本語の形態素解析をするために辞書検索を
行う時、日本語辞書の検索範囲を適正化して検索を効率
化して処理を高速化すること。【解決手段】入力された日本語文の漢字部分とひらが
な部分の文字種を判断し例えば漢字を１，ひらがなを０
などの数字に置換えて記憶する。その数字を手掛かりに
その入力文を同じ文字種ごとに分割する。文字種の組合
せに着目して所定の文字種の組み合わせの文字列に、入
力された文章を、検索すべき文字列として分割する。日
本語辞書のうち同様な文字種の組合せの文字列のみを検
索の対象とすることで効率の良い辞書検索処理を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日本語解析装置及
び日本語解析プログラムを記録したコンピュータ読み取
り可能な記録媒体に関し、詳しくは、日本語形態素解析
における日本語辞書検索の効率化に関するものである。

【０００２】

【従来の技術】従来の日本語解析装置において、与えら
れた日本語の文字列から単語を切り出すための形態素解
析の方法として最長一致法による解析が一般的に用いら
れていた。この最長一致法というのは、まず辞書に存在
する一番長い単語の文字数と同じ長さのかな漢字文字列
を、解析の対象である日本語文章から切り出し、それを
辞書に記録された単語と照合しながら同一文字列を辞書
検索し、一致した文字列が存在すれば単語と認識される
が、一致した文字列がない場合は検索に失敗したことに
なり、このときには末尾を一文字削ったものを検索の対
象文字列としてまたそれを辞書検索をし、さらに失敗す
るようであればさらに一文字削って検索し、繰り返し一
致した文字列があるまで検索するように構成されてい
た。

【０００３】例えば「一の宮は良い天気です」という文
であれば、まず、日本語辞書の１０文字の辞書を参照し
て検索し、１０文字の辞書に「一の宮は良い天気です」
という登録単語がなければ、次に、「一の宮は良い天気
で」という文字列について、日本語辞書の９文字の辞書
を参照して検索し、「一の宮は良い天気で」という登録
単語がなければ、次に「一の宮は良い天気」について同
様な検索を繰り返し、「一の宮」という３文字からなる
文字列の日本語辞書での検索で一致するまで、単語検索
を繰り返し行う必要があり、極めて多くの手順を経なけ
れば検索できなかった。

【０００４】ただ、このような検索であれば、辞書に記
載されているすべての単語について検索されるため、正
確な辞書検索が出来ることになるので、最長一致法が採
用されてきた。

【０００５】

【発明が解決しようとする課題】しかしながら、実際に
単語として解析対象である日本語文章に用いられている
ものの多くは、辞書に登録されている最長の単語に比べ
極めて短く、このような短い単語を多く含んだ解析対象
である文字列について、辞書の一番長い文字列から順番
に長い文字列においてすべて一致するか否かの検索をす
るのでは検索に無駄が多く、解析時間を遅くする原因と
なるという問題点があった。

【０００６】そこで、本発明は、上記課題を解決するた
めなされたものであり、無駄のない検索範囲を設定する
ことにより、検索漏れを起こさずに日本語解析の精度を
落とさないで、かつ検索時間を短縮できる、日本語形態
素解析をするための日本語解析装置及び日本語解析装置
のためのプログラムを記録したコンピュータ読み取り可
能な記録媒体を提供するものである。

【０００７】

【課題を解決するための手段】この目的を達成するため
に請求項１に記載の日本語解析装置は、かな漢字文字列
を入力するための入力手段と、その入力手段により入力
されたかな漢字文字列を記憶する記憶手段と、その記憶
手段に記憶されたかな漢字文字列の漢字、かな等の文字
種を判定する文字種判定手段と、前記文字種判定手段に
より判定された文字種に基づいて前記入力されたかな漢
字文字列の文字種の変わる境目で分割し、１または連続
した複数の同種の文字種からなる漢字部分、かな部分等
に分割する文字種分割手段と、日本語の単語及びその単
語の情報を記憶した日本語辞書と、前記文字種分割手段
により分割された位置で区切ったかな漢字文字列を前記
日本語辞書から単語として検索する単語検索手段とを備
えて日本語文章の形態素解析を行うことを特徴とする。

【０００８】請求項１に記載の日本語解析装置によれ
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列を、１または連続した複数の同種の文字種からな
る漢字部分、かな部分等に分割し、分割された位置で区
切ったかな漢字文字列を日本語辞書から単語として検索
することで、必要以上に長い日本語辞書の単語を参照す
ることなく、かつ検索漏れのない、無駄無く効率の良い
単語検索ができる。

【０００９】請求項２に記載の日本語解析装置は、請求
項１に記載の日本語解析装置の構成に加え、前記文字種
判定手段は、前記かなをひらがなとカタカナに、或いは
前記漢字かなを除く文字種として英数文字とその他の記
号に、又は、さらに文字種を多種類に分類する文字種判
定手段であり、前記文字種分割手段は、入力された文字
列を当該分類に基づいて分割する文字種分割手段である
ことを特徴とする。

【００１０】請求項２に記載の日本語解析装置によれ
ば、かなをひらがなとカタカナに、或いは漢字かなを除
く文字種として英数文字とその他の記号に、又は、さら
に文字種を多種類に分類して文字種を判定し、その分類
に基づいて入力された文字列を分割するため、より正確
で効率的な単語検索ができる。

【００１１】請求項３に記載の日本語解析装置は、請求
項１又は請求項２に記載の日本語解析装置の構成に加
え、前記単語検索手段により検索を失敗した時、前記文
字種分割手段により分割されたかな漢字文字列の末尾か
ら１文字削った残りのかな漢字文字列に対し、前記日本
語辞書から単語として検索する第２の単語検索手段を備
えたことを特徴とする。

【００１２】請求項３に記載の日本語解析装置の構成に
よれば、単語検索手段により検索を失敗した時、文字種
分割手段により分割されたかな漢字文字列の末尾から１
文字削った残りのかな漢字文字列に対し、日本語辞書か
ら単語として検索するため、日本語辞書の検索漏れが生
じない。

【００１３】請求項４に記載の日本語解析装置は、請求
項１乃至請求項３のいずれかに記載の日本語解析装置の
構成に加え、前記文字種分割手段は、特定のかな文字の
前あるいは後では分割しないようにするためのかなを判
定するかな判定手段を備えたことを特徴とする。

【００１４】請求項４に記載の日本語解析装置の構成に
よれば、文字種分割手段が特定のかな文字の前あるいは
後では分割しないようにするためのかなを判定するた
め、漢字を結び付けて一つの単語を作ることが多い特定
のかなにより結合された文字列を一つの連続したものと
扱うことでさらに効率よく形態素解析ができる。

【００１５】請求項５に記載の記録媒体は、日本語文章
の形態素解析を行う日本語解析装置のための日本語解析
プログラムを記録したコンピュータ読み取り可能な記録
媒体であって、コンピュータに、かな漢字文字列を入力
する手順と、前記入力されたかな漢字文字列を記憶する
手順と、前記記憶されたかな漢字文字列の文字種を漢
字、かな等の文字種とに判定する文字種判定の手順と、
その文字種判定の手順により判定された文字種に基づい
て前記入力されたかな漢字文字列の文字種の変わる境目
で分割し、１または連続した複数の同種の文字種からな
る漢字部分、かな部分及びその他の部分の文字列に分割
する文字種分割の手順と、前記文字種分割の手順により
分割された位置で区切ったかな漢字文字列を前記日本語
の単語及びその単語の情報を記憶した日本語辞書から単
語として検索する単語検索の手順とを実行させることを
特徴とする。

【００１６】請求項５に記載の記録媒体の構成によれ
ば、コンピュータによる日本語文章の形態素解析におい
て、コンピュータに、文字種判定の手順により判定され
た文字種に基づいて入力されたかな漢字文字列を、１ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索することで、必
要以上に長い日本語辞書の単語を参照することなく、か
つ検索漏れのない、無駄無く効率の良い単語検索の手順
を実行させることができる。

【００１７】請求項６に記載の記録媒体は、請求項５に
記載の日本語解析プログラムを記録したコンピュータ読
み取り可能な記録媒体の構成に加え、前記文字種判定の
手順は、前記かなをひらがなとカタカナに、或いは前記
漢字かなを除く文字種をさらに英数文字とその他の記号
に、又は、さらに文字種を多種類に分類する文字種判定
の手順であり、前記文字種分割の手順は、入力された文
字列を当該分類に基づいて分割する文字種分割の手順で
あることを特徴とする。

【００１８】請求項６に記載の記録媒体によれば、コン
ピュータに、かなをひらがなとカタカナに、或いは漢字
かなを除く文字種をさらに英数文字とその他の記号に、
又は、さらに文字種を多種類に分類して文字種を判定
し、その分類に基づいて入力された文字列を分割するた
め、より正確で効率的な単語検索の手順を実行させるこ
とができる。

【００１９】請求項７に記載の記録媒体は、請求項５又
は請求項６に記載の日本語解析プログラムを記録したコ
ンピュータ読み取り可能な記録媒体の構成に加え、前記
コンピュータに、前記単語検索の手順により検索を失敗
したとき、前記文字種分割手段により分割されたかな漢
字文字列の末尾から１文字削った残りのかな漢字文字列
に対し前記日本語辞書から単語として検索する第２の単
語検索の手順を実行させるプログラムをさらに備えたこ
とを特徴とする。

【００２０】請求項７に記載の記録媒体の構成によれ
ば、コンピュータに、単語検索の手順により検索を失敗
した時、文字種分割の手順により分割されたかな漢字文
字列の末尾から１文字削った残りのかな漢字文字列に対
し、日本語辞書から単語として検索するため、日本語辞
書の漏れが生じない検索を実行させることができる。

【００２１】請求項８に記載の記録媒体は、請求項５乃
至請求項７のいずれかに記載の日本語解析プログラムを
記録したコンピュータ読み取り可能な記録媒体の構成に
加え、前記コンピュータに、特定のかな文字の前あるい
は後では分割しないようにするためのかなを判定するか
な判定の手順を備えた漢字分割の手順を実行させるプロ
グラムをさらに備えたことを特徴とする。

【００２２】請求項８に記載の記録媒体によれば、コン
ピュータに、文字種分割の手順が特定のかな文字の前あ
るいは後では分割しないようにするためのかなを判定す
る手順を実行させるため、例えば「の」や「ヶ」のよう
に漢字を結び付けて一つの単語を作ることが多い特定の
かなにより結合された文字列を一つの連続したものと扱
う手順を実行させることでさらに効率よく形態素解析が
できる。

【００２３】

【発明の実施の形態】以下、本発明を一の実施の形態に
より図面を参照して説明する。本実施の形態の日本語解
析装置は、コンピュータを備え、コンピュータ読み取り
可能な記録媒体であるＲＯＭに記憶された言語解析プロ
グラムにより、日本語文字列を漢字又はかなの連続する
文字種の部分に分けて、日本語形態素解析を行うもので
ある。

【００２４】ここで、本願において、特に断りがない限
り「かな」といった場合は、「ひらがな」及び「カタカ
ナ」をいう。また、「かな漢字文字列」とは、少なくと
もかな、漢字、その他の文字種のいずれかを含むものを
いい、例えば、カタカナのみの文字列や英数文字が含ま
れたような文字列も含めて考えるものとする。なお、本
実施の形態の説明においては、理解のため漢字とひらが
なのみを含む日本語文を例に挙げて説明する。

【００２５】まず、本実施の形態の日本語解析装置の概
略図を示すブロック図を図１を用いて説明する。図１に
示すように本実施形態の日本語解析装置は、データバス
６０を有し、これを介して入力手段に相当する入力装置
２０と、読み出し専用の記憶装置であるＲＯＭ４０と、
読み書き可能な記憶装置であるＲＡＭ５０と、外部記憶
装置７０と、Ｉ／Ｏポート８０と、解析結果等を表示さ
せる表示装置３０と、出力装置９０と、それらを制御す
るＣＰＵ１０とが接続されて構成されている。

【００２６】データバス６０は、本実施の形態を構成す
る各機器等の情報のやり取りを可能にするもので、例え
ばＣＰＵ１０は、このデータバス６０を介して、ＲＡＭ
５０やＲＯＭ４０にアクセスする。

【００２７】入力装置２０は、キーボード及びマウスを
備えるもので、キーボードから解析対象である日本語文
字列をキー入力して、ＲＡＭ５０のかな漢字テキスト記
憶領域５１に日本語文字列を蓄積したり、マウスにより
ＣＰＵ１０に対して指示コマンドを入力する。

【００２８】ＲＯＭ４０には、文字種判定手段に相当す
る文字種判定プログラム４１と、文字種分割手段に相当
する文字種分割プログラム４２と、日本語辞書４３と、
かな判定手段に相当する非分割かな辞書４４と、単語検
索手段および第２の単語検索手段に相当する単語検索プ
ログラム４５とからなっている。

【００２９】文字種判定プログラム４１は、かな漢字テ
キスト記憶領域５１に記憶されている日本語文字列につ
いて、それぞれの文字を区点コード番号や１６進コード
番号などの文字コード表を参照して、そのコード番号か
ら漢字とひらがなに、又はそれ以外に識別して判定する
手順をコンピュータに実行させるプログラムであり、本
実施の形態では、漢字を「１」、ひらがなを「０」とし
て記憶して文字種格納領域５４に格納する。

【００３０】文字種分割プログラム４２は、文字種格納
領域５４に格納された文字列の文字種の変わる境目で分
割し、１又は複数個の同種の文字種が連続した文字列ご
とに分け、この分けられた文字列を一つのブロックとす
る。そして、このブロックを定められた数だけ有するよ
うに組み合わせて分割するものである。従って、１つの
ブロックは、「１」または「０」のいずれかの文字を１
又は複数含む文字列になっている。例えば「１」「１
１」「１１１」のようにである。

【００３１】具体的には、例えば「１１０１００…」と
いう文字列が文字種格納領域５４に格納されている場合
を考えると、「漢字、かな、漢字」の組み合わせで分割
するとすれば、まず「１１／０／１／００…」と同一の
文字種のブロックに分け、次に、例えば分割を最初から
「漢字、かな、漢字」のように分割すると決めておけ
ば、最初の３つのブロックを含む「１１／０／１」の文
字列が分割されることになる。

【００３２】日本語辞書４３は、図３に示すように、見
出し語と単語の品詞と特別の情報をＲＯＭ４０の日本語
辞書４３として格納したもので、文字種分割プログラム
４２によって分割された日本語文字列を検索するための
検索エリアである。

【００３３】非分割かな辞書４４は、たとえば「が」の
ように、「希望が丘」「霧が峰」「君が代」の如く「漢
字＋が＋漢字」の組み合わせでよく使うばあい、「が」
を特定の非分割かなとして当該非分割かな辞書４４に格
納しておき、検索される日本語文字列としてこのかなの
前後の漢字といっしょに切り出すものである。その他
「ヶ」「ヵ」のような小文字のカタカナ、更には「＆」
のような英語の記号からなるものを含めても良い。

【００３４】単語検索プログラム４５は、文字種分割プ
ログラム４２によって分割された日本語文字列を、日本
語辞書４３を参照して同一の見出しの単語が存在するか
検索する手順をコンピュータに実行させるものである。

【００３５】制御プログラム４６は、日本語解析プログ
ラムの全体の制御を行うもので、例えば、記憶された手
順に従って、上記各プログラムを起動したり、入出力の
制御などを行う。

【００３６】ＲＡＭ５０には、記憶手段に相当するかな
漢字テキスト記憶領域５１と、検索文字列記憶領域５２
と、検索位置記憶領域５３と、文字種格納領域５４と、
作業領域５５が設けられている。

【００３７】かな漢字テキスト記憶領域５１は、入力装
置２０から入力された日本語文字列をテキスト情報とし
て格納する記憶バッファである。

【００３８】検索文字列記憶領域５２は、文字種分割プ
ログラム４２により分割された、日本語辞書４３の検索
をする対象の日本語文字列を記憶する領域である。

【００３９】検索位置記憶領域５３は、検索が終了した
文字列の位置を手掛かりに、次の検索をするための、検
索済みの文字列の最後の位置を記録してある記憶領域で
ある。

【００４０】文字種格納領域５４は、入力された日本語
文字列を、文字種に応じて、即ち漢字を１、ひらがなを
０と置き換えた数字からなる文字列を格納しておく領域
である。

【００４１】作業領域５５は、上記各記憶領域に記憶さ
れる情報以外の情報を一時的に記憶する領域で、各ステ
ップで適宜使用されるものである。

【００４２】外部記憶装置７０は、本実施の形態ではハ
ードディスクドライブを用いており、日本語解析処理の
対象にする文章や、日本語解析処理の終了した文章など
を蓄積しておくことができる。

【００４３】Ｉ／Ｏポート８０は、適宜他のコンピュー
タや、電話回線、その他有線無線を問わず情報の入出力
ができるものであり、日本語解析処理の対象や結果物を
入出力する場合に使用できる。

【００４４】表示装置３０は、ＣＲＴを備え、入力され
た日本語文や解析結果を表示する。

【００４５】出力装置９０は、本実施の形態では、プリ
ンタを用い言語解析された結果をハードコピーする場合
などに用いられる。

【００４６】次に図２を参照して本実施の形態の日本語
解析装置及び日本語解析処理を行うプログラムの流れを
説明する。

【００４７】まず、システムを起動させると、ＲＯＭ４
０の制御プログラム４６が立ち上がり、ＲＡＭ５０の作
業領域５５、かな漢字テキスト記憶領域５１、検索文字
列記憶領域５２、検索位置記憶領域５３、文字種格納領
域５４の各記憶領域が確保され、入力装置２０からの入
力が可能となり、処理が可能となる（開始）。入力装置
２０より入力されたかな漢字文字列がかな漢字テキスト
記憶領域５１に記憶される（ステップ２１（以下ステッ
プを単にＳと略記する。））。なお、ここで入力された
文は前述のように、理解のため漢字とひらがなのみを含
む文字列とする。

【００４８】次に、文字種判定プログラム４１によりそ
の文字列の文字の属性「ひらがな」か「漢字」が、それ
ぞれ０と１の記号で表される（Ｓ２２）。例えば「一の
宮は良い天気です」という入力文があると図４のように
文字種格納領域５４に「１０１０１０１１００」と記憶
される。つまり、この「０」と「１」はそれぞれその位
置のひらがなと漢字が位置していることを示している。

【００４９】次に文字種分割処理を行う（Ｓ２３）。こ
の処理は文字種格納領域５４に格納された前記文字列の
文字の属性を参照し、単語を切り出す位置を決定する。
ここでは文字種格納領域５４を参照しその先頭に「１」
つまり漢字が先頭にきた場合には、その後にひらがなが
現われ、再び漢字が現れた後、ひらがなが現れる位置を
探す。つまり文字種格納領域５４の始めの「１０１」の
直後の「０」の位置、即ち、「漢字＋ひらがな＋漢字」
の後の「かな」の位置、かな漢字テキスト記憶領域５１
に記憶された例文で言うと「一＋の＋宮」の後の「は」
である。

【００５０】ここで、日本語において、一の単語の中で
漢字とひらがなが混在する例を考慮すると、漢字を先頭
とする場合、考えられる組み合わせは例えば「漢字＋ひ
らがな」「漢字＋ひらがな＋漢字」「漢字＋ひらがな＋
漢字＋ひらがな」「漢字＋ひらがな＋漢字＋ひらがな＋
漢字」等無数にある。この場合、先頭の漢字は１文字に
は限らず複数あってもよく、同様に２番目のひらがなも
複数あってもよい。

【００５１】ところで、日本語の単語は、その成り立ち
から「漢字」を語幹として、ここに「ひらがな」から成
る付属語がつくことが多い。一方、文字数が多い単語に
おいて、その文字種を調べてみると漢字のみであった
り、或いはひらがなのみであったり、カタカナのみであ
ったりすることが多い。逆に言えば、長い単語に漢字や
ひらがなが交互に何度も現れることは少ない。つまり、
多くの場合は単語の基本の部分を構成する漢字があり、
ここにひらがなが付属することが最も頻度として多く、
さらに漢字が続くことは稀で、さらにひらがなが続くの
は極めて少なく、このような文字列を単語検索する意味
は低い。これ以上漢字とひらがなが交互に現れるような
ものは、複合語として分割しても解析可能な場合がほと
んどである。

【００５２】即ち、本発明において、辞書検索の対象
を、連続した文字列から切り出すのに、単に文字数だけ
で考えずに、文字種に着目することで、今までにない極
めて効率のよい辞書検索が可能に成るものである。ま
た、もし漢字とひらがなが交互に何度も現れ、複合語と
して分割できないものがあったとしても、その数は極め
て稀で、この場合は定型句や慣用句辞書で処理した方が
はるかに能率がよいことになる。

【００５３】通常この組み合わせを選択するのに日本語
辞書４３のすべての単語を調べ、漢字が先頭である単語
のうちで、かなと漢字の組み合わせが一番多い物を調
べ、この組み合わせを選ぶ。ここでは「一の宮」のよう
に「漢字＋ひらがな＋漢字」が日本語辞書４３に格納さ
れた、かなと漢字の組み合わせの一番多い単語とする。
つまり、「漢字＋ひらがな＋漢字＋ひらがな」という組
み合わせ若しくはこれ以上の漢字、ひらがなからなる単
語は辞書には存在しなかったということになる。従っ
て、「漢字＋ひらがな＋漢字」の組み合わせから検索し
ても、検索漏れとなる単語は存在しないことになる。

【００５４】そして切り出されたかな漢字文字列「一の
宮」が検索文字列記憶領域５２に記憶される。

【００５５】次に、検索文字列記憶領域５２に格納され
ている文字列「一の宮」を日本語辞書４３から辞書検索
処理をする（Ｓ２４）。日本語辞書４３はその概念図を
示すと図３の様になる。日本語の各単語が見出しと品
詞、その他の情報が格納されている。この日本語辞書４
３には単語「一の宮」が存在するため、検索の対象と一
致し検索が成功する（Ｓ２５：ＹＥＳ）。

【００５６】次の検索が必要かどうかの判断のため、検
索された単語「一の宮」が入力された文字列すなわち、
かな漢字テキスト記憶領域５１に記憶されている文字列
の末尾かどうかが判定され（Ｓ２８）、末尾と判定され
れば日本語解析が成功したとして日本語解析処理を終了
するが（Ｓ２８：ＹＥＳ，終了）、末尾でないときに
は、まず検索された単語の末尾の次の文字の位置にフラ
グをたてて、検索位置記憶領域５３に記憶する（Ｓ２
８）。ここでは、かな漢字文字列「一の宮」の末尾位置
の次の文字、すなわち次に検索する文字の先頭位置であ
る４文字目という内容が検索位置記憶領域５３に記憶さ
れる。

【００５７】次に後に続く文字列の解析をするために再
び文字種分割処理を行う（Ｓ２８：ＮＯ，Ｓ２３）。こ
こでは検索位置記憶領域５３を参照し、「一の宮」の次
の「は」の位置から文字種分割プログラム４２により切
り出す。文字列「は良い天気です」に対して前述の文字
列の切り出しを行う。但し、「一の宮」の場合は文字列
が漢字で始まっていたが、この場合は文字列がひらがな
で始まっているので、ひらがな文字列と漢字文字列のつ
ながったものをひとまとまりの文字列として切り出して
くる。この場合も漢字が先頭の場合と同じように、通常
は日本語辞書４３内に存在する単語でひらがなから始ま
る物のうちでひらがなと漢字の組み合わせが一番長いパ
ターンを選ぶ。ここでは「ひらがな＋漢字」の組み合わ
せが最長とすると文字列「は良」が切り出され検索文字
列記憶領域５２に記憶される（Ｓ２３）。次に文字列
「は良」の検索が行われる（Ｓ２４）。この検索は先に
述べたように日本語辞書４３と一致した文字列を検索す
ることで行う。この場合、単語が存在しないので検索は
失敗と判定される（Ｓ２５：ＮＯ）。そのため文字列の
末尾から一文字削除し、検索文字列記憶領域５２の文字
列の末尾から一文字削る（Ｓ２６）。すると検索文字列
記憶領域５２の内容は「は」になる。次に検索が継続可
能か判断するため文字列が０になってないか判断され、
ここでは文字列「は」が残っているため０ではないと判
定され再び辞書検索処理がされる（Ｓ２７：ＮＯ、Ｓ２
４）。従って今度は、文字列「は」の辞書検索が行われ
辞書中に存在するので（Ｓ２５：ＹＥＳ）、次に検索単
語が文字列末尾か否かを判断される（Ｓ２８）。

【００５８】なお、もしＳ２６で一字削除した結果
「ん」のような一文字で意味を成さないような文字が、
誤記等で残った場合、０文字ではないので再度辞書検索
処理され（Ｓ２７：ＮＯ，Ｓ２４）、「ん」は日本語辞
書にないため検索は失敗し（Ｓ２５：ＮＯ）、さらに一
字削除され（Ｓ２６）、「ん」から一字削除されること
により文字列は「０文字」になる。一文字削った結果残
りの文字が存在しなくなったときには検索がもはや不可
能であるため、検索失敗として（Ｓ２７：ＹＥＳ）処理
を終了され(終了）、「ん」は未知の文字としてとして
処理されることになる。

【００５９】同じようにして単語「良い」「天気」「で
す」が検索されていき最後に文字列「です」が検索され
たときには検索された文字列がかな漢字テキスト記憶領
域５１の末尾のため全文検索成功と判定され（Ｓ２８：
ＹＥＳ）、日本語解析が成功したとして処理を終了され
る（終了）。

【００６０】すると文字列「一の宮は良い天気です」と
いう文字列は図４に示すように「一の宮／は／良い／天
気／です」と解析結果を出力する。

【００６１】以上の説明から明らかなように、本実施の
形態のように日本語の単語の漢字およびひらがなの組み
合わせでその検索対象を決定し、その位置から辞書検索
を行うことによって無駄な位置からの検索処理を省略す
ることができ、解析処理を高速化することができる。

【００６２】なお、本実施の形態では従来の解析処理の
様に日本語辞書４３中に存在する最長単語の文字数をｎ
としその長さから辞書検索する最長一致法による処理に
ついては組み込まれていないが、図２のＳ２３の文字種
分割処理において求められたかなと漢字の組み合わせで
切り出されたかな漢字文字列の長さと比較し短い方の位
置から文字列を切り出すように構成してあっても良い。

【００６３】また、「一の宮」の「の」や「千鳥が淵」
の「が」や、「希望ヶ丘」の「ヶ」の様に前後につなが
りやすいひらがなに関しては非分割かな辞書４４にそれ
らのかな文字を記憶させておき、それらのひらがな文字
を漢字と同様に扱い、図２の文字種判定処理においても
文字種格納領域５４に漢字である「１」を記憶させる様
に構成してあっても良い。この場合は、本実施の形態の
例文の「一の宮は良い天気です」では、まず「一の宮」
については、「の」が漢字とみなされるため、最初に切
り出される部分は「一の宮は良」ということになる。

【００６４】また、図２のＳ２７において切り出された
文字長が０文字になったときＹＥＳと判定され解析失敗
するように構成されているが、それまでにＳ２５で検索
成功している文字列があれば、その文字列を検索し直す
バックトラック処理といわれる処理を設けることも可能
である。例えば上記実施の形態の例で示すとすでに検索
成功している文字列「一の宮」を切り直し、「一の」を
検索することによって後のつながりを成功させるように
工夫されていても良い。バックトラック処理自体はすで
に知られているが、このような周知の技術を組み合わせ
ることにより効率をよくすることが可能である。

【００６５】尚、本発明は以上詳述した実施の形態に限
定されるものではなく、その要旨を逸脱しない範囲にお
いて、種々の変更を加えることができる。

【００６６】例えば、本実施の形態では漢字とひらがな
が混在する文章のみを例として説明したが、例えばひら
がなとカタカナ、その他の記号を英数文字、記述記号、
その他の記号などの文字種に分けた場合も本発明の思想
は適用可能である。

【００６７】また、ひらがなの「の」や「が」につい
て、漢字二つを結合させ１の名詞を形成する場合を説明
したが、同様にカタカナの「ヶ」「ヵ」なども前後に漢
字やひらがなを伴って１の単語を形成する場合も多い。
更に、「・」や「−」「＆」なども種々の文字種を前後
に伴い１の単語を形成することが多い。そのため、これ
らについても文字種として判定せず、前後の文字種と一
体に判断して処理してもよい。

【００６８】また、本実施の形態では、入力装置２０
は、キーボードとマウスによったが、要は解析の対象で
ある文章が読み込まれればよく、他の入力手段、例えば
無線または有線によりＩ／Ｏポート８０を介して読み込
まれるものや、フロッピーディスクドライブやハードデ
ィスクドライブなどからなる内蔵または外部記憶装置７
０を介して記録媒体により入力されるものや、音声によ
って認識するようなものであってもよい。

【００６９】さらに、本実施の形態の言語解析装置は、
文字種判定プログラム４１と、文字種分割プログラム４
２と、日本語辞書４３と、非分割かな辞書４４と、単語
検索プログラム４５および制御プログラム４６がＲＯＭ
４０に予め格納されたものであるが、本発明は必ずしも
これに限定されるものではない。例えば、これらのプロ
グラムは、それぞれ明確に区別されて格納される必要は
なく、要は夫々の機能を有する部分が存在すれば十分
で、これらのプログラムが混在しているような形式であ
っても差し支えない。

【００７０】また、プログラムや辞書が格納される記録
媒体は必ずしもＲＯＭ４０によるものでなくてもよく、
要はこれらのプログラムがコンピュータが読み出し可能
に格納さえされれば十分で、フロッピーディスクやＣＤ
−ＲＯＭ等のコンピュータ読み取り可能な記録媒体に格
納したものを読み取り装置により読み取ることによって
動作させることもできる。また、有線若しくは無線回線
を使用して外部情報処理装置からプログラムを読み込ん
で動作させることもできる。この場合、前記フロッピー
ディスクやＣＤ−ＲＯＭ、或いは、コンピュータに内蔵
又は外付けされたハードディスクや、さらに外部情報処
理装置の当該プログラムを格納したメモリが本発明の記
録媒体を構成することになる。

【００７１】つまり、本実施の形態のようにＲＯＭ４０
にプログラムを格納した言語解析装置の専用機ばかりで
なく、何らかの記録媒体に本実施の形態のＲＯＭ４０の
内容が格納されていれば、この記録媒体を汎用コンピュ
ータに読み取らせることにより本発明の実施が可能にな
る。

【００７２】表示手段も、ＣＲＴに限らず液晶ディスプ
レーはもちろん、要は内容が表示可能であれば如何なる
形式のものであってもよく、出力手段も出力が可能であ
ればプリンタによるものに限定されず、たとえばＩ／Ｏ
ポート８０を介して有線若しくは無線回線によるものや
音声出力、記録媒体を介して出力されるものなどによる
ものであってもよい。

【００７３】以上説明したことから明かなように、日本
語解析装置および日本語解析記録媒体によれば辞書検索
の回数を文字列の文字列の短い位置から検索することに
よって解析時間を高速化することができる。

【００７４】

【発明の効果】請求項１に記載の日本語解析装置によれ
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列の文字種の変わる境目で分割し、１または連続し
た複数の同種の文字種からなる漢字部分、かな部分等に
分割し、分割された位置で区切ったかな漢字文字列を日
本語辞書から単語として検索することで、最長一致法に
よる検索のように日本語辞書のもっとも長い文字列から
順次検索するような必要以上に長い日本語辞書の単語を
参照することなく、かつ、かなと漢字の組み合わせとい
う観点から検索漏れのない十分な範囲で、無駄無く効率
の良い単語検索ができるという効果がある。

【００７５】請求項２に記載の日本語解析装置は、請求
項１に記載の日本語解析装置の効果に加え、文字種判定
手段が、かなをひらがなとカタカナに、或いは漢字かな
を除く文字種として英数文字とその他の記号に、又はさ
らに文字種を多種類に分類して文字種を判定し、分割す
るため、より正確で効率的な単語検索ができるという効
果がある。

【００７６】請求項３に記載の日本語解析装置によれ
ば、請求項１又は請求項２に記載の日本語解析装置の効
果に加え、単語検索手段により検索を失敗した時、文字
種分割手段により分割されたかな漢字文字列の末尾から
１文字削った残りのかな漢字文字列に対し、日本語辞書
から単語として検索するため、日本語辞書の検索漏れが
生じないという効果がある。

【００７７】請求項４に記載の日本語解析装置は、請求
項１乃至請求項３のいずれかに記載の日本語解析装置の
効果に加え、文字種分割手段が特定のかな文字の前ある
いは後では分割しないようにするためのかなを判定する
ため、漢字を結び付けて一つの単語を作ることが多い特
定のかなにより結合された文字列を一つの連続したもの
と扱うことでさらに効率よく形態素解析ができるという
効果がある。

【００７８】請求項５に記載の記録媒体によれば、コン
ピュータに、日本語文章の形態素解析において、文字種
判定の手順により判定された文字種に基づいて入力され
たかな漢字文字列の文字種の変わる境目で分割し、１ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索する手順を実行
させることができることで、必要以上に長い日本語辞書
の単語を参照することなく、かつ検索漏れのない、無駄
無く効率の良い単語検索ができるという効果がある。

【００７９】請求項６に記載の記録媒体によれば、請求
項５に記載の日本語解析プログラムを記録したコンピュ
ータ読み取り可能な記録媒体の効果に加え、コンピュー
タに、かなをひらがなとカタカナに、或いは漢字かなを
除く文字種をさらに英数文字とその他の記号に、又は、
さらに文字種を多種類に分類して文字種を判定し、入力
された文字列をその分類に基づいて分割するための手順
を実行させることができるため、より正確で効率的な単
語検索ができるという効果がある。

【００８０】請求項７に記載の記録媒体では、請求項５
又は請求項６に記載の日本語解析プログラムを記録した
コンピュータ読み取り可能な記録媒体の効果に加え、コ
ンピュータに、単語検索の手順により検索を失敗したと
き、文字種分割の手順により分割されたかな漢字文字列
の末尾から１文字削った残りのかな漢字文字列に対し、
日本語辞書から単語として検索を実行させることができ
るため、日本語辞書の漏れが生じない正確な検索ができ
るという効果がある。

【００８１】請求項８に記載の記録媒体によれば、請求
項５乃至請求項７のいずれかに記載の日本語解析プログ
ラムを記録したコンピュータ読み取り可能な記録媒体の
効果に加え、コンピュータに、文字種分割の手順が特定
のかな文字の前あるいは後では分割しないようにするた
めのかなを判定するため、漢字を結び付けて一つの単語
を作ることが多い特定のかなにより結合された文字列を
一つの連続したものと扱う手順を実行させることでさら
に効率よく形態素解析ができるという効果がある。

【図面の簡単な説明】

【図１】本実施の形態の日本語解析装置の概略を表わす
ブロック図である。

【図２】本実施の形態の日本語解析装置の動作を表わす
フローチャートである。

【図３】本実施の形態の日本語解析装置の日本語辞書の
一例を表す図である。

【図４】本実施の形態の日本語解析装置の記録媒体のか
な漢字テキスト記憶領域および文字種格納領域および解
析結果を表す説明図である。

【符号の説明】

１０ＣＰＵ２０入力装置３０表示装置４０ＲＯＭ４１文字種判定プログラム４２文字種分割プログラム４３日本語辞書４４非分割かな辞書４５単語検索プログラム４６制御プログラム５０ＲＡＭ５１かな漢字テキスト記憶領域５２検索文字列記憶領域５３検索位置記憶領域５４文字種格納領域５５作業領域６０データバス７０外部記憶装置８０Ｉ／Ｏポート９０出力装置

【手続補正書】

【提出日】平成１０年７月２４日

【手続補正１】

【補正対象書類名】明細書

【補正対象項目名】全文

【補正方法】変更

【補正内容】

【書類名】明細書

【発明の名称】日本語解析装置および日本語解析プロ
グラムを記録したコンピュータ読み取り可能な記録媒体

【特許請求の範囲】