JPH11282842A - 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents
日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体Info
- Publication number
- JPH11282842A JPH11282842A JP10103927A JP10392798A JPH11282842A JP H11282842 A JPH11282842 A JP H11282842A JP 10103927 A JP10103927 A JP 10103927A JP 10392798 A JP10392798 A JP 10392798A JP H11282842 A JPH11282842 A JP H11282842A
- Authority
- JP
- Japan
- Prior art keywords
- character
- kana
- kanji
- japanese
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 83
- 240000000220 Panda oleosa Species 0.000 claims description 160
- 235000016496 Panda oleosa Nutrition 0.000 claims description 160
- 238000000034 method Methods 0.000 claims description 96
- 230000000877 morphologic effect Effects 0.000 claims description 28
- 230000000694 effects Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 12
- 239000002699 waste material Substances 0.000 description 8
- 150000001875 compounds Chemical class 0.000 description 4
- 230000010365 information processing Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- 239000012536 storage buffer Substances 0.000 description 2
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】 日本語の形態素解析をするために辞書検索を
行う時、日本語辞書の検索範囲を適正化して検索を効率
化して処理を高速化すること。 【解決手段】 入力された日本語文の漢字部分とひらが
な部分の文字種を判断し例えば漢字を1,ひらがなを0
などの数字に置換えて記憶する。その数字を手掛かりに
その入力文を同じ文字種ごとに分割する。文字種の組合
せに着目して所定の文字種の組み合わせの文字列に、入
力された文章を、検索すべき文字列として分割する。日
本語辞書のうち同様な文字種の組合せの文字列のみを検
索の対象とすることで効率の良い辞書検索処理を行う。
行う時、日本語辞書の検索範囲を適正化して検索を効率
化して処理を高速化すること。 【解決手段】 入力された日本語文の漢字部分とひらが
な部分の文字種を判断し例えば漢字を1,ひらがなを0
などの数字に置換えて記憶する。その数字を手掛かりに
その入力文を同じ文字種ごとに分割する。文字種の組合
せに着目して所定の文字種の組み合わせの文字列に、入
力された文章を、検索すべき文字列として分割する。日
本語辞書のうち同様な文字種の組合せの文字列のみを検
索の対象とすることで効率の良い辞書検索処理を行う。
Description
【0001】
【発明の属する技術分野】本発明は、日本語解析装置及
び日本語解析プログラムを記録したコンピュータ読み取
り可能な記録媒体に関し、詳しくは、日本語形態素解析
における日本語辞書検索の効率化に関するものである。
び日本語解析プログラムを記録したコンピュータ読み取
り可能な記録媒体に関し、詳しくは、日本語形態素解析
における日本語辞書検索の効率化に関するものである。
【0002】
【従来の技術】従来の日本語解析装置において、与えら
れた日本語の文字列から単語を切り出すための形態素解
析の方法として最長一致法による解析が一般的に用いら
れていた。この最長一致法というのは、まず辞書に存在
する一番長い単語の文字数と同じ長さのかな漢字文字列
を、解析の対象である日本語文章から切り出し、それを
辞書に記録された単語と照合しながら同一文字列を辞書
検索し、一致した文字列が存在すれば単語と認識される
が、一致した文字列がない場合は検索に失敗したことに
なり、このときには末尾を一文字削ったものを検索の対
象文字列としてまたそれを辞書検索をし、さらに失敗す
るようであればさらに一文字削って検索し、繰り返し一
致した文字列があるまで検索するように構成されてい
た。
れた日本語の文字列から単語を切り出すための形態素解
析の方法として最長一致法による解析が一般的に用いら
れていた。この最長一致法というのは、まず辞書に存在
する一番長い単語の文字数と同じ長さのかな漢字文字列
を、解析の対象である日本語文章から切り出し、それを
辞書に記録された単語と照合しながら同一文字列を辞書
検索し、一致した文字列が存在すれば単語と認識される
が、一致した文字列がない場合は検索に失敗したことに
なり、このときには末尾を一文字削ったものを検索の対
象文字列としてまたそれを辞書検索をし、さらに失敗す
るようであればさらに一文字削って検索し、繰り返し一
致した文字列があるまで検索するように構成されてい
た。
【0003】例えば「一の宮は良い天気です」という文
であれば、まず、日本語辞書の10文字の辞書を参照し
て検索し、10文字の辞書に「一の宮は良い天気です」
という登録単語がなければ、次に、「一の宮は良い天気
で」という文字列について、日本語辞書の9文字の辞書
を参照して検索し、「一の宮は良い天気で」という登録
単語がなければ、次に「一の宮は良い天気」について同
様な検索を繰り返し、「一の宮」という3文字からなる
文字列の日本語辞書での検索で一致するまで、単語検索
を繰り返し行う必要があり、極めて多くの手順を経なけ
れば検索できなかった。
であれば、まず、日本語辞書の10文字の辞書を参照し
て検索し、10文字の辞書に「一の宮は良い天気です」
という登録単語がなければ、次に、「一の宮は良い天気
で」という文字列について、日本語辞書の9文字の辞書
を参照して検索し、「一の宮は良い天気で」という登録
単語がなければ、次に「一の宮は良い天気」について同
様な検索を繰り返し、「一の宮」という3文字からなる
文字列の日本語辞書での検索で一致するまで、単語検索
を繰り返し行う必要があり、極めて多くの手順を経なけ
れば検索できなかった。
【0004】ただ、このような検索であれば、辞書に記
載されているすべての単語について検索されるため、正
確な辞書検索が出来ることになるので、最長一致法が採
用されてきた。
載されているすべての単語について検索されるため、正
確な辞書検索が出来ることになるので、最長一致法が採
用されてきた。
【0005】
【発明が解決しようとする課題】しかしながら、実際に
単語として解析対象である日本語文章に用いられている
ものの多くは、辞書に登録されている最長の単語に比べ
極めて短く、このような短い単語を多く含んだ解析対象
である文字列について、辞書の一番長い文字列から順番
に長い文字列においてすべて一致するか否かの検索をす
るのでは検索に無駄が多く、解析時間を遅くする原因と
なるという問題点があった。
単語として解析対象である日本語文章に用いられている
ものの多くは、辞書に登録されている最長の単語に比べ
極めて短く、このような短い単語を多く含んだ解析対象
である文字列について、辞書の一番長い文字列から順番
に長い文字列においてすべて一致するか否かの検索をす
るのでは検索に無駄が多く、解析時間を遅くする原因と
なるという問題点があった。
【0006】そこで、本発明は、上記課題を解決するた
めなされたものであり、無駄のない検索範囲を設定する
ことにより、検索漏れを起こさずに日本語解析の精度を
落とさないで、かつ検索時間を短縮できる、日本語形態
素解析をするための日本語解析装置及び日本語解析装置
のためのプログラムを記録したコンピュータ読み取り可
能な記録媒体を提供するものである。
めなされたものであり、無駄のない検索範囲を設定する
ことにより、検索漏れを起こさずに日本語解析の精度を
落とさないで、かつ検索時間を短縮できる、日本語形態
素解析をするための日本語解析装置及び日本語解析装置
のためのプログラムを記録したコンピュータ読み取り可
能な記録媒体を提供するものである。
【0007】
【課題を解決するための手段】この目的を達成するため
に請求項1に記載の日本語解析装置は、かな漢字文字列
を入力するための入力手段と、その入力手段により入力
されたかな漢字文字列を記憶する記憶手段と、その記憶
手段に記憶されたかな漢字文字列の漢字、かな等の文字
種を判定する文字種判定手段と、前記文字種判定手段に
より判定された文字種に基づいて前記入力されたかな漢
字文字列の文字種の変わる境目で分割し、1または連続
した複数の同種の文字種からなる漢字部分、かな部分等
に分割する文字種分割手段と、日本語の単語及びその単
語の情報を記憶した日本語辞書と、前記文字種分割手段
により分割された位置で区切ったかな漢字文字列を前記
日本語辞書から単語として検索する単語検索手段とを備
えて日本語文章の形態素解析を行うことを特徴とする。
に請求項1に記載の日本語解析装置は、かな漢字文字列
を入力するための入力手段と、その入力手段により入力
されたかな漢字文字列を記憶する記憶手段と、その記憶
手段に記憶されたかな漢字文字列の漢字、かな等の文字
種を判定する文字種判定手段と、前記文字種判定手段に
より判定された文字種に基づいて前記入力されたかな漢
字文字列の文字種の変わる境目で分割し、1または連続
した複数の同種の文字種からなる漢字部分、かな部分等
に分割する文字種分割手段と、日本語の単語及びその単
語の情報を記憶した日本語辞書と、前記文字種分割手段
により分割された位置で区切ったかな漢字文字列を前記
日本語辞書から単語として検索する単語検索手段とを備
えて日本語文章の形態素解析を行うことを特徴とする。
【0008】請求項1に記載の日本語解析装置によれ
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列を、1または連続した複数の同種の文字種からな
る漢字部分、かな部分等に分割し、分割された位置で区
切ったかな漢字文字列を日本語辞書から単語として検索
することで、必要以上に長い日本語辞書の単語を参照す
ることなく、かつ検索漏れのない、無駄無く効率の良い
単語検索ができる。
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列を、1または連続した複数の同種の文字種からな
る漢字部分、かな部分等に分割し、分割された位置で区
切ったかな漢字文字列を日本語辞書から単語として検索
することで、必要以上に長い日本語辞書の単語を参照す
ることなく、かつ検索漏れのない、無駄無く効率の良い
単語検索ができる。
【0009】請求項2に記載の日本語解析装置は、請求
項1に記載の日本語解析装置の構成に加え、前記文字種
判定手段は、前記かなをひらがなとカタカナに、或いは
前記漢字かなを除く文字種として英数文字とその他の記
号に、又は、さらに文字種を多種類に分類する文字種判
定手段であり、前記文字種分割手段は、入力された文字
列を当該分類に基づいて分割する文字種分割手段である
ことを特徴とする。
項1に記載の日本語解析装置の構成に加え、前記文字種
判定手段は、前記かなをひらがなとカタカナに、或いは
前記漢字かなを除く文字種として英数文字とその他の記
号に、又は、さらに文字種を多種類に分類する文字種判
定手段であり、前記文字種分割手段は、入力された文字
列を当該分類に基づいて分割する文字種分割手段である
ことを特徴とする。
【0010】請求項2に記載の日本語解析装置によれ
ば、かなをひらがなとカタカナに、或いは漢字かなを除
く文字種として英数文字とその他の記号に、又は、さら
に文字種を多種類に分類して文字種を判定し、その分類
に基づいて入力された文字列を分割するため、より正確
で効率的な単語検索ができる。
ば、かなをひらがなとカタカナに、或いは漢字かなを除
く文字種として英数文字とその他の記号に、又は、さら
に文字種を多種類に分類して文字種を判定し、その分類
に基づいて入力された文字列を分割するため、より正確
で効率的な単語検索ができる。
【0011】請求項3に記載の日本語解析装置は、請求
項1又は請求項2に記載の日本語解析装置の構成に加
え、前記単語検索手段により検索を失敗した時、前記文
字種分割手段により分割されたかな漢字文字列の末尾か
ら1文字削った残りのかな漢字文字列に対し、前記日本
語辞書から単語として検索する第2の単語検索手段を備
えたことを特徴とする。
項1又は請求項2に記載の日本語解析装置の構成に加
え、前記単語検索手段により検索を失敗した時、前記文
字種分割手段により分割されたかな漢字文字列の末尾か
ら1文字削った残りのかな漢字文字列に対し、前記日本
語辞書から単語として検索する第2の単語検索手段を備
えたことを特徴とする。
【0012】請求項3に記載の日本語解析装置の構成に
よれば、単語検索手段により検索を失敗した時、文字種
分割手段により分割されたかな漢字文字列の末尾から1
文字削った残りのかな漢字文字列に対し、日本語辞書か
ら単語として検索するため、日本語辞書の検索漏れが生
じない。
よれば、単語検索手段により検索を失敗した時、文字種
分割手段により分割されたかな漢字文字列の末尾から1
文字削った残りのかな漢字文字列に対し、日本語辞書か
ら単語として検索するため、日本語辞書の検索漏れが生
じない。
【0013】請求項4に記載の日本語解析装置は、請求
項1乃至請求項3のいずれかに記載の日本語解析装置の
構成に加え、前記文字種分割手段は、特定のかな文字の
前あるいは後では分割しないようにするためのかなを判
定するかな判定手段を備えたことを特徴とする。
項1乃至請求項3のいずれかに記載の日本語解析装置の
構成に加え、前記文字種分割手段は、特定のかな文字の
前あるいは後では分割しないようにするためのかなを判
定するかな判定手段を備えたことを特徴とする。
【0014】請求項4に記載の日本語解析装置の構成に
よれば、文字種分割手段が特定のかな文字の前あるいは
後では分割しないようにするためのかなを判定するた
め、漢字を結び付けて一つの単語を作ることが多い特定
のかなにより結合された文字列を一つの連続したものと
扱うことでさらに効率よく形態素解析ができる。
よれば、文字種分割手段が特定のかな文字の前あるいは
後では分割しないようにするためのかなを判定するた
め、漢字を結び付けて一つの単語を作ることが多い特定
のかなにより結合された文字列を一つの連続したものと
扱うことでさらに効率よく形態素解析ができる。
【0015】請求項5に記載の記録媒体は、日本語文章
の形態素解析を行う日本語解析装置のための日本語解析
プログラムを記録したコンピュータ読み取り可能な記録
媒体であって、コンピュータに、かな漢字文字列を入力
する手順と、前記入力されたかな漢字文字列を記憶する
手順と、前記記憶されたかな漢字文字列の文字種を漢
字、かな等の文字種とに判定する文字種判定の手順と、
その文字種判定の手順により判定された文字種に基づい
て前記入力されたかな漢字文字列の文字種の変わる境目
で分割し、1または連続した複数の同種の文字種からな
る漢字部分、かな部分及びその他の部分の文字列に分割
する文字種分割の手順と、前記文字種分割の手順により
分割された位置で区切ったかな漢字文字列を前記日本語
の単語及びその単語の情報を記憶した日本語辞書から単
語として検索する単語検索の手順とを実行させることを
特徴とする。
の形態素解析を行う日本語解析装置のための日本語解析
プログラムを記録したコンピュータ読み取り可能な記録
媒体であって、コンピュータに、かな漢字文字列を入力
する手順と、前記入力されたかな漢字文字列を記憶する
手順と、前記記憶されたかな漢字文字列の文字種を漢
字、かな等の文字種とに判定する文字種判定の手順と、
その文字種判定の手順により判定された文字種に基づい
て前記入力されたかな漢字文字列の文字種の変わる境目
で分割し、1または連続した複数の同種の文字種からな
る漢字部分、かな部分及びその他の部分の文字列に分割
する文字種分割の手順と、前記文字種分割の手順により
分割された位置で区切ったかな漢字文字列を前記日本語
の単語及びその単語の情報を記憶した日本語辞書から単
語として検索する単語検索の手順とを実行させることを
特徴とする。
【0016】請求項5に記載の記録媒体の構成によれ
ば、コンピュータによる日本語文章の形態素解析におい
て、コンピュータに、文字種判定の手順により判定され
た文字種に基づいて入力されたかな漢字文字列を、1ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索することで、必
要以上に長い日本語辞書の単語を参照することなく、か
つ検索漏れのない、無駄無く効率の良い単語検索の手順
を実行させることができる。
ば、コンピュータによる日本語文章の形態素解析におい
て、コンピュータに、文字種判定の手順により判定され
た文字種に基づいて入力されたかな漢字文字列を、1ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索することで、必
要以上に長い日本語辞書の単語を参照することなく、か
つ検索漏れのない、無駄無く効率の良い単語検索の手順
を実行させることができる。
【0017】請求項6に記載の記録媒体は、請求項5に
記載の日本語解析プログラムを記録したコンピュータ読
み取り可能な記録媒体の構成に加え、前記文字種判定の
手順は、前記かなをひらがなとカタカナに、或いは前記
漢字かなを除く文字種をさらに英数文字とその他の記号
に、又は、さらに文字種を多種類に分類する文字種判定
の手順であり、前記文字種分割の手順は、入力された文
字列を当該分類に基づいて分割する文字種分割の手順で
あることを特徴とする。
記載の日本語解析プログラムを記録したコンピュータ読
み取り可能な記録媒体の構成に加え、前記文字種判定の
手順は、前記かなをひらがなとカタカナに、或いは前記
漢字かなを除く文字種をさらに英数文字とその他の記号
に、又は、さらに文字種を多種類に分類する文字種判定
の手順であり、前記文字種分割の手順は、入力された文
字列を当該分類に基づいて分割する文字種分割の手順で
あることを特徴とする。
【0018】請求項6に記載の記録媒体によれば、コン
ピュータに、かなをひらがなとカタカナに、或いは漢字
かなを除く文字種をさらに英数文字とその他の記号に、
又は、さらに文字種を多種類に分類して文字種を判定
し、その分類に基づいて入力された文字列を分割するた
め、より正確で効率的な単語検索の手順を実行させるこ
とができる。
ピュータに、かなをひらがなとカタカナに、或いは漢字
かなを除く文字種をさらに英数文字とその他の記号に、
又は、さらに文字種を多種類に分類して文字種を判定
し、その分類に基づいて入力された文字列を分割するた
め、より正確で効率的な単語検索の手順を実行させるこ
とができる。
【0019】請求項7に記載の記録媒体は、請求項5又
は請求項6に記載の日本語解析プログラムを記録したコ
ンピュータ読み取り可能な記録媒体の構成に加え、前記
コンピュータに、前記単語検索の手順により検索を失敗
したとき、前記文字種分割手段により分割されたかな漢
字文字列の末尾から1文字削った残りのかな漢字文字列
に対し前記日本語辞書から単語として検索する第2の単
語検索の手順を実行させるプログラムをさらに備えたこ
とを特徴とする。
は請求項6に記載の日本語解析プログラムを記録したコ
ンピュータ読み取り可能な記録媒体の構成に加え、前記
コンピュータに、前記単語検索の手順により検索を失敗
したとき、前記文字種分割手段により分割されたかな漢
字文字列の末尾から1文字削った残りのかな漢字文字列
に対し前記日本語辞書から単語として検索する第2の単
語検索の手順を実行させるプログラムをさらに備えたこ
とを特徴とする。
【0020】請求項7に記載の記録媒体の構成によれ
ば、コンピュータに、単語検索の手順により検索を失敗
した時、文字種分割の手順により分割されたかな漢字文
字列の末尾から1文字削った残りのかな漢字文字列に対
し、日本語辞書から単語として検索するため、日本語辞
書の漏れが生じない検索を実行させることができる。
ば、コンピュータに、単語検索の手順により検索を失敗
した時、文字種分割の手順により分割されたかな漢字文
字列の末尾から1文字削った残りのかな漢字文字列に対
し、日本語辞書から単語として検索するため、日本語辞
書の漏れが生じない検索を実行させることができる。
【0021】請求項8に記載の記録媒体は、請求項5乃
至請求項7のいずれかに記載の日本語解析プログラムを
記録したコンピュータ読み取り可能な記録媒体の構成に
加え、前記コンピュータに、特定のかな文字の前あるい
は後では分割しないようにするためのかなを判定するか
な判定の手順を備えた漢字分割の手順を実行させるプロ
グラムをさらに備えたことを特徴とする。
至請求項7のいずれかに記載の日本語解析プログラムを
記録したコンピュータ読み取り可能な記録媒体の構成に
加え、前記コンピュータに、特定のかな文字の前あるい
は後では分割しないようにするためのかなを判定するか
な判定の手順を備えた漢字分割の手順を実行させるプロ
グラムをさらに備えたことを特徴とする。
【0022】請求項8に記載の記録媒体によれば、コン
ピュータに、文字種分割の手順が特定のかな文字の前あ
るいは後では分割しないようにするためのかなを判定す
る手順を実行させるため、例えば「の」や「ヶ」のよう
に漢字を結び付けて一つの単語を作ることが多い特定の
かなにより結合された文字列を一つの連続したものと扱
う手順を実行させることでさらに効率よく形態素解析が
できる。
ピュータに、文字種分割の手順が特定のかな文字の前あ
るいは後では分割しないようにするためのかなを判定す
る手順を実行させるため、例えば「の」や「ヶ」のよう
に漢字を結び付けて一つの単語を作ることが多い特定の
かなにより結合された文字列を一つの連続したものと扱
う手順を実行させることでさらに効率よく形態素解析が
できる。
【0023】
【発明の実施の形態】以下、本発明を一の実施の形態に
より図面を参照して説明する。本実施の形態の日本語解
析装置は、コンピュータを備え、コンピュータ読み取り
可能な記録媒体であるROMに記憶された言語解析プロ
グラムにより、日本語文字列を漢字又はかなの連続する
文字種の部分に分けて、日本語形態素解析を行うもので
ある。
より図面を参照して説明する。本実施の形態の日本語解
析装置は、コンピュータを備え、コンピュータ読み取り
可能な記録媒体であるROMに記憶された言語解析プロ
グラムにより、日本語文字列を漢字又はかなの連続する
文字種の部分に分けて、日本語形態素解析を行うもので
ある。
【0024】ここで、本願において、特に断りがない限
り「かな」といった場合は、「ひらがな」及び「カタカ
ナ」をいう。また、「かな漢字文字列」とは、少なくと
もかな、漢字、その他の文字種のいずれかを含むものを
いい、例えば、カタカナのみの文字列や英数文字が含ま
れたような文字列も含めて考えるものとする。なお、本
実施の形態の説明においては、理解のため漢字とひらが
なのみを含む日本語文を例に挙げて説明する。
り「かな」といった場合は、「ひらがな」及び「カタカ
ナ」をいう。また、「かな漢字文字列」とは、少なくと
もかな、漢字、その他の文字種のいずれかを含むものを
いい、例えば、カタカナのみの文字列や英数文字が含ま
れたような文字列も含めて考えるものとする。なお、本
実施の形態の説明においては、理解のため漢字とひらが
なのみを含む日本語文を例に挙げて説明する。
【0025】まず、本実施の形態の日本語解析装置の概
略図を示すブロック図を図1を用いて説明する。図1に
示すように本実施形態の日本語解析装置は、データバス
60を有し、これを介して入力手段に相当する入力装置
20と、読み出し専用の記憶装置であるROM40と、
読み書き可能な記憶装置であるRAM50と、外部記憶
装置70と、I/Oポート80と、解析結果等を表示さ
せる表示装置30と、出力装置90と、それらを制御す
るCPU10とが接続されて構成されている。
略図を示すブロック図を図1を用いて説明する。図1に
示すように本実施形態の日本語解析装置は、データバス
60を有し、これを介して入力手段に相当する入力装置
20と、読み出し専用の記憶装置であるROM40と、
読み書き可能な記憶装置であるRAM50と、外部記憶
装置70と、I/Oポート80と、解析結果等を表示さ
せる表示装置30と、出力装置90と、それらを制御す
るCPU10とが接続されて構成されている。
【0026】データバス60は、本実施の形態を構成す
る各機器等の情報のやり取りを可能にするもので、例え
ばCPU10は、このデータバス60を介して、RAM
50やROM40にアクセスする。
る各機器等の情報のやり取りを可能にするもので、例え
ばCPU10は、このデータバス60を介して、RAM
50やROM40にアクセスする。
【0027】入力装置20は、キーボード及びマウスを
備えるもので、キーボードから解析対象である日本語文
字列をキー入力して、RAM50のかな漢字テキスト記
憶領域51に日本語文字列を蓄積したり、マウスにより
CPU10に対して指示コマンドを入力する。
備えるもので、キーボードから解析対象である日本語文
字列をキー入力して、RAM50のかな漢字テキスト記
憶領域51に日本語文字列を蓄積したり、マウスにより
CPU10に対して指示コマンドを入力する。
【0028】ROM40には、文字種判定手段に相当す
る文字種判定プログラム41と、文字種分割手段に相当
する文字種分割プログラム42と、日本語辞書43と、
かな判定手段に相当する非分割かな辞書44と、単語検
索手段および第2の単語検索手段に相当する単語検索プ
ログラム45とからなっている。
る文字種判定プログラム41と、文字種分割手段に相当
する文字種分割プログラム42と、日本語辞書43と、
かな判定手段に相当する非分割かな辞書44と、単語検
索手段および第2の単語検索手段に相当する単語検索プ
ログラム45とからなっている。
【0029】文字種判定プログラム41は、かな漢字テ
キスト記憶領域51に記憶されている日本語文字列につ
いて、それぞれの文字を区点コード番号や16進コード
番号などの文字コード表を参照して、そのコード番号か
ら漢字とひらがなに、又はそれ以外に識別して判定する
手順をコンピュータに実行させるプログラムであり、本
実施の形態では、漢字を「1」、ひらがなを「0」とし
て記憶して文字種格納領域54に格納する。
キスト記憶領域51に記憶されている日本語文字列につ
いて、それぞれの文字を区点コード番号や16進コード
番号などの文字コード表を参照して、そのコード番号か
ら漢字とひらがなに、又はそれ以外に識別して判定する
手順をコンピュータに実行させるプログラムであり、本
実施の形態では、漢字を「1」、ひらがなを「0」とし
て記憶して文字種格納領域54に格納する。
【0030】文字種分割プログラム42は、文字種格納
領域54に格納された文字列の文字種の変わる境目で分
割し、1又は複数個の同種の文字種が連続した文字列ご
とに分け、この分けられた文字列を一つのブロックとす
る。そして、このブロックを定められた数だけ有するよ
うに組み合わせて分割するものである。従って、1つの
ブロックは、「1」または「0」のいずれかの文字を1
又は複数含む文字列になっている。例えば「1」「1
1」「111」のようにである。
領域54に格納された文字列の文字種の変わる境目で分
割し、1又は複数個の同種の文字種が連続した文字列ご
とに分け、この分けられた文字列を一つのブロックとす
る。そして、このブロックを定められた数だけ有するよ
うに組み合わせて分割するものである。従って、1つの
ブロックは、「1」または「0」のいずれかの文字を1
又は複数含む文字列になっている。例えば「1」「1
1」「111」のようにである。
【0031】具体的には、例えば「110100…」と
いう文字列が文字種格納領域54に格納されている場合
を考えると、「漢字、かな、漢字」の組み合わせで分割
するとすれば、まず「11/0/1/00…」と同一の
文字種のブロックに分け、次に、例えば分割を最初から
「漢字、かな、漢字」のように分割すると決めておけ
ば、最初の3つのブロックを含む「11/0/1」の文
字列が分割されることになる。
いう文字列が文字種格納領域54に格納されている場合
を考えると、「漢字、かな、漢字」の組み合わせで分割
するとすれば、まず「11/0/1/00…」と同一の
文字種のブロックに分け、次に、例えば分割を最初から
「漢字、かな、漢字」のように分割すると決めておけ
ば、最初の3つのブロックを含む「11/0/1」の文
字列が分割されることになる。
【0032】日本語辞書43は、図3に示すように、見
出し語と単語の品詞と特別の情報をROM40の日本語
辞書43として格納したもので、文字種分割プログラム
42によって分割された日本語文字列を検索するための
検索エリアである。
出し語と単語の品詞と特別の情報をROM40の日本語
辞書43として格納したもので、文字種分割プログラム
42によって分割された日本語文字列を検索するための
検索エリアである。
【0033】非分割かな辞書44は、たとえば「が」の
ように、「希望が丘」「霧が峰」「君が代」の如く「漢
字+が+漢字」の組み合わせでよく使うばあい、「が」
を特定の非分割かなとして当該非分割かな辞書44に格
納しておき、検索される日本語文字列としてこのかなの
前後の漢字といっしょに切り出すものである。その他
「ヶ」「ヵ」のような小文字のカタカナ、更には「&」
のような英語の記号からなるものを含めても良い。
ように、「希望が丘」「霧が峰」「君が代」の如く「漢
字+が+漢字」の組み合わせでよく使うばあい、「が」
を特定の非分割かなとして当該非分割かな辞書44に格
納しておき、検索される日本語文字列としてこのかなの
前後の漢字といっしょに切り出すものである。その他
「ヶ」「ヵ」のような小文字のカタカナ、更には「&」
のような英語の記号からなるものを含めても良い。
【0034】単語検索プログラム45は、文字種分割プ
ログラム42によって分割された日本語文字列を、日本
語辞書43を参照して同一の見出しの単語が存在するか
検索する手順をコンピュータに実行させるものである。
ログラム42によって分割された日本語文字列を、日本
語辞書43を参照して同一の見出しの単語が存在するか
検索する手順をコンピュータに実行させるものである。
【0035】制御プログラム46は、日本語解析プログ
ラムの全体の制御を行うもので、例えば、記憶された手
順に従って、上記各プログラムを起動したり、入出力の
制御などを行う。
ラムの全体の制御を行うもので、例えば、記憶された手
順に従って、上記各プログラムを起動したり、入出力の
制御などを行う。
【0036】RAM50には、記憶手段に相当するかな
漢字テキスト記憶領域51と、検索文字列記憶領域52
と、検索位置記憶領域53と、文字種格納領域54と、
作業領域55が設けられている。
漢字テキスト記憶領域51と、検索文字列記憶領域52
と、検索位置記憶領域53と、文字種格納領域54と、
作業領域55が設けられている。
【0037】かな漢字テキスト記憶領域51は、入力装
置20から入力された日本語文字列をテキスト情報とし
て格納する記憶バッファである。
置20から入力された日本語文字列をテキスト情報とし
て格納する記憶バッファである。
【0038】検索文字列記憶領域52は、文字種分割プ
ログラム42により分割された、日本語辞書43の検索
をする対象の日本語文字列を記憶する領域である。
ログラム42により分割された、日本語辞書43の検索
をする対象の日本語文字列を記憶する領域である。
【0039】検索位置記憶領域53は、検索が終了した
文字列の位置を手掛かりに、次の検索をするための、検
索済みの文字列の最後の位置を記録してある記憶領域で
ある。
文字列の位置を手掛かりに、次の検索をするための、検
索済みの文字列の最後の位置を記録してある記憶領域で
ある。
【0040】文字種格納領域54は、入力された日本語
文字列を、文字種に応じて、即ち漢字を1、ひらがなを
0と置き換えた数字からなる文字列を格納しておく領域
である。
文字列を、文字種に応じて、即ち漢字を1、ひらがなを
0と置き換えた数字からなる文字列を格納しておく領域
である。
【0041】作業領域55は、上記各記憶領域に記憶さ
れる情報以外の情報を一時的に記憶する領域で、各ステ
ップで適宜使用されるものである。
れる情報以外の情報を一時的に記憶する領域で、各ステ
ップで適宜使用されるものである。
【0042】外部記憶装置70は、本実施の形態ではハ
ードディスクドライブを用いており、日本語解析処理の
対象にする文章や、日本語解析処理の終了した文章など
を蓄積しておくことができる。
ードディスクドライブを用いており、日本語解析処理の
対象にする文章や、日本語解析処理の終了した文章など
を蓄積しておくことができる。
【0043】I/Oポート80は、適宜他のコンピュー
タや、電話回線、その他有線無線を問わず情報の入出力
ができるものであり、日本語解析処理の対象や結果物を
入出力する場合に使用できる。
タや、電話回線、その他有線無線を問わず情報の入出力
ができるものであり、日本語解析処理の対象や結果物を
入出力する場合に使用できる。
【0044】表示装置30は、CRTを備え、入力され
た日本語文や解析結果を表示する。
た日本語文や解析結果を表示する。
【0045】出力装置90は、本実施の形態では、プリ
ンタを用い言語解析された結果をハードコピーする場合
などに用いられる。
ンタを用い言語解析された結果をハードコピーする場合
などに用いられる。
【0046】次に図2を参照して本実施の形態の日本語
解析装置及び日本語解析処理を行うプログラムの流れを
説明する。
解析装置及び日本語解析処理を行うプログラムの流れを
説明する。
【0047】まず、システムを起動させると、ROM4
0の制御プログラム46が立ち上がり、RAM50の作
業領域55、かな漢字テキスト記憶領域51、検索文字
列記憶領域52、検索位置記憶領域53、文字種格納領
域54の各記憶領域が確保され、入力装置20からの入
力が可能となり、処理が可能となる(開始)。入力装置
20より入力されたかな漢字文字列がかな漢字テキスト
記憶領域51に記憶される(ステップ21(以下ステッ
プを単にSと略記する。))。なお、ここで入力された
文は前述のように、理解のため漢字とひらがなのみを含
む文字列とする。
0の制御プログラム46が立ち上がり、RAM50の作
業領域55、かな漢字テキスト記憶領域51、検索文字
列記憶領域52、検索位置記憶領域53、文字種格納領
域54の各記憶領域が確保され、入力装置20からの入
力が可能となり、処理が可能となる(開始)。入力装置
20より入力されたかな漢字文字列がかな漢字テキスト
記憶領域51に記憶される(ステップ21(以下ステッ
プを単にSと略記する。))。なお、ここで入力された
文は前述のように、理解のため漢字とひらがなのみを含
む文字列とする。
【0048】次に、文字種判定プログラム41によりそ
の文字列の文字の属性「ひらがな」か「漢字」が、それ
ぞれ0と1の記号で表される(S22)。例えば「一の
宮は良い天気です」という入力文があると図4のように
文字種格納領域54に「1010101100」と記憶
される。つまり、この「0」と「1」はそれぞれその位
置のひらがなと漢字が位置していることを示している。
の文字列の文字の属性「ひらがな」か「漢字」が、それ
ぞれ0と1の記号で表される(S22)。例えば「一の
宮は良い天気です」という入力文があると図4のように
文字種格納領域54に「1010101100」と記憶
される。つまり、この「0」と「1」はそれぞれその位
置のひらがなと漢字が位置していることを示している。
【0049】次に文字種分割処理を行う(S23)。こ
の処理は文字種格納領域54に格納された前記文字列の
文字の属性を参照し、単語を切り出す位置を決定する。
ここでは文字種格納領域54を参照しその先頭に「1」
つまり漢字が先頭にきた場合には、その後にひらがなが
現われ、再び漢字が現れた後、ひらがなが現れる位置を
探す。つまり文字種格納領域54の始めの「101」の
直後の「0」の位置、即ち、「漢字+ひらがな+漢字」
の後の「かな」の位置、かな漢字テキスト記憶領域51
に記憶された例文で言うと「一+の+宮」の後の「は」
である。
の処理は文字種格納領域54に格納された前記文字列の
文字の属性を参照し、単語を切り出す位置を決定する。
ここでは文字種格納領域54を参照しその先頭に「1」
つまり漢字が先頭にきた場合には、その後にひらがなが
現われ、再び漢字が現れた後、ひらがなが現れる位置を
探す。つまり文字種格納領域54の始めの「101」の
直後の「0」の位置、即ち、「漢字+ひらがな+漢字」
の後の「かな」の位置、かな漢字テキスト記憶領域51
に記憶された例文で言うと「一+の+宮」の後の「は」
である。
【0050】ここで、日本語において、一の単語の中で
漢字とひらがなが混在する例を考慮すると、漢字を先頭
とする場合、考えられる組み合わせは例えば「漢字+ひ
らがな」「漢字+ひらがな+漢字」「漢字+ひらがな+
漢字+ひらがな」「漢字+ひらがな+漢字+ひらがな+
漢字」等無数にある。この場合、先頭の漢字は1文字に
は限らず複数あってもよく、同様に2番目のひらがなも
複数あってもよい。
漢字とひらがなが混在する例を考慮すると、漢字を先頭
とする場合、考えられる組み合わせは例えば「漢字+ひ
らがな」「漢字+ひらがな+漢字」「漢字+ひらがな+
漢字+ひらがな」「漢字+ひらがな+漢字+ひらがな+
漢字」等無数にある。この場合、先頭の漢字は1文字に
は限らず複数あってもよく、同様に2番目のひらがなも
複数あってもよい。
【0051】ところで、日本語の単語は、その成り立ち
から「漢字」を語幹として、ここに「ひらがな」から成
る付属語がつくことが多い。一方、文字数が多い単語に
おいて、その文字種を調べてみると漢字のみであった
り、或いはひらがなのみであったり、カタカナのみであ
ったりすることが多い。逆に言えば、長い単語に漢字や
ひらがなが交互に何度も現れることは少ない。つまり、
多くの場合は単語の基本の部分を構成する漢字があり、
ここにひらがなが付属することが最も頻度として多く、
さらに漢字が続くことは稀で、さらにひらがなが続くの
は極めて少なく、このような文字列を単語検索する意味
は低い。これ以上漢字とひらがなが交互に現れるような
ものは、複合語として分割しても解析可能な場合がほと
んどである。
から「漢字」を語幹として、ここに「ひらがな」から成
る付属語がつくことが多い。一方、文字数が多い単語に
おいて、その文字種を調べてみると漢字のみであった
り、或いはひらがなのみであったり、カタカナのみであ
ったりすることが多い。逆に言えば、長い単語に漢字や
ひらがなが交互に何度も現れることは少ない。つまり、
多くの場合は単語の基本の部分を構成する漢字があり、
ここにひらがなが付属することが最も頻度として多く、
さらに漢字が続くことは稀で、さらにひらがなが続くの
は極めて少なく、このような文字列を単語検索する意味
は低い。これ以上漢字とひらがなが交互に現れるような
ものは、複合語として分割しても解析可能な場合がほと
んどである。
【0052】即ち、本発明において、辞書検索の対象
を、連続した文字列から切り出すのに、単に文字数だけ
で考えずに、文字種に着目することで、今までにない極
めて効率のよい辞書検索が可能に成るものである。ま
た、もし漢字とひらがなが交互に何度も現れ、複合語と
して分割できないものがあったとしても、その数は極め
て稀で、この場合は定型句や慣用句辞書で処理した方が
はるかに能率がよいことになる。
を、連続した文字列から切り出すのに、単に文字数だけ
で考えずに、文字種に着目することで、今までにない極
めて効率のよい辞書検索が可能に成るものである。ま
た、もし漢字とひらがなが交互に何度も現れ、複合語と
して分割できないものがあったとしても、その数は極め
て稀で、この場合は定型句や慣用句辞書で処理した方が
はるかに能率がよいことになる。
【0053】通常この組み合わせを選択するのに日本語
辞書43のすべての単語を調べ、漢字が先頭である単語
のうちで、かなと漢字の組み合わせが一番多い物を調
べ、この組み合わせを選ぶ。ここでは「一の宮」のよう
に「漢字+ひらがな+漢字」が日本語辞書43に格納さ
れた、かなと漢字の組み合わせの一番多い単語とする。
つまり、「漢字+ひらがな+漢字+ひらがな」という組
み合わせ若しくはこれ以上の漢字、ひらがなからなる単
語は辞書には存在しなかったということになる。従っ
て、「漢字+ひらがな+漢字」の組み合わせから検索し
ても、検索漏れとなる単語は存在しないことになる。
辞書43のすべての単語を調べ、漢字が先頭である単語
のうちで、かなと漢字の組み合わせが一番多い物を調
べ、この組み合わせを選ぶ。ここでは「一の宮」のよう
に「漢字+ひらがな+漢字」が日本語辞書43に格納さ
れた、かなと漢字の組み合わせの一番多い単語とする。
つまり、「漢字+ひらがな+漢字+ひらがな」という組
み合わせ若しくはこれ以上の漢字、ひらがなからなる単
語は辞書には存在しなかったということになる。従っ
て、「漢字+ひらがな+漢字」の組み合わせから検索し
ても、検索漏れとなる単語は存在しないことになる。
【0054】そして切り出されたかな漢字文字列「一の
宮」が検索文字列記憶領域52に記憶される。
宮」が検索文字列記憶領域52に記憶される。
【0055】次に、検索文字列記憶領域52に格納され
ている文字列「一の宮」を日本語辞書43から辞書検索
処理をする(S24)。日本語辞書43はその概念図を
示すと図3の様になる。日本語の各単語が見出しと品
詞、その他の情報が格納されている。この日本語辞書4
3には単語「一の宮」が存在するため、検索の対象と一
致し検索が成功する(S25:YES)。
ている文字列「一の宮」を日本語辞書43から辞書検索
処理をする(S24)。日本語辞書43はその概念図を
示すと図3の様になる。日本語の各単語が見出しと品
詞、その他の情報が格納されている。この日本語辞書4
3には単語「一の宮」が存在するため、検索の対象と一
致し検索が成功する(S25:YES)。
【0056】次の検索が必要かどうかの判断のため、検
索された単語「一の宮」が入力された文字列すなわち、
かな漢字テキスト記憶領域51に記憶されている文字列
の末尾かどうかが判定され(S28)、末尾と判定され
れば日本語解析が成功したとして日本語解析処理を終了
するが(S28:YES,終了)、末尾でないときに
は、まず検索された単語の末尾の次の文字の位置にフラ
グをたてて、検索位置記憶領域53に記憶する(S2
8)。ここでは、かな漢字文字列「一の宮」の末尾位置
の次の文字、すなわち次に検索する文字の先頭位置であ
る4文字目という内容が検索位置記憶領域53に記憶さ
れる。
索された単語「一の宮」が入力された文字列すなわち、
かな漢字テキスト記憶領域51に記憶されている文字列
の末尾かどうかが判定され(S28)、末尾と判定され
れば日本語解析が成功したとして日本語解析処理を終了
するが(S28:YES,終了)、末尾でないときに
は、まず検索された単語の末尾の次の文字の位置にフラ
グをたてて、検索位置記憶領域53に記憶する(S2
8)。ここでは、かな漢字文字列「一の宮」の末尾位置
の次の文字、すなわち次に検索する文字の先頭位置であ
る4文字目という内容が検索位置記憶領域53に記憶さ
れる。
【0057】次に後に続く文字列の解析をするために再
び文字種分割処理を行う(S28:NO,S23)。こ
こでは検索位置記憶領域53を参照し、「一の宮」の次
の「は」の位置から文字種分割プログラム42により切
り出す。文字列「は良い天気です」に対して前述の文字
列の切り出しを行う。但し、「一の宮」の場合は文字列
が漢字で始まっていたが、この場合は文字列がひらがな
で始まっているので、ひらがな文字列と漢字文字列のつ
ながったものをひとまとまりの文字列として切り出して
くる。この場合も漢字が先頭の場合と同じように、通常
は日本語辞書43内に存在する単語でひらがなから始ま
る物のうちでひらがなと漢字の組み合わせが一番長いパ
ターンを選ぶ。ここでは「ひらがな+漢字」の組み合わ
せが最長とすると文字列「は良」が切り出され検索文字
列記憶領域52に記憶される(S23)。次に文字列
「は良」の検索が行われる(S24)。この検索は先に
述べたように日本語辞書43と一致した文字列を検索す
ることで行う。この場合、単語が存在しないので検索は
失敗と判定される(S25:NO)。そのため文字列の
末尾から一文字削除し、検索文字列記憶領域52の文字
列の末尾から一文字削る(S26)。すると検索文字列
記憶領域52の内容は「は」になる。次に検索が継続可
能か判断するため文字列が0になってないか判断され、
ここでは文字列「は」が残っているため0ではないと判
定され再び辞書検索処理がされる(S27:NO、S2
4)。従って今度は、文字列「は」の辞書検索が行われ
辞書中に存在するので(S25:YES)、次に検索単
語が文字列末尾か否かを判断される(S28)。
び文字種分割処理を行う(S28:NO,S23)。こ
こでは検索位置記憶領域53を参照し、「一の宮」の次
の「は」の位置から文字種分割プログラム42により切
り出す。文字列「は良い天気です」に対して前述の文字
列の切り出しを行う。但し、「一の宮」の場合は文字列
が漢字で始まっていたが、この場合は文字列がひらがな
で始まっているので、ひらがな文字列と漢字文字列のつ
ながったものをひとまとまりの文字列として切り出して
くる。この場合も漢字が先頭の場合と同じように、通常
は日本語辞書43内に存在する単語でひらがなから始ま
る物のうちでひらがなと漢字の組み合わせが一番長いパ
ターンを選ぶ。ここでは「ひらがな+漢字」の組み合わ
せが最長とすると文字列「は良」が切り出され検索文字
列記憶領域52に記憶される(S23)。次に文字列
「は良」の検索が行われる(S24)。この検索は先に
述べたように日本語辞書43と一致した文字列を検索す
ることで行う。この場合、単語が存在しないので検索は
失敗と判定される(S25:NO)。そのため文字列の
末尾から一文字削除し、検索文字列記憶領域52の文字
列の末尾から一文字削る(S26)。すると検索文字列
記憶領域52の内容は「は」になる。次に検索が継続可
能か判断するため文字列が0になってないか判断され、
ここでは文字列「は」が残っているため0ではないと判
定され再び辞書検索処理がされる(S27:NO、S2
4)。従って今度は、文字列「は」の辞書検索が行われ
辞書中に存在するので(S25:YES)、次に検索単
語が文字列末尾か否かを判断される(S28)。
【0058】なお、もしS26で一字削除した結果
「ん」のような一文字で意味を成さないような文字が、
誤記等で残った場合、0文字ではないので再度辞書検索
処理され(S27:NO,S24)、「ん」は日本語辞
書にないため検索は失敗し(S25:NO)、さらに一
字削除され(S26)、「ん」から一字削除されること
により文字列は「0文字」になる。一文字削った結果残
りの文字が存在しなくなったときには検索がもはや不可
能であるため、検索失敗として(S27:YES)処理
を終了され(終了)、「ん」は未知の文字としてとして
処理されることになる。
「ん」のような一文字で意味を成さないような文字が、
誤記等で残った場合、0文字ではないので再度辞書検索
処理され(S27:NO,S24)、「ん」は日本語辞
書にないため検索は失敗し(S25:NO)、さらに一
字削除され(S26)、「ん」から一字削除されること
により文字列は「0文字」になる。一文字削った結果残
りの文字が存在しなくなったときには検索がもはや不可
能であるため、検索失敗として(S27:YES)処理
を終了され(終了)、「ん」は未知の文字としてとして
処理されることになる。
【0059】同じようにして単語「良い」「天気」「で
す」が検索されていき最後に文字列「です」が検索され
たときには検索された文字列がかな漢字テキスト記憶領
域51の末尾のため全文検索成功と判定され(S28:
YES)、日本語解析が成功したとして処理を終了され
る(終了)。
す」が検索されていき最後に文字列「です」が検索され
たときには検索された文字列がかな漢字テキスト記憶領
域51の末尾のため全文検索成功と判定され(S28:
YES)、日本語解析が成功したとして処理を終了され
る(終了)。
【0060】すると文字列「一の宮は良い天気です」と
いう文字列は図4に示すように「一の宮/は/良い/天
気/です」と解析結果を出力する。
いう文字列は図4に示すように「一の宮/は/良い/天
気/です」と解析結果を出力する。
【0061】以上の説明から明らかなように、本実施の
形態のように日本語の単語の漢字およびひらがなの組み
合わせでその検索対象を決定し、その位置から辞書検索
を行うことによって無駄な位置からの検索処理を省略す
ることができ、解析処理を高速化することができる。
形態のように日本語の単語の漢字およびひらがなの組み
合わせでその検索対象を決定し、その位置から辞書検索
を行うことによって無駄な位置からの検索処理を省略す
ることができ、解析処理を高速化することができる。
【0062】なお、本実施の形態では従来の解析処理の
様に日本語辞書43中に存在する最長単語の文字数をn
としその長さから辞書検索する最長一致法による処理に
ついては組み込まれていないが、図2のS23の文字種
分割処理において求められたかなと漢字の組み合わせで
切り出されたかな漢字文字列の長さと比較し短い方の位
置から文字列を切り出すように構成してあっても良い。
様に日本語辞書43中に存在する最長単語の文字数をn
としその長さから辞書検索する最長一致法による処理に
ついては組み込まれていないが、図2のS23の文字種
分割処理において求められたかなと漢字の組み合わせで
切り出されたかな漢字文字列の長さと比較し短い方の位
置から文字列を切り出すように構成してあっても良い。
【0063】また、「一の宮」の「の」や「千鳥が淵」
の「が」や、「希望ヶ丘」の「ヶ」の様に前後につなが
りやすいひらがなに関しては非分割かな辞書44にそれ
らのかな文字を記憶させておき、それらのひらがな文字
を漢字と同様に扱い、図2の文字種判定処理においても
文字種格納領域54に漢字である「1」を記憶させる様
に構成してあっても良い。この場合は、本実施の形態の
例文の「一の宮は良い天気です」では、まず「一の宮」
については、「の」が漢字とみなされるため、最初に切
り出される部分は「一の宮は良」ということになる。
の「が」や、「希望ヶ丘」の「ヶ」の様に前後につなが
りやすいひらがなに関しては非分割かな辞書44にそれ
らのかな文字を記憶させておき、それらのひらがな文字
を漢字と同様に扱い、図2の文字種判定処理においても
文字種格納領域54に漢字である「1」を記憶させる様
に構成してあっても良い。この場合は、本実施の形態の
例文の「一の宮は良い天気です」では、まず「一の宮」
については、「の」が漢字とみなされるため、最初に切
り出される部分は「一の宮は良」ということになる。
【0064】また、図2のS27において切り出された
文字長が0文字になったときYESと判定され解析失敗
するように構成されているが、それまでにS25で検索
成功している文字列があれば、その文字列を検索し直す
バックトラック処理といわれる処理を設けることも可能
である。例えば上記実施の形態の例で示すとすでに検索
成功している文字列「一の宮」を切り直し、「一の」を
検索することによって後のつながりを成功させるように
工夫されていても良い。バックトラック処理自体はすで
に知られているが、このような周知の技術を組み合わせ
ることにより効率をよくすることが可能である。
文字長が0文字になったときYESと判定され解析失敗
するように構成されているが、それまでにS25で検索
成功している文字列があれば、その文字列を検索し直す
バックトラック処理といわれる処理を設けることも可能
である。例えば上記実施の形態の例で示すとすでに検索
成功している文字列「一の宮」を切り直し、「一の」を
検索することによって後のつながりを成功させるように
工夫されていても良い。バックトラック処理自体はすで
に知られているが、このような周知の技術を組み合わせ
ることにより効率をよくすることが可能である。
【0065】尚、本発明は以上詳述した実施の形態に限
定されるものではなく、その要旨を逸脱しない範囲にお
いて、種々の変更を加えることができる。
定されるものではなく、その要旨を逸脱しない範囲にお
いて、種々の変更を加えることができる。
【0066】例えば、本実施の形態では漢字とひらがな
が混在する文章のみを例として説明したが、例えばひら
がなとカタカナ、その他の記号を英数文字、記述記号、
その他の記号などの文字種に分けた場合も本発明の思想
は適用可能である。
が混在する文章のみを例として説明したが、例えばひら
がなとカタカナ、その他の記号を英数文字、記述記号、
その他の記号などの文字種に分けた場合も本発明の思想
は適用可能である。
【0067】また、ひらがなの「の」や「が」につい
て、漢字二つを結合させ1の名詞を形成する場合を説明
したが、同様にカタカナの「ヶ」「ヵ」なども前後に漢
字やひらがなを伴って1の単語を形成する場合も多い。
更に、「・」や「−」「&」なども種々の文字種を前後
に伴い1の単語を形成することが多い。そのため、これ
らについても文字種として判定せず、前後の文字種と一
体に判断して処理してもよい。
て、漢字二つを結合させ1の名詞を形成する場合を説明
したが、同様にカタカナの「ヶ」「ヵ」なども前後に漢
字やひらがなを伴って1の単語を形成する場合も多い。
更に、「・」や「−」「&」なども種々の文字種を前後
に伴い1の単語を形成することが多い。そのため、これ
らについても文字種として判定せず、前後の文字種と一
体に判断して処理してもよい。
【0068】また、本実施の形態では、入力装置20
は、キーボードとマウスによったが、要は解析の対象で
ある文章が読み込まれればよく、他の入力手段、例えば
無線または有線によりI/Oポート80を介して読み込
まれるものや、フロッピーディスクドライブやハードデ
ィスクドライブなどからなる内蔵または外部記憶装置7
0を介して記録媒体により入力されるものや、音声によ
って認識するようなものであってもよい。
は、キーボードとマウスによったが、要は解析の対象で
ある文章が読み込まれればよく、他の入力手段、例えば
無線または有線によりI/Oポート80を介して読み込
まれるものや、フロッピーディスクドライブやハードデ
ィスクドライブなどからなる内蔵または外部記憶装置7
0を介して記録媒体により入力されるものや、音声によ
って認識するようなものであってもよい。
【0069】さらに、本実施の形態の言語解析装置は、
文字種判定プログラム41と、文字種分割プログラム4
2と、日本語辞書43と、非分割かな辞書44と、単語
検索プログラム45および制御プログラム46がROM
40に予め格納されたものであるが、本発明は必ずしも
これに限定されるものではない。例えば、これらのプロ
グラムは、それぞれ明確に区別されて格納される必要は
なく、要は夫々の機能を有する部分が存在すれば十分
で、これらのプログラムが混在しているような形式であ
っても差し支えない。
文字種判定プログラム41と、文字種分割プログラム4
2と、日本語辞書43と、非分割かな辞書44と、単語
検索プログラム45および制御プログラム46がROM
40に予め格納されたものであるが、本発明は必ずしも
これに限定されるものではない。例えば、これらのプロ
グラムは、それぞれ明確に区別されて格納される必要は
なく、要は夫々の機能を有する部分が存在すれば十分
で、これらのプログラムが混在しているような形式であ
っても差し支えない。
【0070】また、プログラムや辞書が格納される記録
媒体は必ずしもROM40によるものでなくてもよく、
要はこれらのプログラムがコンピュータが読み出し可能
に格納さえされれば十分で、フロッピーディスクやCD
−ROM等のコンピュータ読み取り可能な記録媒体に格
納したものを読み取り装置により読み取ることによって
動作させることもできる。また、有線若しくは無線回線
を使用して外部情報処理装置からプログラムを読み込ん
で動作させることもできる。この場合、前記フロッピー
ディスクやCD−ROM、或いは、コンピュータに内蔵
又は外付けされたハードディスクや、さらに外部情報処
理装置の当該プログラムを格納したメモリが本発明の記
録媒体を構成することになる。
媒体は必ずしもROM40によるものでなくてもよく、
要はこれらのプログラムがコンピュータが読み出し可能
に格納さえされれば十分で、フロッピーディスクやCD
−ROM等のコンピュータ読み取り可能な記録媒体に格
納したものを読み取り装置により読み取ることによって
動作させることもできる。また、有線若しくは無線回線
を使用して外部情報処理装置からプログラムを読み込ん
で動作させることもできる。この場合、前記フロッピー
ディスクやCD−ROM、或いは、コンピュータに内蔵
又は外付けされたハードディスクや、さらに外部情報処
理装置の当該プログラムを格納したメモリが本発明の記
録媒体を構成することになる。
【0071】つまり、本実施の形態のようにROM40
にプログラムを格納した言語解析装置の専用機ばかりで
なく、何らかの記録媒体に本実施の形態のROM40の
内容が格納されていれば、この記録媒体を汎用コンピュ
ータに読み取らせることにより本発明の実施が可能にな
る。
にプログラムを格納した言語解析装置の専用機ばかりで
なく、何らかの記録媒体に本実施の形態のROM40の
内容が格納されていれば、この記録媒体を汎用コンピュ
ータに読み取らせることにより本発明の実施が可能にな
る。
【0072】表示手段も、CRTに限らず液晶ディスプ
レーはもちろん、要は内容が表示可能であれば如何なる
形式のものであってもよく、出力手段も出力が可能であ
ればプリンタによるものに限定されず、たとえばI/O
ポート80を介して有線若しくは無線回線によるものや
音声出力、記録媒体を介して出力されるものなどによる
ものであってもよい。
レーはもちろん、要は内容が表示可能であれば如何なる
形式のものであってもよく、出力手段も出力が可能であ
ればプリンタによるものに限定されず、たとえばI/O
ポート80を介して有線若しくは無線回線によるものや
音声出力、記録媒体を介して出力されるものなどによる
ものであってもよい。
【0073】以上説明したことから明かなように、日本
語解析装置および日本語解析記録媒体によれば辞書検索
の回数を文字列の文字列の短い位置から検索することに
よって解析時間を高速化することができる。
語解析装置および日本語解析記録媒体によれば辞書検索
の回数を文字列の文字列の短い位置から検索することに
よって解析時間を高速化することができる。
【0074】
【発明の効果】請求項1に記載の日本語解析装置によれ
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列の文字種の変わる境目で分割し、1または連続し
た複数の同種の文字種からなる漢字部分、かな部分等に
分割し、分割された位置で区切ったかな漢字文字列を日
本語辞書から単語として検索することで、最長一致法に
よる検索のように日本語辞書のもっとも長い文字列から
順次検索するような必要以上に長い日本語辞書の単語を
参照することなく、かつ、かなと漢字の組み合わせとい
う観点から検索漏れのない十分な範囲で、無駄無く効率
の良い単語検索ができるという効果がある。
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列の文字種の変わる境目で分割し、1または連続し
た複数の同種の文字種からなる漢字部分、かな部分等に
分割し、分割された位置で区切ったかな漢字文字列を日
本語辞書から単語として検索することで、最長一致法に
よる検索のように日本語辞書のもっとも長い文字列から
順次検索するような必要以上に長い日本語辞書の単語を
参照することなく、かつ、かなと漢字の組み合わせとい
う観点から検索漏れのない十分な範囲で、無駄無く効率
の良い単語検索ができるという効果がある。
【0075】請求項2に記載の日本語解析装置は、請求
項1に記載の日本語解析装置の効果に加え、文字種判定
手段が、かなをひらがなとカタカナに、或いは漢字かな
を除く文字種として英数文字とその他の記号に、又はさ
らに文字種を多種類に分類して文字種を判定し、分割す
るため、より正確で効率的な単語検索ができるという効
果がある。
項1に記載の日本語解析装置の効果に加え、文字種判定
手段が、かなをひらがなとカタカナに、或いは漢字かな
を除く文字種として英数文字とその他の記号に、又はさ
らに文字種を多種類に分類して文字種を判定し、分割す
るため、より正確で効率的な単語検索ができるという効
果がある。
【0076】請求項3に記載の日本語解析装置によれ
ば、請求項1又は請求項2に記載の日本語解析装置の効
果に加え、単語検索手段により検索を失敗した時、文字
種分割手段により分割されたかな漢字文字列の末尾から
1文字削った残りのかな漢字文字列に対し、日本語辞書
から単語として検索するため、日本語辞書の検索漏れが
生じないという効果がある。
ば、請求項1又は請求項2に記載の日本語解析装置の効
果に加え、単語検索手段により検索を失敗した時、文字
種分割手段により分割されたかな漢字文字列の末尾から
1文字削った残りのかな漢字文字列に対し、日本語辞書
から単語として検索するため、日本語辞書の検索漏れが
生じないという効果がある。
【0077】請求項4に記載の日本語解析装置は、請求
項1乃至請求項3のいずれかに記載の日本語解析装置の
効果に加え、文字種分割手段が特定のかな文字の前ある
いは後では分割しないようにするためのかなを判定する
ため、漢字を結び付けて一つの単語を作ることが多い特
定のかなにより結合された文字列を一つの連続したもの
と扱うことでさらに効率よく形態素解析ができるという
効果がある。
項1乃至請求項3のいずれかに記載の日本語解析装置の
効果に加え、文字種分割手段が特定のかな文字の前ある
いは後では分割しないようにするためのかなを判定する
ため、漢字を結び付けて一つの単語を作ることが多い特
定のかなにより結合された文字列を一つの連続したもの
と扱うことでさらに効率よく形態素解析ができるという
効果がある。
【0078】請求項5に記載の記録媒体によれば、コン
ピュータに、日本語文章の形態素解析において、文字種
判定の手順により判定された文字種に基づいて入力され
たかな漢字文字列の文字種の変わる境目で分割し、1ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索する手順を実行
させることができることで、必要以上に長い日本語辞書
の単語を参照することなく、かつ検索漏れのない、無駄
無く効率の良い単語検索ができるという効果がある。
ピュータに、日本語文章の形態素解析において、文字種
判定の手順により判定された文字種に基づいて入力され
たかな漢字文字列の文字種の変わる境目で分割し、1ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索する手順を実行
させることができることで、必要以上に長い日本語辞書
の単語を参照することなく、かつ検索漏れのない、無駄
無く効率の良い単語検索ができるという効果がある。
【0079】請求項6に記載の記録媒体によれば、請求
項5に記載の日本語解析プログラムを記録したコンピュ
ータ読み取り可能な記録媒体の効果に加え、コンピュー
タに、かなをひらがなとカタカナに、或いは漢字かなを
除く文字種をさらに英数文字とその他の記号に、又は、
さらに文字種を多種類に分類して文字種を判定し、入力
された文字列をその分類に基づいて分割するための手順
を実行させることができるため、より正確で効率的な単
語検索ができるという効果がある。
項5に記載の日本語解析プログラムを記録したコンピュ
ータ読み取り可能な記録媒体の効果に加え、コンピュー
タに、かなをひらがなとカタカナに、或いは漢字かなを
除く文字種をさらに英数文字とその他の記号に、又は、
さらに文字種を多種類に分類して文字種を判定し、入力
された文字列をその分類に基づいて分割するための手順
を実行させることができるため、より正確で効率的な単
語検索ができるという効果がある。
【0080】請求項7に記載の記録媒体では、請求項5
又は請求項6に記載の日本語解析プログラムを記録した
コンピュータ読み取り可能な記録媒体の効果に加え、コ
ンピュータに、単語検索の手順により検索を失敗したと
き、文字種分割の手順により分割されたかな漢字文字列
の末尾から1文字削った残りのかな漢字文字列に対し、
日本語辞書から単語として検索を実行させることができ
るため、日本語辞書の漏れが生じない正確な検索ができ
るという効果がある。
又は請求項6に記載の日本語解析プログラムを記録した
コンピュータ読み取り可能な記録媒体の効果に加え、コ
ンピュータに、単語検索の手順により検索を失敗したと
き、文字種分割の手順により分割されたかな漢字文字列
の末尾から1文字削った残りのかな漢字文字列に対し、
日本語辞書から単語として検索を実行させることができ
るため、日本語辞書の漏れが生じない正確な検索ができ
るという効果がある。
【0081】請求項8に記載の記録媒体によれば、請求
項5乃至請求項7のいずれかに記載の日本語解析プログ
ラムを記録したコンピュータ読み取り可能な記録媒体の
効果に加え、コンピュータに、文字種分割の手順が特定
のかな文字の前あるいは後では分割しないようにするた
めのかなを判定するため、漢字を結び付けて一つの単語
を作ることが多い特定のかなにより結合された文字列を
一つの連続したものと扱う手順を実行させることでさら
に効率よく形態素解析ができるという効果がある。
項5乃至請求項7のいずれかに記載の日本語解析プログ
ラムを記録したコンピュータ読み取り可能な記録媒体の
効果に加え、コンピュータに、文字種分割の手順が特定
のかな文字の前あるいは後では分割しないようにするた
めのかなを判定するため、漢字を結び付けて一つの単語
を作ることが多い特定のかなにより結合された文字列を
一つの連続したものと扱う手順を実行させることでさら
に効率よく形態素解析ができるという効果がある。
【図1】本実施の形態の日本語解析装置の概略を表わす
ブロック図である。
ブロック図である。
【図2】本実施の形態の日本語解析装置の動作を表わす
フローチャートである。
フローチャートである。
【図3】本実施の形態の日本語解析装置の日本語辞書の
一例を表す図である。
一例を表す図である。
【図4】本実施の形態の日本語解析装置の記録媒体のか
な漢字テキスト記憶領域および文字種格納領域および解
析結果を表す説明図である。
な漢字テキスト記憶領域および文字種格納領域および解
析結果を表す説明図である。
10 CPU 20 入力装置 30 表示装置 40 ROM 41 文字種判定プログラム 42 文字種分割プログラム 43 日本語辞書 44 非分割かな辞書 45 単語検索プログラム 46 制御プログラム 50 RAM 51 かな漢字テキスト記憶領域 52 検索文字列記憶領域 53 検索位置記憶領域 54 文字種格納領域 55 作業領域 60 データバス 70 外部記憶装置 80 I/Oポート 90 出力装置
【手続補正書】
【提出日】平成10年7月24日
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】全文
【補正方法】変更
【補正内容】
【書類名】 明細書
【発明の名称】 日本語解析装置および日本語解析プロ
グラムを記録したコンピュータ読み取り可能な記録媒体
グラムを記録したコンピュータ読み取り可能な記録媒体
【特許請求の範囲】
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、日本語解析装置及
び日本語解析プログラムを記録したコンピュータ読み取
り可能な記録媒体に関し、詳しくは、日本語形態素解析
における日本語辞書検索の効率化に関するものである。
び日本語解析プログラムを記録したコンピュータ読み取
り可能な記録媒体に関し、詳しくは、日本語形態素解析
における日本語辞書検索の効率化に関するものである。
【0002】
【従来の技術】従来の日本語解析装置において、与えら
れた日本語の文字列から単語を切り出すための形態素解
析の方法として最長一致法による解析が一般的に用いら
れていた。この最長一致法というのは、まず辞書に存在
する一番長い単語の文字数と同じ長さのかな漢字文字列
を、解析の対象である日本語文章から切り出し、それを
辞書に記録された単語と照合しながら同一文字列を辞書
検索し、一致した文字列が存在すれば単語と認識される
が、一致した文字列がない場合は検索に失敗したことに
なり、このときには末尾を一文字削ったものを検索の対
象文字列としてまたそれを辞書検索をし、さらに失敗す
るようであればさらに一文字削って検索し、繰り返し一
致した文字列があるまで検索するように構成されてい
た。
れた日本語の文字列から単語を切り出すための形態素解
析の方法として最長一致法による解析が一般的に用いら
れていた。この最長一致法というのは、まず辞書に存在
する一番長い単語の文字数と同じ長さのかな漢字文字列
を、解析の対象である日本語文章から切り出し、それを
辞書に記録された単語と照合しながら同一文字列を辞書
検索し、一致した文字列が存在すれば単語と認識される
が、一致した文字列がない場合は検索に失敗したことに
なり、このときには末尾を一文字削ったものを検索の対
象文字列としてまたそれを辞書検索をし、さらに失敗す
るようであればさらに一文字削って検索し、繰り返し一
致した文字列があるまで検索するように構成されてい
た。
【0003】例えば「一の宮は良い天気です」という文
であれば、まず、日本語辞書の10文字の辞書を参照し
て検索し、10文字の辞書に「一の宮は良い天気です」
という登録単語がなければ、次に、「一の宮は良い天気
で」という文字列について、日本語辞書の9文字の辞書
を参照して検索し、「一の宮は良い天気で」という登録
単語がなければ、次に「一の宮は良い天気」について同
様な検索を繰り返し、「一の宮」という3文字からなる
文字列の日本語辞書での検索で一致するまで、単語検索
を繰り返し行う必要があり、極めて多くの手順を経なけ
れば検索できなかった。
であれば、まず、日本語辞書の10文字の辞書を参照し
て検索し、10文字の辞書に「一の宮は良い天気です」
という登録単語がなければ、次に、「一の宮は良い天気
で」という文字列について、日本語辞書の9文字の辞書
を参照して検索し、「一の宮は良い天気で」という登録
単語がなければ、次に「一の宮は良い天気」について同
様な検索を繰り返し、「一の宮」という3文字からなる
文字列の日本語辞書での検索で一致するまで、単語検索
を繰り返し行う必要があり、極めて多くの手順を経なけ
れば検索できなかった。
【0004】ただ、このような検索であれば、辞書に記
載されているすべての単語について検索されるため、正
確な辞書検索が出来ることになるので、最長一致法が採
用されてきた。
載されているすべての単語について検索されるため、正
確な辞書検索が出来ることになるので、最長一致法が採
用されてきた。
【0005】
【発明が解決しようとする課題】しかしながら、実際に
単語として解析対象である日本語文章に用いられている
ものの多くは、辞書に登録されている最長の単語に比べ
極めて短く、このような短い単語を多く含んだ解析対象
である文字列について、辞書の一番長い文字列から順番
に長い文字列においてすべて一致するか否かの検索をす
るのでは検索に無駄が多く、解析時間を遅くする原因と
なるという問題点があった。
単語として解析対象である日本語文章に用いられている
ものの多くは、辞書に登録されている最長の単語に比べ
極めて短く、このような短い単語を多く含んだ解析対象
である文字列について、辞書の一番長い文字列から順番
に長い文字列においてすべて一致するか否かの検索をす
るのでは検索に無駄が多く、解析時間を遅くする原因と
なるという問題点があった。
【0006】そこで、本発明は、上記課題を解決するた
めなされたものであり、無駄のない検索範囲を設定する
ことにより、検索漏れを起こさずに日本語解析の精度を
落とさないで、かつ検索時間を短縮できる、日本語形態
素解析をするための日本語解析装置及び日本語解析装置
のためのプログラムを記録したコンピュータ読み取り可
能な記録媒体を提供するものである。
めなされたものであり、無駄のない検索範囲を設定する
ことにより、検索漏れを起こさずに日本語解析の精度を
落とさないで、かつ検索時間を短縮できる、日本語形態
素解析をするための日本語解析装置及び日本語解析装置
のためのプログラムを記録したコンピュータ読み取り可
能な記録媒体を提供するものである。
【0007】
【課題を解決するための手段】この目的を達成するため
に請求項1に記載の日本語解析装置は、かな漢字文字列
を入力するための入力手段と、その入力手段により入力
されたかな漢字文字列を記憶する記憶手段と、その記憶
手段に記憶されたかな漢字文字列の漢字、かな等の文字
種を判定する文字種判定手段と、前記文字種判定手段に
より判定された文字種に基づいて前記入力されたかな漢
字文字列の文字種の変わる境目で分割し、1または連続
した複数の同種の文字種からなる漢字部分、かな部分等
に分割する文字種分割手段と、日本語の単語及びその単
語の情報を記憶した日本語辞書と、前記文字種分割手段
により分割された位置で区切ったかな漢字文字列を前記
日本語辞書から単語として検索する単語検索手段とを備
えて日本語文章の形態素解析を行うことを特徴とする。
に請求項1に記載の日本語解析装置は、かな漢字文字列
を入力するための入力手段と、その入力手段により入力
されたかな漢字文字列を記憶する記憶手段と、その記憶
手段に記憶されたかな漢字文字列の漢字、かな等の文字
種を判定する文字種判定手段と、前記文字種判定手段に
より判定された文字種に基づいて前記入力されたかな漢
字文字列の文字種の変わる境目で分割し、1または連続
した複数の同種の文字種からなる漢字部分、かな部分等
に分割する文字種分割手段と、日本語の単語及びその単
語の情報を記憶した日本語辞書と、前記文字種分割手段
により分割された位置で区切ったかな漢字文字列を前記
日本語辞書から単語として検索する単語検索手段とを備
えて日本語文章の形態素解析を行うことを特徴とする。
【0008】請求項1に記載の日本語解析装置によれ
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列を、1または連続した複数の同種の文字種からな
る漢字部分、かな部分等に分割し、分割された位置で区
切ったかな漢字文字列を日本語辞書から単語として検索
することで、必要以上に長い日本語辞書の単語を参照す
ることなく、かつ検索漏れのない、無駄無く効率の良い
単語検索ができる。
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列を、1または連続した複数の同種の文字種からな
る漢字部分、かな部分等に分割し、分割された位置で区
切ったかな漢字文字列を日本語辞書から単語として検索
することで、必要以上に長い日本語辞書の単語を参照す
ることなく、かつ検索漏れのない、無駄無く効率の良い
単語検索ができる。
【0009】請求項2に記載の日本語解析装置は、請求
項1に記載の日本語解析装置の構成に加え、前記文字種
判定手段は、前記かなをひらがなとカタカナに、或いは
前記漢字かなを除く文字種として英数文字とその他の記
号に、又は、さらに文字種を多種類に分類する文字種判
定手段であり、前記文字種分割手段は、入力された文字
列を当該分類に基づいて分割する文字種分割手段である
ことを特徴とする。
項1に記載の日本語解析装置の構成に加え、前記文字種
判定手段は、前記かなをひらがなとカタカナに、或いは
前記漢字かなを除く文字種として英数文字とその他の記
号に、又は、さらに文字種を多種類に分類する文字種判
定手段であり、前記文字種分割手段は、入力された文字
列を当該分類に基づいて分割する文字種分割手段である
ことを特徴とする。
【0010】請求項2に記載の日本語解析装置によれ
ば、かなをひらがなとカタカナに、或いは漢字かなを除
く文字種として英数文字とその他の記号に、又は、さら
に文字種を多種類に分類して文字種を判定し、その分類
に基づいて入力された文字列を分割するため、より正確
で効率的な単語検索ができる。
ば、かなをひらがなとカタカナに、或いは漢字かなを除
く文字種として英数文字とその他の記号に、又は、さら
に文字種を多種類に分類して文字種を判定し、その分類
に基づいて入力された文字列を分割するため、より正確
で効率的な単語検索ができる。
【0011】請求項3に記載の日本語解析装置は、請求
項1又は請求項2に記載の日本語解析装置の構成に加
え、前記単語検索手段により検索を失敗した時、前記文
字種分割手段により分割されたかな漢字文字列の末尾か
ら1文字削った残りのかな漢字文字列に対し、前記日本
語辞書から単語として検索する第2の単語検索手段を備
えたことを特徴とする。
項1又は請求項2に記載の日本語解析装置の構成に加
え、前記単語検索手段により検索を失敗した時、前記文
字種分割手段により分割されたかな漢字文字列の末尾か
ら1文字削った残りのかな漢字文字列に対し、前記日本
語辞書から単語として検索する第2の単語検索手段を備
えたことを特徴とする。
【0012】請求項3に記載の日本語解析装置の構成に
よれば、単語検索手段により検索を失敗した時、文字種
分割手段により分割されたかな漢字文字列の末尾から1
文字削った残りのかな漢字文字列に対し、日本語辞書か
ら単語として検索するため、日本語辞書の検索漏れが生
じない。
よれば、単語検索手段により検索を失敗した時、文字種
分割手段により分割されたかな漢字文字列の末尾から1
文字削った残りのかな漢字文字列に対し、日本語辞書か
ら単語として検索するため、日本語辞書の検索漏れが生
じない。
【0013】請求項4に記載の日本語解析装置は、請求
項1乃至請求項3のいずれかに記載の日本語解析装置の
構成に加え、前記文字種分割手段は、特定のかな文字の
前あるいは後では分割しないようにするためのかなを判
定するかな判定手段を備えたことを特徴とする。
項1乃至請求項3のいずれかに記載の日本語解析装置の
構成に加え、前記文字種分割手段は、特定のかな文字の
前あるいは後では分割しないようにするためのかなを判
定するかな判定手段を備えたことを特徴とする。
【0014】請求項4に記載の日本語解析装置の構成に
よれば、文字種分割手段が特定のかな文字の前あるいは
後では分割しないようにするためのかなを判定するた
め、漢字を結び付けて一つの単語を作ることが多い特定
のかなにより結合された文字列を一つの連続したものと
扱うことでさらに効率よく形態素解析ができる。
よれば、文字種分割手段が特定のかな文字の前あるいは
後では分割しないようにするためのかなを判定するた
め、漢字を結び付けて一つの単語を作ることが多い特定
のかなにより結合された文字列を一つの連続したものと
扱うことでさらに効率よく形態素解析ができる。
【0015】請求項5に記載の記録媒体は、日本語文章
の形態素解析を行う日本語解析装置のための日本語解析
プログラムを記録したコンピュータ読み取り可能な記録
媒体であって、コンピュータに、かな漢字文字列を入力
する手順と、前記入力されたかな漢字文字列を記憶する
手順と、前記記憶されたかな漢字文字列の文字種を漢
字、かな等の文字種とに判定する文字種判定の手順と、
その文字種判定の手順により判定された文字種に基づい
て前記入力されたかな漢字文字列の文字種の変わる境目
で分割し、1または連続した複数の同種の文字種からな
る漢字部分、かな部分及びその他の部分の文字列に分割
する文字種分割の手順と、前記文字種分割の手順により
分割された位置で区切ったかな漢字文字列を前記日本語
の単語及びその単語の情報を記憶した日本語辞書から単
語として検索する単語検索の手順とを実行させることを
特徴とする。
の形態素解析を行う日本語解析装置のための日本語解析
プログラムを記録したコンピュータ読み取り可能な記録
媒体であって、コンピュータに、かな漢字文字列を入力
する手順と、前記入力されたかな漢字文字列を記憶する
手順と、前記記憶されたかな漢字文字列の文字種を漢
字、かな等の文字種とに判定する文字種判定の手順と、
その文字種判定の手順により判定された文字種に基づい
て前記入力されたかな漢字文字列の文字種の変わる境目
で分割し、1または連続した複数の同種の文字種からな
る漢字部分、かな部分及びその他の部分の文字列に分割
する文字種分割の手順と、前記文字種分割の手順により
分割された位置で区切ったかな漢字文字列を前記日本語
の単語及びその単語の情報を記憶した日本語辞書から単
語として検索する単語検索の手順とを実行させることを
特徴とする。
【0016】請求項5に記載の記録媒体の構成によれ
ば、コンピュータによる日本語文章の形態素解析におい
て、コンピュータに、文字種判定の手順により判定され
た文字種に基づいて入力されたかな漢字文字列を、1ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索することで、必
要以上に長い日本語辞書の単語を参照することなく、か
つ検索漏れのない、無駄無く効率の良い単語検索の手順
を実行させることができる。
ば、コンピュータによる日本語文章の形態素解析におい
て、コンピュータに、文字種判定の手順により判定され
た文字種に基づいて入力されたかな漢字文字列を、1ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索することで、必
要以上に長い日本語辞書の単語を参照することなく、か
つ検索漏れのない、無駄無く効率の良い単語検索の手順
を実行させることができる。
【0017】請求項6に記載の記録媒体は、請求項5に
記載の日本語解析プログラムを記録したコンピュータ読
み取り可能な記録媒体の構成に加え、前記文字種判定の
手順は、前記かなをひらがなとカタカナに、或いは前記
漢字かなを除く文字種をさらに英数文字とその他の記号
に、又は、さらに文字種を多種類に分類する文字種判定
の手順であり、前記文字種分割の手順は、入力された文
字列を当該分類に基づいて分割する文字種分割の手順で
あることを特徴とする。
記載の日本語解析プログラムを記録したコンピュータ読
み取り可能な記録媒体の構成に加え、前記文字種判定の
手順は、前記かなをひらがなとカタカナに、或いは前記
漢字かなを除く文字種をさらに英数文字とその他の記号
に、又は、さらに文字種を多種類に分類する文字種判定
の手順であり、前記文字種分割の手順は、入力された文
字列を当該分類に基づいて分割する文字種分割の手順で
あることを特徴とする。
【0018】請求項6に記載の記録媒体によれば、コン
ピュータに、かなをひらがなとカタカナに、或いは漢字
かなを除く文字種をさらに英数文字とその他の記号に、
又は、さらに文字種を多種類に分類して文字種を判定
し、その分類に基づいて入力された文字列を分割するた
め、より正確で効率的な単語検索の手順を実行させるこ
とができる。
ピュータに、かなをひらがなとカタカナに、或いは漢字
かなを除く文字種をさらに英数文字とその他の記号に、
又は、さらに文字種を多種類に分類して文字種を判定
し、その分類に基づいて入力された文字列を分割するた
め、より正確で効率的な単語検索の手順を実行させるこ
とができる。
【0019】請求項7に記載の記録媒体は、請求項5又
は請求項6に記載の日本語解析プログラムを記録したコ
ンピュータ読み取り可能な記録媒体の構成に加え、前記
コンピュータに、前記単語検索の手順により検索を失敗
したとき、前記文字種分割手段により分割されたかな漢
字文字列の末尾から1文字削った残りのかな漢字文字列
に対し前記日本語辞書から単語として検索する第2の単
語検索の手順を実行させるプログラムをさらに備えたこ
とを特徴とする。
は請求項6に記載の日本語解析プログラムを記録したコ
ンピュータ読み取り可能な記録媒体の構成に加え、前記
コンピュータに、前記単語検索の手順により検索を失敗
したとき、前記文字種分割手段により分割されたかな漢
字文字列の末尾から1文字削った残りのかな漢字文字列
に対し前記日本語辞書から単語として検索する第2の単
語検索の手順を実行させるプログラムをさらに備えたこ
とを特徴とする。
【0020】請求項7に記載の記録媒体の構成によれ
ば、コンピュータに、単語検索の手順により検索を失敗
した時、文字種分割の手順により分割されたかな漢字文
字列の末尾から1文字削った残りのかな漢字文字列に対
し、日本語辞書から単語として検索するため、日本語辞
書の漏れが生じない検索を実行させることができる。
ば、コンピュータに、単語検索の手順により検索を失敗
した時、文字種分割の手順により分割されたかな漢字文
字列の末尾から1文字削った残りのかな漢字文字列に対
し、日本語辞書から単語として検索するため、日本語辞
書の漏れが生じない検索を実行させることができる。
【0021】請求項8に記載の記録媒体は、請求項5乃
至請求項7のいずれかに記載の日本語解析プログラムを
記録したコンピュータ読み取り可能な記録媒体の構成に
加え、前記コンピュータに、特定のかな文字の前あるい
は後では分割しないようにするためのかなを判定するか
な判定の手順を備えた漢字分割の手順を実行させるプロ
グラムをさらに備えたことを特徴とする。
至請求項7のいずれかに記載の日本語解析プログラムを
記録したコンピュータ読み取り可能な記録媒体の構成に
加え、前記コンピュータに、特定のかな文字の前あるい
は後では分割しないようにするためのかなを判定するか
な判定の手順を備えた漢字分割の手順を実行させるプロ
グラムをさらに備えたことを特徴とする。
【0022】請求項8に記載の記録媒体によれば、コン
ピュータに、文字種分割の手順が特定のかな文字の前あ
るいは後では分割しないようにするためのかなを判定す
る手順を実行させるため、例えば「の」や「ヶ」のよう
に漢字を結び付けて一つの単語を作ることが多い特定の
かなにより結合された文字列を一つの連続したものと扱
う手順を実行させることでさらに効率よく形態素解析が
できる。
ピュータに、文字種分割の手順が特定のかな文字の前あ
るいは後では分割しないようにするためのかなを判定す
る手順を実行させるため、例えば「の」や「ヶ」のよう
に漢字を結び付けて一つの単語を作ることが多い特定の
かなにより結合された文字列を一つの連続したものと扱
う手順を実行させることでさらに効率よく形態素解析が
できる。
【0023】
【発明の実施の形態】以下、本発明を一の実施の形態に
より図面を参照して説明する。本実施の形態の日本語解
析装置は、コンピュータを備え、コンピュータ読み取り
可能な記録媒体であるROMに記憶された言語解析プロ
グラムにより、日本語文字列を漢字又はかなの連続する
文字種の部分に分けて、日本語形態素解析を行うもので
ある。
より図面を参照して説明する。本実施の形態の日本語解
析装置は、コンピュータを備え、コンピュータ読み取り
可能な記録媒体であるROMに記憶された言語解析プロ
グラムにより、日本語文字列を漢字又はかなの連続する
文字種の部分に分けて、日本語形態素解析を行うもので
ある。
【0024】ここで、本願において、特に断りがない限
り「かな」といった場合は、「ひらがな」及び「カタカ
ナ」をいう。また、「かな漢字文字列」とは、少なくと
もかな、漢字、その他の文字種のいずれかを含むものを
いい、例えば、カタカナのみの文字列や英数文字が含ま
れたような文字列も含めて考えるものとする。なお、本
実施の形態の説明においては、理解のため漢字とひらが
なのみを含む日本語文を例に挙げて説明する。
り「かな」といった場合は、「ひらがな」及び「カタカ
ナ」をいう。また、「かな漢字文字列」とは、少なくと
もかな、漢字、その他の文字種のいずれかを含むものを
いい、例えば、カタカナのみの文字列や英数文字が含ま
れたような文字列も含めて考えるものとする。なお、本
実施の形態の説明においては、理解のため漢字とひらが
なのみを含む日本語文を例に挙げて説明する。
【0025】まず、本実施の形態の日本語解析装置の概
略図を示すブロック図を図1を用いて説明する。図1に
示すように本実施形態の日本語解析装置は、データバス
60を有し、これを介して入力手段に相当する入力装置
20と、読み出し専用の記憶装置であるROM40と、
読み書き可能な記憶装置であるRAM50と、外部記憶
装置70と、I/Oポート80と、解析結果等を表示さ
せる表示装置30と、出力装置90と、それらを制御す
るCPU10とが接続されて構成されている。
略図を示すブロック図を図1を用いて説明する。図1に
示すように本実施形態の日本語解析装置は、データバス
60を有し、これを介して入力手段に相当する入力装置
20と、読み出し専用の記憶装置であるROM40と、
読み書き可能な記憶装置であるRAM50と、外部記憶
装置70と、I/Oポート80と、解析結果等を表示さ
せる表示装置30と、出力装置90と、それらを制御す
るCPU10とが接続されて構成されている。
【0026】データバス60は、本実施の形態を構成す
る各機器等の情報のやり取りを可能にするもので、例え
ばCPU10は、このデータバス60を介して、RAM
50やROM40にアクセスする。
る各機器等の情報のやり取りを可能にするもので、例え
ばCPU10は、このデータバス60を介して、RAM
50やROM40にアクセスする。
【0027】入力装置20は、キーボード及びマウスを
備えるもので、キーボードから解析対象である日本語文
字列をキー入力して、RAM50のかな漢字テキスト記
憶領域51に日本語文字列を蓄積したり、マウスにより
CPU10に対して指示コマンドを入力する。
備えるもので、キーボードから解析対象である日本語文
字列をキー入力して、RAM50のかな漢字テキスト記
憶領域51に日本語文字列を蓄積したり、マウスにより
CPU10に対して指示コマンドを入力する。
【0028】ROM40には、文字種判定手段に相当す
る文字種判定プログラム41と、文字種分割手段に相当
する文字種分割プログラム42と、日本語辞書43と、
かな判定手段に相当する非分割かな辞書44と、単語検
索手段および第2の単語検索手段に相当する単語検索プ
ログラム45とからなっている。
る文字種判定プログラム41と、文字種分割手段に相当
する文字種分割プログラム42と、日本語辞書43と、
かな判定手段に相当する非分割かな辞書44と、単語検
索手段および第2の単語検索手段に相当する単語検索プ
ログラム45とからなっている。
【0029】文字種判定プログラム41は、かな漢字テ
キスト記憶領域51に記憶されている日本語文字列につ
いて、それぞれの文字を区点コード番号や16進コード
番号などの文字コード表を参照して、そのコード番号か
ら漢字とひらがなに、又はそれ以外に識別して判定する
手順をコンピュータに実行させるプログラムであり、本
実施の形態では、漢字を「1」、ひらがなを「0」とし
て記憶して文字種格納領域54に格納する。
キスト記憶領域51に記憶されている日本語文字列につ
いて、それぞれの文字を区点コード番号や16進コード
番号などの文字コード表を参照して、そのコード番号か
ら漢字とひらがなに、又はそれ以外に識別して判定する
手順をコンピュータに実行させるプログラムであり、本
実施の形態では、漢字を「1」、ひらがなを「0」とし
て記憶して文字種格納領域54に格納する。
【0030】文字種分割プログラム42は、文字種格納
領域54に格納された文字列の文字種の変わる境目で分
割し、1又は複数個の同種の文字種が連続した文字列ご
とに分け、この分けられた文字列を一つのブロックとす
る。そして、このブロックを定められた数だけ有するよ
うに組み合わせて分割するものである。従って、1つの
ブロックは、「1」または「0」のいずれかの文字を1
又は複数含む文字列になっている。例えば「1」「1
1」「111」のようにである。
領域54に格納された文字列の文字種の変わる境目で分
割し、1又は複数個の同種の文字種が連続した文字列ご
とに分け、この分けられた文字列を一つのブロックとす
る。そして、このブロックを定められた数だけ有するよ
うに組み合わせて分割するものである。従って、1つの
ブロックは、「1」または「0」のいずれかの文字を1
又は複数含む文字列になっている。例えば「1」「1
1」「111」のようにである。
【0031】具体的には、例えば「110100…」と
いう文字列が文字種格納領域54に格納されている場合
を考えると、「漢字、かな、漢字」の組み合わせで分割
するとすれば、まず「11/0/1/00…」と同一の
文字種のブロックに分け、次に、例えば分割を最初から
「漢字、かな、漢字」のように分割すると決めておけ
ば、最初の3つのブロックを含む「11/0/1」の文
字列が分割されることになる。
いう文字列が文字種格納領域54に格納されている場合
を考えると、「漢字、かな、漢字」の組み合わせで分割
するとすれば、まず「11/0/1/00…」と同一の
文字種のブロックに分け、次に、例えば分割を最初から
「漢字、かな、漢字」のように分割すると決めておけ
ば、最初の3つのブロックを含む「11/0/1」の文
字列が分割されることになる。
【0032】日本語辞書43は、図3に示すように、見
出し語と単語の品詞と特別の情報をROM40の日本語
辞書43として格納したもので、文字種分割プログラム
42によって分割された日本語文字列を検索するための
検索エリアである。
出し語と単語の品詞と特別の情報をROM40の日本語
辞書43として格納したもので、文字種分割プログラム
42によって分割された日本語文字列を検索するための
検索エリアである。
【0033】非分割かな辞書44は、たとえば「が」の
ように、「希望が丘」「霧が峰」「君が代」の如く「漢
字+が+漢字」の組み合わせでよく使うばあい、「が」
を特定の非分割かなとして当該非分割かな辞書44に格
納しておき、検索される日本語文字列としてこのかなの
前後の漢字といっしょに切り出すものである。その他
「ヶ」「ヵ」のような小文字のカタカナ、更には「&」
のような英語の記号からなるものを含めても良い。
ように、「希望が丘」「霧が峰」「君が代」の如く「漢
字+が+漢字」の組み合わせでよく使うばあい、「が」
を特定の非分割かなとして当該非分割かな辞書44に格
納しておき、検索される日本語文字列としてこのかなの
前後の漢字といっしょに切り出すものである。その他
「ヶ」「ヵ」のような小文字のカタカナ、更には「&」
のような英語の記号からなるものを含めても良い。
【0034】単語検索プログラム45は、文字種分割プ
ログラム42によって分割された日本語文字列を、日本
語辞書43を参照して同一の見出しの単語が存在するか
検索する手順をコンピュータに実行させるものである。
ログラム42によって分割された日本語文字列を、日本
語辞書43を参照して同一の見出しの単語が存在するか
検索する手順をコンピュータに実行させるものである。
【0035】制御プログラム46は、日本語解析プログ
ラムの全体の制御を行うもので、例えば、記憶された手
順に従って、上記各プログラムを起動したり、入出力の
制御などを行う。
ラムの全体の制御を行うもので、例えば、記憶された手
順に従って、上記各プログラムを起動したり、入出力の
制御などを行う。
【0036】RAM50には、記憶手段に相当するかな
漢字テキスト記憶領域51と、検索文字列記憶領域52
と、検索位置記憶領域53と、文字種格納領域54と、
作業領域55が設けられている。
漢字テキスト記憶領域51と、検索文字列記憶領域52
と、検索位置記憶領域53と、文字種格納領域54と、
作業領域55が設けられている。
【0037】かな漢字テキスト記憶領域51は、入力装
置20から入力された日本語文字列をテキスト情報とし
て格納する記憶バッファである。
置20から入力された日本語文字列をテキスト情報とし
て格納する記憶バッファである。
【0038】検索文字列記憶領域52は、文字種分割プ
ログラム42により分割された、日本語辞書43の検索
をする対象の日本語文字列を記憶する領域である。
ログラム42により分割された、日本語辞書43の検索
をする対象の日本語文字列を記憶する領域である。
【0039】検索位置記憶領域53は、検索が終了した
文字列の位置を手掛かりに、次の検索をするための、検
索済みの文字列の最後の位置を記録してある記憶領域で
ある。
文字列の位置を手掛かりに、次の検索をするための、検
索済みの文字列の最後の位置を記録してある記憶領域で
ある。
【0040】文字種格納領域54は、入力された日本語
文字列を、文字種に応じて、即ち漢字を1、ひらがなを
0と置き換えた数字からなる文字列を格納しておく領域
である。
文字列を、文字種に応じて、即ち漢字を1、ひらがなを
0と置き換えた数字からなる文字列を格納しておく領域
である。
【0041】作業領域55は、上記各記憶領域に記憶さ
れる情報以外の情報を一時的に記憶する領域で、各ステ
ップで適宜使用されるものである。
れる情報以外の情報を一時的に記憶する領域で、各ステ
ップで適宜使用されるものである。
【0042】外部記憶装置70は、本実施の形態ではハ
ードディスクドライブを用いており、日本語解析処理の
対象にする文章や、日本語解析処理の終了した文章など
を蓄積しておくことができる。
ードディスクドライブを用いており、日本語解析処理の
対象にする文章や、日本語解析処理の終了した文章など
を蓄積しておくことができる。
【0043】I/Oポート80は、適宜他のコンピュー
タや、電話回線、その他有線無線を問わず情報の入出力
ができるものであり、日本語解析処理の対象や結果物を
入出力する場合に使用できる。
タや、電話回線、その他有線無線を問わず情報の入出力
ができるものであり、日本語解析処理の対象や結果物を
入出力する場合に使用できる。
【0044】表示装置30は、CRTを備え、入力され
た日本語文や解析結果を表示する。
た日本語文や解析結果を表示する。
【0045】出力装置90は、本実施の形態では、プリ
ンタを用い言語解析された結果をハードコピーする場合
などに用いられる。
ンタを用い言語解析された結果をハードコピーする場合
などに用いられる。
【0046】次に図2を参照して本実施の形態の日本語
解析装置及び日本語解析処理を行うプログラムの流れを
説明する。
解析装置及び日本語解析処理を行うプログラムの流れを
説明する。
【0047】まず、システムを起動させると、ROM4
0の制御プログラム46が立ち上がり、RAM50の作
業領域55、かな漢字テキスト記憶領域51、検索文字
列記憶領域52、検索位置記憶領域53、文字種格納領
域54の各記憶領域が確保され、入力装置20からの入
力が可能となり、処理が可能となる(開始)。入力装置
20より入力されたかな漢字文字列がかな漢字テキスト
記憶領域51に記憶される(ステップ21(以下ステッ
プを単にSと略記する。))。なお、ここで入力された
文は前述のように、理解のため漢字とひらがなのみを含
む文字列とする。
0の制御プログラム46が立ち上がり、RAM50の作
業領域55、かな漢字テキスト記憶領域51、検索文字
列記憶領域52、検索位置記憶領域53、文字種格納領
域54の各記憶領域が確保され、入力装置20からの入
力が可能となり、処理が可能となる(開始)。入力装置
20より入力されたかな漢字文字列がかな漢字テキスト
記憶領域51に記憶される(ステップ21(以下ステッ
プを単にSと略記する。))。なお、ここで入力された
文は前述のように、理解のため漢字とひらがなのみを含
む文字列とする。
【0048】次に、文字種判定プログラム41によりそ
の文字列の文字の属性「ひらがな」か「漢字」が、それ
ぞれ0と1の記号で表される(S22)。例えば「一の
宮は良い天気です」という入力文があると図4のように
文字種格納領域54に「1010101100」と記憶
される。つまり、この「0」と「1」はそれぞれその位
置のひらがなと漢字が位置していることを示している。
の文字列の文字の属性「ひらがな」か「漢字」が、それ
ぞれ0と1の記号で表される(S22)。例えば「一の
宮は良い天気です」という入力文があると図4のように
文字種格納領域54に「1010101100」と記憶
される。つまり、この「0」と「1」はそれぞれその位
置のひらがなと漢字が位置していることを示している。
【0049】次に文字種分割処理を行う(S23)。こ
の処理は文字種格納領域54に格納された前記文字列の
文字の属性を参照し、単語を切り出す位置を決定する。
ここでは文字種格納領域54を参照しその先頭に「1」
つまり漢字が先頭にきた場合には、その後にひらがなが
現われ、再び漢字が現れた後、ひらがなが現れる位置を
探す。つまり文字種格納領域54の始めの「101」の
直後の「0」の位置、即ち、「漢字+ひらがな+漢字」
の後の「かな」の位置、かな漢字テキスト記憶領域51
に記憶された例文で言うと「一+の+宮」の後の「は」
である。
の処理は文字種格納領域54に格納された前記文字列の
文字の属性を参照し、単語を切り出す位置を決定する。
ここでは文字種格納領域54を参照しその先頭に「1」
つまり漢字が先頭にきた場合には、その後にひらがなが
現われ、再び漢字が現れた後、ひらがなが現れる位置を
探す。つまり文字種格納領域54の始めの「101」の
直後の「0」の位置、即ち、「漢字+ひらがな+漢字」
の後の「かな」の位置、かな漢字テキスト記憶領域51
に記憶された例文で言うと「一+の+宮」の後の「は」
である。
【0050】ここで、日本語において、一の単語の中で
漢字とひらがなが混在する例を考慮すると、漢字を先頭
とする場合、考えられる組み合わせは例えば「漢字+ひ
らがな」「漢字+ひらがな+漢字」「漢字+ひらがな+
漢字+ひらがな」「漢字+ひらがな+漢字+ひらがな+
漢字」等無数にある。この場合、先頭の漢字は1文字に
は限らず複数あってもよく、同様に2番目のひらがなも
複数あってもよい。
漢字とひらがなが混在する例を考慮すると、漢字を先頭
とする場合、考えられる組み合わせは例えば「漢字+ひ
らがな」「漢字+ひらがな+漢字」「漢字+ひらがな+
漢字+ひらがな」「漢字+ひらがな+漢字+ひらがな+
漢字」等無数にある。この場合、先頭の漢字は1文字に
は限らず複数あってもよく、同様に2番目のひらがなも
複数あってもよい。
【0051】ところで、日本語の単語は、その成り立ち
から「漢字」を語幹として、ここに「ひらがな」から成
る付属語がつくことが多い。一方、文字数が多い単語に
おいて、その文字種を調べてみると漢字のみであった
り、或いはひらがなのみであったり、カタカナのみであ
ったりすることが多い。逆に言えば、長い単語に漢字や
ひらがなが交互に何度も現れることは少ない。つまり、
多くの場合は単語の基本の部分を構成する漢字があり、
ここにひらがなが付属することが最も頻度として多く、
さらに漢字が続くことは稀で、さらにひらがなが続くの
は極めて少なく、このような文字列を単語検索する意味
は低い。これ以上漢字とひらがなが交互に現れるような
ものは、複合語として分割しても解析可能な場合がほと
んどである。
から「漢字」を語幹として、ここに「ひらがな」から成
る付属語がつくことが多い。一方、文字数が多い単語に
おいて、その文字種を調べてみると漢字のみであった
り、或いはひらがなのみであったり、カタカナのみであ
ったりすることが多い。逆に言えば、長い単語に漢字や
ひらがなが交互に何度も現れることは少ない。つまり、
多くの場合は単語の基本の部分を構成する漢字があり、
ここにひらがなが付属することが最も頻度として多く、
さらに漢字が続くことは稀で、さらにひらがなが続くの
は極めて少なく、このような文字列を単語検索する意味
は低い。これ以上漢字とひらがなが交互に現れるような
ものは、複合語として分割しても解析可能な場合がほと
んどである。
【0052】即ち、本発明において、辞書検索の対象
を、連続した文字列から切り出すのに、単に文字数だけ
で考えずに、文字種に着目することで、今までにない極
めて効率のよい辞書検索が可能に成るものである。ま
た、もし漢字とひらがなが交互に何度も現れ、複合語と
して分割できないものがあったとしても、その数は極め
て稀で、この場合は定型句や慣用句辞書で処理した方が
はるかに能率がよいことになる。
を、連続した文字列から切り出すのに、単に文字数だけ
で考えずに、文字種に着目することで、今までにない極
めて効率のよい辞書検索が可能に成るものである。ま
た、もし漢字とひらがなが交互に何度も現れ、複合語と
して分割できないものがあったとしても、その数は極め
て稀で、この場合は定型句や慣用句辞書で処理した方が
はるかに能率がよいことになる。
【0053】通常この組み合わせを選択するのに日本語
辞書43のすべての単語を調べ、漢字が先頭である単語
のうちで、かなと漢字の組み合わせが一番多い物を調
べ、この組み合わせを選ぶ。ここでは「一の宮」のよう
に「漢字+ひらがな+漢字」が日本語辞書43に格納さ
れた、かなと漢字の組み合わせの一番多い単語とする。
つまり、「漢字+ひらがな+漢字+ひらがな」という組
み合わせ若しくはこれ以上の漢字、ひらがなからなる単
語は辞書には存在しなかったということになる。従っ
て、「漢字+ひらがな+漢字」の組み合わせから検索し
ても、検索漏れとなる単語は存在しないことになる。
辞書43のすべての単語を調べ、漢字が先頭である単語
のうちで、かなと漢字の組み合わせが一番多い物を調
べ、この組み合わせを選ぶ。ここでは「一の宮」のよう
に「漢字+ひらがな+漢字」が日本語辞書43に格納さ
れた、かなと漢字の組み合わせの一番多い単語とする。
つまり、「漢字+ひらがな+漢字+ひらがな」という組
み合わせ若しくはこれ以上の漢字、ひらがなからなる単
語は辞書には存在しなかったということになる。従っ
て、「漢字+ひらがな+漢字」の組み合わせから検索し
ても、検索漏れとなる単語は存在しないことになる。
【0054】そして切り出されたかな漢字文字列「一の
宮」が検索文字列記憶領域52に記憶される。
宮」が検索文字列記憶領域52に記憶される。
【0055】次に、検索文字列記憶領域52に格納され
ている文字列「一の宮」を日本語辞書43から辞書検索
処理をする(S24)。日本語辞書43はその概念図を
示すと図3の様になる。日本語の各単語が見出しと品
詞、その他の情報が格納されている。この日本語辞書4
3には単語「一の宮」が存在するため、検索の対象と一
致し検索が成功する(S25:YES)。
ている文字列「一の宮」を日本語辞書43から辞書検索
処理をする(S24)。日本語辞書43はその概念図を
示すと図3の様になる。日本語の各単語が見出しと品
詞、その他の情報が格納されている。この日本語辞書4
3には単語「一の宮」が存在するため、検索の対象と一
致し検索が成功する(S25:YES)。
【0056】次の検索が必要かどうかの判断のため、検
索された単語「一の宮」が入力された文字列すなわち、
かな漢字テキスト記憶領域51に記憶されている文字列
の末尾かどうかが判定され(S28)、末尾と判定され
れば日本語解析が成功したとして日本語解析処理を終了
するが(S28:YES,終了)、末尾でないときに
は、まず検索された単語の末尾の次の文字の位置にフラ
グをたてて、検索位置記憶領域53に記憶する(S2
8)。ここでは、かな漢字文字列「一の宮」の末尾位置
の次の文字、すなわち次に検索する文字の先頭位置であ
る4文字目という内容が検索位置記憶領域53に記憶さ
れる。
索された単語「一の宮」が入力された文字列すなわち、
かな漢字テキスト記憶領域51に記憶されている文字列
の末尾かどうかが判定され(S28)、末尾と判定され
れば日本語解析が成功したとして日本語解析処理を終了
するが(S28:YES,終了)、末尾でないときに
は、まず検索された単語の末尾の次の文字の位置にフラ
グをたてて、検索位置記憶領域53に記憶する(S2
8)。ここでは、かな漢字文字列「一の宮」の末尾位置
の次の文字、すなわち次に検索する文字の先頭位置であ
る4文字目という内容が検索位置記憶領域53に記憶さ
れる。
【0057】次に後に続く文字列の解析をするために再
び文字種分割処理を行う(S28:NO,S23)。こ
こでは検索位置記憶領域53を参照し、「一の宮」の次
の「は」の位置から文字種分割プログラム42により切
り出す。文字列「は良い天気です」に対して前述の文字
列の切り出しを行う。但し、「一の宮」の場合は文字列
が漢字で始まっていたが、この場合は文字列がひらがな
で始まっているので、ひらがな文字列と漢字文字列のつ
ながったものをひとまとまりの文字列として切り出して
くる。この場合も漢字が先頭の場合と同じように、通常
は日本語辞書43内に存在する単語でひらがなから始ま
る物のうちでひらがなと漢字の組み合わせが一番長いパ
ターンを選ぶ。ここでは「ひらがな+漢字」の組み合わ
せが最長とすると文字列「は良」が切り出され検索文字
列記憶領域52に記憶される(S23)。次に文字列
「は良」の検索が行われる(S24)。この検索は先に
述べたように日本語辞書43と一致した文字列を検索す
ることで行う。この場合、単語が存在しないので検索は
失敗と判定される(S25:NO)。そのため文字列の
末尾から一文字削除し、検索文字列記憶領域52の文字
列の末尾から一文字削る(S26)。すると検索文字列
記憶領域52の内容は「は」になる。次に検索が継続可
能か判断するため文字列が0になってないか判断され、
ここでは文字列「は」が残っているため0ではないと判
定され再び辞書検索処理がされる(S27:NO、S2
4)。従って今度は、文字列「は」の辞書検索が行われ
辞書中に存在するので(S25:YES)、次に検索単
語が文字列末尾か否かを判断される(S28)。
び文字種分割処理を行う(S28:NO,S23)。こ
こでは検索位置記憶領域53を参照し、「一の宮」の次
の「は」の位置から文字種分割プログラム42により切
り出す。文字列「は良い天気です」に対して前述の文字
列の切り出しを行う。但し、「一の宮」の場合は文字列
が漢字で始まっていたが、この場合は文字列がひらがな
で始まっているので、ひらがな文字列と漢字文字列のつ
ながったものをひとまとまりの文字列として切り出して
くる。この場合も漢字が先頭の場合と同じように、通常
は日本語辞書43内に存在する単語でひらがなから始ま
る物のうちでひらがなと漢字の組み合わせが一番長いパ
ターンを選ぶ。ここでは「ひらがな+漢字」の組み合わ
せが最長とすると文字列「は良」が切り出され検索文字
列記憶領域52に記憶される(S23)。次に文字列
「は良」の検索が行われる(S24)。この検索は先に
述べたように日本語辞書43と一致した文字列を検索す
ることで行う。この場合、単語が存在しないので検索は
失敗と判定される(S25:NO)。そのため文字列の
末尾から一文字削除し、検索文字列記憶領域52の文字
列の末尾から一文字削る(S26)。すると検索文字列
記憶領域52の内容は「は」になる。次に検索が継続可
能か判断するため文字列が0になってないか判断され、
ここでは文字列「は」が残っているため0ではないと判
定され再び辞書検索処理がされる(S27:NO、S2
4)。従って今度は、文字列「は」の辞書検索が行われ
辞書中に存在するので(S25:YES)、次に検索単
語が文字列末尾か否かを判断される(S28)。
【0058】なお、もしS26で一字削除した結果
「ん」のような一文字で意味を成さないような文字が、
誤記等で残った場合、0文字ではないので再度辞書検索
処理され(S27:NO,S24)、「ん」は日本語辞
書にないため検索は失敗し(S25:NO)、さらに一
字削除され(S26)、「ん」から一字削除されること
により文字列は「0文字」になる。一文字削った結果残
りの文字が存在しなくなったときには検索がもはや不可
能であるため、検索失敗として(S27:YES)処理
を終了され(終了)、「ん」は未知の文字としてとして
処理されることになる。
「ん」のような一文字で意味を成さないような文字が、
誤記等で残った場合、0文字ではないので再度辞書検索
処理され(S27:NO,S24)、「ん」は日本語辞
書にないため検索は失敗し(S25:NO)、さらに一
字削除され(S26)、「ん」から一字削除されること
により文字列は「0文字」になる。一文字削った結果残
りの文字が存在しなくなったときには検索がもはや不可
能であるため、検索失敗として(S27:YES)処理
を終了され(終了)、「ん」は未知の文字としてとして
処理されることになる。
【0059】同じようにして単語「良い」「天気」「で
す」が検索されていき最後に文字列「です」が検索され
たときには検索された文字列がかな漢字テキスト記憶領
域51の末尾のため全文検索成功と判定され(S28:
YES)、日本語解析が成功したとして処理を終了され
る(終了)。
す」が検索されていき最後に文字列「です」が検索され
たときには検索された文字列がかな漢字テキスト記憶領
域51の末尾のため全文検索成功と判定され(S28:
YES)、日本語解析が成功したとして処理を終了され
る(終了)。
【0060】すると文字列「一の宮は良い天気です」と
いう文字列は図4に示すように「一の宮/は/良い/天
気/です」と解析結果を出力する。
いう文字列は図4に示すように「一の宮/は/良い/天
気/です」と解析結果を出力する。
【0061】以上の説明から明らかなように、本実施の
形態のように日本語の単語の漢字およびひらがなの組み
合わせでその検索対象を決定し、その位置から辞書検索
を行うことによって無駄な位置からの検索処理を省略す
ることができ、解析処理を高速化することができる。
形態のように日本語の単語の漢字およびひらがなの組み
合わせでその検索対象を決定し、その位置から辞書検索
を行うことによって無駄な位置からの検索処理を省略す
ることができ、解析処理を高速化することができる。
【0062】なお、本実施の形態では従来の解析処理の
様に日本語辞書43中に存在する最長単語の文字数をn
としその長さから辞書検索する最長一致法による処理に
ついては組み込まれていないが、図2のS23の文字種
分割処理において求められたかなと漢字の組み合わせで
切り出されたかな漢字文字列の長さと比較し短い方の位
置から文字列を切り出すように構成してあっても良い。
様に日本語辞書43中に存在する最長単語の文字数をn
としその長さから辞書検索する最長一致法による処理に
ついては組み込まれていないが、図2のS23の文字種
分割処理において求められたかなと漢字の組み合わせで
切り出されたかな漢字文字列の長さと比較し短い方の位
置から文字列を切り出すように構成してあっても良い。
【0063】また、「一の宮」の「の」や「千鳥が淵」
の「が」や、「希望ヶ丘」の「ヶ」の様に前後につなが
りやすいひらがなに関しては非分割かな辞書44にそれ
らのかな文字を記憶させておき、それらのひらがな文字
を漢字と同様に扱い、図2の文字種判定処理においても
文字種格納領域54に漢字である「1」を記憶させる様
に構成してあっても良い。この場合は、本実施の形態の
例文の「一の宮は良い天気です」では、まず「一の宮」
については、「の」が漢字とみなされるため、最初に切
り出される部分は「一の宮は良」ということになる。
の「が」や、「希望ヶ丘」の「ヶ」の様に前後につなが
りやすいひらがなに関しては非分割かな辞書44にそれ
らのかな文字を記憶させておき、それらのひらがな文字
を漢字と同様に扱い、図2の文字種判定処理においても
文字種格納領域54に漢字である「1」を記憶させる様
に構成してあっても良い。この場合は、本実施の形態の
例文の「一の宮は良い天気です」では、まず「一の宮」
については、「の」が漢字とみなされるため、最初に切
り出される部分は「一の宮は良」ということになる。
【0064】また、図2のS27において切り出された
文字長が0文字になったときYESと判定され解析失敗
するように構成されているが、それまでにS25で検索
成功している文字列があれば、その文字列を検索し直す
バックトラック処理といわれる処理を設けることも可能
である。例えば上記実施の形態の例で示すとすでに検索
成功している文字列「一の宮」を切り直し、「一の」を
検索することによって後のつながりを成功させるように
工夫されていても良い。バックトラック処理自体はすで
に知られているが、このような周知の技術を組み合わせ
ることにより効率をよくすることが可能である。
文字長が0文字になったときYESと判定され解析失敗
するように構成されているが、それまでにS25で検索
成功している文字列があれば、その文字列を検索し直す
バックトラック処理といわれる処理を設けることも可能
である。例えば上記実施の形態の例で示すとすでに検索
成功している文字列「一の宮」を切り直し、「一の」を
検索することによって後のつながりを成功させるように
工夫されていても良い。バックトラック処理自体はすで
に知られているが、このような周知の技術を組み合わせ
ることにより効率をよくすることが可能である。
【0065】尚、本発明は以上詳述した実施の形態に限
定されるものではなく、その要旨を逸脱しない範囲にお
いて、種々の変更を加えることができる。
定されるものではなく、その要旨を逸脱しない範囲にお
いて、種々の変更を加えることができる。
【0066】例えば、本実施の形態では漢字とひらがな
が混在する文章のみを例として説明したが、例えばひら
がなとカタカナ、その他の記号を英数文字、記述記号、
その他の記号などの文字種に分けた場合も本発明の思想
は適用可能である。
が混在する文章のみを例として説明したが、例えばひら
がなとカタカナ、その他の記号を英数文字、記述記号、
その他の記号などの文字種に分けた場合も本発明の思想
は適用可能である。
【0067】また、ひらがなの「の」や「が」につい
て、漢字二つを結合させ1の名詞を形成する場合を説明
したが、同様にカタカナの「ヶ」「ヵ」なども前後に漢
字やひらがなを伴って1の単語を形成する場合も多い。
更に、「・」や「−」「&」なども種々の文字種を前後
に伴い1の単語を形成することが多い。そのため、これ
らについても文字種として判定せず、前後の文字種と一
体に判断して処理してもよい。
て、漢字二つを結合させ1の名詞を形成する場合を説明
したが、同様にカタカナの「ヶ」「ヵ」なども前後に漢
字やひらがなを伴って1の単語を形成する場合も多い。
更に、「・」や「−」「&」なども種々の文字種を前後
に伴い1の単語を形成することが多い。そのため、これ
らについても文字種として判定せず、前後の文字種と一
体に判断して処理してもよい。
【0068】また、本実施の形態では、入力装置20
は、キーボードとマウスによったが、要は解析の対象で
ある文章が読み込まれればよく、他の入力手段、例えば
無線または有線によりI/Oポート80を介して読み込
まれるものや、フロッピーディスクドライブやハードデ
ィスクドライブなどからなる内蔵または外部記憶装置7
0を介して記録媒体により入力されるものや、音声によ
って認識するようなものであってもよい。
は、キーボードとマウスによったが、要は解析の対象で
ある文章が読み込まれればよく、他の入力手段、例えば
無線または有線によりI/Oポート80を介して読み込
まれるものや、フロッピーディスクドライブやハードデ
ィスクドライブなどからなる内蔵または外部記憶装置7
0を介して記録媒体により入力されるものや、音声によ
って認識するようなものであってもよい。
【0069】さらに、本実施の形態の言語解析装置は、
文字種判定プログラム41と、文字種分割プログラム4
2と、日本語辞書43と、非分割かな辞書44と、単語
検索プログラム45および制御プログラム46がROM
40に予め格納されたものであるが、本発明は必ずしも
これに限定されるものではない。例えば、これらのプロ
グラムは、それぞれ明確に区別されて格納される必要は
なく、要は夫々の機能を有する部分が存在すれば十分
で、これらのプログラムが混在しているような形式であ
っても差し支えない。
文字種判定プログラム41と、文字種分割プログラム4
2と、日本語辞書43と、非分割かな辞書44と、単語
検索プログラム45および制御プログラム46がROM
40に予め格納されたものであるが、本発明は必ずしも
これに限定されるものではない。例えば、これらのプロ
グラムは、それぞれ明確に区別されて格納される必要は
なく、要は夫々の機能を有する部分が存在すれば十分
で、これらのプログラムが混在しているような形式であ
っても差し支えない。
【0070】また、プログラムや辞書が格納される記録
媒体は必ずしもROM40によるものでなくてもよく、
要はこれらのプログラムがコンピュータが読み出し可能
に格納さえされれば十分で、フロッピーディスクやCD
−ROM等のコンピュータ読み取り可能な記録媒体に格
納したものを読み取り装置により読み取ることによって
動作させることもできる。また、有線若しくは無線回線
を使用して外部情報処理装置からプログラムを読み込ん
で動作させることもできる。この場合、前記フロッピー
ディスクやCD−ROM、或いは、コンピュータに内蔵
又は外付けされたハードディスクや、さらに外部情報処
理装置の当該プログラムを格納したメモリが本発明の記
録媒体を構成することになる。
媒体は必ずしもROM40によるものでなくてもよく、
要はこれらのプログラムがコンピュータが読み出し可能
に格納さえされれば十分で、フロッピーディスクやCD
−ROM等のコンピュータ読み取り可能な記録媒体に格
納したものを読み取り装置により読み取ることによって
動作させることもできる。また、有線若しくは無線回線
を使用して外部情報処理装置からプログラムを読み込ん
で動作させることもできる。この場合、前記フロッピー
ディスクやCD−ROM、或いは、コンピュータに内蔵
又は外付けされたハードディスクや、さらに外部情報処
理装置の当該プログラムを格納したメモリが本発明の記
録媒体を構成することになる。
【0071】つまり、本実施の形態のようにROM40
にプログラムを格納した言語解析装置の専用機ばかりで
なく、何らかの記録媒体に本実施の形態のROM40の
内容が格納されていれば、この記録媒体を汎用コンピュ
ータに読み取らせることにより本発明の実施が可能にな
る。
にプログラムを格納した言語解析装置の専用機ばかりで
なく、何らかの記録媒体に本実施の形態のROM40の
内容が格納されていれば、この記録媒体を汎用コンピュ
ータに読み取らせることにより本発明の実施が可能にな
る。
【0072】表示手段も、CRTに限らず液晶ディスプ
レーはもちろん、要は内容が表示可能であれば如何なる
形式のものであってもよく、出力手段も出力が可能であ
ればプリンタによるものに限定されず、たとえばI/O
ポート80を介して有線若しくは無線回線によるものや
音声出力、記録媒体を介して出力されるものなどによる
ものであってもよい。
レーはもちろん、要は内容が表示可能であれば如何なる
形式のものであってもよく、出力手段も出力が可能であ
ればプリンタによるものに限定されず、たとえばI/O
ポート80を介して有線若しくは無線回線によるものや
音声出力、記録媒体を介して出力されるものなどによる
ものであってもよい。
【0073】以上説明したことから明かなように、日本
語解析装置および日本語解析記録媒体によれば辞書検索
の回数を文字列の文字列の短い位置から検索することに
よって解析時間を高速化することができる。
語解析装置および日本語解析記録媒体によれば辞書検索
の回数を文字列の文字列の短い位置から検索することに
よって解析時間を高速化することができる。
【0074】
【発明の効果】請求項1に記載の日本語解析装置によれ
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列の文字種の変わる境目で分割し、1または連続し
た複数の同種の文字種からなる漢字部分、かな部分等に
分割し、分割された位置で区切ったかな漢字文字列を日
本語辞書から単語として検索することで、最長一致法に
よる検索のように日本語辞書のもっとも長い文字列から
順次検索するような必要以上に長い日本語辞書の単語を
参照することなく、かつ、かなと漢字の組み合わせとい
う観点から検索漏れのない十分な範囲で、無駄無く効率
の良い単語検索ができるという効果がある。
ば、日本語文章の形態素解析において、文字種判定手段
により判定された文字種に基づいて入力されたかな漢字
文字列の文字種の変わる境目で分割し、1または連続し
た複数の同種の文字種からなる漢字部分、かな部分等に
分割し、分割された位置で区切ったかな漢字文字列を日
本語辞書から単語として検索することで、最長一致法に
よる検索のように日本語辞書のもっとも長い文字列から
順次検索するような必要以上に長い日本語辞書の単語を
参照することなく、かつ、かなと漢字の組み合わせとい
う観点から検索漏れのない十分な範囲で、無駄無く効率
の良い単語検索ができるという効果がある。
【0075】請求項2に記載の日本語解析装置は、請求
項1に記載の日本語解析装置の効果に加え、文字種判定
手段が、かなをひらがなとカタカナに、或いは漢字かな
を除く文字種として英数文字とその他の記号に、又はさ
らに文字種を多種類に分類して文字種を判定し、分割す
るため、より正確で効率的な単語検索ができるという効
果がある。
項1に記載の日本語解析装置の効果に加え、文字種判定
手段が、かなをひらがなとカタカナに、或いは漢字かな
を除く文字種として英数文字とその他の記号に、又はさ
らに文字種を多種類に分類して文字種を判定し、分割す
るため、より正確で効率的な単語検索ができるという効
果がある。
【0076】請求項3に記載の日本語解析装置によれ
ば、請求項1又は請求項2に記載の日本語解析装置の効
果に加え、単語検索手段により検索を失敗した時、文字
種分割手段により分割されたかな漢字文字列の末尾から
1文字削った残りのかな漢字文字列に対し、日本語辞書
から単語として検索するため、日本語辞書の検索漏れが
生じないという効果がある。
ば、請求項1又は請求項2に記載の日本語解析装置の効
果に加え、単語検索手段により検索を失敗した時、文字
種分割手段により分割されたかな漢字文字列の末尾から
1文字削った残りのかな漢字文字列に対し、日本語辞書
から単語として検索するため、日本語辞書の検索漏れが
生じないという効果がある。
【0077】請求項4に記載の日本語解析装置は、請求
項1乃至請求項3のいずれかに記載の日本語解析装置の
効果に加え、文字種分割手段が特定のかな文字の前ある
いは後では分割しないようにするためのかなを判定する
ため、漢字を結び付けて一つの単語を作ることが多い特
定のかなにより結合された文字列を一つの連続したもの
と扱うことでさらに効率よく形態素解析ができるという
効果がある。
項1乃至請求項3のいずれかに記載の日本語解析装置の
効果に加え、文字種分割手段が特定のかな文字の前ある
いは後では分割しないようにするためのかなを判定する
ため、漢字を結び付けて一つの単語を作ることが多い特
定のかなにより結合された文字列を一つの連続したもの
と扱うことでさらに効率よく形態素解析ができるという
効果がある。
【0078】請求項5に記載の記録媒体によれば、コン
ピュータに、日本語文章の形態素解析において、文字種
判定の手順により判定された文字種に基づいて入力され
たかな漢字文字列の文字種の変わる境目で分割し、1ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索する手順を実行
させることができることで、必要以上に長い日本語辞書
の単語を参照することなく、かつ検索漏れのない、無駄
無く効率の良い単語検索ができるという効果がある。
ピュータに、日本語文章の形態素解析において、文字種
判定の手順により判定された文字種に基づいて入力され
たかな漢字文字列の文字種の変わる境目で分割し、1ま
たは連続した複数の同種の文字種からなる漢字部分、か
な部分等に分割し、分割された位置で区切ったかな漢字
文字列を日本語辞書から単語として検索する手順を実行
させることができることで、必要以上に長い日本語辞書
の単語を参照することなく、かつ検索漏れのない、無駄
無く効率の良い単語検索ができるという効果がある。
【0079】請求項6に記載の記録媒体によれば、請求
項5に記載の日本語解析プログラムを記録したコンピュ
ータ読み取り可能な記録媒体の効果に加え、コンピュー
タに、かなをひらがなとカタカナに、或いは漢字かなを
除く文字種をさらに英数文字とその他の記号に、又は、
さらに文字種を多種類に分類して文字種を判定し、入力
された文字列をその分類に基づいて分割するための手順
を実行させることができるため、より正確で効率的な単
語検索ができるという効果がある。
項5に記載の日本語解析プログラムを記録したコンピュ
ータ読み取り可能な記録媒体の効果に加え、コンピュー
タに、かなをひらがなとカタカナに、或いは漢字かなを
除く文字種をさらに英数文字とその他の記号に、又は、
さらに文字種を多種類に分類して文字種を判定し、入力
された文字列をその分類に基づいて分割するための手順
を実行させることができるため、より正確で効率的な単
語検索ができるという効果がある。
【0080】請求項7に記載の記録媒体では、請求項5
又は請求項6に記載の日本語解析プログラムを記録した
コンピュータ読み取り可能な記録媒体の効果に加え、コ
ンピュータに、単語検索の手順により検索を失敗したと
き、文字種分割の手順により分割されたかな漢字文字列
の末尾から1文字削った残りのかな漢字文字列に対し、
日本語辞書から単語として検索を実行させることができ
るため、日本語辞書の漏れが生じない正確な検索ができ
るという効果がある。
又は請求項6に記載の日本語解析プログラムを記録した
コンピュータ読み取り可能な記録媒体の効果に加え、コ
ンピュータに、単語検索の手順により検索を失敗したと
き、文字種分割の手順により分割されたかな漢字文字列
の末尾から1文字削った残りのかな漢字文字列に対し、
日本語辞書から単語として検索を実行させることができ
るため、日本語辞書の漏れが生じない正確な検索ができ
るという効果がある。
【0081】請求項8に記載の記録媒体によれば、請求
項5乃至請求項7のいずれかに記載の日本語解析プログ
ラムを記録したコンピュータ読み取り可能な記録媒体の
効果に加え、コンピュータに、文字種分割の手順が特定
のかな文字の前あるいは後では分割しないようにするた
めのかなを判定するため、漢字を結び付けて一つの単語
を作ることが多い特定のかなにより結合された文字列を
一つの連続したものと扱う手順を実行させることでさら
に効率よく形態素解析ができるという効果がある。
項5乃至請求項7のいずれかに記載の日本語解析プログ
ラムを記録したコンピュータ読み取り可能な記録媒体の
効果に加え、コンピュータに、文字種分割の手順が特定
のかな文字の前あるいは後では分割しないようにするた
めのかなを判定するため、漢字を結び付けて一つの単語
を作ることが多い特定のかなにより結合された文字列を
一つの連続したものと扱う手順を実行させることでさら
に効率よく形態素解析ができるという効果がある。
【図面の簡単な説明】
【図1】本実施の形態の日本語解析装置の概略を表わす
ブロック図である。
ブロック図である。
【図2】本実施の形態の日本語解析装置の動作を表わす
フローチャートである。
フローチャートである。
【図3】本実施の形態の日本語解析装置の日本語辞書の
一例を表す図である。
一例を表す図である。
【図4】本実施の形態の日本語解析装置の記録媒体のか
な漢字テキスト記憶領域および文字種格納領域および解
析結果を表す説明図である。
な漢字テキスト記憶領域および文字種格納領域および解
析結果を表す説明図である。
【符号の説明】 10 CPU 20 入力装置 30 表示装置 40 ROM 41 文字種判定プログラム 42 文字種分割プログラム 43 日本語辞書 44 非分割かな辞書 45 単語検索プログラム 46 制御プログラム 50 RAM 51 かな漢字テキスト記憶領域 52 検索文字列記憶領域 53 検索位置記憶領域 54 文字種格納領域 55 作業領域 60 データバス 70 外部記憶装置 80 I/Oポート 90 出力装置
Claims (8)
- 【請求項1】 かな漢字文字列を入力するための入力手
段と、 その入力手段により入力されたかな漢字文字列を記憶す
る記憶手段と、 その記憶手段に記憶されたかな漢字文字列の漢字、かな
等の文字種を判定する文字種判定手段と、 前記文字種判定手段により判定された文字種に基づいて
前記入力されたかな漢字文字列の文字種の変わる境目で
分割し、1または連続した複数の同種の文字種からなる
漢字部分、かな部分等に分割する文字種分割手段と、 日本語の単語及びその単語の情報を記憶した日本語辞書
と、 前記文字種分割手段により分割された位置で区切ったか
な漢字文字列を前記日本語辞書から単語として検索する
単語検索手段とを備えた日本語文章の形態素解析を行う
日本語解析装置。 - 【請求項2】 前記文字種判定手段は、前記かなをひら
がなとカタカナに、或いは前記漢字かなを除く文字種と
して英数文字とその他の記号に、又は、さらに文字種を
多種類に分類する文字種判定手段であり、 前記文字種分割手段は、入力された文字列を当該分類に
基づいて分割する文字種分割手段であることを特徴とす
る請求項1に記載の日本語解析装置。 - 【請求項3】 前記単語検索手段により検索を失敗した
時、前記文字種分割手段により分割されたかな漢字文字
列の末尾から1文字削った残りのかな漢字文字列に対
し、前記日本語辞書から単語として検索する第2の単語
検索手段を備えたことを特徴とする請求項1又は請求項
2に記載の日本語解析装置。 - 【請求項4】 前記文字種分割手段は、特定のかな文字
の前あるいは後では分割しないようにするためのかなを
判定するかな判定手段を備えた請求項1乃至請求項3の
いずれかに記載の日本語解析装置。 - 【請求項5】 日本語文章の形態素解析を行う日本語解
析装置のための日本語解析プログラムを記録した記録媒
体であって、 コンピュータに、 かな漢字文字列を入力する手順と、 前記入力されたかな漢字文字列を記憶する手順と、 前記記憶されたかな漢字文字列の文字種を漢字、かな等
の文字種とに判定する文字種判定の手順と、 その文字種判定の手順により判定された文字種に基づい
て前記入力されたかな漢字文字列の文字種の変わる境目
で分割し、1または連続した複数の同種の文字種からな
る漢字部分、かな部分及びその他の部分の文字列に分割
する文字種分割の手順と、 前記文字種分割の手順により分割された位置で区切った
かな漢字文字列を前記日本語の単語及びその単語の情報
を記憶した日本語辞書から単語として検索する単語検索
の手順とを実行させるための日本語解析プログラムを記
録したコンピュータ読み取り可能な記録媒体。 - 【請求項6】 前記文字種判定の手順は、前記かなをひ
らがなとカタカナに、或いは前記漢字かなを除く文字種
をさらに英数文字とその他の記号に、又は、さらに文字
種を多種類に分類する文字種判定の手順であり、 前記文字種分割の手順は、入力された文字列を当該分類
に基づいて分割する文字種分割の手順であることを特徴
とする請求項5に記載の日本語解析プログラムを記録し
たコンピュータ読み取り可能な記録媒体。 - 【請求項7】 前記コンピュータに、 前記単語検索の手順により検索を失敗したとき、前記文
字種分割の手順により分割されたかな漢字文字列の末尾
から1文字削った残りのかな漢字文字列に対し前記日本
語辞書から単語として検索する第2の単語検索の手順を
実行させるプログラムをさらに備えた日本語解析プログ
ラムを記録したコンピュータ読み取り可能な請求項5又
は請求項6に記載の記録媒体。 - 【請求項8】 前記コンピュータに、 特定のかな文字の前あるいは後では分割しないようにす
るためのかなを判定するかな判定の手順を備えた漢字分
割の手順を実行させるプログラムをさらに備えた日本語
解析プログラムを記録したコンピュータ読み取り可能な
請求項5乃至請求項7のいずれかに記載の記録媒体。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10103927A JPH11282842A (ja) | 1998-03-30 | 1998-03-30 | 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP10103927A JPH11282842A (ja) | 1998-03-30 | 1998-03-30 | 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JPH11282842A true JPH11282842A (ja) | 1999-10-15 |
Family
ID=14367075
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP10103927A Pending JPH11282842A (ja) | 1998-03-30 | 1998-03-30 | 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH11282842A (ja) |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008243227A (ja) * | 2001-10-15 | 2008-10-09 | Silverbrook Research Pty Ltd | 手書き文字認識で使用されるテンプレートを生成する方法および装置 |
| JP2010123074A (ja) * | 2008-11-21 | 2010-06-03 | Kyocera Corp | 辞書検索装置 |
| CN106250362A (zh) * | 2015-06-05 | 2016-12-21 | 富士通株式会社 | 文本分割装置以及文本分割方法 |
-
1998
- 1998-03-30 JP JP10103927A patent/JPH11282842A/ja active Pending
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2008243227A (ja) * | 2001-10-15 | 2008-10-09 | Silverbrook Research Pty Ltd | 手書き文字認識で使用されるテンプレートを生成する方法および装置 |
| US8285048B2 (en) | 2001-10-15 | 2012-10-09 | Silverbrook Research Pty Ltd | Classifying a string formed from hand-written characters |
| JP2010123074A (ja) * | 2008-11-21 | 2010-06-03 | Kyocera Corp | 辞書検索装置 |
| CN106250362A (zh) * | 2015-06-05 | 2016-12-21 | 富士通株式会社 | 文本分割装置以及文本分割方法 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US4777600A (en) | Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms | |
| US5890103A (en) | Method and apparatus for improved tokenization of natural language text | |
| US5029084A (en) | Japanese language sentence dividing method and apparatus | |
| JPH0724055B2 (ja) | 単語分割処理方法 | |
| WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
| JP2002149643A (ja) | 日本語の表意文字の読み方を予測する方法 | |
| JPH09198395A (ja) | 文書検索装置 | |
| JPH11282842A (ja) | 日本語解析装置および日本語解析プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
| US8131537B2 (en) | Apparatus and method for morphological analysis | |
| KR100374114B1 (ko) | 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기 | |
| JPH07325826A (ja) | 日本語処理システム | |
| JPH07230468A (ja) | キーワード自動抽出装置およびキーワード自動抽出方法 | |
| JPH0827803B2 (ja) | テキストベース検索方法 | |
| EP0314503A2 (en) | Dictionary structure for document processing apparatus | |
| JPH08221443A (ja) | 漢字を含むテキストの検索方法及び装置 | |
| JP3904025B2 (ja) | 文字列分割装置、及び記録媒体 | |
| JPH11203281A (ja) | 電子辞書検索装置及び電子辞書検索装置制御プログラムを記憶した媒体 | |
| JPH0687239B2 (ja) | 文字処理装置 | |
| JP2003296323A (ja) | 形態素解析装置 | |
| JPH0630100B2 (ja) | 仮名漢字変換方式 | |
| JP2003022276A (ja) | 文書検索装置及び文書検索方法 | |
| JP2001125907A (ja) | 辞書検索方法、装置、および辞書検索プログラムを記録した記録媒体 | |
| JPH0612417A (ja) | 符号変換方式 | |
| JPS6118065A (ja) | カナ漢字変換処理装置 | |
| JPH06282429A (ja) | ソースコード検索システム |