JPH07129596A

JPH07129596A - 自然言語処理装置

Info

Publication number: JPH07129596A
Application number: JP5294663A
Authority: JP
Inventors: Koji Inai; 幸治稲井
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-10-29
Filing date: 1993-10-29
Publication date: 1995-05-19

Abstract

(57)【要約】【目的】辞書容量を大きくすることなく、小規模のシ
ステムで多様な文を正確に解析し、利用者の意図する解
析結果を容易に得る。【構成】一般的なテキスト文の場合には、標準自立語
辞書２ａと標準付属語辞書２ｂだけを用いて、辞書検索
・辞書管理部４により候補語群を抽出し、形態素解析部
５により形態素解析を行なう。特定分野のテキスト文の
場合には、それに加えて、特定分野に合った拡張自立語
辞書２ｃと拡張付属語辞書２ｄとを追加する。また、異
なる分野の場合には、拡張自立語辞書２ｃと拡張付属語
辞書２ｄを取り替える。また、検索する辞書が複数ある
場合には、各辞書毎に優先順位を付与することにより、
形態素解析処理における語の選択の際に、より正確な判
定基準を与える。このような構成によれば、辞書を必要
最小限の構成にすることができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、機械翻訳システム、日
本語テキスト音声合成システム、もしくは漢字かな混じ
り文を扱う電子計算機等の自然言語処理装置に関する。

【０００２】

【従来の技術】従来より、テキスト文を入力すると、入
力された文字の系列を解析した後、翻訳する機械翻訳シ
ステムや、所定の規則に従ってパラメータを合成し、音
声合成する音声合成システムが知られている。音声合成
システムは、例えば、視覚障害者が介助者なしに、テキ
スト文を聞いて理解する福祉的な用途の他、視覚的に文
字情報を得るのが困難な状況下で用いられている。この
ような自然言語処理装置においては、入力されたテキス
ト文の極力正確な解析が期待されている。

【０００３】上述したに自然言語処理装置おける漢字か
な混じり文の形態素解析は、自立語辞書と付属語辞書お
よびユーザ辞書による辞書検索を行ない、その検索結果
から最適な語を選択していく作業である。この形態素解
析を正確に行なうためには、辞書中に記録された語彙の
数と、複数の候補の語の中から最適と判断される語の選
択手法が重要である。

【０００４】辞書に記録される語彙数が多いほど、形態
素解析の結果が良くなることから、新聞等の解析を行な
う自然言語処理装置においては、５０万語という規模の
辞書を備えている。また、解析対象とする文が特定の分
野に限定される場合には、その分野の語彙だけを増や
し、最小限の辞書による方法がとられている。一方、複
数の語からの選択手法については、語同士の接続規則の
他に、辞書中に記録されている各語彙の重要度や、最長
一致原理をはじめとする判断基準を用いる。

【０００５】

【発明が解決しようとする課題】ところで、上述した従
来の自然言語処理装置にあっては、辞書が大きくなり、
新聞等の解析を行なう大規模な専用システム以外の、小
規模なシステムにおいては実現が困難である。また、特
定分野の語彙を増やす手法では、特定分野の専用システ
ムとなるため、他分野の文の解析には向かなくなるとい
う問題がある。また、複数の辞書を用いる自然言語処理
装置においては、選択する語数が増加するため、適切な
選択基準が必要となるが、その選択基準が設定しづらい
という問題があった。

【０００６】そこで本発明は、辞書容量を大きくするこ
となく、小規模のシステムで多様な文の解析を正確にで
き、利用者の意図する解析結果を容易に得ることができ
る自然言語処理装置を提供することを目的としている。

【０００７】

【課題を解決するための手段】上記目的達成のため、請
求項１記載の発明による自然言語処理装置は、漢字かな
混じり文の形態素解析を行なう自然言語処理装置におい
て、一般的な語彙が記憶された標準辞書と、特定分野に
特有の語彙だけが記憶された着脱自在の複数の拡張辞書
が装着され、前記特有の語彙を読み取る辞書読み取り手
段と、前記漢字かな混じり文の検索対象文字列に応じ
て、前記標準辞書と前記複数の拡張辞書とを組合わせ、
該組合わせた辞書を検索し、前記検索対象文字列の候補
語群を抽出する検索抽出手段と、前記漢字かな混じり文
と、前記検索抽出手段による結果である候補語群とに対
して、形態素解析を行なう形態素解析手段とを具備する
ことを特徴とする。

【０００８】また、請求項２記載の発明による自然言語
処理装置では、前記標準辞書は、一般的な自立語が記憶
された標準自立語辞書と、一般的な付属語が記憶された
標準付属語辞書とから構成され、前記複数の拡張辞書
は、少なくとも、特定分野に特有の自立語だけが記憶さ
れた複数の拡張自立語辞書から構成されることを特徴と
する。

【０００９】また、請求項３記載の発明による自然言語
処理装置では、前記標準辞書と前記拡張辞書とに優先順
位を設定する優先順位設定手段を備え、前記検索抽出手
段は、検索した候補語群の各々に、前記優先順位設定手
段によって設定された優先順位を付与し、前記形態素解
析手段は、前記検索抽出手段によって抽出された候補語
群のうち、優先順位の高い語に所定の優先度を与えて、
形態素解析を行なうことを特徴とする。

【００１０】また、請求項４記載の発明による自然言語
処理装置では、前記複数の拡張辞書は、ＩＣカード、磁
気ディスク、光磁気ディスク、光ディスクなどの記憶媒
体からなることを特徴とする。

【００１１】

【作用】本発明では、一般的な漢字かな混じり文の場合
には、標準自立語辞書と標準付属語辞書だけ、特定分野
の漢字かな混じり文の場合には、それに加えて、特定分
野に合った拡張自立語辞書と拡張付属語辞書とを追加す
る。また、異なる分野の場合には、少なくとも拡張自立
語辞書を取り替える。したがって、辞書を必要最小限の
構成にすることができる。

【００１２】また、検索する辞書が複数ある場合には、
各辞書毎に優先順位を付与することにより、形態素解析
処理における語の選択の際に、より正確な判定基準を与
えることができる。また、標準辞書を、一般的な自立語
が記憶された標準自立語辞書と、一般的な付属語が記憶
された標準付属語辞書とから構成し、複数の拡張辞書
を、少なくとも、特定分野に特有の自立語だけが記憶さ
れた複数の拡張自立語辞書から構成すれば、より正確な
判定基準を与えることができる。また、複数の拡張辞書
は、ＩＣカード、磁気ディスク、光磁気ディスク、光デ
ィスクなどの記憶媒体から構成してもよい。

【００１３】

【実施例】以下、本発明を図面に基づいて説明する。図
１は本発明の自然言語処理装置を適用した音声合成シス
テムの構成を示すブロック図である。図において、１
は、漢字かな混じり文を入力する入力部であり、例え
ば、キーボード、ＯＣＲ（光学的文字読み取り装置）、
磁気ディスク等からなる。また、辞書２は、例えば、Ｉ
Ｃメモリ、磁気ディスク等の記憶装置からなり、一般的
な自立語を記憶した標準自立語辞書２ａと、一般的な付
属語（非自立語以外の語を指す）を記憶した標準付属語
辞書２ｂとの２つを最小構成とし、特定分野（例えば、
計算機分野など）の自立語だけを記録した拡張自立語辞
書２ｃと、特定分野の付属語だけを記録した拡張付属語
辞書２ｄとを複数有する。各辞書には、形態素の基準と
なる単語の綴りや、その付属情報（例えば、読み、品詞
情報、アクセント等）等が記憶されている。

【００１４】文章解析部３は、辞書検索・辞書管理部
４、形態素解析部５および発音記号生成部６からなる。
まず、辞書検索・辞書管理部４は、入力部１から入力さ
れた漢字かな混じり文中に含まれる語を辞書２に記憶さ
れた単語の綴りや、その付属情報に従って検索したり、
検索対象辞書の切替え、および優先順位の変更等を行な
う。

【００１５】ここで、上述した辞書２および辞書検索・
辞書管理部４の構成について図２を参照して説明する。
辞書２は前述したように、標準自立語辞書２ａ、複数の
拡張自立語辞書２ｃ１，２ｃ２，…、および標準付属語
辞書２ｂ、複数の拡張付属語辞書２ｄ１，２ｄ２，…か
ら構成されている。また、辞書検索・辞書管理部４は、
辞書検索部４ａ、辞書管理部４ｂ、自立語辞書管理表４
ｃおよび付属語辞書管理表４ｄから構成されている。上
記標準自立語辞書２ａ、複数の拡張自立語辞書２ｃ１，
２ｃ２，…は、自立語辞書管理表４ｃに基づいて管理さ
れており、標準付属語辞書２ｂ、複数の拡張付属語辞書
２ｄ１，２ｄ２は、付属語辞書管理表４ｄに基づいて管
理されている。

【００１６】自立語辞書管理表４ｃおよび付属語辞書管
理表４ｄは、現在使用している辞書と、その辞書の優先
順位とを管理しており、辞書管理部４ｂは利用者の指示
に従って、自立語辞書管理表４ｃおよび付属語辞書管理
表４ｄの各々を変更する。例えば、新しい辞書を使用す
る指示の場合には、自立語辞書管理表４ｃ、もしくは付
属語辞書管理表４ｄに追加する。また、ある辞書の使用
を止める指示の場合には、自立語辞書管理表４ｃ、もし
くは付属語辞書管理表４ｄから削除する。さらに、優先
順位を変更する場合には、自立語辞書管理表４ｃ、もし
くは付属語辞書管理表４ｄの優先順位を変更する。辞書
検索部４ａは、辞書検索対象文字列が与えられた際に、
自立語辞書管理表４ｃおよび付属語辞書管理表４ｄの各
々に登録された辞書を検索し、辞書の検索結果に検索し
た辞書の優先順位を付けて、図１に示す形態素解析部５
へ供給する。

【００１７】次に、形態素解析部５は、入力部１から入
力された漢字かな混じり文と、辞書検索・辞書管理部４
で検索された語群とに基づいて、形態素の解析を行なっ
て、仮名文字列に変換した後、単語、文節毎に分解す
る。すなわち、日本語においては、英語のように単語が
分かち書きされていないことから、例えば、「米国産業
界」のような言葉は、「米国／産業・界」、「米／国産
／業界」のように２種類区分化し得る。このため、形態
素解析部５は、辞書２を参考にしながら、言葉の連続関
係および統計的性質を利用して、テキスト入力を単語、
文節毎に分解し、これにより単語、文節の境界を検出す
る。

【００１８】また、発音記号生成部６は、形態素解析部
５からのデータに基づき、発音記号列を生成する。次
に、音声単位記憶部７は、例えば、ＩＣメモリ、磁気デ
ィスク等の記憶装置からなり、音声単位が記憶されてい
る。音声単位は、各ＣＶ単位で表される合成音を生成す
る際に用いられる波形データからなる。この波形合成に
用いられる音声単位データは次のような構成からなる。

【００１９】音声単位データの有声部に関しては、実音
声の有声部分において上記複素ケプストラム分析を用い
て抽出された、１ピッチに対応するインパルスと単位応
答波形を一組として、この組を１つの音声単位データと
して必要なピッチ分だけ蓄えたものからなり、また、音
声単位データの無声部に関しては、実音声の無声部分の
波形を切り出してそのまま蓄えたものからなる。したが
って、音声単位データがＣＶ単位である場合には、１つ
の音声単位ＣＶの子音部Ｃが無声子音である時には無声
部分の切り出し波形と、インパルスと単位応答波形から
なる複数組によって、１つの音声単位データが構成さ
れ、また、１つの音声単位ＣＶの子音部Ｃが有声子音で
ある時には、インパルスと単位応答波形からなる複数組
のみによって１つの音声単位データが構成されることと
なる。

【００２０】次に、音声合成規則部８は、発音記号生成
部６から得られるデータと、音声単位記憶部７の情報
と、音韻・韻律規則等とから音声の合成波形パターンと
ピッチパターンとを得る。すなわち、音声合成規則部８
は、音声単位記憶部７からロードされた音声単位データ
を、テキスト入力に応じた順序で合成し、抑揚のない状
態の合成音声波形を得る。また、音声合成規則部８は、
所定の韻律規則に基づいて、テキスト入力を適当な長さ
で分割して、切り目（すなわち、ポーズからなる）を検
出する。このようにして、図３に示すように、例えば、
テキスト入力として文章、「きれいな花を山田さんから
もらいました」が入力された場合は（図３（Ａ））、当
該テキスト入力は、「きれいな」、「はな」、「やまだ
さんから」、「もらいました」に分解された後、「は
な」および「やまださんから」間にポーズが検出される
（図３（Ｂ））。

【００２１】さらに、音声合成規則部８は、韻律規則お
よび各単語の基本アクセントに基づいて、各文節のアク
セントを検出する。すなわち、日本語の文節単体のアク
セントは、感覚的に仮名文字を単位として（以下、モー
ラと呼ぶ）高低の２レベルで表現することができる。こ
のとき、文節の内容等に応じて、文節のアクセント位置
を区別することができる。例えば、端、箸、橋は２モー
ラの単語で、それぞれのアクセントのない０型、アクセ
ントの位置が先頭のモーラにある１型、アクセントの位
置が２モーラ目にある２型に分類することができる。か
くして、この実施例において、音声合成規則部７は、テ
キスト入力の各文節を、１型、２型、０型、４型と分類
し（図３（Ｃ））、これにより文節単位でアクセントお
よびポーズを検出する。

【００２２】さらに、音声合成規則部８は、アクセント
およびポーズの検出結果に基づいて、テキスト入力全体
の抑揚を表す基本ピッチパターンを生成する。すなわ
ち、日本語においては、文節のアクセントは、感覚的に
２レベルで表し得るのに対し、実際の抑揚は、アクセン
トの位置から徐々に低下する特徴がある（図３
（Ｄ））。

【００２３】さらに、日本語においては、文節が連続し
て１つの文章になると、ポーズから続くポーズに向っ
て、抑揚が徐々に低下する特徴がある（図３（Ｅ））。
したがって、音声合成規則部８は、かかる日本語の特徴
に基づいて、テキスト入力全体の抑揚を表すパラメータ
を各モーラ毎に生成した後、人間が発声した場合と同様
に抑揚が滑らかに変化するように、モーラ間に補間によ
りパラメータを設定する。かくして、音声合成規則部８
は、テキスト入力に応じた順序で、各モーラのパラメー
タおよび補間したパラメータを合成し（以下、ピッチパ
ターンと呼ぶ）、かくしてテキスト入力を読み上げた音
声の抑揚を表すピッチパターン（図３（Ｆ））を得るこ
とができる。

【００２４】次に、音声合成部９は、音声合成規則部８
から得られたデータ（合成波形データおよびピッチパタ
ーン）に基づいて音声波形の合成を行なう。この波形合
成処理は、次のようなことを行なっている。合成音声の
有声部分においては、合成波形データ内のインパルスを
ピッチパターンに基づいて並べ、その並べられたインパ
ルスそれぞれに対応する単位応答波形を各インパルスに
重畳する。

【００２５】また、合成音声の無声部分においては、合
成波形データ内の切り出し波形をそのまま所望の合成音
声の波形とする。これにより、ピッチパターンの変化に
追従して抑揚の変化する合成音を得ることができる。し
たがって、合成音において、音源情報にインパルスを用
いているため、合成音のピッチ周期が伸縮しても、それ
による音源情報への影響はほとんどなく、ピッチパター
ンが大きく変化するような場合でも、スペクトル包絡に
歪みが生じることなく、人間の音声に近い高品質な任意
合成音が得られる。次に、出力部１０は、音声合成部９
で合成された音声波形を例えば、スピーカ、磁気ディス
ク等へ出力する。

【００２６】次に、本実施例における自然言語処理装置
の構成について図４を参照して説明する。図４は、上記
自然言語処理装置の構成を示す模式図である。図におい
て、自然言語処理装置１１は、内部に、標準自立語辞書
２ａおよび標準付属語辞書２ｂと、自立語辞書管理表４
ｃおよび付属語辞書管理表４ｄとを備えており、拡張自
立語辞書２ｃ１，２ｃ２，…や、拡張付属語辞書２ｄ
１，２ｄ２，…を拡張辞書読み取り装置１２によって読
み取る。

【００２７】ここで、拡張自立語辞書２ｃ１を追加し、
自立語辞書管理表４ｃを更新する手順の一例を以下に説
明する。１）自然言語処理装置１１は、内蔵する標準自立語辞書
２ａと標準付属語辞書２ｂを、各々、自立語辞書管理表
４ｃおよび付属語辞書管理表４ｄに登録する。この時点
では、標準自立語辞書２ａと標準付属語辞書２ｂとは、
共に優先順位が「１」である。２）拡張自立語辞書２ｃ１を拡張辞書読み取り装置１２
に挿入する。３）拡張辞書読み取り装置１２への辞書挿入を検出し、
拡張自立語辞書２ｃ１を読む。４）拡張自立語辞書２ｃ１であることを判別し、自立語
辞書管理表４ｃを更新する。

【００２８】また、拡張辞書が標準辞書よりも優先され
る機構になっている場合には、標準自立語辞書２ａの優
先順位は「２」に変更され、拡張自立語辞書２ｃ１の優
先順位は「１」として自立語辞書管理表４ｃに追加登録
される。また、複数の辞書読み取り装置が内蔵された自
然言語処理装置の場合、各辞書読み取り装置に優先順位
を与えておき、拡張辞書の優先順位は辞書読み取り装置
に与えられた優先順位に従うようにしてもよい。この場
合は、各辞書読み取り装置の優先順位の切替えを行なう
ための機構を設ければよい。

【００２９】例えば、図３に示すように、自然言語処理
装置において、上段の辞書読み取り装置１２ａの優先順
位に「１」、下段の辞書読み取り装置１２ｂに「２」、
内蔵辞書の読み取り装置（図示略）に「３」を与えたと
する。拡張辞書読み取り装置１２ａ，１２ｂに拡張辞書
が挿入されていない場合には、標準辞書の他には辞書が
ないため、標準辞書の優先順位を「１」とする。一方、
下段の辞書読み取り装置１２ｂに拡張辞書が挿入された
場合には、拡張辞書の優先順位を「１」に、標準辞書の
優先順位を「２」とする。

【００３０】次に、本実施例の自然言語処理装置の動作
について図５を参照して説明する。図５は、本実施例に
おける自然言語処理装置１１の形態素解析処理の一例を
示すフローチャートである。上述した構成において、ま
ず、入力するテキスト文の分野等に応じて、拡張自立語
辞書２ｃ１，２ｃ２，…や、拡張付属語辞書２ｄ１，２
ｄ２，…を拡張辞書読み取り装置１２によって読み取ら
せる。次に、辞書検索・辞書管理部４によって、内蔵の
標準自立語辞書２ａ、標準付属語辞書２ｂ、拡張自立語
辞書２ｃ１，２ｃ２，…、および拡張付属語辞書２ｄ
１，２ｄ２，…の優先順位を、上述した手順に従って、
自立語辞書管理表４ｃおよび付属語辞書管理表４ｄに設
定する。

【００３１】次に、入力部１から入力されたテキスト文
は、文章解析部３の辞書検索部・辞書管理部４によっ
て、自立語辞書管理表４ｃ、もしくは付属語辞書管理表
４ｄに設定された優先順位に従って、辞書２（標準自立
語辞書２ａ、標準付属語辞書２ｂ、拡張自立語辞書２ｃ
１，２ｃ２，…、および拡張付属語辞書２ｄ１，２ｄ
２，…）に記憶された単語の綴りや、その付属情報に従
って検索され、その結果、語群が抽出される。

【００３２】次に、形態素解析部５により、入力部１か
ら入力された漢字かな混じり文と、辞書検索部４ａで検
索された語群に対して形態素解析が行なわれ、仮名文字
列に変換された後、単語、文節毎に分解される。ここ
で、辞書検索結果から形態素解析結果を得るための形態
素解析について図７を参照して説明する。図７は辞書検
索結果から形態素解析結果を得るための本実施例の形態
素解析手順の一例を示すフローチャートである。

【００３３】まず、ステップＳ１において、形態素の接
続判定のための注視点を設定する。初めて、本形態素解
析処理が実行される場合には、注視点は文頭に置かれ
る。次に、ステップＳ２において、文頭の形態素候補群
を取得し、仮説群を生成する。そして、ステップＳ３で
は、注視点を１つ先にずらし、注視点が文末かどうかの
判定を行なう。ステップＳ３において、注視点が文末で
ないならばステップＳ４へ進む。

【００３４】ステップＳ４では、注視点から始る形態素
と接続を行なう必要のある仮説が存在するか否かを判断
する。そして、ステップＳ４における判断結果が「Ｎ
Ｏ」の場合、すなわち注視点から始る形態素と接続を行
なう必要のある仮説が存在しない場合は、ステップＳ３
へ戻り、注視点を１つ先にずらしながら、注視点から始
る形態素と接続を行なう必要のある仮説を検索し、ステ
ップＳ４における判断結果が「ＹＥＳ」となると、すな
わち注視点から始る形態素と接続を行なう必要のある仮
説が存在すると（この時の注視点を接続点と呼ぶことに
する）、ステップＳ５へ進み、注視点から始る形態素群
を取得する。

【００３５】次に、ステップＳ６において、注視点が接
続点である各仮説について、ステップＳ５で取得した形
態素群との接続可否判定を行なう。接続可能な形態素が
存在する場合には、ステップＳ７へ進み、その形態素に
より仮説を更新する。なお、接続可能な形態素が複数存
在する場合には、新しい仮説を生成する。一方、ステッ
プＳ６において、接続可能な形態素が存在しない場合に
は、ステップＳ８へ進み、その仮説を削除する。

【００３６】以下、該当する全ての仮説について上述し
た処理を行なう。そして、ステップＳ３において、注視
点が文末にくると、解析を終了し、ステップＳ９へ進
み、解析結果を出力する。なお、仮説が複数存在するた
めに仮説を絞り込む必要が生じた場合には、ステップＳ
３〜Ｓ８の任意の処理中において、最長一致原理等の種
々の規範を適用して絞り込みを行なう。

【００３７】次に、図１に示す発音記号生成部６におい
て、上述した解析結果である各形態素に発音が付与され
る。すなわち、各形態素が持つ読み、アクセント型を発
音記号に変換する。このようにして、文章解析部３は、
テキスト入力を所定の辞書２を基準にして解析し、仮名
文字列に変換し、単語、文節毎に分解した後、各単語毎
に基本アクセントを検出し、これらを音声合成規則部８
に出力する。

【００３８】この単語、文節の境界および基本アクセン
トの検出結果は、音声合成規則部８で、所定の音韻規則
に従って処理され、抑揚のない状態でテキスト入力を読
み上げた音声を表す合成波形データが生成される。さら
に、単語、文節の境界および基本アクセントの検出結果
は、音声合成規則部８で、所定の韻律規則に従って処理
され、テキスト入力全体の抑揚を表すピッチパターンが
生成される。ピッチパターンは、合成波形データととも
に、音声合成部９に出力され、ここで、ピッチパターン
および合成波形データに基づいて合成音が生成された
後、出力部１０によって、スピーカで発音される。もし
くは、上記合成波形データを磁気ディスクへ記憶しても
よい。

【００３９】上述した構成によれば、一般的なテキスト
文の場合には、標準自立語辞書と標準付属語辞書だけ、
特定分野のテキスト文の場合には、それに加えて、特定
分野に合った拡張自立語辞書と拡張付属語辞書とを追加
する。なお、拡張付属語辞書は不用な場合もある。ま
た、異なる分野の場合には、拡張自立語辞書と拡張付属
語辞書（拡張付属語辞書は不要な場合もある）を取り替
える。このように、辞書を必要最小限の構成にすること
ができる。

【００４０】また、検索する辞書が複数ある場合には、
各辞書中の各語彙は、当然のことながら、さらに、各辞
書毎に優先順位を付与することにより、形態素解析処理
における語の選択の際に、より正確な判定基準を与える
ことができる。さらに、標準付属語辞書の他に、拡張付
属語辞書を設けることにより、特定分野に特有の言い回
しに対しても、正確な形態素解析を行なうことができ
る。

【００４１】

【発明の効果】本発明によれば、一般的な語を記憶した
標準辞書と、特定分野の語を記憶した拡張辞書を複数用
意し、標準辞書と拡張辞書との組合わせ方を解析対象文
に合せて変更することで、比較的小規模のシステムで多
様な文の解析が可能となる。また、複数の辞書を用いる
場合に、各辞書に優先順位を与え、その優先順位と各語
彙に与えられた優先順位によって、辞書検索により得ら
れた各語彙の優先順位を更新し、その優先順位を形態素
解析に用いることで、利用者の意図する解析結果が容易
に得ることができるという利点が得られる。

【図面の簡単な説明】

【図１】本発明における一実施例である自然語処理装置
の構成を示すブロック図である。

【図２】同実施例における辞書検索・辞書管理部と辞書
との構成を示すブロック図である。

【図３】同実施例における基本ピッチパターンの生成手
順を示す略線図である。

【図４】同実施例における自然語処理装置の外観構成を
示す斜視図である。

【図５】同実施例における日本語処理装置の形態素解析
処理の一例を示すフローチャートである。

【符号の説明】

１入力部２辞書２ａ標準自立語辞書（標準辞書）２ｂ標準付属語辞書（標準辞書）２ｃ拡張自立語辞書（拡張辞書）２ｄ拡張付属語辞書（拡張辞書）３文章解析部４辞書検索・辞書管理部（検索抽出手段、優先順位設
定手段）５形態素解析部（形態素解析手段）６発音記号生成部７音声単位記憶部８音声合成規則部９音声合成部１０出力部１２拡張辞書読み取り装置（辞書読み取り手段）

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ１０Ｌ 5/02 Ｊ

Claims

【特許請求の範囲】

【請求項１】漢字かな混じり文の形態素解析を行なう
自然言語処理装置において、一般的な語彙が記憶された標準辞書と、特定分野に特有の語彙だけが記憶された着脱自在の複数
の拡張辞書が装着され、前記特有の語彙を読み取る辞書
読み取り手段と、前記漢字かな混じり文の検索対象文字列に応じて、前記
標準辞書と前記複数の拡張辞書とを組合わせ、該組合わ
せた辞書を検索し、前記検索対象文字列の候補語群を抽
出する検索抽出手段と、前記漢字かな混じり文と、前記検索抽出手段による結果
である候補語群とに対して、形態素解析を行なう形態素
解析手段とを具備することを特徴とする自然言語処理装
置。
【請求項２】前記標準辞書は、一般的な自立語が記憶
された標準自立語辞書と、一般的な付属語が記憶された
標準付属語辞書とから構成され、前記複数の拡張辞書は、少なくとも、特定分野に特有の
自立語だけが記憶された複数の拡張自立語辞書から構成
されることを特徴とする請求項１記載の自然言語処理装
置。
【請求項３】前記標準辞書と前記拡張辞書とに優先順
位を設定する優先順位設定手段を備え、前記検索抽出手段は、検索した候補語群の各々に、前記
優先順位設定手段によって設定された優先順位を付与
し、前記形態素解析手段は、前記検索抽出手段によって抽出
された候補語群のうち、優先順位の高い語に所定の優先
度を与えて、形態素解析を行なうことを特徴とする請求
項１記載の自然言語処理装置。
【請求項４】前記複数の拡張辞書は、ＩＣカード、磁
気ディスク、光磁気ディスク、光ディスクなどの記憶媒
体からなることを特徴とする請求項１記載の自然言語処
理装置。