JPH07129596A - 自然言語処理装置 - Google Patents

自然言語処理装置

Info

Publication number
JPH07129596A
JPH07129596A JP5294663A JP29466393A JPH07129596A JP H07129596 A JPH07129596 A JP H07129596A JP 5294663 A JP5294663 A JP 5294663A JP 29466393 A JP29466393 A JP 29466393A JP H07129596 A JPH07129596 A JP H07129596A
Authority
JP
Japan
Prior art keywords
dictionary
extended
standard
natural language
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5294663A
Other languages
English (en)
Inventor
Koji Inai
幸治 稲井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP5294663A priority Critical patent/JPH07129596A/ja
Publication of JPH07129596A publication Critical patent/JPH07129596A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 辞書容量を大きくすることなく、小規模のシ
ステムで多様な文を正確に解析し、利用者の意図する解
析結果を容易に得る。 【構成】 一般的なテキスト文の場合には、標準自立語
辞書2aと標準付属語辞書2bだけを用いて、辞書検索
・辞書管理部4により候補語群を抽出し、形態素解析部
5により形態素解析を行なう。特定分野のテキスト文の
場合には、それに加えて、特定分野に合った拡張自立語
辞書2cと拡張付属語辞書2dとを追加する。また、異
なる分野の場合には、拡張自立語辞書2cと拡張付属語
辞書2dを取り替える。また、検索する辞書が複数ある
場合には、各辞書毎に優先順位を付与することにより、
形態素解析処理における語の選択の際に、より正確な判
定基準を与える。このような構成によれば、辞書を必要
最小限の構成にすることができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、機械翻訳システム、日
本語テキスト音声合成システム、もしくは漢字かな混じ
り文を扱う電子計算機等の自然言語処理装置に関する。
【0002】
【従来の技術】従来より、テキスト文を入力すると、入
力された文字の系列を解析した後、翻訳する機械翻訳シ
ステムや、所定の規則に従ってパラメータを合成し、音
声合成する音声合成システムが知られている。音声合成
システムは、例えば、視覚障害者が介助者なしに、テキ
スト文を聞いて理解する福祉的な用途の他、視覚的に文
字情報を得るのが困難な状況下で用いられている。この
ような自然言語処理装置においては、入力されたテキス
ト文の極力正確な解析が期待されている。
【0003】上述したに自然言語処理装置おける漢字か
な混じり文の形態素解析は、自立語辞書と付属語辞書お
よびユーザ辞書による辞書検索を行ない、その検索結果
から最適な語を選択していく作業である。この形態素解
析を正確に行なうためには、辞書中に記録された語彙の
数と、複数の候補の語の中から最適と判断される語の選
択手法が重要である。
【0004】辞書に記録される語彙数が多いほど、形態
素解析の結果が良くなることから、新聞等の解析を行な
う自然言語処理装置においては、50万語という規模の
辞書を備えている。また、解析対象とする文が特定の分
野に限定される場合には、その分野の語彙だけを増や
し、最小限の辞書による方法がとられている。一方、複
数の語からの選択手法については、語同士の接続規則の
他に、辞書中に記録されている各語彙の重要度や、最長
一致原理をはじめとする判断基準を用いる。
【0005】
【発明が解決しようとする課題】ところで、上述した従
来の自然言語処理装置にあっては、辞書が大きくなり、
新聞等の解析を行なう大規模な専用システム以外の、小
規模なシステムにおいては実現が困難である。また、特
定分野の語彙を増やす手法では、特定分野の専用システ
ムとなるため、他分野の文の解析には向かなくなるとい
う問題がある。また、複数の辞書を用いる自然言語処理
装置においては、選択する語数が増加するため、適切な
選択基準が必要となるが、その選択基準が設定しづらい
という問題があった。
【0006】そこで本発明は、辞書容量を大きくするこ
となく、小規模のシステムで多様な文の解析を正確にで
き、利用者の意図する解析結果を容易に得ることができ
る自然言語処理装置を提供することを目的としている。
【0007】
【課題を解決するための手段】上記目的達成のため、請
求項1記載の発明による自然言語処理装置は、漢字かな
混じり文の形態素解析を行なう自然言語処理装置におい
て、一般的な語彙が記憶された標準辞書と、特定分野に
特有の語彙だけが記憶された着脱自在の複数の拡張辞書
が装着され、前記特有の語彙を読み取る辞書読み取り手
段と、前記漢字かな混じり文の検索対象文字列に応じ
て、前記標準辞書と前記複数の拡張辞書とを組合わせ、
該組合わせた辞書を検索し、前記検索対象文字列の候補
語群を抽出する検索抽出手段と、前記漢字かな混じり文
と、前記検索抽出手段による結果である候補語群とに対
して、形態素解析を行なう形態素解析手段とを具備する
ことを特徴とする。
【0008】また、請求項2記載の発明による自然言語
処理装置では、前記標準辞書は、一般的な自立語が記憶
された標準自立語辞書と、一般的な付属語が記憶された
標準付属語辞書とから構成され、前記複数の拡張辞書
は、少なくとも、特定分野に特有の自立語だけが記憶さ
れた複数の拡張自立語辞書から構成されることを特徴と
する。
【0009】また、請求項3記載の発明による自然言語
処理装置では、前記標準辞書と前記拡張辞書とに優先順
位を設定する優先順位設定手段を備え、前記検索抽出手
段は、検索した候補語群の各々に、前記優先順位設定手
段によって設定された優先順位を付与し、前記形態素解
析手段は、前記検索抽出手段によって抽出された候補語
群のうち、優先順位の高い語に所定の優先度を与えて、
形態素解析を行なうことを特徴とする。
【0010】また、請求項4記載の発明による自然言語
処理装置では、前記複数の拡張辞書は、ICカード、磁
気ディスク、光磁気ディスク、光ディスクなどの記憶媒
体からなることを特徴とする。
【0011】
【作用】本発明では、一般的な漢字かな混じり文の場合
には、標準自立語辞書と標準付属語辞書だけ、特定分野
の漢字かな混じり文の場合には、それに加えて、特定分
野に合った拡張自立語辞書と拡張付属語辞書とを追加す
る。また、異なる分野の場合には、少なくとも拡張自立
語辞書を取り替える。したがって、辞書を必要最小限の
構成にすることができる。
【0012】また、検索する辞書が複数ある場合には、
各辞書毎に優先順位を付与することにより、形態素解析
処理における語の選択の際に、より正確な判定基準を与
えることができる。また、標準辞書を、一般的な自立語
が記憶された標準自立語辞書と、一般的な付属語が記憶
された標準付属語辞書とから構成し、複数の拡張辞書
を、少なくとも、特定分野に特有の自立語だけが記憶さ
れた複数の拡張自立語辞書から構成すれば、より正確な
判定基準を与えることができる。また、複数の拡張辞書
は、ICカード、磁気ディスク、光磁気ディスク、光デ
ィスクなどの記憶媒体から構成してもよい。
【0013】
【実施例】以下、本発明を図面に基づいて説明する。図
1は本発明の自然言語処理装置を適用した音声合成シス
テムの構成を示すブロック図である。図において、1
は、漢字かな混じり文を入力する入力部であり、例え
ば、キーボード、OCR(光学的文字読み取り装置)、
磁気ディスク等からなる。また、辞書2は、例えば、I
Cメモリ、磁気ディスク等の記憶装置からなり、一般的
な自立語を記憶した標準自立語辞書2aと、一般的な付
属語(非自立語以外の語を指す)を記憶した標準付属語
辞書2bとの2つを最小構成とし、特定分野(例えば、
計算機分野など)の自立語だけを記録した拡張自立語辞
書2cと、特定分野の付属語だけを記録した拡張付属語
辞書2dとを複数有する。各辞書には、形態素の基準と
なる単語の綴りや、その付属情報(例えば、読み、品詞
情報、アクセント等)等が記憶されている。
【0014】文章解析部3は、辞書検索・辞書管理部
4、形態素解析部5および発音記号生成部6からなる。
まず、辞書検索・辞書管理部4は、入力部1から入力さ
れた漢字かな混じり文中に含まれる語を辞書2に記憶さ
れた単語の綴りや、その付属情報に従って検索したり、
検索対象辞書の切替え、および優先順位の変更等を行な
う。
【0015】ここで、上述した辞書2および辞書検索・
辞書管理部4の構成について図2を参照して説明する。
辞書2は前述したように、標準自立語辞書2a、複数の
拡張自立語辞書2c1,2c2,…、および標準付属語
辞書2b、複数の拡張付属語辞書2d1,2d2,…か
ら構成されている。また、辞書検索・辞書管理部4は、
辞書検索部4a、辞書管理部4b、自立語辞書管理表4
cおよび付属語辞書管理表4dから構成されている。上
記標準自立語辞書2a、複数の拡張自立語辞書2c1,
2c2,…は、自立語辞書管理表4cに基づいて管理さ
れており、標準付属語辞書2b、複数の拡張付属語辞書
2d1,2d2は、付属語辞書管理表4dに基づいて管
理されている。
【0016】自立語辞書管理表4cおよび付属語辞書管
理表4dは、現在使用している辞書と、その辞書の優先
順位とを管理しており、辞書管理部4bは利用者の指示
に従って、自立語辞書管理表4cおよび付属語辞書管理
表4dの各々を変更する。例えば、新しい辞書を使用す
る指示の場合には、自立語辞書管理表4c、もしくは付
属語辞書管理表4dに追加する。また、ある辞書の使用
を止める指示の場合には、自立語辞書管理表4c、もし
くは付属語辞書管理表4dから削除する。さらに、優先
順位を変更する場合には、自立語辞書管理表4c、もし
くは付属語辞書管理表4dの優先順位を変更する。辞書
検索部4aは、辞書検索対象文字列が与えられた際に、
自立語辞書管理表4cおよび付属語辞書管理表4dの各
々に登録された辞書を検索し、辞書の検索結果に検索し
た辞書の優先順位を付けて、図1に示す形態素解析部5
へ供給する。
【0017】次に、形態素解析部5は、入力部1から入
力された漢字かな混じり文と、辞書検索・辞書管理部4
で検索された語群とに基づいて、形態素の解析を行なっ
て、仮名文字列に変換した後、単語、文節毎に分解す
る。すなわち、日本語においては、英語のように単語が
分かち書きされていないことから、例えば、「米国産業
界」のような言葉は、「米国/産業・界」、「米/国産
/業界」のように2種類区分化し得る。このため、形態
素解析部5は、辞書2を参考にしながら、言葉の連続関
係および統計的性質を利用して、テキスト入力を単語、
文節毎に分解し、これにより単語、文節の境界を検出す
る。
【0018】また、発音記号生成部6は、形態素解析部
5からのデータに基づき、発音記号列を生成する。次
に、音声単位記憶部7は、例えば、ICメモリ、磁気デ
ィスク等の記憶装置からなり、音声単位が記憶されてい
る。音声単位は、各CV単位で表される合成音を生成す
る際に用いられる波形データからなる。この波形合成に
用いられる音声単位データは次のような構成からなる。
【0019】音声単位データの有声部に関しては、実音
声の有声部分において上記複素ケプストラム分析を用い
て抽出された、1ピッチに対応するインパルスと単位応
答波形を一組として、この組を1つの音声単位データと
して必要なピッチ分だけ蓄えたものからなり、また、音
声単位データの無声部に関しては、実音声の無声部分の
波形を切り出してそのまま蓄えたものからなる。したが
って、音声単位データがCV単位である場合には、1つ
の音声単位CVの子音部Cが無声子音である時には無声
部分の切り出し波形と、インパルスと単位応答波形から
なる複数組によって、1つの音声単位データが構成さ
れ、また、1つの音声単位CVの子音部Cが有声子音で
ある時には、インパルスと単位応答波形からなる複数組
のみによって1つの音声単位データが構成されることと
なる。
【0020】次に、音声合成規則部8は、発音記号生成
部6から得られるデータと、音声単位記憶部7の情報
と、音韻・韻律規則等とから音声の合成波形パターンと
ピッチパターンとを得る。すなわち、音声合成規則部8
は、音声単位記憶部7からロードされた音声単位データ
を、テキスト入力に応じた順序で合成し、抑揚のない状
態の合成音声波形を得る。また、音声合成規則部8は、
所定の韻律規則に基づいて、テキスト入力を適当な長さ
で分割して、切り目(すなわち、ポーズからなる)を検
出する。このようにして、図3に示すように、例えば、
テキスト入力として文章、「きれいな花を山田さんから
もらいました」が入力された場合は(図3(A))、当
該テキスト入力は、「きれいな」、「はな」、「やまだ
さんから」、「もらいました」に分解された後、「は
な」および「やまださんから」間にポーズが検出される
(図3(B))。
【0021】さらに、音声合成規則部8は、韻律規則お
よび各単語の基本アクセントに基づいて、各文節のアク
セントを検出する。すなわち、日本語の文節単体のアク
セントは、感覚的に仮名文字を単位として(以下、モー
ラと呼ぶ)高低の2レベルで表現することができる。こ
のとき、文節の内容等に応じて、文節のアクセント位置
を区別することができる。例えば、端、箸、橋は2モー
ラの単語で、それぞれのアクセントのない0型、アクセ
ントの位置が先頭のモーラにある1型、アクセントの位
置が2モーラ目にある2型に分類することができる。か
くして、この実施例において、音声合成規則部7は、テ
キスト入力の各文節を、1型、2型、0型、4型と分類
し(図3(C))、これにより文節単位でアクセントお
よびポーズを検出する。
【0022】さらに、音声合成規則部8は、アクセント
およびポーズの検出結果に基づいて、テキスト入力全体
の抑揚を表す基本ピッチパターンを生成する。すなわ
ち、日本語においては、文節のアクセントは、感覚的に
2レベルで表し得るのに対し、実際の抑揚は、アクセン
トの位置から徐々に低下する特徴がある(図3
(D))。
【0023】さらに、日本語においては、文節が連続し
て1つの文章になると、ポーズから続くポーズに向っ
て、抑揚が徐々に低下する特徴がある(図3(E))。
したがって、音声合成規則部8は、かかる日本語の特徴
に基づいて、テキスト入力全体の抑揚を表すパラメータ
を各モーラ毎に生成した後、人間が発声した場合と同様
に抑揚が滑らかに変化するように、モーラ間に補間によ
りパラメータを設定する。かくして、音声合成規則部8
は、テキスト入力に応じた順序で、各モーラのパラメー
タおよび補間したパラメータを合成し(以下、ピッチパ
ターンと呼ぶ)、かくしてテキスト入力を読み上げた音
声の抑揚を表すピッチパターン(図3(F))を得るこ
とができる。
【0024】次に、音声合成部9は、音声合成規則部8
から得られたデータ(合成波形データおよびピッチパタ
ーン)に基づいて音声波形の合成を行なう。この波形合
成処理は、次のようなことを行なっている。合成音声の
有声部分においては、合成波形データ内のインパルスを
ピッチパターンに基づいて並べ、その並べられたインパ
ルスそれぞれに対応する単位応答波形を各インパルスに
重畳する。
【0025】また、合成音声の無声部分においては、合
成波形データ内の切り出し波形をそのまま所望の合成音
声の波形とする。これにより、ピッチパターンの変化に
追従して抑揚の変化する合成音を得ることができる。し
たがって、合成音において、音源情報にインパルスを用
いているため、合成音のピッチ周期が伸縮しても、それ
による音源情報への影響はほとんどなく、ピッチパター
ンが大きく変化するような場合でも、スペクトル包絡に
歪みが生じることなく、人間の音声に近い高品質な任意
合成音が得られる。次に、出力部10は、音声合成部9
で合成された音声波形を例えば、スピーカ、磁気ディス
ク等へ出力する。
【0026】次に、本実施例における自然言語処理装置
の構成について図4を参照して説明する。図4は、上記
自然言語処理装置の構成を示す模式図である。図におい
て、自然言語処理装置11は、内部に、標準自立語辞書
2aおよび標準付属語辞書2bと、自立語辞書管理表4
cおよび付属語辞書管理表4dとを備えており、拡張自
立語辞書2c1,2c2,…や、拡張付属語辞書2d
1,2d2,…を拡張辞書読み取り装置12によって読
み取る。
【0027】ここで、拡張自立語辞書2c1を追加し、
自立語辞書管理表4cを更新する手順の一例を以下に説
明する。 1)自然言語処理装置11は、内蔵する標準自立語辞書
2aと標準付属語辞書2bを、各々、自立語辞書管理表
4cおよび付属語辞書管理表4dに登録する。この時点
では、標準自立語辞書2aと標準付属語辞書2bとは、
共に優先順位が「1」である。 2)拡張自立語辞書2c1を拡張辞書読み取り装置12
に挿入する。 3)拡張辞書読み取り装置12への辞書挿入を検出し、
拡張自立語辞書2c1を読む。 4)拡張自立語辞書2c1であることを判別し、自立語
辞書管理表4cを更新する。
【0028】また、拡張辞書が標準辞書よりも優先され
る機構になっている場合には、標準自立語辞書2aの優
先順位は「2」に変更され、拡張自立語辞書2c1の優
先順位は「1」として自立語辞書管理表4cに追加登録
される。また、複数の辞書読み取り装置が内蔵された自
然言語処理装置の場合、各辞書読み取り装置に優先順位
を与えておき、拡張辞書の優先順位は辞書読み取り装置
に与えられた優先順位に従うようにしてもよい。この場
合は、各辞書読み取り装置の優先順位の切替えを行なう
ための機構を設ければよい。
【0029】例えば、図3に示すように、自然言語処理
装置において、上段の辞書読み取り装置12aの優先順
位に「1」、下段の辞書読み取り装置12bに「2」、
内蔵辞書の読み取り装置(図示略)に「3」を与えたと
する。拡張辞書読み取り装置12a,12bに拡張辞書
が挿入されていない場合には、標準辞書の他には辞書が
ないため、標準辞書の優先順位を「1」とする。一方、
下段の辞書読み取り装置12bに拡張辞書が挿入された
場合には、拡張辞書の優先順位を「1」に、標準辞書の
優先順位を「2」とする。
【0030】次に、本実施例の自然言語処理装置の動作
について図5を参照して説明する。図5は、本実施例に
おける自然言語処理装置11の形態素解析処理の一例を
示すフローチャートである。上述した構成において、ま
ず、入力するテキスト文の分野等に応じて、拡張自立語
辞書2c1,2c2,…や、拡張付属語辞書2d1,2
d2,…を拡張辞書読み取り装置12によって読み取ら
せる。次に、辞書検索・辞書管理部4によって、内蔵の
標準自立語辞書2a、標準付属語辞書2b、拡張自立語
辞書2c1,2c2,…、および拡張付属語辞書2d
1,2d2,…の優先順位を、上述した手順に従って、
自立語辞書管理表4cおよび付属語辞書管理表4dに設
定する。
【0031】次に、入力部1から入力されたテキスト文
は、文章解析部3の辞書検索部・辞書管理部4によっ
て、自立語辞書管理表4c、もしくは付属語辞書管理表
4dに設定された優先順位に従って、辞書2(標準自立
語辞書2a、標準付属語辞書2b、拡張自立語辞書2c
1,2c2,…、および拡張付属語辞書2d1,2d
2,…)に記憶された単語の綴りや、その付属情報に従
って検索され、その結果、語群が抽出される。
【0032】次に、形態素解析部5により、入力部1か
ら入力された漢字かな混じり文と、辞書検索部4aで検
索された語群に対して形態素解析が行なわれ、仮名文字
列に変換された後、単語、文節毎に分解される。ここ
で、辞書検索結果から形態素解析結果を得るための形態
素解析について図7を参照して説明する。図7は辞書検
索結果から形態素解析結果を得るための本実施例の形態
素解析手順の一例を示すフローチャートである。
【0033】まず、ステップS1において、形態素の接
続判定のための注視点を設定する。初めて、本形態素解
析処理が実行される場合には、注視点は文頭に置かれ
る。次に、ステップS2において、文頭の形態素候補群
を取得し、仮説群を生成する。そして、ステップS3で
は、注視点を1つ先にずらし、注視点が文末かどうかの
判定を行なう。ステップS3において、注視点が文末で
ないならばステップS4へ進む。
【0034】ステップS4では、注視点から始る形態素
と接続を行なう必要のある仮説が存在するか否かを判断
する。そして、ステップS4における判断結果が「N
O」の場合、すなわち注視点から始る形態素と接続を行
なう必要のある仮説が存在しない場合は、ステップS3
へ戻り、注視点を1つ先にずらしながら、注視点から始
る形態素と接続を行なう必要のある仮説を検索し、ステ
ップS4における判断結果が「YES」となると、すな
わち注視点から始る形態素と接続を行なう必要のある仮
説が存在すると(この時の注視点を接続点と呼ぶことに
する)、ステップS5へ進み、注視点から始る形態素群
を取得する。
【0035】次に、ステップS6において、注視点が接
続点である各仮説について、ステップS5で取得した形
態素群との接続可否判定を行なう。接続可能な形態素が
存在する場合には、ステップS7へ進み、その形態素に
より仮説を更新する。なお、接続可能な形態素が複数存
在する場合には、新しい仮説を生成する。一方、ステッ
プS6において、接続可能な形態素が存在しない場合に
は、ステップS8へ進み、その仮説を削除する。
【0036】以下、該当する全ての仮説について上述し
た処理を行なう。そして、ステップS3において、注視
点が文末にくると、解析を終了し、ステップS9へ進
み、解析結果を出力する。なお、仮説が複数存在するた
めに仮説を絞り込む必要が生じた場合には、ステップS
3〜S8の任意の処理中において、最長一致原理等の種
々の規範を適用して絞り込みを行なう。
【0037】次に、図1に示す発音記号生成部6におい
て、上述した解析結果である各形態素に発音が付与され
る。すなわち、各形態素が持つ読み、アクセント型を発
音記号に変換する。このようにして、文章解析部3は、
テキスト入力を所定の辞書2を基準にして解析し、仮名
文字列に変換し、単語、文節毎に分解した後、各単語毎
に基本アクセントを検出し、これらを音声合成規則部8
に出力する。
【0038】この単語、文節の境界および基本アクセン
トの検出結果は、音声合成規則部8で、所定の音韻規則
に従って処理され、抑揚のない状態でテキスト入力を読
み上げた音声を表す合成波形データが生成される。さら
に、単語、文節の境界および基本アクセントの検出結果
は、音声合成規則部8で、所定の韻律規則に従って処理
され、テキスト入力全体の抑揚を表すピッチパターンが
生成される。ピッチパターンは、合成波形データととも
に、音声合成部9に出力され、ここで、ピッチパターン
および合成波形データに基づいて合成音が生成された
後、出力部10によって、スピーカで発音される。もし
くは、上記合成波形データを磁気ディスクへ記憶しても
よい。
【0039】上述した構成によれば、一般的なテキスト
文の場合には、標準自立語辞書と標準付属語辞書だけ、
特定分野のテキスト文の場合には、それに加えて、特定
分野に合った拡張自立語辞書と拡張付属語辞書とを追加
する。なお、拡張付属語辞書は不用な場合もある。ま
た、異なる分野の場合には、拡張自立語辞書と拡張付属
語辞書(拡張付属語辞書は不要な場合もある)を取り替
える。このように、辞書を必要最小限の構成にすること
ができる。
【0040】また、検索する辞書が複数ある場合には、
各辞書中の各語彙は、当然のことながら、さらに、各辞
書毎に優先順位を付与することにより、形態素解析処理
における語の選択の際に、より正確な判定基準を与える
ことができる。さらに、標準付属語辞書の他に、拡張付
属語辞書を設けることにより、特定分野に特有の言い回
しに対しても、正確な形態素解析を行なうことができ
る。
【0041】
【発明の効果】本発明によれば、一般的な語を記憶した
標準辞書と、特定分野の語を記憶した拡張辞書を複数用
意し、標準辞書と拡張辞書との組合わせ方を解析対象文
に合せて変更することで、比較的小規模のシステムで多
様な文の解析が可能となる。また、複数の辞書を用いる
場合に、各辞書に優先順位を与え、その優先順位と各語
彙に与えられた優先順位によって、辞書検索により得ら
れた各語彙の優先順位を更新し、その優先順位を形態素
解析に用いることで、利用者の意図する解析結果が容易
に得ることができるという利点が得られる。
【図面の簡単な説明】
【図1】本発明における一実施例である自然語処理装置
の構成を示すブロック図である。
【図2】同実施例における辞書検索・辞書管理部と辞書
との構成を示すブロック図である。
【図3】同実施例における基本ピッチパターンの生成手
順を示す略線図である。
【図4】同実施例における自然語処理装置の外観構成を
示す斜視図である。
【図5】同実施例における日本語処理装置の形態素解析
処理の一例を示すフローチャートである。
【符号の説明】
1 入力部 2 辞書 2a 標準自立語辞書(標準辞書) 2b 標準付属語辞書(標準辞書) 2c 拡張自立語辞書(拡張辞書) 2d 拡張付属語辞書(拡張辞書) 3 文章解析部 4 辞書検索・辞書管理部(検索抽出手段、優先順位設
定手段) 5 形態素解析部(形態素解析手段) 6 発音記号生成部 7 音声単位記憶部 8 音声合成規則部 9 音声合成部 10 出力部 12 拡張辞書読み取り装置(辞書読み取り手段)
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 G10L 5/02 J

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 漢字かな混じり文の形態素解析を行なう
    自然言語処理装置において、 一般的な語彙が記憶された標準辞書と、 特定分野に特有の語彙だけが記憶された着脱自在の複数
    の拡張辞書が装着され、前記特有の語彙を読み取る辞書
    読み取り手段と、 前記漢字かな混じり文の検索対象文字列に応じて、前記
    標準辞書と前記複数の拡張辞書とを組合わせ、該組合わ
    せた辞書を検索し、前記検索対象文字列の候補語群を抽
    出する検索抽出手段と、 前記漢字かな混じり文と、前記検索抽出手段による結果
    である候補語群とに対して、形態素解析を行なう形態素
    解析手段とを具備することを特徴とする自然言語処理装
    置。
  2. 【請求項2】 前記標準辞書は、一般的な自立語が記憶
    された標準自立語辞書と、一般的な付属語が記憶された
    標準付属語辞書とから構成され、 前記複数の拡張辞書は、少なくとも、特定分野に特有の
    自立語だけが記憶された複数の拡張自立語辞書から構成
    されることを特徴とする請求項1記載の自然言語処理装
    置。
  3. 【請求項3】 前記標準辞書と前記拡張辞書とに優先順
    位を設定する優先順位設定手段を備え、 前記検索抽出手段は、検索した候補語群の各々に、前記
    優先順位設定手段によって設定された優先順位を付与
    し、 前記形態素解析手段は、前記検索抽出手段によって抽出
    された候補語群のうち、優先順位の高い語に所定の優先
    度を与えて、形態素解析を行なうことを特徴とする請求
    項1記載の自然言語処理装置。
  4. 【請求項4】 前記複数の拡張辞書は、ICカード、磁
    気ディスク、光磁気ディスク、光ディスクなどの記憶媒
    体からなることを特徴とする請求項1記載の自然言語処
    理装置。
JP5294663A 1993-10-29 1993-10-29 自然言語処理装置 Pending JPH07129596A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5294663A JPH07129596A (ja) 1993-10-29 1993-10-29 自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5294663A JPH07129596A (ja) 1993-10-29 1993-10-29 自然言語処理装置

Publications (1)

Publication Number Publication Date
JPH07129596A true JPH07129596A (ja) 1995-05-19

Family

ID=17810693

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5294663A Pending JPH07129596A (ja) 1993-10-29 1993-10-29 自然言語処理装置

Country Status (1)

Country Link
JP (1) JPH07129596A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011231766A (ja) * 2010-04-28 2011-11-17 J Eberspecher Gmbh & Co Kg ピストン・エンジン、方法、および使用

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011231766A (ja) * 2010-04-28 2011-11-17 J Eberspecher Gmbh & Co Kg ピストン・エンジン、方法、および使用

Similar Documents

Publication Publication Date Title
US20080195391A1 (en) Hybrid Speech Synthesizer, Method and Use
US20080183473A1 (en) Technique of Generating High Quality Synthetic Speech
EP1668628A1 (en) Method for synthesizing speech
JPH11344990A (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリ―を利用する方法及び装置
Macchi Issues in text-to-speech synthesis
JP3587048B2 (ja) 韻律制御方法及び音声合成装置
US7069216B2 (en) Corpus-based prosody translation system
EP1908054A1 (en) System, program, and control method for speech synthesis
Wu et al. Automatic generation of synthesis units and prosodic information for Chinese concatenative synthesis
Kishore et al. Experiments with unit selection speech databases for Indian languages
Kayte et al. Di-phone-based concatenative speech synthesis systems for marathi language
Bettayeb et al. Speech synthesis system for the holy quran recitation.
Tseng et al. Machine readable phonetic transcription system for Chinese dialects spoken in Taiwan
JPH06282290A (ja) 自然言語処理装置およびその方法
JP3366253B2 (ja) 音声合成装置
JP3060276B2 (ja) 音声合成装置
Moberg et al. Cross-lingual phoneme mapping for multilingual synthesis systems.
JPH0962286A (ja) 音声合成装置および音声合成方法
JPH07129596A (ja) 自然言語処理装置
JPH07210185A (ja) 朗読情報作成装置および朗読装置
KR0175249B1 (ko) 음성 합성을 위한 한국어 문장의 발음처리 방법
Sitaram Pronunciation modeling for synthesis of low resource languages
JPH08185197A (ja) 日本語解析装置、及び日本語テキスト音声合成装置
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JPH03245192A (ja) 外国語単語の発音決定方法

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20020416