JPS648839B2

JPS648839B2 -

Info

Publication number: JPS648839B2
Application number: JP57144861A
Authority: JP
Inventors: Norimasa Nomura; Tsuneo Nitsuta; Kazuo Sumita
Original assignee: Tokyo Shibaura Electric Co Ltd
Current assignee: Toshiba Corp
Priority date: 1982-08-23
Filing date: 1982-08-23
Publication date: 1989-02-15
Also published as: JPS5934592A

Description

【発明の詳細な説明】［発明の技術分野］この発明は、日本語文の文字列を音韻系列に変
換する文字音韻変換装置に関する。。

［発明の技術的背景及びその問題点］日本語の文章を音声に変換するには、文字列を
音韻系列に変換することが必要である。

従来例えば「私は会社に行く。」という文字列
を、人間が「watashiwakaishaniiku.」とい
う音韻系列に変換し、これを音声合成装置に入力
していた。但し、「」は区切り符号である。

このような変換を人間ではなく、自動的に機械
装置で実行しようとすると、従来非常に困難であ
つた。特に、ひらがな文字列中における助詞
「は」及び助詞「へ」を音韻「wa」及び音韻
「ｅ」に変換するのは、機械にとつて非常に困難
であつた。

［発明の目的］この発明は以上の欠点を除去し、日本語の文章
の文字列を音韻系列に正確に変換すること、特に
ひらがな文字系列中の助詞「は」及び「へ」を正
しく音韻に変換することを目的とする。

［発明の概要］本発明は、漢字かな混りの文字列を文節単位に
区分し、その文節中の漢字単語を漢字単語辞書と
の照合によつて音韻系列に変換し、上記単語の品
詞が用言のとき活用語尾の検定を行い、文節中か
ら、上記漢字単語とその活用語尾を除いた残りの
文字列について、上記活用語尾が連体形もしくは
連用形のときは、ひらがな自立語辞書照合によつ
て音韻系列に変換し、それ以外のときおよび漢字
単語が用言でないときは、付属語辞書照合によつ
て音韻系列に変換するものである。

そして自立語と付属語の区別を明確に行うこと
によつて、文章を音声に変換する際に重要な、呼
気段落の候補となる音韻系列を区切りを、高精度
で検定するものである。

［発明の効果］本発明によつて、日本語文章の文字列を高精度
で音韻系列に変換できる。とくに、ひらがな文字
列について、ひらがな自立語と付属語とを明確に
区別でき、これによつて、文字「は」および文字
「へ」が、ひらがな自立語の構成文字であるとき
は、それぞれ音韻「ha」及び「he」に、また、
助詞として用いられているときは、音韻「wa」
及び「ｅ」に正しく変換することができる。

さらに、文章を音声に変換する際に重要な、呼
気段落の候補となる音韻系列の区切りを、同時に
検定することが可能となる。

［発明の実施例］この発明の実施例を図面に従つて説明する。こ
の実施例での文字音韻変換装置は、第１図に示さ
れるように、漢字かな混り文を、コード列として
記憶している入力文章記憶装置１１と、この文字
列を仮りの文節に分離する文節切り回路１２と、
この文節切り回路１２によつて分離された入力文
節を記憶する入力文節レジスタ１３と、漢字では
じまる単語の語幹を見出し語とし、その単語の品
詞を表わす文法情報及びその単語の音韻系列を格
納している漢字単語辞書記憶装置１４と、入力文
節レジスタ１３に保持されている一文節と漢字辞
書記憶装置１４内の見出し語とを照合し、かつ、
一致検出された文字列のうち最も長い文字列、即
ち、最長マツチング単語から順に、候補単語とし
て一時記憶する漢字単語照合回路１５と、この漢
字単語照合回路１５での最長マツチング単語が用
言である場合に、その活用語尾の検定を行う活用
語尾検定回路１６と、この活用語尾回路１６によ
つて活用語尾が検定されたなら、入力文節中の文
字列から漢字単語及び活用語尾を取り除いた残余
文字列をつくり、活用語尾が連体形又は連用形の
ときに残余文字列をひらがな自立語照合回路１７
に送出し、それ以外の時には、付属語照合回路１
８に送出する辞書照合順序判定回路１９と、ひら
がなではじまる自立語を見出し語とし、その自立
語の品詞を示す文法情報及びその音韻系列を格納
しひらがな自立語照合回路１７での照合の基とな
るひらがな自力語辞書記憶装置２０と、助詞、助
動詞及び助詞と助動詞の複合形の文字列を見出し
語とし、その音韻系列及び付属語が接続する単語
についての条件（以下前接続条件と呼ぶ。）が格
納されている付属語辞書記憶装置２１と、漢字単
語照合回路１５、ひらがな自立語照合回路１７及
び付属語照合回路１８とのそれぞれで一致が検出
された際の音韻系列を収納する音韻系列レジスタ
２２とから成る。

文節切り回路１２では、入力文章を、文字種の
変化、例えばひらがなから漢字に変化する箇所で
切断する。例えば、「私は会社には行かない。」と
いう文章ならば、「私は」「会社には」及び「行か
ない。」という３つの文節に切る。但し、この文
節切りは、仮のものであり、確定的なものではな
い。

このように切られた例の文節ごとに漢字単語照
合回路１５において、まず漢字単語辞書記憶装置
１４に格納されている辞書を読み出して照合す
る。この漢字単語辞書は、漢字で始まる単語が見
出し語として登録されている。第１図に示される
ように、１レコードは、左端から、文字コードで
表わされた見出し語領域３１、品詞及び活用形を
表わす文法情報領域３２及び音韻系列を表わす音
韻情報領域３３とから成る。

「私は」という文節の場合、「私は」に対して
漢字単語辞書記憶装置１４の見出し語との一致を
調べて行く。この場合、「私は」に一致検出され
た漢字単語の文字列のうち、最も長いのは〓私〓
である。文字「私」には読み方が２通りあるが、
単独の単語として用いる時には、
「WATAKUSHI」という読み方しかないので、
漢字単語辞書記憶装置１４には１つしか登録して
おかない。

そこで、この〓私〓に関する情報のうち、音韻
情報である「WATAKUSHI」という情報を漢字
単語照合回路１５の中の記憶レジスタに一時記憶
する。漢字単語辞書に該当する見出し語が複数あ
る場合には、一致した文字数の多いものから、つ
まり最長マツチの単語から順次候補単語として用
いる。

次に、候補単語の文字列を取り除き、残余文字
列をつくる。このとき、候補単語の音韻系列が、
その前に区切り符号を付けられて、音韻系列レジ
スタ２２に送られる区切り符号は、原則として自
立語の前に付けられる。この例では、「私は」か
ら「私」を取り除き残余文字列は「は」となる。
この残余文字「は」に対して、前述の候補単語が
名詞であつて活用語でないので、活用語尾検定回
路１６には行かず、付属語照合回路１８での照合
処理を行う。

この付属語照合回路１８での照合は、付属語辞
書記憶装置２１に格納された付属語辞書を用いて
行う。この付属語辞書には、単独の助詞、助動詞
及び助詞と助動詞が複数個結合した形が登録され
ている。この辞書には、付属語が自立語に接続す
るときの条件（前接続条件と呼ばれる。）及び付
属語に対応する音韻系列が格納されている。

この例の場合の残余文字列「は」を照合してみ
ると、付属語辞書に見出し語として「は」、音韻
系列として「wa」が登録されている。従つて、
残余文字列「は」が付属語として照合されてい
る。この照合された付属語に対して前接続条件に
よる検定を行う。

付属語辞書には、付属語「は」の前接続条件と
して、体言に接続可能であることが登録されてい
る。この例の場合の「は」は名詞「私」に接続し
ているので、前接続条件を満たすことが検定され
る。この場合、付属語であるので、区切り符号を
前に付けることなしに、音韻情報「wa」が音韻
系列レジスタ２２に送られる。

仮りに、前接続条件を満たさない場合には、そ
の候補単語が不合格となり、次の候補単語に対し
て上記の処理が繰り返して行われる。

次に、第２の文節「会社には」に対しても同様
な処理が施され音韻系列レジスタ２２に、「
kaishaniwa」という音韻系列が収納される。

次に、「行かない」という文節に対して、漢字
単語照合回路１５によつて候補単語として〓行〓
（自五か「Ｉ」）〓行〓（他五わ「OKONA」）とい
う２つが上がる。

第１の候補単語として、〓行〓（他五わ
「OKONA」）を用いたとする。このとき、この
候補単語が用言であるので、残余文字列「かな
い」について活用語尾検定回路１６で検定する。

この活用語尾検定回路１６には、活用表が記憶
されている。そこでまず文法情報「他五わ」を参
照して、この活用表を指定する。すると、「わ」
（未然１）、「わ」（未然２）、「わ」（未然３）、「
お」
（未然４）、「い」（連用１）、「つ」（連用２）、「
う」
（終止）、「う」（連体）、「れ」（仮定）、「れ」（
命
令）という活用がわかる。

この活用語尾と、残余文字列「かない」との検
定を行う。すると、すべての活用語尾が不合格と
なる。従つて、この第１の候補単語は採用されな
い。

次に、第２の候補単語として、〓行〓（自五か
「Ｉ」）を用いる。この場合にも、文法情報により
〓行〓が動詞なので、前述と同様に、残余文字列
「かない」について、活用語尾検定回路１６で検
定する。

文法情報が「自五か」であることから、活用語
尾検定回路１６内の活用表から、「か」（末然１）、
「か」（末然２）、「か」（未然３）、「こ」（未然４
）、
「き」（連体）、「け」（仮定）、「け」（命令）とい
う
活用がわかる。

この活用語尾表を用いて、残余文字列「かな
い」との検定を行う。すると、残余文字列「かな
い」の〓か〓が未然形の活用語尾であることがわ
かる。「か」はこれで語尾検定できたことになる。

活用語尾が検定で合格のとき、文節切り回路１
２によつて分離された文節文字列から第２の候補
単語及び活用語尾とを取り除く。すると「ない」
という残余文字列ができる。ここで、候補単語の
音韻系列がその前に区切り符号が付けられて、音
韻系列レジスタ２２に送られる。ここで、活用語
尾の音韻系列が、区切り符号を付けられずに、音
韻系列レジスタ２２に送られる。

活用語尾検定回路１６での活用語尾の活用形
「未然形」という情報を参照しながら、残余文字
列「ない」を、辞書照合順序判定回路１９に送
る。

この辞書照合順序判定回路１９では、用言につ
いて、活用語尾の活用形が、連体形又は連用形の
場合には、残余文字列を、ひらがな自立語照合回
路１７に送り、それ以外の活用形の場合は、付属
語照合回路１８に送る。ただし、活用語尾が連用
形又は連体形以外の場合には、文字列を付属語照
合回路１８に送り、照合を行う。

この例の残余文字列「ない」の場合には、この
残余文字列の前におかれている動詞の活用語尾が
「未然形」であるため、付属語照合回路１８に、
残余文字列「ない」が送られる。

付属語照合回路１８では、前述と同様に付属語
辞書を用いて、付属語の検定を行う。ここで、
「ない」が助動詞として検定合格になると、音韻
系列「nai」が区切り符号を付けられずに、音韻
系列レジスタ２２に収納される。

以上で「私は会社には行かない。」という文が
音韻系列に変換された。

例えば、「美しいひとが」という文節を例にと
つて説明する。まず、漢字単語照合回路１５に於
いて、〓美し〓が分離される。この〓美し〓は、
形容詞であり、その音韻系列が
「UTSUKUSHI」である。この音韻系列が、区
切り符号を前に付けられて、音韻系列レジスタ２
２に送られる。

次に、〓美し〓が形容詞であることから、残余
文字列「いひとが〓が活用語尾検定回路１６に送
られ、活用語尾の検定を行う。すると、〓い〓は、
終止形又は連形であることがわかる。しかし、文
字列が続くときには、その文字列中に終止形が現
われることはないので、〓い〓は語尾検定されし
かも連体形であることがわかる。そして、この音
韻系列「Ｉ」が音韻系列レジスタ２２に送られ
る。区切り符号は付けられない。以下では、残余
文字列として「いひとが」から〓い〓が取り除か
れた「ひとが」を用いる。

この活用語尾が連体形であるという情報に基づ
いて、辞書照合順序判定回路１９では、残余文字
列「ひとが」を、ひらがな自立語照合回路１７に
送る。活用語尾が連体形又は連用形の場合には、
この活用語尾に接続する単語が自立語であること
が多いからである。

ひらがな自立語辞書を検索すると〓ひと〓が照
合される。この〓ひと〓の文法情報は名詞であり
その音韻系列は「HITO」である。この音韻系列
はその前に区切り符号が付されて音韻系列レジス
タ２２に送られる。

次に、残余文字列「が」を付属語照合回路１８
で照合する。すると、この「が」が格助詞で、そ
の音韻系列が「GA」であると照合される。しか
も、前接続条件を満足している。これは検定合格
であり、音韻系列「GA」が音韻系列レジスタ２
２に送られる。ただし、音韻系列の前に、区切り
符号は付けない。これで、音韻系列レジスタ２２
には、「UTSUKUSHIIHITOGA」が収納され
音韻変換完了する。

他方、付属語照合回路１８での検定が不合格の
場合は、一般的に次のような処理を行う。即ち、
一致検出された付属語のうちで次に長いものにつ
いて以上と同様の処理を行う。

ここで、最終的に合格する付属語がないとき、
すなわち、付属語辞書照合に失敗したときには、
ひらがな自立語照合回路１７に、文字列を送る。

以上の処理を繰り返すことによつて、文字列を
正しく音韻系列に変換でき、しかも、音韻系列の
区切りも検定することができる。

以上の実施例において、ひらがな自立語であつ
ても、活用語尾の検定は、活用語尾検定回路１６
で行う。

又、文節切り回路１２によつて行われる仮りの
文節切りが適切なものでない場合でも漢字単誤照
合回路１５、ひらがな自立語照合回路１７、付属
語照合回路１８での照合により修正される。

更に、この発明では、すべてひらがなで表わさ
れた文章であつても音韻系列に変換できる。この
時には、文節切り回路１２は、機能せず、文節に
分離することはできない。しかしながら、ひらが
な自立語照合回路１７及び付属語照合回路１８に
よつて正確に音韻系列に変換できる。

以上この発明の実施例につき詳説したが、この
発明は、この実施例に限定されるものではない。
この発明の趣旨を逸脱しない限りどのような変形
をもこの発明に含まれるのは当然である。

【図面の簡単な説明】

第１図は、一実施例の構成図、第２図は、第１
図に示される漢字単語辞書記憶装置内のバイト構
成を示す図である。１４……漢字単語辞書記憶装置、１５……漢字
単語照合回路、１６……活用語尾検定回路、１７
……ひらがな自立語照合回路、１８……付属語照
合回路、１９……辞書照合順序判定回路、２０…
…ひらがな自立語辞書記憶装置、２１……付属語
辞書記憶装置。

Claims

【特許請求の範囲】１漢字で始まる単語文字列、この単語文字列の
文法情報及びこの単語文字列に対応する音韻系列
とを記憶する漢字単語辞書記憶手段と、ひらがな自立語、このひらがな自立語の文法情
報及びこのひらがな自立語に対応する音韻系列と
を記憶するひらがな自立語辞書記憶手段と、付属語、この付属語とこれに先行する単語との
接続に関する接続条件及びこの付属語に対応する
音韻系列とを記憶する付属語辞書記憶手段と、漢字を含む入力文字列と前記漢字単語辞書記憶
手段に記憶されている単語文字列との照合を行な
う漢字単語照合手段と、この漢字単語照合手段により照合された前記単
語文字列の文法情報から前記単語文字列が用言で
ある場合には、活用語尾の検定を行なう活用語尾
検定手段と、この漢字単語照合手段により照合された前記単
語文字列の文法情報から前記単語文字列が用言で
ない場合には、前記入力文字列から前記漢字単語
照合手段により照合された前記単語を取り除いた
残余文字列について、前記付属語辞書記憶手段の
前記接続条件を満たす付属語であるか否かの検定
を行なう付属語検定手段とを備え、前記活用語尾検定手段によつて検定された活用
語尾が連体形または連用形のときは、前記入力文
字列から前記活用語尾検定手段により照合された
漢字単語及びその活用語尾を取り除いた残余文字
列について、前記ひらがな自立語辞書記憶手段に
記憶されているひらがな自立語の文法情報をもち
いて前記連体形または連用形に続くひらがな自立
語であるか否かの検定を行ない、他方前記活用語尾が連体形または連用形以外の
ときは、前記残余文字列を前記付属語照合手段に
供給して付属語であるか否かの検定を行なうこと
によつて、文字音韻変換を実行することを特徴と
する文字音韻変換装置。