JPH0415503B2

JPH0415503B2 -

Info

Publication number: JPH0415503B2
Application number: JP57199271A
Authority: JP
Inventors: Tooru Kanamori; Makoto Sueda; Tadayasu Sugita
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1982-11-12
Filing date: 1982-11-12
Publication date: 1992-03-18
Also published as: JPS5990167A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は自動翻訳や文字音声変換等のために、
文字で表現された文章から、その文章を構成する
個々の単語を切分ける単語の同定装置に関する。

〔発明の背景〕

自動翻訳、あるいは文字音声変換においては、
文章の解析が必須である。特に日本語のような単
語境界が不明確で、同字異議語、同字異音語の多
い言語では、単語境界の判定と語の同定が重要で
あり、かつ難しいものである。例えば、「畜産物
価格安定法」の単語構成では、イ畜産物・価格・安定法ロ畜産・物価・格安・定法ハ畜産・物価格・安定法などいくつか考えられるが、が正解であると判
定できなければならない。

〔発明の従来技術〕

文章内の単語を同定するためには、従来、最長一致と又法的接続関係を用いて順次検索
判定する方法可能性のあるすべての候補文字列単位の組合
わせを抽出し、各々を評価関数を用いて評価
し、最良の組合わせを選択する方法が考えられていた。しかし、では最適解が得られない場合があり、処理も
複雑であつた（バツクトラツクが必要）。

また、では組合わせの数が膨大となり長い文
字列に適用することはできなかつた。

〔発明の目的〕

本発明は日本語のような単語境界の明確でない
文章を解析して、文章を構成する単語などの文字
列単位の境界を判定し、さらに各文字列単位を同
定する作業に関し、正確な解析を簡単かつ少ない
処理にて行うことを目的とする。

〔発明の構成〕

上記の目的を達成するため、本発明は複数の文
字列単位からなる文章を解析して、文章を構成す
る文字列単位を同定する文章解析装置において、
各文字列単位に付与され、各文字列単位の照合の
用いる文字コードを有する文字列単位辞書１と、入力文章を該文字列単位辞書の文字コードと照
合し、入力文章の構成単位となり得るすべての候
補文字列単位を抽出する辞書照合部２と、上記抽出したすべての候補文字に関して、周囲
の状況によらない評価である第１の評価点と、該
候補文字列までの合計評価点に該候補文字列に対
する他の候補文字列との文法的接続関係による評
価を加えた第２の評価点とを、各境界単位にその
都度求め、該求められた該第１の評価点と該第２
の評価点を用いて候補文字列と他の候補文字列と
の同定位置を、各境界単位に動的計画法に従いそ
の都度決定していき、文字列単位を同定するDP
部３とを具備することを特徴とする。

以下図面により詳細に説明する。

第１図は具体的文章について、上記の従来例
による場合と、本発明による動的計画法（以下、
DP法と称す）による場合とを比較したものであ
る。文章解析装置には予め考えられ得るすべての
文字例単位（いわゆる単語の他に慣用的な単語
列、文字列も含む）が記憶されている。図の例で
は文字「島」には「シマ」と「トウ」との各々の
読みに対して１つづつの文字列が用意されてい
る。

また、「から」という読みに対しては５種類の
文字列、例えば名詞としての「殻」、「唐」、各助
詞としての「〜から」などが用意されている。

さらに「か」の文字単独についても６種類の文
字列（１文字のものも含めて文字列と称する）、
例えば疑問を表わす「〜か？」、選択の意を表わ
す「〜か〜か」、反問を表わす「か」などが用意
されている。他の文字についても同様である。

図示Ａの部分は従来例で述べたように、すべ
ての組合わせについて評価するとした場合の組合
わせの数を示しており、10万通り以上の組合わせ
となり、実用的でないことが判る。

図示Ｂの部分は本発明のDP法による場合で、
文頭、文末（読点）を示す文字列を含めても、わ
ずか288回の処理で済むことが判る。

〔発明の実施例〕

第２図は本発明のDP法の概念を説明する図で
あり、ある語境界に注目し、その境界で終わる文
字列がイ、ロの２種類、その境界から始まる文字
列がα，β，γの３種類ある場合を示している。

ある文字例（Ｘとする）を選択した場合、Ｘま
での合計評価点をｇ（Ｘ）とし、Ｘに関して周囲
状況によらない評価を（Ｘ）、他の文字列Ｙと
の接続関係による評価をＣ（Ｘ，Ｙ）とする。

このとき第２図に示す境界における左側から右
側へ評価を進める場合に、以下の如くの処理を行
う。

ｇ(イ)＋Ｃ（イ，α）ｇ（α）＝（α）＋MAX ｇ(ロ)＋Ｃ（ロ，α）ｇ(イ)＋Ｃ（イ，β）ｇ（β）＝（α）＋MAX ｇ(ロ)＋Ｃ（ロ，β）ｇ(イ)＋Ｃ（イ，γ）ｇ（γ）＝（α）＋MAX ｇ(ロ)＋Ｃ（ロ，γ）尚、MAX｛｝はカツコ内の最大値をとるこ
とを意味する。

このように左から（文の頭から）順に各文字列
について、自分自身の評価と、１つ前の文字列と
の接続関係による評価とから、その場所における
自分の評価を求めていくことを各境界において行
つていく。

尚、第１図の矢印Ｃの如く、一部の文字列にと
つてのみ境界となる位置においてもその文字列に
ついて上記と同様の処理をすればよい。

また評価点のとり方によつてはMAX｛｝の
代わりにMIN｛｝を用いてもよい。

また本来の文字列を加えて、文頭及び文末（読
点があれば不要）を示す文字列を考慮する。

このようにして次々と評価を求めていくと、最
後の文字列（読点）の評価を求める際に、その直
前にあるいくつかの文字列候補（第１図の例では
10通りの候補）の中のどれとつながる場合が最大
値となるかが判る。よつてその最大値を与える文
字列候補を順にたどつていけば、最適な文字列単
位の組合わせが得られることとなる。

次に第３図，第４図を用いて、本発明のDP法
を実現する具体的一実施例について述べる。

第３図は本発明の一実施例の概略ブロツク図で
あり、１は文字列単位辞書、２は辞書照合部、３
はDP部である。

文字列単位辞書１には、各文字列単位に対する
文字列単位の表記（照合に用いる文字コード）の
他DP部３で用いる接続関係情報（右側及び左側
の接続関係の識別を番号で表したもの）、周囲の
文字列によらず定まる評価点、文字列単位番号等
をあらかじめ設定しておく。

辞書照合部２は入力文章を文字列単位辞書１と
照合することにより、入力文章の構成単位となり
得るすべての候補文字単位を抽出し、その結果を
DP部に設定する。

そしてDP部において、第２図に関連して説明
したことい評価計算によつて、どの文字列単位の
組合わせが最も好ましいかを決定する。

尚、辞書照合部２の機能および構成は従来技術
と同様でよいので、以下にはDP部３について詳
述する。

第４図はDP部３の一実施例ブロツク図である。

各部の説明は以下の通りである。

WM：候補文字列単位の情報を格納するメモリで
あり、以下のＡ〜Ｐの各部からなり、WHAに
WM内アドレスを入力し、Ｒに信号を与えるこ
とにより１度に１文字列単位の各部の情報を出
力し、Ｗに信号を与えることにより、Ｇ及びＰ
に情報を読み込み記憶する。Ａ，Ｂ，Ｖ，Ｎは
辞書照合部により設定される。Ｇ部は辞書照合
部により０に初期設定される。

Ａ：文字列単位（以下単語と略す）の前方接続関
係の種別を格納している。

Ｂ：単語の後方接続関係の種別を格納している。

Ｖ：単語の周囲の文字列によらず定まる評価点
（xi）を格納している。

Ｎ：単語の単語番号を格納している。

Ｇ：その単語までの総合評価点Ｇ（xi）を格納し
ている。

Ｐ：その単語までの最も良い評価点を与える１つ
前の単語のWM内アドレスを格納する。

EWM：Ｃ３およびＣ１の内容の上位及び下位の
アドレスとしてアクセスされるメモリであり、
Ｃ３にて示される境界にて終了する単語の情報
の格納されているWM内アドレスが辞書照合部
により設定されている。

BWM：EWMと同様に、Ｃ３にて示される境界
にて始まる単語の情報の格納されているWM内
アドレスが辞書照合部により設定されている。

Ｃ１：Ｃ１Ｕに信号が与えられると１増加し、Ｃ
１Ｃに信号を与えられる０にクリアされるカウ
ンタであり、ある境界にて終了単語のEWM内
の順番を示す。

Ｃ２：Ｃ２Ｃに信号が与えられると１増加し、Ｃ
２Ｃに信号を与えられる０にクリアされるカウ
ンタであり、ある境界にて終了単語のBWM内
の順番を示す。

Ｃ３：Ｃ３Ｃに信号が与えられると１増加し、Ｃ
３Ｃ信号を与えられると０にクリヤされるカウ
ンタであり、境界の番号を示す。

r₅：１つの文章に対する境界番号の上限を示すレ
ジスタであり、辞書照合により設定される。

COMP₄：Ｃ３及びr₅の値を比較し、Ｃ３＞r₅の
場合、Ｃ３Ｅの信号を発する比較器。

COPM₁：EWMより読み出される出力が０、即
ち１つの境界に対する単語に対する単語の終わ
りを表わす符号であるか否かをチエツクするロ
ジツクで、０の場合Ｃ１Ｅの信号を発する COMP₃：COMP₁と同様にBWMよりの出力をチ
エツクし、Ｃ２Ｅを発するロジツク。

r₄：判定結果を読み出すためにWM内のアドレス
を一時格納するレジスタ。

MPX：Ｓに与えられた信号によりWMAをEWM
の出力又はr₄の出力に切換えるアドレスマルチ
プレクサ。

r₁：WMのＡよりBWMによりアクセスされたあ
る境界より始まる単語の前方接続関係の種別を
保持するレジスタで、r₁L信号によりロードを
行う。

Ｔ：ある境界より始まる単語の前方接続関係及び
その境界で終わる単語の後方接続関係により定
まる接続関係の評点を定める定数メモリであ
り、r₁及びEWMによりアクセスされるWMの
Ｂ部の値によりアクセスされ、１つの評点を出
力するものである。

r₂：BWMによりアクセスされるWMのＶ部の値
を保持するレジスタで、r₂L信号によりロード
を行う。

ADD：Ｔの出力、r₂及びEWMによりアクセスさ
れるWMのＧ部の値を加算する加算器である。

r₆：ある境界より始まるある単語に対する一連の
処理中、ADDの出力の最大値を保持するレジ
スタであり、r₆C信号を入力することによりク
リアされる。

r₃：ある境界より始まるある単語に対する一連の
処理中、ADDの出力の最大値を与える単語情
報のWM内アドレスを保持するレジスタであ
る。

COMP₃：ADDの出力と、r₆の出力とを比較する
比較器であり、ADD出力＞r₆出力の場合、
r₃₆Lの信号を出力してr₆にADDの出力、r₃に
EWMの出力をロードさせる。r₃₆Lに挿入され
ているゲートは、CL信号によつて同期をとる
ためのものである。

TMG：Ｃ１Ｅ，Ｃ２Ｅ，Ｃ３Ｅを入力し、Ｃ１
Ｕ，Ｃ１Ｃ，Ｃ２Ｕ，Ｃ２Ｃ，Ｓ，Ｒ，Ｗ，
r₁L，r₂L，r₆C，r₄L，Ｃ３Ｃ，Ｃ３Ｕを出力す
るタイミング制御回路であり、以下に述べる動
作手順に従い、各信号の制御を行うものであ
る。

第５図はEWMの内容の一例を第１図の例に沿
つて示したもので、Ｘ１，Ｙ１〜Ｙ２，Ｚ１〜Ｚ
６，ZZ１〜ZZ９等はWM内アドレスを意味する。
そして例えばＣ３＝0011の境界が第１図の矢印ｄ
の位置に相当する。BWMについても同様である
ので省略する。

以下に１つの文章を解析するための手順を示
す。

尚、本例では、単語Ｘ，Ｙ間の接続関係による
評点Ｃ（Ｘ，Ｙ）として第４図における定数テー
ブルＴの出力を用い、かつ、ｇ（X₁）＋Ｃ（Ｘ，Ｙ）の計算手順で（Ｙ）＋max ｇ（X₂）＋Ｃ（X₂，Ｙ）Ｖ（Ｙ）＋Ｇ（X₁）＋Ｔ（X₁，Ｙ） max Ｖ（Ｙ）＋Ｇ（X₁）＋Ｔ（X₁，Ｙ）としている。

また、r₅、EWM，BWM，Ａ，Ｂ，Ｖ，Ｎ，
Ｇは各項で説明したように辞書照合部２により初
期設定されているものとする。またWMのアドレ
ス０には、考え得る最も小さいADD出力を与え
るようなＢ，Ｖ，Ｇが格納されているものとす
る。

(1) Ｃ３Ｃ信号を発し、Ｃ３（境界番号）を０ク
リアする。

(2) Ｃ２Ｃ信号を発し、Ｃ２（その境界より始ま
る単語のBWM内の順番）を０クリアする。

(3) Ｓ信号を発し、MPXをBWMの出力に切り
かえる。

(4) Ｒ信号を発し、WMよりその境界より始まる
Ｃ２にて示される単語のＡ及びＶを出力させ
る。

(5) r₁L，r₂L信号を発し、r₁及びr₂にＡ及びＶの
出力をロードする。

(6) Ｃ１Ｃ信号を発し、Ｃ１（その境界にて終了
する単語のEWM内の順番）を０クリアする。

(7) Ｓ信号を発し、MPXをEWMに出力に切り
かえる。

(8) r₆C信号を発し、r₆（その境界より始まる１単
語に対するADDの出力の最大値）を０クリア
する。

(9) 一定周期でCIEに信号が現れるまで、CIU及
びCL信号を発生させることにより、その境界
より始まる１単語に対するADD出力の最大値
及びその最大値を与える単語情報のWM内アド
レスをそれぞれr₆，r₃に格納させる。

(10) Ｓ信号を発し、MPXの出力をBWMの出力
に切りかえる。

(11) Ｗ信号を発し、r₆及びr₃の内容をＧ及びＰ
に書き込む。

(12) Ｒ，r₄L信号に発し、書き込んだＰの内容
をr₄にロードする。

(13) Ｃ２Ｕ信号を発し、Ｃ２Ｕを１増加させ
る。

(14) (4)〜（13）までの手順をＣ２Ｅ信号が現れ
るまで繰り返す。

(15) Ｃ３Ｕ信号を発し、Ｃ３Ｕを１増加させ
る。

(16) (2)〜（15）までの手順をＣ３Ｅに信号が現
れるまで繰り返す。

(17) Ｓ信号を発し、MPXの出力をr₄に出力に切
りかえる。

(18) Ｒ信号を発し、Ｎを出力する。

(19) r₄L信号を発し、Ｎを出力する。

(20) （18）、（19）を繰り返すことにより、順次
判定結果である単語情報Ｎを読み出す。

以上の手順により、判定結果を文章の後方の単
語より順次出力する。

上記の実施例では、各メモリやレジスタ等を専
用のハードウエアとして設けるものとして説明し
たが、汎用計算機を用いてソフトウエアにより実
現することも可能である。第６図に処理フローを
示す。

上記、周囲の文字列によらぬ固有の評価として
は、候補文字列をかな書きした場合の文字数（発
声した場合の拍数、音節数も含む）又は接頭語、
接尾語を加えた文字数に対応した評価点を用いる
ことができる。

或いは、候補文字列の一般的な（或いは使用分
野を限つた）統計的出現頻度（使用頻度）情報を
利用してもよい。さらには自立語、接辞語、等の
区別を、品詞による区別等を用いてもよい。或い
はそれらの組合わせであつてもよい。

また上記、接続関係による評価としては、前後
の品詞の組合わせの頻度情報、語幹・語尾の接続
頻度、接辞との接続頻度、あるいは文頭、分末に
なる頻度、数字や助数詞との接続頻度などを利用
することができる。あるいは文章全体のどの辺の
位置に置かれる率が高いか等の情報も利用でき
る。

また上記の例では、文頭から文末に向つて評価
計算を行なつたが、文末から文頭に向つて行うこ
ともできる。

さらに、いくつかの部分に分けて行なつてから
全体を統合したり、両方向の処理を組合わせても
よい。

〔発明の効果〕

以上の如く本発明によれば、候補文字列の妥当
性を数値で表現することによりDP法が容易に利
用でき、そのため処理が単純でかつ処理量がきわ
めて少なくて済み、かつ最適解を求めることがで
きる。

【図面の簡単な説明】

第１図は本発明の従来例とを比較する説明図、
第２図は本発明の概念図、第３図は本発明の概略
ブロツク図、第４図は本発明の一実施例ブロツク
図、第５図はEWMの内容の一具体例を示す図、
第６図は本発明の一実施例処理フローチヤートで
ある。第３図において、１は文字列単位辞書、２は辞
書照合部、３はDP部である。

Claims

【特許請求の範囲】１複数の文字列単位からなる文章を解析して、
文章を構成する文字列単位を同定する文章解析装
置において、各文字列単位に付与され、各文字列単位の照合
に用いる文字コードを有する文字列単位辞書１
と、入力文章を該文字列単位辞書の文字コードと照
合し、入力文章の構成単位となり得るすべての候
補文字列単位を抽出する辞書照合部２と、上記抽出したすべての候補文字列に関して、周
囲の状況によらない評価である第１の評価点と、
該候補文字列までの合計評価点に該候補文字列に
対する他の候補文字列との文法的接続関係による
評価を加えた第２の評価点とを、各境界単位にそ
の都度求め、該求められた該第１の評価点と該第
２の評価点を用いて候補文字列と他の候補文字列
との固定位置を、各境界単位に動的計画法に従い
その都度決定していき、文字列単位を同定する
DP部３とを具備することを特徴とする文章解析
装置。２上記第１の評価点の一部又は全部は、該候補
文字列単位をかな表記した場合の文字数に相当す
る情報であることを特徴とする特許請求の範囲第
１項記載の文章解析装置。３上記第１の評価点の一部又は全部は、該候補
文字列単位の使用頻度情報であることを特徴とす
る特許請求の範囲第１項記載の文章解析装置。４上記第１の評価点の一部又は全部は、該候補
文字列単位の品詞情報であることを特徴とする特
許請求の範囲第１項記載の文章解析装置。５上記第２の評価点の一部又は全部は、該候補
文字列単位の文章中に占める位置情報であること
を特徴とする特許請求の範囲第１項ないし第４項
記載の文章解析装置。