JPH0415503B2 - - Google Patents

Info

Publication number
JPH0415503B2
JPH0415503B2 JP57199271A JP19927182A JPH0415503B2 JP H0415503 B2 JPH0415503 B2 JP H0415503B2 JP 57199271 A JP57199271 A JP 57199271A JP 19927182 A JP19927182 A JP 19927182A JP H0415503 B2 JPH0415503 B2 JP H0415503B2
Authority
JP
Japan
Prior art keywords
character string
evaluation
unit
candidate character
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP57199271A
Other languages
English (en)
Other versions
JPS5990167A (ja
Inventor
Tooru Kanamori
Makoto Sueda
Tadayasu Sugita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP57199271A priority Critical patent/JPS5990167A/ja
Publication of JPS5990167A publication Critical patent/JPS5990167A/ja
Publication of JPH0415503B2 publication Critical patent/JPH0415503B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は自動翻訳や文字音声変換等のために、
文字で表現された文章から、その文章を構成する
個々の単語を切分ける単語の同定装置に関する。
〔発明の背景〕
自動翻訳、あるいは文字音声変換においては、
文章の解析が必須である。特に日本語のような単
語境界が不明確で、同字異議語、同字異音語の多
い言語では、単語境界の判定と語の同定が重要で
あり、かつ難しいものである。例えば、「畜産物
価格安定法」の単語構成では、 イ 畜産物・価格・安定法 ロ 畜産・物価・格安・定法 ハ 畜産・物価格・安定法 などいくつか考えられるが、が正解であると判
定できなければならない。
〔発明の従来技術〕
文章内の単語を同定するためには、従来、 最長一致と又法的接続関係を用いて順次検索
判定する方法 可能性のあるすべての候補文字列単位の組合
わせを抽出し、各々を評価関数を用いて評価
し、最良の組合わせを選択する方法 が考えられていた。しかし、 では最適解が得られない場合があり、処理も
複雑であつた(バツクトラツクが必要)。
また、では組合わせの数が膨大となり長い文
字列に適用することはできなかつた。
〔発明の目的〕
本発明は日本語のような単語境界の明確でない
文章を解析して、文章を構成する単語などの文字
列単位の境界を判定し、さらに各文字列単位を同
定する作業に関し、正確な解析を簡単かつ少ない
処理にて行うことを目的とする。
〔発明の構成〕
上記の目的を達成するため、本発明は複数の文
字列単位からなる文章を解析して、文章を構成す
る文字列単位を同定する文章解析装置において、
各文字列単位に付与され、各文字列単位の照合の
用いる文字コードを有する文字列単位辞書1と、 入力文章を該文字列単位辞書の文字コードと照
合し、入力文章の構成単位となり得るすべての候
補文字列単位を抽出する辞書照合部2と、 上記抽出したすべての候補文字に関して、周囲
の状況によらない評価である第1の評価点と、該
候補文字列までの合計評価点に該候補文字列に対
する他の候補文字列との文法的接続関係による評
価を加えた第2の評価点とを、各境界単位にその
都度求め、該求められた該第1の評価点と該第2
の評価点を用いて候補文字列と他の候補文字列と
の同定位置を、各境界単位に動的計画法に従いそ
の都度決定していき、文字列単位を同定するDP
部3とを具備することを特徴とする。
以下図面により詳細に説明する。
第1図は具体的文章について、上記の従来例
による場合と、本発明による動的計画法(以下、
DP法と称す)による場合とを比較したものであ
る。文章解析装置には予め考えられ得るすべての
文字例単位(いわゆる単語の他に慣用的な単語
列、文字列も含む)が記憶されている。図の例で
は文字「島」には「シマ」と「トウ」との各々の
読みに対して1つづつの文字列が用意されてい
る。
また、「から」という読みに対しては5種類の
文字列、例えば名詞としての「殻」、「唐」、各助
詞としての「〜から」などが用意されている。
さらに「か」の文字単独についても6種類の文
字列(1文字のものも含めて文字列と称する)、
例えば疑問を表わす「〜か?」、選択の意を表わ
す「〜か〜か」、反問を表わす「か」などが用意
されている。他の文字についても同様である。
図示Aの部分は従来例で述べたように、すべ
ての組合わせについて評価するとした場合の組合
わせの数を示しており、10万通り以上の組合わせ
となり、実用的でないことが判る。
図示Bの部分は本発明のDP法による場合で、
文頭、文末(読点)を示す文字列を含めても、わ
ずか288回の処理で済むことが判る。
〔発明の実施例〕
第2図は本発明のDP法の概念を説明する図で
あり、ある語境界に注目し、その境界で終わる文
字列がイ、ロの2種類、その境界から始まる文字
列がα,β,γの3種類ある場合を示している。
ある文字例(Xとする)を選択した場合、Xま
での合計評価点をg(X)とし、Xに関して周囲
状況によらない評価を(X)、他の文字列Yと
の接続関係による評価をC(X,Y)とする。
このとき第2図に示す境界における左側から右
側へ評価を進める場合に、以下の如くの処理を行
う。
g(イ)+C(イ,α) g(α)=(α)+MAX g(ロ)+C(ロ,α) g(イ)+C(イ,β) g(β)=(α)+MAX g(ロ)+C(ロ,β) g(イ)+C(イ,γ) g(γ)=(α)+MAX g(ロ)+C(ロ,γ) 尚、MAX{ }はカツコ内の最大値をとるこ
とを意味する。
このように左から(文の頭から)順に各文字列
について、自分自身の評価と、1つ前の文字列と
の接続関係による評価とから、その場所における
自分の評価を求めていくことを各境界において行
つていく。
尚、第1図の矢印Cの如く、一部の文字列にと
つてのみ境界となる位置においてもその文字列に
ついて上記と同様の処理をすればよい。
また評価点のとり方によつてはMAX{ }の
代わりにMIN{ }を用いてもよい。
また本来の文字列を加えて、文頭及び文末(読
点があれば不要)を示す文字列を考慮する。
このようにして次々と評価を求めていくと、最
後の文字列(読点)の評価を求める際に、その直
前にあるいくつかの文字列候補(第1図の例では
10通りの候補)の中のどれとつながる場合が最大
値となるかが判る。よつてその最大値を与える文
字列候補を順にたどつていけば、最適な文字列単
位の組合わせが得られることとなる。
次に第3図,第4図を用いて、本発明のDP法
を実現する具体的一実施例について述べる。
第3図は本発明の一実施例の概略ブロツク図で
あり、1は文字列単位辞書、2は辞書照合部、3
はDP部である。
文字列単位辞書1には、各文字列単位に対する
文字列単位の表記(照合に用いる文字コード)の
他DP部3で用いる接続関係情報(右側及び左側
の接続関係の識別を番号で表したもの)、周囲の
文字列によらず定まる評価点、文字列単位番号等
をあらかじめ設定しておく。
辞書照合部2は入力文章を文字列単位辞書1と
照合することにより、入力文章の構成単位となり
得るすべての候補文字単位を抽出し、その結果を
DP部に設定する。
そしてDP部において、第2図に関連して説明
したことい評価計算によつて、どの文字列単位の
組合わせが最も好ましいかを決定する。
尚、辞書照合部2の機能および構成は従来技術
と同様でよいので、以下にはDP部3について詳
述する。
第4図はDP部3の一実施例ブロツク図である。
各部の説明は以下の通りである。
WM:候補文字列単位の情報を格納するメモリで
あり、以下のA〜Pの各部からなり、WHAに
WM内アドレスを入力し、Rに信号を与えるこ
とにより1度に1文字列単位の各部の情報を出
力し、Wに信号を与えることにより、G及びP
に情報を読み込み記憶する。A,B,V,Nは
辞書照合部により設定される。G部は辞書照合
部により0に初期設定される。
A:文字列単位(以下単語と略す)の前方接続関
係の種別を格納している。
B:単語の後方接続関係の種別を格納している。
V:単語の周囲の文字列によらず定まる評価点
(xi)を格納している。
N:単語の単語番号を格納している。
G:その単語までの総合評価点G(xi)を格納し
ている。
P:その単語までの最も良い評価点を与える1つ
前の単語のWM内アドレスを格納する。
EWM:C3およびC1の内容の上位及び下位の
アドレスとしてアクセスされるメモリであり、
C3にて示される境界にて終了する単語の情報
の格納されているWM内アドレスが辞書照合部
により設定されている。
BWM:EWMと同様に、C3にて示される境界
にて始まる単語の情報の格納されているWM内
アドレスが辞書照合部により設定されている。
C1:C1Uに信号が与えられると1増加し、C
1Cに信号を与えられる0にクリアされるカウ
ンタであり、ある境界にて終了単語のEWM内
の順番を示す。
C2:C2Cに信号が与えられると1増加し、C
2Cに信号を与えられる0にクリアされるカウ
ンタであり、ある境界にて終了単語のBWM内
の順番を示す。
C3:C3Cに信号が与えられると1増加し、C
3C信号を与えられると0にクリヤされるカウ
ンタであり、境界の番号を示す。
r5:1つの文章に対する境界番号の上限を示すレ
ジスタであり、辞書照合により設定される。
COMP4:C3及びr5の値を比較し、C3>r5
場合、C3Eの信号を発する比較器。
COPM1:EWMより読み出される出力が0、即
ち1つの境界に対する単語に対する単語の終わ
りを表わす符号であるか否かをチエツクするロ
ジツクで、0の場合C1Eの信号を発する COMP3:COMP1と同様にBWMよりの出力をチ
エツクし、C2Eを発するロジツク。
r4:判定結果を読み出すためにWM内のアドレス
を一時格納するレジスタ。
MPX:Sに与えられた信号によりWMAをEWM
の出力又はr4の出力に切換えるアドレスマルチ
プレクサ。
r1:WMのAよりBWMによりアクセスされたあ
る境界より始まる単語の前方接続関係の種別を
保持するレジスタで、r1L信号によりロードを
行う。
T:ある境界より始まる単語の前方接続関係及び
その境界で終わる単語の後方接続関係により定
まる接続関係の評点を定める定数メモリであ
り、r1及びEWMによりアクセスされるWMの
B部の値によりアクセスされ、1つの評点を出
力するものである。
r2:BWMによりアクセスされるWMのV部の値
を保持するレジスタで、r2L信号によりロード
を行う。
ADD:Tの出力、r2及びEWMによりアクセスさ
れるWMのG部の値を加算する加算器である。
r6:ある境界より始まるある単語に対する一連の
処理中、ADDの出力の最大値を保持するレジ
スタであり、r6C信号を入力することによりク
リアされる。
r3:ある境界より始まるある単語に対する一連の
処理中、ADDの出力の最大値を与える単語情
報のWM内アドレスを保持するレジスタであ
る。
COMP3:ADDの出力と、r6の出力とを比較する
比較器であり、ADD出力>r6出力の場合、
r36Lの信号を出力してr6にADDの出力、r3
EWMの出力をロードさせる。r36Lに挿入され
ているゲートは、CL信号によつて同期をとる
ためのものである。
TMG:C1E,C2E,C3Eを入力し、C1
U,C1C,C2U,C2C,S,R,W,
r1L,r2L,r6C,r4L,C3C,C3Uを出力す
るタイミング制御回路であり、以下に述べる動
作手順に従い、各信号の制御を行うものであ
る。
第5図はEWMの内容の一例を第1図の例に沿
つて示したもので、X1,Y1〜Y2,Z1〜Z
6,ZZ1〜ZZ9等はWM内アドレスを意味する。
そして例えばC3=0011の境界が第1図の矢印d
の位置に相当する。BWMについても同様である
ので省略する。
以下に1つの文章を解析するための手順を示
す。
尚、本例では、単語X,Y間の接続関係による
評点C(X,Y)として第4図における定数テー
ブルTの出力を用い、かつ、 g(X1)+C(X,Y)の計算手順で (Y)+max g(X2)+C(X2,Y) V(Y)+G(X1)+T(X1,Y) max V(Y)+G(X1)+T(X1,Y) としている。
また、r5、EWM,BWM,A,B,V,N,
Gは各項で説明したように辞書照合部2により初
期設定されているものとする。またWMのアドレ
ス0には、考え得る最も小さいADD出力を与え
るようなB,V,Gが格納されているものとす
る。
(1) C3C信号を発し、C3(境界番号)を0ク
リアする。
(2) C2C信号を発し、C2(その境界より始ま
る単語のBWM内の順番)を0クリアする。
(3) S信号を発し、MPXをBWMの出力に切り
かえる。
(4) R信号を発し、WMよりその境界より始まる
C2にて示される単語のA及びVを出力させ
る。
(5) r1L,r2L信号を発し、r1及びr2にA及びVの
出力をロードする。
(6) C1C信号を発し、C1(その境界にて終了
する単語のEWM内の順番)を0クリアする。
(7) S信号を発し、MPXをEWMに出力に切り
かえる。
(8) r6C信号を発し、r6(その境界より始まる1単
語に対するADDの出力の最大値)を0クリア
する。
(9) 一定周期でCIEに信号が現れるまで、CIU及
びCL信号を発生させることにより、その境界
より始まる1単語に対するADD出力の最大値
及びその最大値を与える単語情報のWM内アド
レスをそれぞれr6,r3に格納させる。
(10) S信号を発し、MPXの出力をBWMの出力
に切りかえる。
(11) W信号を発し、r6及びr3の内容をG及びP
に書き込む。
(12) R,r4L信号に発し、書き込んだPの内容
をr4にロードする。
(13) C2U信号を発し、C2Uを1増加させ
る。
(14) (4)〜(13)までの手順をC2E信号が現れ
るまで繰り返す。
(15) C3U信号を発し、C3Uを1増加させ
る。
(16) (2)〜(15)までの手順をC3Eに信号が現
れるまで繰り返す。
(17) S信号を発し、MPXの出力をr4に出力に切
りかえる。
(18) R信号を発し、Nを出力する。
(19) r4L信号を発し、Nを出力する。
(20) (18)、(19)を繰り返すことにより、順次
判定結果である単語情報Nを読み出す。
以上の手順により、判定結果を文章の後方の単
語より順次出力する。
上記の実施例では、各メモリやレジスタ等を専
用のハードウエアとして設けるものとして説明し
たが、汎用計算機を用いてソフトウエアにより実
現することも可能である。第6図に処理フローを
示す。
上記、周囲の文字列によらぬ固有の評価として
は、候補文字列をかな書きした場合の文字数(発
声した場合の拍数、音節数も含む)又は接頭語、
接尾語を加えた文字数に対応した評価点を用いる
ことができる。
或いは、候補文字列の一般的な(或いは使用分
野を限つた)統計的出現頻度(使用頻度)情報を
利用してもよい。さらには自立語、接辞語、等の
区別を、品詞による区別等を用いてもよい。或い
はそれらの組合わせであつてもよい。
また上記、接続関係による評価としては、前後
の品詞の組合わせの頻度情報、語幹・語尾の接続
頻度、接辞との接続頻度、あるいは文頭、分末に
なる頻度、数字や助数詞との接続頻度などを利用
することができる。あるいは文章全体のどの辺の
位置に置かれる率が高いか等の情報も利用でき
る。
また上記の例では、文頭から文末に向つて評価
計算を行なつたが、文末から文頭に向つて行うこ
ともできる。
さらに、いくつかの部分に分けて行なつてから
全体を統合したり、両方向の処理を組合わせても
よい。
〔発明の効果〕
以上の如く本発明によれば、候補文字列の妥当
性を数値で表現することによりDP法が容易に利
用でき、そのため処理が単純でかつ処理量がきわ
めて少なくて済み、かつ最適解を求めることがで
きる。
【図面の簡単な説明】
第1図は本発明の従来例とを比較する説明図、
第2図は本発明の概念図、第3図は本発明の概略
ブロツク図、第4図は本発明の一実施例ブロツク
図、第5図はEWMの内容の一具体例を示す図、
第6図は本発明の一実施例処理フローチヤートで
ある。 第3図において、1は文字列単位辞書、2は辞
書照合部、3はDP部である。

Claims (1)

  1. 【特許請求の範囲】 1 複数の文字列単位からなる文章を解析して、
    文章を構成する文字列単位を同定する文章解析装
    置において、 各文字列単位に付与され、各文字列単位の照合
    に用いる文字コードを有する文字列単位辞書1
    と、 入力文章を該文字列単位辞書の文字コードと照
    合し、入力文章の構成単位となり得るすべての候
    補文字列単位を抽出する辞書照合部2と、 上記抽出したすべての候補文字列に関して、周
    囲の状況によらない評価である第1の評価点と、
    該候補文字列までの合計評価点に該候補文字列に
    対する他の候補文字列との文法的接続関係による
    評価を加えた第2の評価点とを、各境界単位にそ
    の都度求め、該求められた該第1の評価点と該第
    2の評価点を用いて候補文字列と他の候補文字列
    との固定位置を、各境界単位に動的計画法に従い
    その都度決定していき、文字列単位を同定する
    DP部3とを具備することを特徴とする文章解析
    装置。 2 上記第1の評価点の一部又は全部は、該候補
    文字列単位をかな表記した場合の文字数に相当す
    る情報であることを特徴とする特許請求の範囲第
    1項記載の文章解析装置。 3 上記第1の評価点の一部又は全部は、該候補
    文字列単位の使用頻度情報であることを特徴とす
    る特許請求の範囲第1項記載の文章解析装置。 4 上記第1の評価点の一部又は全部は、該候補
    文字列単位の品詞情報であることを特徴とする特
    許請求の範囲第1項記載の文章解析装置。 5 上記第2の評価点の一部又は全部は、該候補
    文字列単位の文章中に占める位置情報であること
    を特徴とする特許請求の範囲第1項ないし第4項
    記載の文章解析装置。
JP57199271A 1982-11-12 1982-11-12 文章解析装置 Granted JPS5990167A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57199271A JPS5990167A (ja) 1982-11-12 1982-11-12 文章解析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57199271A JPS5990167A (ja) 1982-11-12 1982-11-12 文章解析装置

Publications (2)

Publication Number Publication Date
JPS5990167A JPS5990167A (ja) 1984-05-24
JPH0415503B2 true JPH0415503B2 (ja) 1992-03-18

Family

ID=16405007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57199271A Granted JPS5990167A (ja) 1982-11-12 1982-11-12 文章解析装置

Country Status (1)

Country Link
JP (1) JPS5990167A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6126175A (ja) * 1984-07-06 1986-02-05 インタ−ナショナル ビジネス マシ−ンズ コ−ポレ−ション 複合漢字列分割装置
JPS6391776A (ja) * 1986-09-30 1988-04-22 インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション 自然言語解析装置
JPH02224058A (ja) * 1988-11-15 1990-09-06 Ricoh Co Ltd 自然言語処理システム
JP2526657B2 (ja) * 1989-03-02 1996-08-21 日本電気株式会社 形態素解析装置
JPH03271972A (ja) * 1990-03-20 1991-12-03 Nec Corp 自然言語の翻訳支援装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS589968B2 (ja) * 1979-07-20 1983-02-23 富士通株式会社 カナ漢字変換装置
JPS5714971A (en) * 1980-07-02 1982-01-26 Nec Corp Kana japanese syllabary kanji chinese character conversion device

Also Published As

Publication number Publication date
JPS5990167A (ja) 1984-05-24

Similar Documents

Publication Publication Date Title
US7263488B2 (en) Method and apparatus for identifying prosodic word boundaries
US6188977B1 (en) Natural language processing apparatus and method for converting word notation grammar description data
JPH08248971A (ja) テキスト朗読読み上げ装置
JPS6383799A (ja) 連続音声認識方式
JPH0415503B2 (ja)
KR102338563B1 (ko) 영어 학습을 위한 음성 시각화 시스템 및 그 방법
CN117672182B (zh) 一种基于人工智能的声音克隆方法及系统
JP3371761B2 (ja) 氏名読み音声合成装置
JPH06282290A (ja) 自然言語処理装置およびその方法
JP2001166790A (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP3029403B2 (ja) 文章データ音声変換システム
JPS6083136A (ja) プログラム読上装置
JP2000056788A (ja) 音声合成装置の韻律制御方法
JP3414326B2 (ja) 音声合成用辞書登録装置及び方法
JP3269083B2 (ja) 自然語処理装置
JPH07160685A (ja) 文章読み上げ装置
Monaghan et al. Multilingual TTS for computer telephony: the aculab approach.
JP3084864B2 (ja) 文章入力装置
JP3383538B2 (ja) 形態素解析用平仮名辞書作成装置
JPH06161485A (ja) 合成音声ポーズ設定方式
JPH0375898B2 (ja)
JPS63158599A (ja) 単語検出方式
JP2005017620A (ja) 言語特定方法、言語特定用プログラム及び言語特定方法を用いた機械翻訳システム
JPH0376492B2 (ja)
JPS63111568A (ja) 音声入力付仮名漢字変換装置