JPH077399B2 - Language processing - Google Patents
Language processingInfo
- Publication number
- JPH077399B2 JPH077399B2 JP61273880A JP27388086A JPH077399B2 JP H077399 B2 JPH077399 B2 JP H077399B2 JP 61273880 A JP61273880 A JP 61273880A JP 27388086 A JP27388086 A JP 27388086A JP H077399 B2 JPH077399 B2 JP H077399B2
- Authority
- JP
- Japan
- Prior art keywords
- kana notation
- clause
- phrase
- kana
- bunsetsu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 [産業上の利用分野] 本発明は、日本語連続音声認識装置や、べた書き仮名漢
字変換方式の日本語ワードプロセッサなどに用いる言語
処理法に関するものであり、さらに詳しくは、様々な文
字位置を仮名表記始端および仮名表記終端とする複数の
文節候補、すなわち、いわゆる文節ラティスが与えられ
たとき、それらの候補の確実度と、文節間の係り受けの
整合度を考慮に入れ、日本語の句あるいは文として最適
な文節例が構成されるように文節候補から文節を選択す
ると共にその最適な構文を決定し、かつそれにより得ら
れる最適文節例上の最適構文の日本語の句あるいは文と
しての適格度を計算する技術に関するものである。Description: TECHNICAL FIELD The present invention relates to a language processing method used in a Japanese continuous speech recognition device, a Japanese word processor of a solid kana-kanji conversion method, and the like. , Given multiple bunsetsu candidates with various character positions as the beginning and ending of kana notation, that is, so-called bunsetsu lattices, consider the certainty of those candidates and the matching degree of dependency between bunsetsus. Insert a sentence, select a bunsetsu from bunsetsu candidates so that an optimum bunsetsu example is constructed as a Japanese phrase or sentence, determine its optimum syntax, and obtain the optimum syntax on the optimum bunsetsu example in Japanese. It relates to a technique for calculating the eligibility as a phrase or a sentence of.
[従来の技術] 日本語連続音声認識やべた書き仮名漢字変換方式日本語
ワードプロセッサにおいて、適切な最終的処理結果を得
るためには、 (A)形態素分割による多義性 (B)同音語による多義性 の2つの多義性を解消しなければならない。仮名文字列
が与えられたとき、それが文節をなすかどうかを判定す
ること、また文節をなすならば、その仮名文字列を仮名
表記として持つ同音文節を全て列挙することは、文節を
入力単位とする従来の日本語ワードプロセッサで既に行
われているように、単語辞書と文節内での単語接続規則
を用いて、自動的に行うことができる。従って、上述の
多義性は次のように言い換えてもよい。[Prior Art] In order to obtain an appropriate final processing result in a Japanese word processor of Japanese continuous speech recognition or a solid kana-kanji conversion method, (A) polymorphism by morpheme division (B) polymorphism by homophones The two ambiguities of must be resolved. When a kana character string is given, it is judged whether or not it forms a phrase, and if it forms a phrase, enumerating all the homophonic phrases that have that kana character string as the kana notation is the input unit of the phrase. This can be done automatically by using a word dictionary and word connection rules in clauses, as has been done in the conventional Japanese word processor. Therefore, the above ambiguity may be paraphrased as follows.
(A′)与えられた仮名文字列を文節単位に区切る区切
り方の多義性 (B′)文節単位に区切られた各部分仮名文字列を仮名
表記とする同音文節が複数個存在することからくる多義
性 以上のような多義性を解消し、妥当な文節単位の区切り
と、区切られた各部分文字列を仮名表記として持つ適切
な文節を定める問題は、これまで主に日本語ワードプロ
セッサの分野で研究されてきた。以下にかかる従来技術
について述べる。(A ') Ambiguity of delimiting a given kana character string in bunsetsu units (B') It comes from the fact that there are a plurality of homophones in which each partial kana character string delimited in bunsetsu units is a kana notation Ambiguity The problem of eliminating the above-mentioned polysemy and defining a proper segmentation and an appropriate segment having each delimited substring as kana notation has been mainly in the field of Japanese word processors. Has been studied. The related art will be described below.
(1)与えられた仮名文字列を文節単位に区切る方法と
して、二文節最長一致法がある(牧野寛、木沢誠: 情報処理学会論文誌、vol.20,No.4,pp.337−345(197
9)。これは、連続する二文節の長さを分かち書きの尺
度とし、二文節形として最長の解釈を与える区切りを二
文節間の境界と認定する方法である。(1) As a method of dividing a given kana character string into bunsetsu units, there is a two-bunsetsu longest match method (Makino Hiroshi, Kizawa Makoto: IPSJ Transactions, vol.20, No.4, pp.337-345 (197
9). This is a method in which the length of two consecutive bunsetsus is used as a scale for segmentation and the boundary that gives the longest interpretation as a two bunsetsu form is recognized as the boundary between the two bunsetsus.
(2)同じく仮名文字列を文節単位に区切る方法とし
て、文節数最小法が知られている(吉村賢治、日高達、
吉田将:文節数最小法を用いたべた書き日本語文の形態
素解析、情報処理学会論文誌、vol.24,No.1,pp.40−46
(1983)。これは、与えられた仮名文字列を文節単位に
区切ったときにできる文節の個数が最小になるような区
切り方を、最適な区切り方とする方法である。(2) Similarly, as a method of dividing a kana character string into bunsetsu units, the minimum bunsetsu number method is known (Kenji Yoshimura, Tatsu Hidaka,
Masashi Yoshida: Morphological analysis of solid Japanese sentences using the minimum number of clauses, IPSJ Journal, vol.24, No.1, pp.40-46
(1983). This is a method of optimizing a division method that minimizes the number of clauses formed when the given kana character string is divided into clause units.
以上の二つの方法は、いわゆるヒューリスティックな方
法であり、最適な区切り方の基準に明確な根拠があるわ
けではない。また、文節単位に区切られた仮名文字列を
仮名表記とする複数の文節候補から適切な文節を自動的
に選択する機能はなく、従来の、文節単位で分かち書き
して入力するワードプロセッサと同様に、単語の使用頻
度の情報を用いて、複数の文節候補に順位を付けて出力
し、後は使用者の選択に任せる等の処置が必要になる。The above two methods are so-called heuristic methods, and there is no clear basis for the optimal division method. Also, there is no function to automatically select an appropriate phrase from multiple phrase candidates that use kana notation as a kana character string delimited by phrase unit, like the conventional word processor that divides and inputs in phrase units. It is necessary to take a measure such as ranking and outputting a plurality of phrase candidates by using information on the frequency of use of words, and letting the user make selections thereafter.
(3)与えられた仮名文字列を二文節最長一致法で文節
単位に区切った後、文節間の係り受け解析を行って、文
節候補の中から構文的に最も適切な文節を選択する方法
がある(牧野寛、木沢誠:べた書き文の仮名漢字変換シ
ステムとその同音語処理、情報処理学会論文誌、Vol.2
2,No.1,pp.59−67(1981))。この方法は、文節候補か
ら出力すべき文節を選択するに当たって、日本語の構造
を利用している点で、上記(1),(2)の方法より優
れている。しかし、二文節最長一致法自体がヒューリス
ティックな方法であり、常に最適な文節単位への区切り
方が得られるとは限らないこと、また、処理を簡単にす
るため、係り受けの関係は規則的に許される限り、最も
近い文節間で成立するという、現実には満たされないこ
ともあるヒューリスティックスを用いているという問題
がある。(3) The method of selecting the syntactically most appropriate bunsetsu from the bunsetsu candidates by dividing the given kana character string into bunsetsu units by the two-bunsetsu longest matching method and then performing dependency analysis between bunsetsu Ar (Hiroshi Makino, Makoto Kizawa: Kana-Kanji conversion system for solid writing and its homophone processing, Journal of Information Processing Society of Japan, Vol.2
2, No. 1, pp. 59-67 (1981)). This method is superior to the above methods (1) and (2) in that the Japanese structure is used in selecting a phrase to be output from the phrase candidates. However, the longest two-bunsetsu matching method itself is a heuristic method, and it is not always possible to obtain the optimum way of separating into bunsetsu units. As far as it is allowed, there is a problem that heuristics are used that are the closest between clauses and that are sometimes not satisfied in reality.
上記(A′),(B′)の多義性を解消するためには、
理想的には、与えられた仮名文字列を文節単位に区切る
あらゆる可能な区切り方、および、その際の文節単位に
区切られた部分仮名文字列を仮名表記とする文節からな
る、あらゆる可能な文節列の中から、日本語の文あるい
は句としての適格性と、単語の使用頻度などから得られ
る各文節の確実度の双方を考慮して、最適な区切り方
と、その区切り方における最適な文節例を選択すべきで
ある。この考え方を採ったものに次の論文がある。In order to eliminate the ambiguity of (A ') and (B'),
Ideally, all possible delimiters that divide the given kana character string into bunsetsu units, and all possible clauses that consist of bunsetsu that uses the partial kana character string that is separated into bunsetsu units as the kana notation Considering both the eligibility as a Japanese sentence or phrase and the certainty of each phrase obtained from the frequency of use of words, etc., from among the columns, the optimal segmentation method and the optimal segmentation in that segmentation method An example should be selected. The following paper is based on this idea.
(4)大島義光、阿部正博、湯浦克彦、武市宣之:格文
法による仮名漢字変換の多義解消、情報処理学会論文
誌、Vol.27,No.7,pp.679−687,(1986)。(4) Yoshimitsu Oshima, Masahiro Abe, Katsuhiko Yuura, Nobuyuki Takeichi: Disambiguation of kana-kanji conversion by case grammar, IPSJ Journal, Vol.27, No.7, pp.679-687, (1986).
しかし、この方法においては、枚挙法で処理を行おうと
しているため、計算量が膨大になってしまうので、結
局、構文解析を行う前に局所的な情報により文節列の数
を絞らなければならず、あらゆる可能性の中から最適な
ものを選択するという本来の考え方が生かされないとい
う問題があった。However, in this method, since the processing is enumerated by the enumeration method, the amount of calculation becomes enormous, so in the end, the number of bunsetsu strings must be narrowed down by local information before parsing. However, there was a problem that the original idea of selecting the optimum one from all possibilities could not be utilized.
文節集合の列が与えられた時、文節間の係り受けの整合
度と、各文節の確実度の双方を考慮して最適な文節例を
選択するアルゴリズムについては次の文献に記された方
法がある。Given a sequence of bunsetsu sets, the method described in the following document is used as an algorithm for selecting the optimum bunsetsu example in consideration of both the consistency of dependency between bunsetsu and the certainty of each bunsetsu. is there.
(5)尾関和彦:最適文節列を選択するための多段決定
アルゴリズム、電子通信学会音声研究会資料、SP86−3
2,(1986−7) このアルゴリズムを用いれば高速で最適文節列を選択す
ることができる。しかし、文節集合の列が与えられてい
るということは、仮名文字列の文節単位への区切りがた
だ一つに固定されている、ということと等価であるの
で、区切り方をも可能な範囲ですべて動かして最適解を
求める必要がある、ここでの問題にそのまま適用するこ
とはできない。(5) Kazuhiko Ozeki: Multi-stage decision algorithm for selecting the optimal phrase sequence, The Institute of Electronics and Communication Engineers, Speech Study Group material, SP86-3
2, (1986-7) By using this algorithm, the optimum phrase sequence can be selected at high speed. However, the fact that the bunsetsu set sequence is given is equivalent to the fact that the kana character string is divided into only one bunsetsu unit. It cannot be applied to the problem here, which requires moving all to find the optimal solution.
[発明が解決しようとする問題点] 仮名文字列が与えられたとき、それから文節と認定でき
る部分仮名文字列をすべて切りだし、そのような各部分
列を仮名表記として持つ文節をすべて列挙すると、様々
な仮名文字位置を仮名表記始端、仮名表記終端とする文
節の集合が得られる。このような文節の集合は文節ラテ
ィスと呼ばれている。文節ラティスは、連続音声中から
文節として認められる区間を切り出す方式の連続音声認
識装置の出力としても得られる。文節ラティスという言
葉を用いると、本発明が取り扱う問題は、 「文節ラティスが与えられたとき、その中の文節を、終
端と始端が仮名文字位置として連続するという条件を満
たすように並べてできるあらゆる文節列を作り、その中
から日本語の文、あるいは句としての適格性と、各文節
の確実度の双方を考慮して、最も妥当な文節列を選択せ
よ」 と述べることができる。[Problems to be Solved by the Invention] When a kana character string is given, cut out all the partial kana character strings that can be recognized as a phrase, and enumerate all the phrases that have each such substring as a kana notation, A set of clauses having various kana character positions as the beginning and end of the kana notation can be obtained. Such a set of clauses is called a clause lattice. The phrase lattice is also obtained as an output of a continuous voice recognition device that cuts out a section recognized as a phrase from a continuous voice. Using the term bunsetsu lattice, the problem addressed by the present invention is that "when a bunsetsu lattice is given, any bunsetsu can be arranged so that the end and start ends are continuous as kana character positions. Create a sequence and select the most appropriate sequence of phrases, considering both the eligibility as a Japanese sentence or phrase and the certainty of each phrase. ”
これを実行する上での問題点と、本発明の目的を述べる
ために、まず、この問題の厳密な定式化を行う。In order to describe the problems in executing this and the purpose of the present invention, first, a strict formulation of this problem is performed.
ここではminが入った数式にまぎれがないよう、通常用
いられている min f(x) xに関する条件 という記法の代りに、 min(xに関する条件)[f(x)] を用いる。但し、混乱の恐れがないときには[、]は省
略することもある。Here, in order not to make a mistake in the equation containing min, the min (condition concerning x) [f (x)] is used instead of the notation of the condition concerning min f (x) x which is usually used. However, when there is no fear of confusion, [,] may be omitted.
argmin、Σ,∪,等についても同様の記法を用いる。Similar notation is used for argmin, Σ, ∪, etc.
以下[E2]までは文献(尾関和彦:最適文節列を選択す
るための多段決定アルゴリズム、電子通信学会音声研究
会資料、SP86−32,(1986−7)に述べられていること
であるが、説明上必要なのでここに掲げておく。The following [E2] is described in the literature (Kazuhiko Ozeki: Multistage decision algorithm for selecting an optimal phrase sequence, IEICE Speech Study Group material, SP86-32, (1986-7), I will list it here because it is necessary for explanation.
日本語の文、あるいはまとまった句は、文節という単位
の間の広義の修飾関係によって成り立っていると考える
ことができる。文節xが文節yを修飾するとき、xはy
に係り、yはxを受けるという。また、このような修飾
関係を係り受けという。文節列が日本語のまとまった
句、あるいは文を構成するためには、それらの文節間
に、次のような条件を満たす係り受けが存在することが
必要であると考えられている。A Japanese sentence, or a set of phrases, can be thought of as being formed by a broadly modified relation between units called bunsetsu. When clause x modifies clause y, x is y
It is said that y receives x. In addition, such a modification relationship is called dependency. In order for a bunsetsu sequence to form a set of phrases or sentences in Japanese, it is considered that there is a dependency between those bunsetsu that satisfies the following conditions.
[C1]最後の文節以外の文節は、それより後ろにある文
節のいずれか一つに係る。[C1] A clause other than the last clause relates to any one of the clauses after it.
[C2]二つの文節間の係り受けは、他の二つの文節間の
係り受けと交差しない。[C2] Dependency between two bunsetsu does not intersect with dependency between two other bunsetsu.
[C3]二つの文節間に係り受けが存在し得るためには、
それらの文節の種類や意味が互いに一定の関係を待たな
ければならない。[C3] To have a dependency between two clauses,
We must wait for a certain relationship between the types and meanings of these clauses.
与えられた文節列が正しい日本語の場合には、このよう
な手法で構文解析を行なうことができるが、話し言葉
や、音声認識装置の出力にありがちな、誤りを含む文節
列に対しては、解析が行き詰まってしまうことがある。If the given phrase sequence is correct Japanese, parsing can be performed by such a method, but for the spoken language and the phrase sequence that contains an error, which is likely to occur in the output of the speech recognition device, Analysis can get bogged down.
そこで、上の条件[C3]を、もっと柔軟な条件 [C′3]二つの文節x,yの組に対して、それらの文節
を構成する単語の品詞や意味によってxがyに代ること
の整合度を表わす数値が与えられている。Therefore, the above condition [C3] should be replaced with a more flexible condition [C'3] for a set of two clauses x and y, where x is replaced by y depending on the part of speech and meaning of the words that compose those clauses. A numerical value representing the degree of matching of is given.
で置き換え、整合度の和が最大あるいは最小になる構文
を探索する方法がある。次はこれについて説明する。There is a method of searching for a syntax in which the sum of the matching degrees becomes maximum or minimum. This will be explained next.
条件[C1],[C2]は、つぎのように定義される、「構
文」によって表わすことができる。The conditions [C1] and [C2] can be expressed by a "syntax" defined as follows.
[D1](1)xが文節のとき、(x)は「構文」であ
る。[D1] (1) When x is a clause, (x) is "syntax".
(2)X1,X2,…,Xmが「構文」、xが文節のとき、(X1X
2…Xmx) は「構文」である。(2) When X 1 , X 2 , ..., Xm is "syntax" and x is a clause, (X 1 X
2 … Xmx) is the “syntax”.
[D2]文節列x1,x2,…xnに適切に括弧を付け、構文にな
るようにしたものを、x1x2…xn上の構文という。文節列
x1x2…xn上の構文の全体をK(x1x2…xn) と表わすことにする。[D2] The phrase sequence x 1 , x 2 , ... xn is properly parenthesized to form a syntax, which is called a syntax on x 1 x 2 ... xn. Clause sequence
The overall syntax on x 1 x 2 ... xn to be expressed as K (x 1 x 2 ... xn ).
条件[C3′]に関しては、文節xが文節yに係ることの
整合度が非負の値をとる関数 PEN(x,y) で表わされるものとする。PEN(x,y)の値は、0に近い
ほど整合度が高いことを表わすものと約束しておく。関
数PENをどうのように定めるかは、非常に重要な問題で
あるが、これは従来から既に考えられていることであ
り、本発明の主眼点ではないので、その説明を省く。Regarding the condition [C3 ′], it is assumed that the matching degree that the clause x relates to the clause y takes a nonnegative value and is expressed by a function PEN (x, y). It is promised that the closer the value of PEN (x, y) is to 0, the higher the degree of matching. How to determine the function PEN is a very important issue, but this is already considered in the past and is not the main point of the present invention, so its explanation is omitted.
構文Xの適格度P(x)を次のように再帰的に定める。The eligibility P (x) of the syntax X is recursively determined as follows.
[D3](1)X=(x),(xは文節)のとき、P
(X)=0, (2)X=(Y1Y2…Ymx),Y1=(…y1),Y2=(…
y2),…,Ym=(…ym)のとき、 P(X)=P(Y1)+P(Y2)+…+p(Ym) +PEN(y1,x)+PEN(y2,x)+…+PEN(ym,x) このように定義されたP(X)の値は、Xの中のあらゆ
る係り受けに対するPENの値を加算したものになってい
る。[D3] (1) When X = (x), (x is a clause), P
(X) = 0, (2 ) X = (Y 1 Y 2 ... Ymx), Y 1 = (... y 1), Y 2 = (...
When y 2 ), ..., Ym = (... ym), P (X) = P (Y 1 ) + P (Y 2 ) + ... + p (Ym) + PEN (y 1 , x) + PEN (y 2 , x) + ... + PEN (ym, x) The value of P (X) thus defined is the sum of the PEN values for all the dependencies in X.
X,Yが構文で、Y=(Z1Z2…Zmy)、但し、Z1,…,Zmは構
文で、xは文節)とするとき、XをYの先頭に挿入して
できる構文 (X Z1Z2…Zmy) をXYと書くと、 [E1]X=(…x),Y=(…y)に対して、 P(XY)=P(X)+P(Y)+PEN(x,y) が成り立つ。また、 [E2]任意の文節列x1x2…xnに対して (1)n=1のとき K(x1)=(x1) (2)n>1のとき K(x1x2…xn) =∪(1≦k≦n−1){XY|X∈K(x1x2…xk), Y∈K(xk+1xk+2…xn)} が成り立つ。X, Y is a syntax and Y = (Z 1 Z 2 … Zmy), where Z 1 ,…, Zm is a syntax and x is a clause), the syntax can be created by inserting X at the beginning of Y ( If XZ 1 Z 2 … Zmy) is written as XY, then for [E1] X = (... x), Y = (... y), P (XY) = P (X) + P (Y) + PEN (x, y) holds. [E2] For any clause sequence x 1 x 2 ... xn, (1) when n = 1, K (x 1 ) = (x 1 ) (2) When n> 1, K (x 1 x 2 ... xn) = ∪ (1 ≤ k ≤ n-1) {XY | X ∈ K (x 1 x 2 ... xk), Y ∈ K (xk +1 xk +2 ... xn)}.
[D4]A1,A2,…,Amを文節の集合とするとき KB(A1,A2,…,Am) ={X|∃x1∈A1,∃x2∈A2,…,∃xm∈Am,X∈K(x1x2…
xm)}と定義する。KB(A1,A2,…,Am)は、A1,A2,…,Am
から一つずつ文節を選んでできるあらゆる文節列上のあ
らゆる構文の全体である。[D4] When A 1 , A 2 , ..., Am is a set of clauses KB (A 1 , A 2 , ..., Am) = {X | ∃ x 1 ∈A 1 , ∃ x 2 ∈A 2 ,… , ∃ xm ∈ Am, X ∈ K (x 1 x 2 …
xm)}. KB (A 1 , A 2 , ..., Am) is A 1 , A 2 , ..., Am
It is the whole of every syntax on every bunsetsu sequence that can be made by selecting a bunsetsu one by one from.
[D5](1)整数列i,i+1,…,jのm分割とは、 i−1=s0<s1<s2<…<sm=j を満たす整数の組(s0,s1,s2,…,sm)をいう。[D5] (1) integer column i, i + 1, ..., the m division of j, i-1 = s 0 <s 1 <s 2 <... < integer pairs satisfying sm = j (s 0, s 1 , s 2 , ..., sm).
(2)整数列i,i+1,…,jのm分割の全体をDm(i,j)と
書く: Dm(i,j)={(s0,s1,s2,…,sm)|i−1=s0<s1<s2
<…<sm=j} (3)更に、整数列i,i+1,…,jの分割の全体D(i,j)
を、次のように定義する。(2) The whole m division of the integer sequence i, i + 1, ..., j is written as Dm (i, j): Dm (i, j) = {(s 0 , s 1 , s 2 , ..., sm) | i-1 = s 0 <s 1 <s 2
<... <sm = j} (3) Further, the whole division D (i, j) of the integer sequence i, i + 1, ..., j
Is defined as follows.
D(i,j)=∪(1≦m≦j−i+1)[Dm(i,j)] さて、次の状況を考える: [J1]1から自然数Nまでの仮名文字位置を考え、各i,
j(1≦i≦j≦N)に対してiを仮名表記始端位置、
jを仮名表記終端位置とする文節の集合B(i,j)が与
えられている。また、各文節xに対して、非負の実数値
S(x)が定められている。D (i, j) = ∪ (1 ≦ m ≦ j−i + 1) [Dm (i, j)] Now, consider the following situation: [J1] Consider kana character positions from 1 to a natural number N, each i ,
For j (1 ≦ i ≦ j ≦ N), i is the kana notation start position,
A set B (i, j) of clauses with j as the terminal position of kana notation is given. In addition, a non-negative real value S (x) is defined for each clause x.
同じ文節でも仮名表記始端位置あるいは仮名表記終端位
置が異なれば、別の文節として取り扱う。If the same phrase has a different kana notation start position or kana notation end position, it is treated as a different phrase.
上記のB(i,j),(1≦i≦j≦N)全体を文節ラテ
ィスという。べた書き入力仮名漢字返換方式日本語ワー
ドプロセッサを例にとると、仮名文字列a1a2…aNが与え
られたとき、B(i,j)はその部分列aiai+1…ajを仮名
表記として持つ文節の全体である。S(x)は、単語の
使用頻度などの情報から定まる、文節xの確実度を表わ
す数値で、0に近いほど確実度が高いとしておく。ま
た、連続音声認識を例にとれば、B(i,j)は仮名文字
位置i,jをそれぞれ始端位置、終端位置とする区間の認
識結果候補として装置が出力する文節の集合である。こ
の場合、S(x)は認識装置が、xという認識結果をど
の程度の確からしさで認識したかという確実度を示す数
値であり、大抵の音声認識装置はそのような数値を認識
結果と共に出力するようになっている。いずれの場合
も、仮名文字位置i,jを始端,終端とする文節が存在し
ないことがあるので、B(i,j)は空集合になりうる。
この場合も特別な取扱いをしなくて済むように、B(i,
j)が空集合のときはダミー文節を加えておき、ダミー
文節に対するSの値は∞と約束しておく。また、xある
いはyの少なくとも一方がダミー文節のとき、PEN(x,
y)の値も∞と約束しておく。The entire B (i, j) and (1 ≦ i ≦ j ≦ N) described above is referred to as a phrase lattice. Taking the example of a Japanese word processor for solid-character input kana-kanji conversion method, given a kana character string a 1 a 2 … a N , B (i, j) changes its subsequence aiai +1 … aj to a kana. It is the whole phrase that we have as a notation. S (x) is a numerical value that represents the certainty of the phrase x, which is determined from information such as the frequency of use of words. The closer to 0, the higher the certainty. Taking continuous speech recognition as an example, B (i, j) is a set of clauses output by the apparatus as recognition result candidates for the sections having the kana character positions i, j as the start position and the end position, respectively. In this case, S (x) is a numerical value indicating the degree of certainty with which the recognition device recognizes the recognition result x, and most speech recognition devices output such a numerical value together with the recognition result. It is supposed to do. In any case, B (i, j) may be an empty set because there may be no clause starting and ending at the kana character position i, j.
In this case as well, B (i,
When j) is an empty set, a dummy clause is added in advance, and the value of S for the dummy clause is promised to be ∞. When at least one of x or y is a dummy clause, PEN (x,
The value of y) is also promised to be ∞.
また、Sを構文にも適用できるよう拡張しておく。すな
わち、X∈K(xixi+1…xj)に対して S(X)=Σ(i≦m≦j)[S(xm)] と定義する。In addition, S is expanded so that it can be applied to the syntax. That is, S (X) = Σ (i ≦ m ≦ j) [S (xm)] is defined for XεK (xixi +1 ... Xj).
このような状況のもとで、本発明が取扱う問題は次のよ
うに述べることができる。仮名文字位置1,2,…,Nを固定
し、その分割 (s0,s1,s2,…,sm)∈D(1,N) を一つ選ぶ。この分割に対応して、文節の集合列 B(s0+1,s1),B(s1+1,s2),…,B(sm-1+1,sm) が定まる。各文節集合B(sk-1+1,sk)から文節xkを一
つずつ選ぶと、その上の構文の全体 K(x1x2…xm) が定まる。K(x1x2…xm)の中から構文Xを一つ選ぶ
と、その適格度と確実度の和 P(X)+S(X) が定まる。そこで、上記の分割、文節、および構文を可
能な範囲で全て動かし、P(X)+S(X)を最小にす
るような分割、文節、および構文を選択する。すなわ
ち、 min((s0,s1,s2,…,sm)∈D(1,N)) [min(x1∈B(s0+1,s1),x2∈B(s1+1,s2),…, xm∈B(sm-1+1,sm))[min(X∈K(x1x2…xm)) [P(X)+S(X)]]] を達成するような各変数の値と、それに対する最小値を
求めるというのが、ここでの問題である。Under such circumstances, the problem handled by the present invention can be stated as follows. Kana character positions 1, 2, ..., N are fixed, and one of the divisions (s 0 , s 1 , s 2 , ..., Sm) ∈ D (1, N) is selected. Corresponding to this division, the set sequence B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ), ..., B (sm −1 + 1, sm) is determined. When the clause xk is selected one by one from each clause set B (sk −1 +1, sk), the entire syntax K (x 1 x 2 ... xm) is determined. If one syntax X is selected from K (x 1 x 2 ... xm), the sum P (X) + S (X) of its eligibility and certainty is determined. Therefore, all of the above divisions, clauses, and syntaxes are moved within a possible range, and the divisions, clauses, and syntaxes that minimize P (X) + S (X) are selected. That is, min ((s 0 , s 1 , s 2 , ..., sm) ∈ D (1, N)) [min (x 1 ∈B (s 0 + 1, s 1 ), x 2 ∈B (s 1 +1 , s 2 ), ..., xm ∈ B (sm −1 + 1, sm)) [min (X ∈ K (x 1 x 2 … xm)) [P (X) + S (X)]]] The problem here is to find the value of each variable and its minimum value.
最適文節列を選ぶためには、文節列の日本語の文あるい
は句としての適格性を考慮しなければならないので、結
局は上記のように最適な構文をも求める問題になる。逆
に最適な構文が求まれば、それを構成する文節列は定ま
るので、 min((s0,s1,s2,…,sm)∈D(1,N)) min(x1∈B(s0+1,s1),x2∈B(s1+1,s2),…, xm∈B(sm-1+1,sm))min(X∈K(x1x2…xm)) [P(X)+S(X)] =min(X∈∪((s0,s1,s2,…,sm)∈D(1,N)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sm-1+1,
sm))]) [P(X)+S(X)] に注意して、上の問題を、次のように構文を変数とする
問題として書き直す。In order to select the optimal bunsetsu sequence, it is necessary to consider the eligibility of the bunsetsu sequence as a Japanese sentence or phrase. Therefore, the problem is to obtain an optimal syntax as described above. On the contrary, if the optimum syntax is found, the clause sequences that compose it are determined, so min ((s 0 , s 1 , s 2 , ..., sm) ∈ D (1, N)) min (x 1 ∈B (S 0 + 1, s 1 ), x 2 ∈ B (s 1 + 1, s 2 ), ..., xm ∈ B (sm −1 + 1, sm)) min (X ∈ K (x 1 x 2 … xm)) [P (X) + S (X)] = min (X∈∪ ((s 0 , s 1 , s 2 , ..., sm) ∈ D (1, N)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ), ..., B (sm -1 +1,
sm))]) Pay attention to [P (X) + S (X)] and rewrite the above problem as a problem whose syntax is variable as follows.
[P1] (1) min(X∈∪((s0,s1,s2,…,sm)∈D(1,
N)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sm-1+1,
sm))]) [P(X)+S(X)] と (2) argmin(X∈∪((s0,s1,s2,…,sm)∈ D(1,N))[KB(B(s0+1,s1),B(s1+1,s2),
…, B(sm-1+1,sm))])[P(X)+S(X)] を求めよ。[P1] (1) min (X ∈ ∪ ((s 0 , s 1 , s 2 , ..., sm) ∈ D (1,
N)) [KB (B ( s 0 + 1, s 1), B (s 1 + 1, s 2), ..., B (sm -1 +1,
sm))]) [P (X) + S (X)] and (2) argmin (X∈∪ ((s 0 , s 1 , s 2 , ..., sm) ∈ D (1, N)) [KB ( B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ),
,, B (sm −1 + 1, sm))]) [P (X) + S (X)].
従来、この問題を解こうとすれば枚挙法、すなわち、集
合 ∪((s0,s1,s2,…,sm)∈D(1,N)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sm-1+1,
sm))]) の全ての元Xに対してP(X)+S(X)を逐一計算
し、最小値を与えるXとそれに対する最小値を求めなけ
ればならなかった。枚挙法によると、各B(i,j)の文
節数をJ、全体の仮名文字列長さをNとするとき、必要
な加算演算回路数は、 Σ(1≦j≦N)N-1Cj-1・Jj・L(j)・(2j−1) または比較演算回数は Σ(1≦j≦N)N-1Cj-1・Jj・L(j) ま与えられる。ここで、N-1Cj-1は2項係数、また、L
(j)は長さjの文節列上の構文の数であり、 で計算することができる。Conventionally, to solve this problem, an enumeration method, that is, a set ∪ ((s 0 , s 1 , s 2 , ..., sm) ∈ D (1, N)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ), ..., B (sm −1 + 1,1
For every element X of sm))]), P (X) + S (X) had to be calculated step by step to find X that gives the minimum value and the minimum value for it. According to the enumeration method, when the number of clauses in each B (i, j) is J and the total kana character string length is N, the required number of addition arithmetic circuits is Σ (1 ≦ j ≦ N) N-1 Cj −1 · Jj · L (j) · (2j−1) or the number of comparison operations is given by Σ (1 ≦ j ≦ N) N−1 Cj −1 · Jj · L (j). Where N-1 Cj -1 is a binomial coefficient and L
(J) is the number of syntaxes on the phrase sequence of length j, Can be calculated by
上式をいくつかのJおよびNについて計算したものを第
1表に示す。これから分かるように、枚挙法において
は、計算量が文字列長に対して指数関数的に増加して、
たちまち膨大なものになるので、これを実際問題に適用
することは極めて困難であった。そこで、本発明の目的
は、このような従来技術の欠点を改善し、計算量が文字
列長および、各文節集合の元の数に関して多項式のオー
ダーであるような、従来法と比較して格段に効率の良い
言語処理法を提供することにある。Table 1 shows the above formula calculated for several J and N. As can be seen, in the enumeration method, the calculation amount increases exponentially with respect to the character string length,
It was extremely difficult to apply this to practical problems as it would quickly become huge. Therefore, an object of the present invention is to remedy the above-mentioned drawbacks of the conventional technique, and to significantly improve the complexity as compared with the conventional method in which the calculation amount is a polynomial order with respect to the character string length and the number of elements of each clause set. To provide an efficient language processing method.
[問題点を解決するための手段] (5−1)基本的な再帰方程式 本発明の構成について説明するにあたり、本発明におい
て基本的な役割を果たす再帰方程式について述べる。ま
ず、次の定義を設ける。 [Means for Solving Problems] (5-1) Basic Recursive Equation In describing the configuration of the present invention, a recursive equation that plays a basic role in the present invention will be described. First, the following definitions are provided.
[D6]自然数Nを固定し、1≦i≦m≦j≦N,X∈B
(m,j)に対して (1)OPTPS(i,j,m,x) =min(X∈∪((s0,s1,s2,…,sm)∈D(1,m−1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x})])[P(X)+S(X)] 但し、m=iのときはD(i,m−1)が定義されていな
いが ∪((s0,s1,s2,…,sp)∈D(i,m−1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x}]=KB({x}) と約束しておく。[D6] Fixing the natural number N, 1 ≦ i ≦ m ≦ j ≦ N, XεB
For (m, j) (1) OPTPS (i, j, m, x) = min (X∈∪ ((s 0 , s 1 , s 2 , ..., sm) ∈ D (1, m-1 )) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ), ..., B (sp −1 +1,
sp), {x})]) [P (X) + S (X)] However, when m = i, D (i, m-1) is not defined, but ∪ ((s 0 , s 1 , s 2 , ..., sp) ∈ D (i, m-1)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ), ..., B (sp -1 +1)
sp), {x}] = KB ({x}).
(2)OPTKS(i,j,m,x) =argmin(X∈∪(s0,s1,s2,…,sp)∈D(i,m−
1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x})])[P(X)+S(X)] 上記(2)において、P(X)+S(X)を最小にする
Xは一般に複数個あるので、OPTKS(i,j,m,x)は集合と
なる。(2) OPTKS (i, j, m, x) = argmin (X∈∪ (s 0 , s 1 , s 2 , ..., sp) ∈D (i, m−
1)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ), ..., B (sp −1 +1,
sp), {x})]) [P (X) + S (X)] In the above (2), since there are generally a plurality of Xs that minimize P (X) + S (X), OPTKS (i, j , m, x) is a set.
本発明において基本的な役割を果たすのは、OPTPSとOPT
KSが満たす次の2つの再帰方程式[T1],[T2]であ
る。OPTPS and OPT play a fundamental role in the present invention.
The following two recurrence equations [T1] and [T2] satisfied by KS.
[T1]1≦i≦m≦N,x∈B(m,j)に対して (1)i=mのとき OPTPS(i,j,m,x)=S(x) (2)i<mのとき OPTPS(i,j,m,x) =min(i≦n≦k≦m−1)[min(y∈B(n,k)) [OPTPS(i,k,n,y)+OPTPS(k+1,j,m,x)+PEN(y,
x)] [T2]1≦i≦m≦j≦N,X∈B(m,j)に対して (1)i=mのとき OPTKS(i,j,m,x)={(x)} (2)i<mのとき、[T1]の(2)で最小値を与える
n,k,yの組(n,k,y)の集合を KTS(i,j,m,x) と書くと OPTKS(i,j,m,x) =∪(n,k,y)∈KTS(i,j,m,x)) [{XY|X∈OPTKS(i,k,n,y), Y∈OPTKS(k+1,j,m,x)}] 以下、これらの再帰方程式が成立することを説明する。
そのために、まず、次の[E3]を示す。[T1] For 1 ≦ i ≦ m ≦ N, x∈B (m, j) (1) When i = m OPTPS (i, j, m, x) = S (x) (2) i < When m, OPTPS (i, j, m, x) = min (i ≦ n ≦ k ≦ m−1) [min (yεB (n, k)) [OPTPS (i, k, n, y) + OPTPS (K + 1, j, m, x) + PEN (y,
x)] [T2] For 1 ≦ i ≦ m ≦ j ≦ N, X ∈ B (m, j) (1) When i = m OPTKS (i, j, m, x) = {(x) } (2) When i <m, give the minimum value in (2) of [T1]
Writing the set of n, k, y pairs (n, k, y) as KTS (i, j, m, x) OPTKS (i, j, m, x) = ∪ (n, k, y) ∈ KTS (i, j, m, x)) [{XY | X∈OPTKS (i, k, n, y), Y∈OPTKS (k + 1, j, m, x)}] Explain what to do.
For that purpose, the following [E3] is shown first.
[E3] ∪((s0,s1,s2,…,sp)∈D(i,m−1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x})] =∪(i≦n≦k≦m−1)∪(y∈B(n,k)) {YX|Y∈∪((u0,u1,u2…uq)∈D(i,n−1)) [KB(B(u0+1,u1),B(u1+1,u2),…,B(uq-1+1,
uq), {y})],X∈∪((v0,v1,v2…,vr)∈D(k+1,m+
1))KB (B(v0+1,v1),B(v1+1,v2),…,B(vr-1+1,v
r), {x})} これは次のようにして示される。[E3] ∪ ((s 0 , s 1 , s 2 , ..., sp) ∈ D (i, m-1)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ),…, B (sp −1 +1,
sp), {x})] = ∪ (i ≤ n ≤ k ≤ m-1) ∪ (y ∈ B (n, k)) {YX | Y ∈ ∪ ((u 0 , u 1 , u 2 … uq ) ∈D (i, n-1 )) [KB (B (u 0 + 1, u 1), B (u 1 + 1, u 2), ..., B (uq -1 +1,
uq), {y})], X ∈ ∪ ((v 0 , v 1 , v 2 …, vr) ∈ D (k + 1, m +
1)) KB (B (v 0 + 1, v 1 ), B (v 1 + 1, v 2 ), ..., B (vr −1 + 1, v
r), {x})} This is shown as follows.
Z∈∪(s0,s1,s2,…,sp)∈D(i,m−1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x})] とする。そうすると、(s0,s1,s2,…,sp)∈D(i,m−
1))と、x1∈B(s0+1,s1),x2∈B(s1+1,s2),
…,xp∈B(sp-1+1,sp)が存在して、 Z∈K(x1x2…xpx) が成り立つ。[E2]により、1≦t≦pとY∈K(x1x2
…xt),X∈K(xt+1xt+2…xpx) が存在してZは Z=YX, と書ける。Z ∈ ∪ (s 0 , s 1 , s 2 ,, ..., sp) ∈ D (i, m-1)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ), …, B (sp -1 +1,
sp), {x})]. Then, (s 0 , s 1 ,, s 2 ,, ..., sp) ∈ D (i, m-
1)) and x 1 ∈ B (s 0 + 1, s 1 ), x 2 ∈ B (s 1 + 1, s 2 ),
..., xp ∈ B (sp -1 + 1, sp) exists, and Z ∈ K (x 1 x 2 ... xpx) holds. From [E2], 1 ≤ t ≤ p and Y ∈ K (x 1 x 2
… Xt), X ∈ K (xt +1 xt +2 … xpx) exists, and Z can be written as Z = YX ,.
n=st-1+1,k=st,y=xt とおくと i≦n≦k≦m−1,y_∈B(n,k), Y∈∪((u0,u1,u2…,uq)∈D(i,n−1)) [KB(B(u0+1,u1),B(u1+1,u2),…,B(uq+1+1,
uq), {y})], X∈∪((v0,v1,v2…,vr)∈D(k+1,m+1) [KB(B(v0+1,v1),B(v1+1,v2),…,B(vr-1+1,
vr), {x})] 従って、 Z∈∪(i≦n≦k≦m−1)∪(y∈B(n,k))
{YX| Y∈∪((u0,u1,u2…,uq)∈D(i,n−1))[KB(B
(u0+1, u1),B(u1+1,u2),…,B(uq-1+1,uq),
{y})], X∈∪((v0,v1,v2…,vr)∈D(k+1,m+1)) [KB(B(v0+1,v1),B(v1+1,v2),…,B(vr-1+1,
vr),{x})} となり、左辺は右辺に含まれることが分かる。右辺が左
辺に含まれることを同様にして示される。If n = st −1 + 1, k = st, y = xt, then i ≦ n ≦ k ≦ m−1, y_∈B (n, k), Y∈∪ ((u 0 , u 1 , u 2 …. , uq) ∈D (i, n -1)) [KB (B (u 0 + 1, u 1), B (u 1 + 1, u 2), ..., B (uq +1 +1,
uq), {y})], X ∈ ∪ ((v 0 , v 1 , v 2 …, vr) ∈ D (k + 1, m + 1) [KB (B (v 0 + 1, v 1 ), B (v 1 + 1, v 2 ), ..., B (vr -1 +1,
vr), {x})] Therefore, Z∈∪ (i ≦ n ≦ k ≦ m−1) ∪ (y∈B (n, k))
{YX | Y ∈ ∪ ((u 0 , u 1 , u 2 …, uq) ∈ D (i, n−1)) [KB (B
(U 0 +1, u 1) , B (u 1 + 1, u 2), ..., B (uq -1 + 1, uq),
{Y})], X ∈ ∪ ((v 0 , v 1 , v 2 …, vr) ∈ D (k + 1, m + 1)) [KB (B (v 0 + 1, v 1 ), B (v 1 +1, v 2 ), ..., B (vr -1 +1,
vr), {x})} and it can be seen that the left side is included in the right side. It is similarly indicated that the right side is included in the left side.
次に、[E3]を用いて、[T1]を示す。Next, [T1] is shown using [E3].
OPTPS(i,j,m,x) =min(Z∈∪((s0,s1,s2,…,sp)∈D(i,m−1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x})])[P(Z)+S(Z)] (定義による) =min(i≦n≦k≦m−1)min(y∈B(n,k))min
{Y∈∪ ((u0,u1,u2…,uq)∈D(i,n−1))[KB(B(u0+
1,u1),B (u1+1,u2),…,B(uq-1+1,uq),{y})], X∈∪((v0,v1,v2…,vr)∈D(k+1,m−1)) [KB(B(v0+1,v1),B(v1+1,v2),…,B(vr-1+1,
vr), {x})])[P(YX)+S(YX)] (E3による) =min(i≦n≦k≦m−1)min(y∈B(n,k))min
{Y∈∪ ((u0,u1,u2…,uq)∈D(i,n−1))[KB(B(u0+
1,u1),B (u1+1,u2),…,B(uq-1+1,uq),{y})], X∈∪((v0,v1,v2…,vr)∈D(k+1,m−1)) [KB(B(v0+1,v1),B(v1+1,v2),…,B(vr-1+1,
vr), {x})])[P(Y)+P(X)+PEN(y,x)+S
(Y)+S(X)] (E1による) =min(i≦n≦k≦m−1)[min(y∈B(n,k)) [OPTPS(i,k,n,y)+OPTPS(k+1,j,m,x)+PEN(y,
x)] これで[T1]が示された。次に[T2]を示す。(1)は
定義から明らかであるので(2)を示す。まず、 X∈∪((s0,s1,s2,…,sp)∈D(i,m−1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x})] に対して、 X∈OPTKS(i,j,m,x)と(P(X)+S(X)=OPTPS
(i,j,m,x))は同値であることに注意しておく。OPTPS (i, j, m, x) = min (Z∈∪ ((s 0, s 1, s 2, ..., sp) ∈D (i, m-1)) [KB (B (s 0 +1, s 1 ), B (s 1 + 1, s 2 ), ..., B (sp -1 +1,
sp), {x})]) [P (Z) + S (Z)] (by definition) = min (i≤n≤k≤m-1) min (yεB (n, k)) min
{Y ∈ ∪ ((u 0 , u 1 , u 2 …, uq) ∈ D (i, n−1)) [KB (B (u 0 +
1, u 1 ), B (u 1 + 1, u 2 ), ..., B (uq −1 + 1, uq), {y})], X ∈ ∪ ((v 0 , v 1 , v 2 …, vr ) ∈D (k + 1, m -1)) [KB (B (v 0 + 1, v 1), B (v 1 + 1, v 2), ..., B (vr -1 +1,
vr), {x})]) [P (YX) + S (YX)] (according to E3) = min (i≤n≤k≤m-1) min (yεB (n, k)) min
{Y ∈ ∪ ((u 0 , u 1 , u 2 …, uq) ∈ D (i, n−1)) [KB (B (u 0 +
1, u 1 ), B (u 1 + 1, u 2 ), ..., B (uq −1 + 1, uq), {y})], X ∈ ∪ ((v 0 , v 1 , v 2 …, vr ) ∈D (k + 1, m -1)) [KB (B (v 0 + 1, v 1), B (v 1 + 1, v 2), ..., B (vr -1 +1,
vr), {x})]) [P (Y) + P (X) + PEN (y, x) + S
(Y) + S (X)] (according to E1) = min (i ≦ n ≦ k ≦ m−1) [min (yεB (n, k)) [OPTPS (i, k, n, y) + OPTPS ( k + 1, j, m, x) + PEN (y,
x)] This shows [T1]. Next, [T2] is shown. Since (1) is clear from the definition, (2) is shown. First, X ∈ ∪ ((s 0 , s 1 ,, s 2 ,, ..., sp) ∈ D (i, m-1)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ), ..., B (sp -1 +1,
sp), {x})], X∈OPTKS (i, j, m, x) and (P (X) + S (X) = OPTPS
Note that (i, j, m, x)) are equivalent.
さて、(2)を示すには、 (a)OPTKS(i,j,m,x) ⊃∪((n,k,y)∈KTS(i,j,m,x)) [{YX|Y∈OPTKS(i,k,n,y), X∈OPTKS(k+1,j,m,x)}] (b)OPTKS(i,j,m,x) ⊂∪((n,k,y)∈KTS(i,j,m,x)) [{YX|Y∈OPTKS(i,k,n,y), X∈OPTKS(k+1,j,m,x)}] の2つを示せばよい。(a)は次のように示される。Now, to show (2), (a) OPTKS (i, j, m, x) ⊃∪ ((n, k, y) ∈ KTS (i, j, m, x)) [{YX | Y ∈OPTKS (i, k, n, y), X∈OPTKS (k + 1, j, m, x)}] (b) OPTKS (i, j, m, x) ⊂∪ ((n, k, y) ∈ KTS (i, j, m, x)) [{YX | YεOPTKS (i, k, n, y), XεOPTKS (k + 1, j, m, x)}] should be shown. (A) is shown as follows.
Z∈∪((n,k,y)∈KTS(i,j,m,x)) [{YX|Y∈OPTKS(i,k,n,y), X∈OPTKS(k+1,j,m,x)}] とすれば、 (n,k,y)∈KTS(i,j,m,x), Y∈OPTKS(i,k,n,y), X∈OPTKS(k+1,j,m,x) が存在して Z=YX と書ける。当然、 Z∈∪(s0,s1,s2,…,sp)∈D(i,m−1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x})] であり、 P(Z)+S(Z) =P(YX)+S(YX) =P(Y)+P(X)+PEN(y,x)+K(Y)+S
(x) =P(Y)+S(Y)+P(X)+S(X)+PEN(y,
x) =OPTPS(i,k,n,y)+OPTPS(k+1,j,m,x)+PEN(y,
x) =OPTPS(i,j,m,x) 従って、 Z∈OPTKS(i,j,m,x) (b)は次のように示される。Z∈∪ ((n, k, y) ∈KTS (i, j, m, x)) [{YX | Y∈OPTKS (i, k, n, y), X∈OPTKS (k + 1, j, m, x)}], (n, k, y) ∈ KTS (i, j, m, x), Y∈OPTKS (i, k, n, y), X∈OPTKS (k + 1, j, m, x) exists and can be written as Z = YX. Naturally, Z ∈ ∪ (s 0 , s 1 ,, s 2 , ..., sp) ∈ D (i, m-1)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ),…, B (sp −1 +1,
sp), {x})], and P (Z) + S (Z) = P (YX) + S (YX) = P (Y) + P (X) + PEN (y, x) + K (Y) + S
(X) = P (Y) + S (Y) + P (X) + S (X) + PEN (y,
x) = OPTPS (i, k, n, y) + OPTPS (k + 1, j, m, x) + PEN (y,
x) = OPTPS (i, j, m, x) Therefore, ZεOPTKS (i, j, m, x) (b) is expressed as follows.
Z∈OPTKS(i,j,m,x)とする。Let ZεOPTKS (i, j, m, x).
Z∈∪((s0,s1,s2,…,sp)∈D(i,m−1)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(sp-1+1,
sp), {x})] であるから、[E3]により i≦n≦k≦m−1,y∈B(n,k), Y∈∪((u0,u1,u2…,uq)∈D(i,n−1))[KB(B
(u0+1, u1),B(u1+1,u2),…,B(uq-1+1,uq),
{y})], X∈∪((v0,v1,v2…,vr)∈D(k+1,m−1)) [KB(B(v0+1,v1),B(v1+1,v2),…,B(vr-1+1,
vr), {x})] が存在して、 Z=YX と書ける。ところが、 P(Z)+S(Z)=P(Y)+P(X)+S(Y)+
S(X)+PEN(y,z) であり、Zは左辺を最小とするから、YとXも右辺を最
小にしなければならない。従って、[T1]の証明から分
るように、 (n,k,y)∈KTS(i,j,m,x) Y∈OPTKS(i,k,n,y),E∈OPTKS(k+1,j,m,x)}] よって Z∈∪((n,k,y)∈=KTS(i,j,m,x)) [{xY|X∈=OPTKS(i,k,n,y), Y∈OPTKS(k+1,j,m,x)}] これで[T2]が示された。Z ∈ ∪ ((s 0 , s 1 , s 2 , ..., sp) ∈ D (i, m-1)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 )] ,…, B (sp -1 +1,
sp), {x})], and thus [E3], i ≦ n ≦ k ≦ m−1, yεB (n, k), Yε∪ ((u 0 , u 1 , u 2 …, uq) ∈ D (i, n-1)) [KB (B
(U 0 +1, u 1) , B (u 1 + 1, u 2), ..., B (uq -1 + 1, uq),
{Y})], X ∈ ∪ ((v 0 , v 1 , v 2 …, vr) ∈ D (k + 1, m−1)) [KB (B (v 0 + 1, v 1 ), B (v 1 + 1, v 2 ), ..., B (vr -1 +1,
vr), {x})] exists and can be written as Z = YX. However, P (Z) + S (Z) = P (Y) + P (X) + S (Y) +
Since S (X) + PEN (y, z) and Z minimizes the left side, Y and X must also minimize the right side. Therefore, as can be seen from the proof of [T1], (n, k, y) ∈KTS (i, j, m, x) Y∈OPTKS (i, k, n, y), E∈OPTKS (k + 1, j, m, x)}] Therefore, Z ∈ ∪ ((n, k, y) ∈ = KTS (i, j, m, x)) [{xY | X ∈ OPTKS (i, k, n, y) , YεOPTKS (k + 1, j, m, x)}] [T2] is shown.
OPTPS(i,j,m,x)は4つの変数i,j,m,xを持っている。
しかし、mは文節xの始端位置であり、xを定めれば、
自動的に定まる。そこで、 [D7] (1)I(x)=(文節xの始端位置) (2)B(i,j)=∪(i≦k≦j)B(k,j) (3)x∈B(i,j)に対して OPT(i,j,x)=OPTPS(i,j,I(x),x) と定義すると、[T1]は次のように書き直すことができ
る。OPTPS (i, j, m, x) has four variables i, j, m, x.
However, m is the start position of the phrase x, and if x is defined,
Determined automatically. Therefore, [D7] (1) I (x) = (starting position of clause x) (2) B (i, j) = ∪ (i ≦ k ≦ j) B (k, j) (3) xεB If OPT (i, j, x) = OPTPS (i, j, I (x), x) is defined for (i, j), [T1] can be rewritten as follows.
[T1′]1≦i≦j≦N,x∈B(i,j)に対して (1)i=I(x)のとき OPT(i,j,x)=S(x) (2)i<I(x)のとき OPT(i,j,x) =min(i≦k≦I(x)−1)[min(y∈B(i,
k)) [OPT(i,k,y)+OPT(k+1,j,x)+PEN(y,x)] また、OPTKSについても同様に [D8]1≦i≦j≦N,x∈B(i,k)に対して OPTK(i,j,k)=OPTKS(i,j,I(x),x) と定義を直し、 [D9][T1′](2)において最小値を与えるk,yの組
(k,y)の集合を、 KT(i,j,x) と書くと、[T2]も次のように書き直すことができる。[T1 ′] 1 ≦ i ≦ j ≦ N, x ∈ B (i, j) (1) When i = I (x) OPT (i, j, x) = S (x) (2) When i <I (x) OPT (i, j, x) = min (i ≦ k ≦ I (x) −1) [min (yεB (i,
k)) [OPT (i, k, y) + OPT (k + 1, j, x) + PEN (y, x)] Similarly, for OPTKS, [D8] 1 ≦ i ≦ j ≦ N, x ∈ B (i , k) OPTK (i, j, k) = OPTKS (i, j, I (x), x) is redefined to give the minimum value in [D9] [T1 ′] (2). If the set of y pairs (k, y) is written as KT (i, j, x), [T2] can be rewritten as follows.
[T2′]1≦i≦j≦N,x∈B(i,k)に対して (1)i=Iのとき OPTK(i,j,x)={(x)} (2)i<I(x)のとき、 OPTK(i,j,x) =∪((k,y)∈KT(i,j,x)) [{YX|Y∈OPTK(i,k,y), X∈OPTK(k+1,j,x)}] KT(i,j,x)の元(k,y)について、kを、i,j,xに対す
る最適区分点、yを最適文節という。[T2 ′] For 1 ≦ i ≦ j ≦ N, x ∈ B (i, k) (1) When i = I OPTK (i, j, x) = {(x)} (2) i < When I (x), OPTK (i, j, x) = ∪ ((k, y) ∈KT (i, j, x)) [{YX | Y∈OPTK (i, k, y), X∈ OPTK (k + 1, j, x)}] For an element (k, y) of KT (i, j, x), k is called an optimal segment point for i, j, x, and y is called an optimal clause.
(5−2)OPTおよび最適区分点と最適文節の組の決定
法 [T1′](1)はI(x)=iのとき、OPT(i,j,x)の
値がS(x)として定まること、また、[T1′](2)
は、I(x)>iのとき、OPT(i,k,y)とOPT(k+1,
j,x),(i≦k≦I(x)−1,y∈B(i,k)がすでに
計画されていれば、1変数関数の最小化問題を2回解く
ことによりOPT(i,j,x)が計算できることを示してい
る。これらの事実を用いると、j−1が0部分からOPT
(i,j,x)の計算を始めて、順次j−iがより大きいOPT
(i,j,x)、(1≦i≦j≦N,x∈B(i,k))へと計算
を進め、それと同時に最適区分点と最適文節の組を決定
して行くことができる。OPT(1,N,x)、(x∈B(i,
k))が計算されたとき、OPTおよび、最適区分点と最適
文節の組の計算が終了する。(5-2) OPT and method of determining optimum segment point and optimum clause set [T1 '] (1) is such that when I (x) = i, the value of OPT (i, j, x) is S (x). And [T1 '] (2)
Is I (x)> i, OPT (i, k, y) and OPT (k + 1,
j, x), (i ≦ k ≦ I (x) −1, y ∈ B (i, k) have already been planned, OPT (i, j, x) can be calculated.Using these facts, j-1 starts from the 0 part and OPT
The calculation of (i, j, x) is started, and opt with larger j-i sequentially
(I, j, x), (1 ≤ i ≤ j ≤ N, x ∈ B (i, k)) can be calculated, and at the same time, the optimal segment point and optimal phrase set can be determined. . OPT (1, N, x), (xεB (i,
When k)) is calculated, the calculation of OPT and the optimum segment point and optimum clause pair is completed.
(5−3)最適構文の計算法 簡単のために、最適区分点と最適文節の組が常に一意的
に定まる場合について説明する。(5-3) Optimum Syntax Calculation Method For simplicity, a case will be described in which the set of optimum segment points and optimum clauses is always uniquely determined.
このとき、OPTK(i,j,x)はただ一つの構文に等しい。Then OPTK (i, j, x) is equal to only one syntax.
先ず、 min(X∈∪(s0,s1,s2,…,sm)∈D(1,N)) [KB(B(s0+1,s1),B(s1+1,s2),…,B(Sm-1+1,
sm))]) [P(X)+S(X)] =min(x∈B(1,N))[OPT(1,N,x)] であるから、この右辺を計算することにより、最適な文
節列上の最適な構文に対する適格度が計算される。ま
た、 x0=argmin(x∈B(1,N))[OPT(1,N,x)] とすれば、最適文節列とその上の最適構文は、 OPTK(1,N,x0) で与えられる。これをさらに具体的に計算するには次の
ようにすればよい。もし、I(x0)=1ならば、[T
2′]の(1)によって OPTK(1,N,x0)=(x0) であるから、これにより最適構文が決定される。First, min (X∈∪ (s 0 , s 1 , s 2 , ..., sm) ∈ D (1, N)) [KB (B (s 0 + 1, s 1 ), B (s 1 + 1, s 2 ),…, B (Sm −1 +1,
sm))]) [P (X) + S (X)] = min (xεB (1, N)) [OPT (1, N, x)] Therefore, by calculating this right side, the optimum The eligibility for the optimal syntax on the lexical sequence is calculated. If x 0 = argmin (x ∈ B (1, N)) [OPT (1, N, x)], the optimal clause sequence and the optimal syntax on it are OPTK (1, N, x 0 ) Given in. This can be calculated more concretely as follows. If I (x 0 ) = 1, then [T
Since OPTK (1, N, x 0 ) = (x 0 ) by (1) of 2 ′], the optimum syntax is determined by this.
I(x0)≠ならば、1,N,x0に対する最適区分点と最適文
節番号の組をそれぞれ(k1,x1)とすれば、[T2′]の
(2)によって OPTK(1,N,x0) =OPTK(1,k1,x1)OPTK(k1+1,N,x0) が成り立つ。もし、I(x1)≠1ならば、さらにOPTK
(1,k1,x)は1,k1,xに対する最適区分点k2と最適文節x2
を用いて、 OPTK(1,k1,x1) =OPTK(1,k2,x2)OPTK(k2+1,k1,x1) と分解できる。OPTK(k1+1,N,x0)についてもI(x0)
≠k1+1ならば同様にして、k1+1,N,x0に対する最適区
分点k3、最適文節x3を用いて OPTK(k1+1,N,x0 =OPTK(k1+1,k3,x3)OPTK(k3+1,N,x0) と分解できる。したがって、 OPTK(1,N,x0) =(OPTK(1,k2,x2)OPTK(k2+1,N,x1)) (OPTK(k1+1,k3,x3)OPTK(k3+1,N,x0)) このような分解操作を、出現するOPTK(i,j,x)の全て
においてI(x)=iになるまで行い、I(x)=iに
なったところで[T2′]の(1)を用いて、ただ一つの
文節からなる構文に置き換え、分解の逆をたどって挿入
操作を行えば、最適な文節列と、その文節列の上の最適
な構文が同時に得られる。If I (x 0 ) ≠, if the pair of optimal segment points and optimal clause numbers for 1, N, x 0 is (k 1 , x 1 ), then OPTK (1 , N, x 0 ) = OPTK (1, k 1 , x 1 ) OPTK (k 1 + 1, N, x 0 ). If I (x 1 ) ≠ 1, then OPTK
(1, k 1 , x) is the optimal partition point k 2 and optimal clause x 2 for 1, k 1 , x
Can be decomposed into OPTK (1, k 1 , x 1 ) = OPTK (1, k 2 , x 2 ) OPTK (k 2 + 1, k 1 , x 1 ). OPTK (k 1 + 1, N, x 0 ) is also I (x 0 ).
≠ k 1 +1 if in the same manner, k 1 + 1, N, the optimum segment point k 3 for x 0, OPTK using the optimal clause x 3 (k 1 + 1, N, x 0 = OPTK (k 1 + 1, k 3 , x 3 ) OPTK (k 3 + 1, N, x 0 ). Therefore, OPTK (1, N, x 0 ) = (OPTK (1, k 2 ,, x 2 ) OPTK (k 2 + 1, N , x 1 )) (OPTK (k 1 + 1, k 3 , x 3 ) OPTK (k 3 + 1, N, x 0 )) This decomposition operation is performed on all the appearing OPTK (i, j, x) Repeat until I (x) = i, and when I (x) = i, use (1) of [T2 '] to replace with a syntax consisting of only one clause and insert it by tracing the reverse of decomposition. When the operation is performed, the optimum phrase sequence and the optimum syntax on the phrase sequence can be obtained at the same time.
最適区分点と最適文節の組が複数個存在するときは、そ
れらの組すべてについて同様の操作を行い、構成された
構文すべてをOPTK(1,N,x0)の元とすればよい。When there are multiple pairs of optimal segment points and optimal clauses, the same operation is performed for all of these pairs, and all the constructed syntaxes can be the source of OPTK (1, N, x 0 ).
このように、本発明は、1からNまでの自然数で決る仮
名文字位置と、仮名表記始端位置および仮名表記終端位
置が1からNまでの範囲内の様々な位置にある文節の集
合と、それら文節の確実度を表わす数値が与えられたと
き、2文節間の係り受けの整合度と各文節の確実度を表
わす数値の総和を最小化あるいは最大化するという最適
基準の下で、最初の文節の仮名表記始端位置が1に等し
く、最後の文節の仮名表記終端位置がNに等しく、か
つ、最終文節以外の文節の仮名表記終端位置に1を加え
た値が次の文節の仮名表記始端位置に等しいという条件
を満たすようにそれら文節を並べてできるあらゆる文節
列の中から、最適な文節列と、その文節列の最適構文、
およびその適格度を定める言語解析方式において、Nに
等しい行、列の数を持つ、2次元の上3角行列形の第1
表および第2表を用意し、第1表および第2表の各桝目
を、仮名表記終端位置がその列番号に等しく、かつ仮名
表記始端位置がその行番号以上であるような文節の数だ
けの項に分割して、第1表および第2表を3次元化し、
仮名表記始端位置が自然数i以上であり、かつ仮名表記
終端位置が自然数jであるような文節集合中のq番目の
文節について、その仮名表記始端位置がiに等しいとき
には第1表の第i行,第j列、第q項にその文節の確実
度を格納し、自然数kがiから始まって、仮名表記始端
位置がi以上で、かつ仮名表記終端位置がjに等しいよ
うな文節の集合中の第q番目の文節の仮名表記始端位置
より1を減じた値までを動くとき、第1表の第i行,第
k列の各項と、第1表の第k+1行,第j列,第q項に
計算済みの値を格納し、その格納がなされたならば、計
算済みの、第1表の第i行,第k列,第p項の値と、第
1表の第k+1行,第j列,第q項の値と、仮名表記始
端位置がi以上であり、かつ仮名表記終端位置がkであ
るような文節集合中の第p番目の文節が、仮名表記始端
位置がi以上で、かつ仮名表記終端位置がjであるよう
な文節集合中の第q番目の文節に係ることの整合度を加
算し、その加算結果のkおよびpに関する最小値または
最大値を第1表の第i行,第j列,第q項に格納し、最
小値または最大値を与える最適区分点であるところのk
および最適文節番号であるところのpの値の組を第2表
の第i行,第i列,第q項に格納し、第1表および第2
表を順次計算済みの値で埋めて行き、第1表および第2
表の第1行,第N列の各項に計算済みの値が格納される
に至ったときに、第1表の第1行,第N列の各項の中の
最小値または最大値を求めることにより最終的な適格度
と、最終文節の文節番号を得ると共に、最適構文を構成
するために必要な最適区分点および最適文節番号の組の
全体を第2表に得ることを特徴とする。As described above, according to the present invention, a kana character position determined by a natural number from 1 to N, a set of clauses in which the kana notation start position and the kana notation end position are at various positions within the range of 1 to N, and When a numerical value representing the certainty of a bunsetsu is given, the first bunsetsu is selected under the optimal criterion of minimizing or maximizing the sum of the dependency consistency between two bunsetsu and the numerical value representing the certainty of each bunsetsu. Kana notation start position of is equal to 1, the kana notation end position of the last clause is equal to N, and the value obtained by adding 1 to the kana notation end position of the clause other than the last clause is the kana notation start position of the next clause. The optimal bunsetsu sequence and the optimal syntax of that bunsetsu sequence from among all bunsetsu sequences that can be created by arranging those bunsetsus to satisfy the condition
And a linguistic analysis method that determines its eligibility, the first two-dimensional upper triangular matrix with the number of rows and columns equal to N.
Tables and Table 2 are prepared, and each grid of Tables 1 and 2 has the same number of clauses where the kana notation end position is equal to the column number and the kana notation start end position is greater than or equal to the line number. And divide the first and second tables into three dimensions,
For the q-th clause in the clause set in which the kana notation start position is a natural number i or more and the kana notation end position is a natural number j, when the kana notation start position is equal to i, the i-th row in Table 1 , The j-th column, the q-th term stores the certainty of the phrase, and the natural number k starts from i, the kana notation start position is i or more, and the kana notation end position is equal to j. When moving up to the value obtained by subtracting 1 from the kana notation start end position of the q-th clause of, the items at the i-th row and the k-th column of the first table, and the k + 1-th row, the j-th column of the first table, The calculated value is stored in the q-th term, and if stored, the calculated value of the i-th row, the k-th column, the p-th term of the first table and the k + 1-th row of the first table. , The j-th column, the q-th term, the kana notation start end position is i or more, and the kana notation end position is k Of the p-th clause of the kana notation start end position is i or more and the kana notation end position is j, and the degree of consistency is added, and the addition result The minimum or maximum value for k and p of is stored in the i-th row, the j-th column, the q-th term of Table 1, and k is the optimal partition point that gives the minimum or maximum value.
And a set of values of p, which is the optimum clause number, are stored in the i-th row, the i-th column, and the q-th term of Table 2, and are stored in Tables 1 and 2.
Fill the table sequentially with the calculated values, and
When the calculated value is stored in each item in the first row and Nth column of the table, the minimum value or the maximum value in each item in the first row and Nth column of the first table is set. It is characterized in that the final eligibility and the clause number of the final clause are obtained by obtaining, and the entire set of optimal segment points and optimal clause numbers required for constructing the optimal syntax is obtained in Table 2. .
[作用] 本発明では、仮名表記始端および仮名表記終端が1から
ある自然数Nまでの範囲の様々な位置にある文節の集
合、すなわち文節ラティス、および、それら各文節の確
実度を示す数値が与えられたとき、2文節間の係り受け
の整合度と、各文節の確実度にもとずいて、上記文節ラ
ティスから最適な文節列を選び、その文節列に対する最
適な構文を決定し、かつその構文の適格度を計算するに
あたって、与えられた2つの自然数決る文字位置をそれ
ぞれ仮名表記始端位置および仮名表記終端位置とし、最
後の文節が固定された文節列の全体の中から、日本語の
句として最も適格度の高い文節列が選ばれ、それに対す
る構文、およびその構文に対する適格度が計算されたな
らば、それを記憶しておき、それを上記の始端および終
端で定まる仮名文字区間を含むような、より長い仮名文
字区間に対して同様の計算を行なう際に利用することに
より、部分的に同じ計算が繰り返し行なわれることを組
織的に避ける。従って、本発明の計算法を、与えられた
文節ラティスに適用することにより、可能な全文節列の
中から、日本語の句、あるいは文として最も適格度の高
い文節列、その上の構文、およびその構文に対する適格
度を、従来法に比べて格段に少ない計算量で計算するこ
とができる。[Operation] In the present invention, a set of clauses at various positions where the kana notation start end and the kana notation end are in a range from 1 to a natural number N, that is, a clause lattice, and a numerical value indicating the certainty of each clause are given. Then, the optimal bunsetsu sequence is selected from the bunsetsu lattice based on the matching degree of the dependency between the two bunsetsu and the certainty of each bunsetsu, and the optimum syntax for the bunsetsu string is determined. When calculating the eligibility of the syntax, the given two natural number character positions are the kana notation start position and the kana notation end position, respectively, and the Japanese phrase is selected from the entire phrase sequence where the last phrase is fixed. If the most qualified phrase sequence is selected as, and the syntax for it and the qualification for that syntax are calculated, it is memorized and it is determined by the above-mentioned start end and end. By using the same calculation for a longer kana character section including a kana character section, it is systematically avoided that the same calculation is partially repeated. Therefore, by applying the calculation method of the present invention to a given bunsetsu lattice, among all possible bunsetsu bunsetsu, a Japanese phrase or a bunsetsu string most highly qualified as a sentence, a syntax on it, And the eligibility for the syntax can be calculated with a significantly smaller amount of calculation than the conventional method.
本発明は、日本語を対象とする場合のみならず、韓国語
のように日本語と同様の文法構造を持つ外国語にも適用
できることは言うまでもない。It goes without saying that the present invention can be applied not only to the case of Japanese but also to a foreign language having a grammatical structure similar to that of Japanese such as Korean.
[実施例] 以下に図面を参照して本発明を詳細に説明する。EXAMPLES The present invention will be described in detail below with reference to the drawings.
以下の説明において、仮名文字位置を1,2,…,Nとする。
文節集合B(i,j)の元の数を#(i,j)とし、B(i,
j)の元をxi,j,1,xi,j,2,…,xi,j,#(i,j)と表わす。
文節集合B(i,j)の元の数のi,jに関する最大値をMと
する。In the following description, kana character positions are 1, 2, ..., N.
Let # (i, j) be the original number of the phrase set B (i, j), and B (i,
The element of j) is represented as xi, j, 1 , xi, j, 2 , ..., xi, j, # (i, j) .
Let M be the maximum value of i, j of the original number of the clause set B (i, j).
本発明を実施する装置の一実施例を第1図に示す。An embodiment of the apparatus for carrying out the present invention is shown in FIG.
第1図において、SCは入力端子i1から入力される各文節
の確実度を表わす数値S(xi,j,q)を保持するRAM,BUF
は文節入力端子i2から入力される文節集合を保持するRA
Mなどによるバッファメモリである。例えば、本発明を
音声認識に用いるときには、認識装置から出力される文
節ラティスの各文節を端子i2から入力し、各文節に付随
した確実度を端子i1から入力する。また、本発明をべた
書き入力仮名漢字変換方式日本語ワードプロセッサに適
用するときには、与えられた仮名文字列a1,a2,…aNをま
ず従来技術で形態素解析し、部分文字列ai,ai+1,…,aj
を仮名表記として持つ文節候補を各i,j(1≦i≦j≦
N)について全て列挙し、それらを端子i2から入力す
る。その際、単語の使用頻度などから定まる、各文節の
確実度を端子i1から入力する。In FIG. 1, SC is a RAM or BUF that holds a numerical value S (xi, j, q) representing the certainty of each clause input from the input terminal i 1.
Is the RA holding the phrase set input from the phrase input terminal i 2.
It is a buffer memory such as M. For example, when the present invention is used for speech recognition, each phrase of the phrase lattice output from the recognition device is input from the terminal i 2 , and the certainty associated with each phrase is input from the terminal i 1 . Further, when applying the present invention to solid writing input kana-kanji conversion system Japanese word processors, given kana character string a 1, a 2, ... morphological analysis is first prior art a N, substring ai, ai +1 ,…, aj
Each bunsetsu candidate that has as a kana notation is i, j (1 ≤ i ≤ j ≤
N) are all listed and input from the terminal i 2 . At that time, the certainty of each phrase, which is determined by the frequency of use of the word, is input from the terminal i 1 .
PEはバッファメモリBUFから読み出した2文節xとyの
間の係り受けの整合度PEN(x,y)を計算する装置であ
る。PE is a device that calculates the degree of matching PEN (x, y) of the dependency between the two phrases x and y read from the buffer memory BUF.
T1およびT2は第2図(A)および(B)に示すフローチ
ャートのテーブルTABLE1およびTABLE2を実現するための
RAMである。T1 and T2 are for realizing the tables TABLE1 and TABLE2 of the flowchart shown in FIGS. 2 (A) and (B).
RAM.
INITは文節xi,j,qの始端位置がiに等しいか否か、すな
わちI(xi,j,q)=iか否かを判定する文節始端位置検
出器である。INIT is a phrase start position detector that determines whether or not the start position of the phrase xi, j, q is equal to i, that is, I (xi, j, q) = i.
SELは、文節xi,j,qの始端位置がiに等しいことを示す
信号をINITから受け取った時、SCに保持されているS
(xi,j,q)を選び出し、T1において実現されているTABL
E1(i,j,q)に書き込むデータ選択装置である。When the SEL receives a signal from the INIT indicating that the start position of the clause xi, j, q is equal to i, the S held in the SC
(Xi, j, q) is selected and TABL realized in T1
It is a data selection device that writes to E1 (i, j, q).
ADD1はTABLE1(i,k,p)とPEN(xi,k,p,xi,j,q)とを加
算する加算器である。ADD1 is an adder that adds TABLE1 (i, k, p) and PEN (xi, k, p, xi, j, q).
MIN1は加算器ADD1の出力の、上記pを変化させた時の最
小値と、その最小値を与えるpを検出するための最小値
検出器である。MIN1 is a minimum value detector for detecting the minimum value of the output of the adder ADD1 when the above p is changed, and p which gives the minimum value.
ADD2は最小値検出器MIN1の出力とTABLE1(k+1,j,q)
とを加算する加算器である。MIN2は加算器ADD2の出力の
上記kを変化させた時の最小値と、その最小値を与える
kを検出するための最小値検出器である。ADD2 is the output of minimum value detector MIN1 and TABLE1 (k + 1, j, q)
It is an adder that adds and. MIN2 is a minimum value detector for detecting the minimum value when the above k of the output of the adder ADD2 is changed and k which gives the minimum value.
CONTはこれら各部の動作順序を制御するための制御装置
であって、例えば中央処理装置CPUと、各部の制御手順
を予め記憶しておくためのROMの形態のメモリMEM1およ
び作業用のRAMの形態のメモリMEM2を有する。01および0
2はRAM T1およびT2に書き込まれた結果をそれぞれ出力
する出力端子である。CONT is a control device for controlling the operation sequence of each of these parts, for example, a central processing unit CPU, a memory MEM1 in the form of a ROM for storing the control procedure of each part in advance, and a form of a working RAM. Of memory MEM2. 0 1 and 0
Reference numeral 2 is an output terminal for outputting the results written in the RAMs T1 and T2, respectively.
第2図(A)および(B)は、第1図示の実施例におけ
るメモリMEM1にあらかじめ格納しておく制御手順の一例
としての、最適文節列の上の最適構文の適格度、最適文
節列、およびその上の最適構文を定めるための最適区分
点と最適文節の組を順次求めるための手順を示すフロー
チャートである。以下、これについて説明する。2A and 2B show the qualification degree of the optimum syntax above the optimum phrase sequence, the optimum phrase sequence, as an example of the control procedure stored in advance in the memory MEM1 in the embodiment shown in FIG. 9 is a flowchart showing a procedure for sequentially obtaining a set of optimum segment points and optimum clauses for determining the optimum syntax thereabove. This will be described below.
第2図(A)および(B)のフローチャートに付随し
て、第3図(A)および(B)に示すように、想定して
いる文字列の全長Nに等しい数の行および列、および文
節集合B(i,j)の元の数の最大値Mに等しい数の項を
持った2つの3次元テーブルTABLE1(i,j,q),TABLE2
(i,j,q)(1≦i≦j≦N,1≦q≦M)が必要である。
各テーブルの添字は左から順に行,列,項を表わす。TA
BLE1(i,j,q)はOPT(i,j,xi,j,q)の値を、またTABLE2
(i,j,q)はi,j,xi,j,qに対する最適区分点と最適文節
番号の組を記憶するためのものである。As shown in FIGS. 3A and 3B accompanying the flowcharts of FIGS. 2A and 2B, a number of rows and columns equal to the assumed total length N of the character string, and Two three-dimensional tables TABLE1 (i, j, q), TABLE2 having a number of terms equal to the maximum value M of the original number of the clause set B (i, j)
(I, j, q) (1≤i≤j≤N, 1≤q≤M) is required.
The subscripts in each table represent rows, columns, and terms from the left. TA
BLE1 (i, j, q) is the value of OPT (i, j, xi, j, q) and TABLE2
(I, j, q) is for storing a set of optimal segment points and optimal clause numbers for i, j, xi, j, q.
第2図(A)および(B)のフローチャートにおいて、
ステップS1からS13において、各テーブルの列番号jを
1から始めてNまで1ずつ増加させ、各列に対して次の
処理を実行する。In the flow charts of FIGS. 2 (A) and (B),
In steps S1 to S13, the column number j of each table is incremented by 1 starting from 1 and incremented to N, and the following process is executed for each column.
ステップS2からS11において、iをjから始めて1まで
1ずつ減少させ、次の処理を実行する。In steps S2 to S11, i starts from j and is reduced by 1 to 1 and the following processing is executed.
ステップS3からS9において、qを1から始めて#(i,
j)まで1ずつ増加させ、次の処理を実行する。In steps S3 to S9, starting q from 1 with # (i,
It is incremented by 1 up to j) and the following processing is executed.
(1)ステップS4においてI(xi,j,q)=iと判定され
たならば、ステップS7において次のことを実行する。(1) If I (xi, j, q) = i is determined in step S4, the following is executed in step S7.
[F1]TABLE1(i,j,q):=S(xi,j,q) (2)ステップS4においてI(xi,j,q)>iと判定され
たならば、ステップS5において次の[F2]、またステッ
プS6において次の[F3]を実行する。[F1] TABLE1 (i, j, q): = S (xi, j, q) (2) If I (xi, j, q)> i is determined in step S4, the following [[ F2], and the following [F3] is executed in step S6.
[F2]min(i≦k≦I(xi,j,q)−1)[min(1≦p
≦#(i,k)) [TABLE1(i,k,p)+PEN(xi,k,p,xi,j,q)] +TABLE1(k+1,j,q)] を求めて、それをTABLE1(i,j,q)に記憶する。[F3]
[F2]で最小値を与えるkとpの組(k,p)をTABLE2
(i,j,q)に記憶する。[F2] min (i≤k≤I (xi, j, q) -1) [min (1≤p
≤ # (i, k)) [TABLE1 (i, k, p) + PEN (xi, k, p, xi, j, q)] + TABLE1 (k + 1, j, q)] and calculates it as TABLE1 (i , j, q). [F3]
TABLE2 shows the pair (k, p) of k and p that gives the minimum value in [F2].
Store in (i, j, q).
以上の処理により、TABLE1とTABLE2の各行,列,項に上
述の計算を施し、その結果を順次テーブルに書き込んで
行く。Through the above processing, the above calculation is applied to each row, column, and term of TABLE1 and TABLE2, and the results are written into the table in sequence.
ステップS13においてj>Nとなったとき計算が終了
し、TABLE1(1,N,q)にはOPT(1,N,x1,N,q)、(1≦q
≦#(1,N))が記憶されている。また、TABLE2には最
適区分点と最適文節番号の情報が記憶されているので、
(5−2)項および(5−3)項で述べた方法により、
この情報から最適な文節列と最適構文を構成することが
できる。When j> N in step S13, the calculation ends, and TABLE1 (1, N, q) has OPT (1, N, x 1 , N , q), (1 ≦ q
≦ # (1, N)) is stored. Also, since the information of the optimum segment point and the optimum clause number is stored in TABLE2,
By the method described in the paragraphs (5-2) and (5-3),
From this information, the optimal phrase sequence and optimal syntax can be constructed.
本発明を実際に使用するときには、第2図(A)および
(B)のフローチャートの他にTABLE2の情報から最適な
文節例とその上の最適な構文を構成する機構が必要であ
るが、本発明の主眼点はTABLE1およびTABLE2の内容を計
算するところにあるので、これらの情報から最適な文節
列およびその上の最適な構文を構成する機構については
上記の説明にとどめる。When actually using the present invention, in addition to the flow charts of FIGS. 2 (A) and (B), a mechanism for constructing an optimum clause example and an optimum syntax on it from the information of TABLE2 is required. Since the main point of the invention is to calculate the contents of TABLE1 and TABLE2, the mechanism for constructing the optimal clause sequence and the optimal syntax thereabove from this information will be limited to the above description.
但し、TABLE1およびTABLE2の内容が計算できていれば、
与えられた文節の集合から最適な文節列およびその上の
最適な構文を構成するために必要な計算の内で最も計算
量の多い部分はもはや終了していることに注意してお
く。However, if the contents of TABLE1 and TABLE2 can be calculated,
Note that the most computationally expensive part of the computation needed to construct the optimal phrase sequence and the optimal syntax above it from a given set of phrases is no longer done.
[F2]において最小値を与えるkおよびpの組が複数個
存在することがあるが、そのときには、TABLE2(i,j,
q)に複数個の数値の組が記憶できるようにしておき、
[F3]においてそれらを全てTABLE2(i,j,q)に記憶す
るようにすればよい。このように第2図(A)および
(B)のフローチャートを変更しても計算量には殆ど変
わりがない。There may be multiple pairs of k and p that give the minimum value in [F2]. In that case, TABLE2 (i, j,
Make it possible to store multiple sets of numerical values in q),
All of them should be stored in TABLE2 (i, j, q) in [F3]. Thus, even if the flowcharts of FIGS. 2A and 2B are changed, the calculation amount is almost unchanged.
以上述べたように、本発明の特徴は、仮名文字位置i,j
に対応して与えられた文節の集合B(i,j)(=1≦i
≦N)から、最初の文節の仮名表記始端位置が1に等し
く、最後の文節の仮名表記終端位置がNに等しく、最終
文節以外の文節の仮名表記終端位置に1を加えたものが
それに続く文節の仮名表記始端位置に等しいという条件
を満たすように文節を選んでできるあらゆる文節列の中
で、最終文節x1,N,q∈B(1,N)を一つ固定したときの
最適な文節列とその上の最適な構文およびそれに対する
適格度を求めるに当たって、最初の文節の仮名表記始端
位置がiに等しく、最後の文節の仮名表記終端位置がj
に等しいという条件の下での上記と同様の最後の文節を
固定したときの最適な文節列とその上の最適な構文、お
よびその適格度を、j−iが小さいものから順次求めて
それを記憶しておき、しかも最初の文節の仮名表記始端
位置がiに等しく、最後の文節の仮名表記位置がjに等
しいという条件の下での上記の諸数値を求めるに当たっ
ては、k=i,…,I(xi,j,q)−1に対して既に求められ
記憶されている、最初の文節の仮名表記始端位置がiに
等しく、最後の文節の仮名表記終端位置がkに等しいと
いう条件の下での上記の諸数値、最初の文節の仮名表記
始端位置がk+1に等しく、最後の文節の仮名表記終端
位置がjに等しいという条件の下での上記の諸数値、お
よび文節xi,k,p∈B(i,k)が文節xi,j,q∈B(i,j)に
係ることの整合度を表わす関数値のみを用いるところに
ある。As described above, the feature of the present invention is that the kana character position i, j
Set of clauses B (i, j) (= 1 ≦ i
≦ N), the kana notation start position of the first clause is equal to 1, the kana notation end position of the last clause is equal to N, and the kana notation end position of the clauses other than the last clause is incremented by 1. Among all bunsetsu strings that can be selected so as to satisfy the condition that they are equal to the starting position of kana notation of bunsetsu, the optimum one when fixing one final bunsetsu x 1 , N , q ∈ B (1, N) In obtaining the phrase sequence, the optimum syntax on it, and the eligibility for it, the kana notation start position of the first phrase is equal to i, and the kana notation end position of the last phrase is j.
Under the condition that is equal to, the optimal phrase sequence and the optimal syntax above it when fixing the last phrase as above, and its eligibility are obtained in order from the smallest j−i, K = i, ... When memorizing and determining the above numerical values under the condition that the kana notation start position of the first phrase is equal to i and the kana notation position of the last phrase is equal to j , I (xi, j, q) −1, which is already obtained and stored, has a kana notation start position of the first clause equal to i and a kana notation end position of the last clause equal to k. The above numerical values below, the above numerical values under the condition that the kana notation start position of the first clause is equal to k + 1 and the kana notation end position of the last clause is equal to j, and the clauses xi, k, A function that represents the degree of matching that p ∈ B (i, k) relates to clause xi, j, q ∈ B (i, j). This is where only numerical values are used.
OPT(i,j,x)の定義から分かるように、列番号jはNで
あるか、または、あるダミーでない文節の最終文字位置
であり、かつ、あるダミーでない文節の最初の文字位置
から1を減じた値になっているような値以外は意味がな
い。もし、このような意味のない列番号があらかじめ分
かっている時は、そのような列を取り除き、残りの列に
対して、あらためて1から番号を付け直した上で、上記
の処理を行うことにより、更に計算量を減らすことがで
きる。同様にして、行番号iは1であるか、または、あ
るダミーでない文節の最初の文字位置であり、かつある
ダミーでない文節の最終文字位置に1を加えた値になっ
ているような値以外は意味がない。もし、このような意
味のない行番号が予め分かっているときは、そのような
行を取り除き、残りの行に対して、あらためて1から番
号を付け直した上で、上記の処理を行うことにより、更
に計算量を減らすことができる。As can be seen from the definition of OPT (i, j, x), the column number j is N or 1 from the last character position of a certain non-dummy clause and the first character position of a certain non-dummy clause. There is no meaning other than the value obtained by subtracting. If such a meaningless column number is known in advance, remove such a column, renumber the remaining columns again, and then perform the above process. , The calculation amount can be further reduced. Similarly, the line number i is 1 or other than a value that is the first character position of a certain non-dummy clause and 1 is added to the last character position of a certain non-dummy clause. Has no meaning. If such a meaningless line number is known in advance, remove such line, renumber the remaining lines again from 1 and perform the above process. , The calculation amount can be further reduced.
なお、上述した実施例では、最小値を求める処理の場合
を示したが、これはSの値が小さいほど確実度が高く、
PENの値が小さいほど係り受けの整合度が高いとしたた
めである。Sの値が大きいほど確実度が高く、PENの値
が大きいほど係り受けの整合度が高い場合には、最小値
の変りに最大値を求める処理を行えばよい。In the above-described embodiment, the case of the process of obtaining the minimum value is shown, but the smaller the value of S, the higher the certainty,
This is because the smaller the PEN value, the higher the degree of dependency matching. When the value of S is large, the degree of certainty is high, and as the value of PEN is large, the degree of matching of the dependency is high, the process of obtaining the maximum value instead of the minimum value may be performed.
[発明の効果] 係り受けの整合度を示す関数PENについては、一度計算
したものを記憶しておくことにすると、従来法と本発明
とで計算量は同じになる。従って、この部分を除外する
と、基本演算は、実数の加算と比較演算であるので、従
来法と本発明を、これらの演算の回数で比較する。[Effects of the Invention] Regarding the function PEN indicating the degree of dependency matching, once the calculation is stored, the calculation amount becomes the same between the conventional method and the present invention. Therefore, if this part is excluded, the basic operation is addition and comparison operation of real numbers, so the conventional method and the present invention are compared by the number of times of these operations.
与えられた仮名文字列の全長をN、B(i,j)の元の数
をJとすると、本発明の上記実施例における加算回数は
次式で与えられる。When the total length of a given kana character string is N and the original number of B (i, j) is J, the number of additions in the above embodiment of the present invention is given by the following equation.
2・J・[Σ(1≦j≦N)Σ(1≦i≦j−1)Σ
(i+1≦r≦j)Σ(i≦m≦r−1)[J・(m−
i+1)+1]] また、比較回数は次式で与えられる。2 · J · [Σ (1 ≦ j ≦ N) Σ (1 ≦ i ≦ j−1) Σ
(I + 1 ≦ r ≦ j) Σ (i ≦ m ≦ r−1) [J · (m−
i + 1) +1]] Further, the number of comparisons is given by the following equation.
J・[Σ(1≦j≦N)Σ(1≦i≦j−1)Σ(i+
1≦r≦j)Σ(i≦m≦r−1)[j・(m−i+
1)+1]]+2・J・[Σ(1≦j≦N)Σ(1≦i
≦j)[j−i+1]] これらの式は、Jに関して2乗、Nに関して5乗のオー
ダの多項式になる。J · [Σ (1 ≦ j ≦ N) Σ (1 ≦ i ≦ j−1) Σ (i +
1 ≦ r ≦ j) Σ (i ≦ m ≦ r−1) [j · (m−i +
1) +1]] + 2 · J · [Σ (1 ≦ j ≦ N) Σ (1 ≦ i
≤j) [j-i + 1]] These expressions are polynomials of the order of the power of 2 for J and the power of 5 for N.
これらの式をいくつかのJおよびNについて計算したも
のが第2表である。Table 2 lists these equations calculated for some J and N.
第1表と、第2表とを比較するとわかるように、Jおよ
びNが大きいほど、本発明の効果は大きく、J=5で、
N=10のとき加算回数は約107分の1、比較演算回数は
約106分の1に、またJ=10、N=40のときには加算回
数は約1055分の1、比較演算回数は約1053分の1に改善
される。 As can be seen by comparing Table 1 and Table 2, the larger the value of J and N, the greater the effect of the present invention.
N = 1 number of additions of about 107 minutes when 10, one of the comparison operation number about 106 minutes, and J = 10, N = 40 1 number of additions of about 10 55 minutes when the comparison operation times Is improved to about 1/1053 .
第1図は本発明を実施する装置の一実施例を示すブロッ
ク図、 第2図(A)および(B)はその制御手順の一例を示す
フローチャート、 第3図(A)および(B)は第2図のフローチャートを
実行する際に必要となるテーブルの一例を示す構造図で
ある。 SC……各文節の確信度を表わす数値保持用RAM、 BUF……文節集合保持用バッファメモリ、 PE……2文節間整合度計算装置、 INIT……文節仮名表記始端位置検出器、 SEL……データ選択装置、 T1……TABLE1用RAM、 T2……TABLE2用RAM、 ADD1……加算器、 MIN1……最小値検出装置、 ADD2……加算器、 MIN2……最小値検出装置、 CPU……中央処理装置、 MEM1……制御手順記憶用ROM、 MEM2……CPU作業用RAM、 CONT……各部の動作順序を制御する制御装置、 i1……文節確実度入力端子、 i2……文節入力端子、 o1……T1に得られた結果の出力端子、 o2……T2に得られた結果の出力端子。FIG. 1 is a block diagram showing an embodiment of an apparatus for carrying out the present invention, FIGS. 2 (A) and 2 (B) are flow charts showing an example of the control procedure, and FIGS. 3 (A) and 3 (B) are FIG. 3 is a structural diagram showing an example of a table required when executing the flowchart of FIG. 2. SC: Numerical value holding RAM that indicates the certainty of each clause, BUF: Clause set holding buffer memory, PE ... Two clause matching degree calculator, INIT ... Clause kana notation start position detector, SEL ... Data selection device, T1 ... TABLE1 RAM, T2 ... TABLE2 RAM, ADD1 ... adder, MIN1 ... minimum value detector, ADD2 ... adder, MIN2 ... minimum value detector, CPU ... central processor, MEM1 ...... control procedure for storing ROM, MEM2 ...... CPU work RAM, a control device for controlling the operation sequence of the CONT ...... each part, i 1 ...... clause certainty input terminals, i 2 ...... clauses input terminal , O 1 ... Output terminal of the result obtained at T1, o 2 ... Output terminal of the result obtained at T2.
Claims (1)
と、仮名表記始端位置および仮名表記終端位置が1から
Nまでの範囲内の様々な位置にある文節の集合と、それ
ら文節の確実度を表わす数値が与えられたとき、2文節
間の係り受けの整合度と各文節の確実度を表わす数値の
総和を最小化あるいは最大化するという最適規準の下
で、最初の文節の仮名表記始端位置が1に等しく、最後
の文節の仮名表記終端位置がNに等しく、かつ、最終文
節以外の文節の仮名表記終端位置に1を加えた値が次の
文節の仮名表記始端位置に等しいという条件を満たすよ
うにそれら文節を並べてできるあらゆる文節列の中か
ら、最適な文節列と、その文節列の最適構文、およびそ
の適格度を定める言語処理法において、 前記Nに等しい行、列の数を持つ、2次元の上3角行列
形の第1表および第2表を用意し、 前記第1表および前記第2表の各桝目を、仮名表記終端
位置がその列番号に等しく、かつ仮名表記始端位置がそ
の行番号以上であるような文節の数だけの項に分割し
て、前記第1表および前記第2表を3次元化し、 仮名表記始端位置が自然数i以上であり、かつ仮名表記
終端位置が自然数jであるような文節集合中のq番目の
文節について、その仮名表記始端位置がiに等しいとき
には前記第1表の第i行,第j列、第q項にその文節の
確実度を格納し、 自然数kがiから始まって、仮名表記始端位置がi以上
で、かつ仮名表記終端位置がjに等しいような文節の集
合中の第q番目の文節の仮名表記始端位置より1を減じ
た値までを動くとき、前記第1表の第i行,第k列の各
項と、前記第1表の第k+1行,第j列,第q項に計算
済みの値を格納し、 その格納がなされたならば、当該計算済みの、前記第1
表の第i行,第k列,第p項の値と、前記第1表の第k
+1行,第j列,第q項の値と、仮名表記始端位置がi
以上であり、かつ仮名表記終端位置がkであるような文
節集合中の第p番目の文節が、仮名表記始端位置がi以
上で、かつ仮名表記終端位置がjであるような文節集合
中の第q番目の文節に係ることの整合度を加算し、 その加算結果のkおよびpに関する最小値または最大値
を前記第1表の第i行,第j列,第q項に格納し、 前記最小値または最大値を与える最適区分点であるとこ
ろのkおよび最適文節番号であるところのpの値の組を
前記第2表の第i行,第j列,第q項に格納し、 前記第1表および前記第2表を順次計算済みの値で埋め
て行き、 前記第1表および前記第2表の第1行,第N列の各項に
計算済みの値が格納されるに到ったときに、前記第1表
の第1行,第N列の各項の中の最小値または最大値を求
めることにより最終的な適格度と、最終文節の文節番号
を得ると共に、最適構文を構成するために必要な最適区
分点および最適文節番号の組の全体を前記第2表に得る
ことを特徴とする言語処理法。Claims: 1. A kana character position determined by a natural number from 1 to N, a set of clauses having kana notation start end position and kana notation end position at various positions within the range of 1 to N, and the certainty of those clauses. Kana notation of the first bunsetsu under the optimum criterion that minimizes or maximizes the sum of the dependency consistency between two bunsetsus and the certainty of each bunsetsu when a numerical value is given. The start position is equal to 1, the last phrase's kana notation end position is equal to N, and the value obtained by adding 1 to the kana notation end position of a phrase other than the last phrase is equal to the kana notation start position of the next phrase. The number of rows and columns that are equal to N in the language processing method that determines the optimal bunsetsu sequence, the optimal bunsetsu sequence syntax, and its eligibility from among all bunsetsu sequences that can be arranged to meet the conditions. Have 2 The first table and the second table of the upper triangular matrix of the dimension are prepared, and in each of the grids of the first table and the second table, the kana notation end position is equal to the column number, and the kana notation start end position is The first table and the second table are three-dimensionalized by dividing the number of clauses equal to or greater than the line number into three dimensions, and the kana notation start position is a natural number i or more and the kana notation end position is For the q-th phrase in the phrase set having a natural number j, when the kana notation start position is equal to i, the certainty of the phrase is stored in the i-th row, the j-th column, and the q-th term of the above Table 1. Then, the natural number k starts from i, the kana notation start position is i or more, and the kana notation end position is equal to j, and 1 is subtracted from the kana notation start position of the q-th phrase in the set of phrases. When moving up to the value, each item in the i-th row and the k-th column of the first table (K + 1) th row of Table 1, the j-th column stores the computed values to the q term, if that storage is made, of the computed, the first
The value of the i-th row, the k-th column, the p-th term of the table and the k-th value of the first table
+ 1st row, jth column, qth value and the kana notation start position is i
The p-th clause in the clause set whose kana notation end position is k and whose kana notation end position is j or more and whose kana notation end position is j The degree of matching of the q-th clause is added, and the minimum value or the maximum value of k and p of the addition result is stored in the i-th row, the j-th column, the q-th term of the table 1, A set of values of k, which is the optimum segment point giving the minimum value or the maximum value, and p, which is the optimum clause number, is stored in the i-th row, the j-th column, and the q-th term of Table 2 above, The first table and the second table are sequentially filled with the calculated values, and the calculated values are stored in the first row and the Nth column of the first table and the second table. Then, the minimum value or the maximum value in each item of the 1st row and the Nth column of the above Table 1 is obtained to obtain the final value. A language processing method characterized in that a proper qualification degree and a clause number of a final clause are obtained, and at the same time, the entire set of optimal segment points and optimal clause numbers necessary for constructing an optimal syntax is obtained in the second table.
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61273880A JPH077399B2 (en) | 1986-11-19 | 1986-11-19 | Language processing |
| US07/072,158 US4805100A (en) | 1986-07-14 | 1987-07-10 | Language processing method and apparatus |
| KR1019870007491A KR910004009B1 (en) | 1986-07-14 | 1987-07-13 | Language processing method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP61273880A JPH077399B2 (en) | 1986-11-19 | 1986-11-19 | Language processing |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS63128467A JPS63128467A (en) | 1988-06-01 |
| JPH077399B2 true JPH077399B2 (en) | 1995-01-30 |
Family
ID=17533857
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP61273880A Expired - Lifetime JPH077399B2 (en) | 1986-07-14 | 1986-11-19 | Language processing |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPH077399B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013035794A (en) * | 2011-08-09 | 2013-02-21 | Nippon Beet Sugar Mfg Co Ltd | Rxr and/or ppar activator |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0628057B2 (en) * | 1989-12-07 | 1994-04-13 | キヤノン株式会社 | Character processor |
-
1986
- 1986-11-19 JP JP61273880A patent/JPH077399B2/en not_active Expired - Lifetime
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013035794A (en) * | 2011-08-09 | 2013-02-21 | Nippon Beet Sugar Mfg Co Ltd | Rxr and/or ppar activator |
Also Published As
| Publication number | Publication date |
|---|---|
| JPS63128467A (en) | 1988-06-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5377889B2 (en) | Language processing apparatus and program | |
| Mohri et al. | Speech recognition with weighted finite-state transducers | |
| Alshawi et al. | Learning dependency translation models as collections of finite state head transducers | |
| JP3196868B2 (en) | Relevant word form restricted state transducer for indexing and searching text | |
| JP7103264B2 (en) | Generation device, learning device, generation method and program | |
| EP0813156A2 (en) | Method and apparatus for language translation | |
| Veenstra et al. | Fast NP chunking using memory-based learning techniques | |
| JP7230576B2 (en) | Generation device, learning device, generation method and program | |
| EP0752698A2 (en) | System and method for selecting training text | |
| KR910004009B1 (en) | Language processing method | |
| KR100895940B1 (en) | Automatic resolution of segmentation ambiguities in grammar authoring | |
| Gu et al. | Markov modeling of mandarin Chinese for decoding the phonetic sequence into Chinese characters | |
| JPH077399B2 (en) | Language processing | |
| CN119323214A (en) | Chinese semantic analysis method and analyzer integrating part-of-speech features | |
| JP2001142877A (en) | Alphabet character / Japanese reading correspondence device and method, alphabet word transliteration device and method, and recording medium on which processing program is recorded | |
| JP3953772B2 (en) | Reading device and program | |
| CN116595991A (en) | Text matching model training method, matching method, device and storage medium | |
| JP2954215B2 (en) | Language processing system | |
| JP2005025555A (en) | Thesaurus construction system, thesaurus construction method, program for executing the method, and storage medium storing the program | |
| JP2527719B2 (en) | Language processing method of language processing device | |
| Pieraccini et al. | Implementation aspects of large vocabulary recognition based on intraword and interword phonetic units | |
| KR102668118B1 (en) | Learning device and learning method for natural language-based video search | |
| JPH077400B2 (en) | Language processing method | |
| Liu et al. | Evaluating Modeling Units and Sub-word Features in Language Models for Turkish ASR | |
| JP2776213B2 (en) | Tree grammar pattern recognition / analysis / probability calculator and probability learning device |