JPH067355B2

JPH067355B2 - 文章認識方法

Info

Publication number: JPH067355B2
Application number: JP62180305A
Authority: JP
Inventors: 隆一岡
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1987-07-20
Filing date: 1987-07-20
Publication date: 1994-01-26
Anticipated expiration: 2009-01-26
Also published as: JPS6423297A

Description

【発明の詳細な説明】［産業上の利用分野］本発明は連続して入力される単語列の中に標準パターン
に最も近い文章パターンが有ったときに、該当する標準
パターンを文章認識結果として抽出する文章認識方式に
関する。

［従来の技術］音声認識において、音素・音節・単語の記号をノードと
した遷移ネットワークで１つの単語や文章を表現するこ
とは通常よく行なわれる。

例えば、「私は東京駅へいく」という文章を遷移ネット
ワークで表現すると、「私」→「は」→「東京駅」→
「へ」→「行く」というようになり、「」で囲まれた各
単語を表すノードと、ノード間の関係を示す→記号（以
下、アークと称する）とにより文章を表現することが可
能である。

これまで、音声の特徴パターンや、記号のネットワーク
で表現された単語と特徴系列との整合を行なうアルゴリ
ズムとしては、次の文献が知られている。

(1)岡，速水：“文章連続音声認識のためのベクトル連
続ＤＰ(VCDP)アルゴリズムについて”，日本音響学会，
S82-71(1982-12) (2)迫江博昭：“ある拡張されたＤＰマッチング
法”，日本音響学会，音声研究会資料，S83-23(1983-0
6) (3)同：“クロックワスズなスタックＰ
法”，日本音響学会，講論集，2-1-8,(1983-10) (4)小林，幡野，新美：“安定な音素照合に基づく連続
音声認識”日本音響学会，音声研究会資料，S83-51(198
3-12) また、単語グラフとセグメントラティスのマッチングに
ついても、 (5)新美康永：“音声認識”，共立出版，PP.148〜15
3,1979 に開示されているようにいくつかのアルゴリズムが確立
されている。

近年、連続音声を対象として認識を行なう場合、連続音
声中から単語を所定時間毎に、すなわちスポット的に識
別する方式で音声認識システムを構築することが考えら
れてきている。さらに、そのためのアルゴリズムとし
て、 (6)岡隆一：“連続ＤＰを用いた連続単語認識”，日
本音響学会，音声研究会資料，S78-20(1978-06) (7)速水，岡：“ＤＰによる連続単語認識実験とその考
察”，信学論(D),J67-D.No.6,pp.677 684（昭59-06) に開示されている連続ＤＰ（ダイナミックプログラム）
方式が用いられることがある。連続ＤＰはそれ自体の適
用と簡単な後処理によって連続単語を認識できるが単語
連結の最適性を考慮した拡張連続ＤＰとよぶものも (8)中川聖一：“Word Spotting法による連続単語認
識”，日本音響学会，講論集，3-2-8,(1983-03) によって提案されている。そして、文章認識を目的とし
て、構文で連続ＤＰを駆動するとする構文駆動型連続Ｄ
Ｐが (9)岡田，松尾，牧野，城戸，：“構文駆動型連続ＤＰ
法による連続音声中からの文節的単位の検出”，日本音
響学会，講論集，2-3-2,(1986-10) によって提案されている。

［発明が解決しようとする問題点］このように、従来の音声または文章認識方式としては種
々の方式が知られている。けれども、従来の音声または
文章認識方式では連続で入力される音声または単語系列
を文章単位で認識するときは、一般に予め記号からなる
標準パターン（以下単に標準パターンと記す）として、
複数の文章情報を記憶しておき、音声により入力された
文章情報を複数の標準パターンと比較し、入力された文
章情報と一致する標準パターンを認識結果として出力し
ている。

ところが、例えば「私は東京駅へ行く」という文章と
「私も東京駅へ行く」という文章は異なるので従来の方
式では、上述の二つの文章を標準パターンとして記憶せ
ねばならず、音声の文章認識を行うために、標準パター
ンを記憶するメモリの容量が、膨大となってしまう。加
えて、連続音声の場合は、文章の開始位置および終了位
置を自動または手動により指示しないと、標準パターン
と比較する入力パターンを連続音声の中から取り出せ
ず、その結果文章認識処理に多大の時間を要していた。
このため、連続的に発生される音声の表す文章を認識の
対象とすると、早口で話される音声には文章認識処理の
時間が追従できないという解決すべき問題点があった。

そこで、本発明の目的は、上述の点に鑑みて、文章の開
始位置および終了位置を定めることを必要としない文章
認識方法を提供することにある。

［課題を解決するための手段］このような目的を達成するために、本発明は、文章内容
を示す標準パターンを文章構成単位を表わす複数の第１
特徴要素の列で構成し、文章内容の異なる複数の前記標
準パターンを記憶しておき、文章構成単位を表わす複数
の第２特徴要素の列で構成される文章を認識する際に、
該文章を構成する前記第２特徴要素を順次に入力し、当
該入力された単一の第２特徴要素と、前記標準パターン
との間の局部距離を算出し、前記第２特徴要素が入力さ
れた時点を前記標準パターンの終端の時点と強制的にみ
なした入力パターンを前記第２特徴要素が入力される毎
に想定し、該入力パターンと前記標準パターンとの間の
整合の結果を、前記局所距離の更新的な累積により取得
し、当該取得した整合の結果が予め定めた距離以下とな
った時点を検出し、該時点において、前記第２特徴要素
の入力時点毎に整合の対象となった前記標準パターンを
文章の認識結果としてスポット的に定めることを特徴と
する。

また、本発明は、前記標準パターンを、一部に前記第１
特徴要素を共有した複数の文章パターンにより構成し、
当該文章パターンを構成する前記第１特徴要素の接続順
序を、１つの文をなすネットワーク上の任意のパスのも
つノード数を同じとするネットワークの形態で記憶して
おき、前記認識結果の特定のために、該接続順序の示す
文章パターンと、前記入力パターンとの距離を算出する
ことを特徴とする。

［作用］本発明では、実施例の式(15)で定められるような入力区
間、例えば、第１図に示すような時刻ｔ〜ｔ＋６までに
入力パターンとして入力された第２特徴要素列（実施例
の場合は単語列）と標準パターンとの間の最適距離（局
所）計算が時刻ｔ＋６で行われる。すなわち、時刻ｔ＋
６では入力「ます」があるが、これは標準パターンの時
刻τ＝１の間の第１特徴要素列（わたくし，は，とうき
ょうえき，へ，いき，ます，（次の単語））の各第１の
特徴要素その距離（整合の結果）が計算され、かつ累積
される。このようにして入力パターンを特徴要素が入力
される毎に更新していくので、連続音声などから入力パ
ターンを切り出す際に入力パターンの始端／終端位置を
指示する必要がなくなる。加えて、入力の第２特徴要素
は標準パターンよりも短い。本発明で入力パターンとし
て第２特徴要素が入力される毎に第２特徴要素と標準パ
ターンとの間の局所距離計算を行い、その累積結果をこ
れまでに入力された入力パターン系列と標準パターンと
の整合結果とするので、その都度、上記入力パターン系
列そのもの自体と標準パターンとの距離計算を行う必要
はない。また、入力の第２特徴要素と標準パターンの中
に含まれる、第１特徴要素との比較が可能となるので、
複数の単語を共有する文章については、共有部分と相違
部分の単語で複数の文章パターンをネットワーク手法を
用いて記憶できる。このため、従来のように共有部分の
重複して文章を記憶した場合に比べて標準パターンの容
量が減少する。

［実施例］以下に、図面を参照して本発明の一実施例を詳細に説明
する。

本発明は、文章情報中の語尾変化，同一構文中である単
語が他の単語へ置き換わる等の現象に注目し、１つの標
準パターンにその標準パターンが取り得る語尾または単
語変化を含ませた文章を標準パターン側として構成する
と共に記憶しておき、連続音声等により入力された文章
情報に最も近い文章情報を記憶された標準パターンの中
からスポット的に抽出しようとするものである。

さて、発明者は先にベクトル連続ＤＰ(Continuaus Dyna
mic Programming)という手法を文献(1)において発見
し、本発明においてもベクトル連続ＤＰの概念を特異的
に適用しているが、文献(1)のベクトル連続ＤＰの概念
とは、連続ＤＰを適用する際の累積距離をスカラー量で
はなくベクトル量とすることを意味しており、本発明も
この概念を使用する。

本発明でのベクトル連続ＤＰの使用は入力された音声に
基づく入力記号列パターンと、整合の対象となる標準パ
ターン側である遷移ネットワークとを考えている。遷移
ネットワークは記号をノードとし、１つのノードから他
のノードへの遷移は方向付のアークで表わされていると
する。そのとき、この遷移ネットワークはＴ個のノード
集合｛Ｒ_τ：τ＝１，…，Ｔ｝に、以下の意味で分割さ
れるものとする。すなわち、Ｒ_τに属するノードはＲ_τ
にあるノードへ遷移するか、又はＲτ₊₁に属するノード
へのみ遷移するものとする。

このとき、Ｒ_τのパラメータτは順序を表わすパラメー
タとなる。以上のように分割できる遷移ネットワークの
例を第５図(A)に示す。第５図(A)においてノードを形成
する記号、すなわち単語を意味する記号としてａ，ｂ，
ｃ，ｄ，ｅ，ｆ，ｇ，ｈ，ｉ，ｊの10種類のものが存在
する。これらの記号は文章のつながりによって順序付け
された記号集合列、R₁＝{a},R₂＝{b,c},R₃＝{d},R₄＝
{e,f,g},R₅＝{h,i},R₆＝{j}に分割できる。

ここで、｛Ｒ_τ：τ＝1,.6｝は明らかに上述の条件を満
たす集合群になっている。例えばR₂＝{b,c}では、ｃ→
ｃ，ｂ→ｂというR₂内の遷移を行うものが存在し、R₂と
R₃との関係ではｂ→ｄ，ｃ→ｄというR₂の要素からR₃の
要素への遷移が存在する。R₄の要素についてはその内部
の要素間遷移として、ｅ→ｅ，ｆ→ｆのみが存在し、R₄
とR₅との関係ではｅ→ｈ，ｆ→ｈ，ｆ→ｉ，ｇ→ｈとい
うR₄の要素からR₅の要素への遷移が存在する。第５図
(A)の例では、任意のＲ_τ１とＲ_τ２（τ１≠τ２）の
間には共通の記号がないが、一般には共通する記号が許
される。

次に、本発明で用いるベクトル連続ＤＰの漸化式で用い
る遷移ネットワークの説明を行う。

いま、遷移ネットワーク内のノードを分割して得られる
ノードの集合Ｒ_τの要素の番号をｊ_τでもって表わすと
する。ここで、パラメータτは順序を表わす。ノードの
集合Ｒ_τの全要素の数をＪ_τとすると、１≦ｊ_τ≦ｊ_τ
となる。また、１≦τ≦Ｔとする。そのとき、Ｒ_τの要
素を２つの取り出す（これを取り出しＡとする）か、ま
たはＲ_τから要素を１つ取り出し、Ｒ_τ＋１（１≦τ＋
１≦Ｔ）から要素を１つ取り出す（これを取り出しＢと
する）ことを考える。取り出された２つの要素番号をそ
れぞれｊ_τ１，ｊ_τ２とする。番号ｊ_τ１，ｊ_τ２に対
応するノードをそれぞれノード（ｊ_τ１），ノードｊ
_τ２と記すとき、ノード（ｊ_τ１）からノード
（ｊ_τ２）への変遷の有無に基づく変数、を定義する。ここで、取り出しＡにおいて、１≦
ｊ_τ１，ｊ_τ２≦ｊ_τについてｊ_τ１＝ｊ_τ２が許され
るとする。そのとき、遷移ネットワークをＭと記すと
き、これを、Ｍ＝｛Ｃ（ｊ_τ１，ｊ_τ２）：１≦ｊ_τ１≦Ｊ_τ，１≦ｊ_τ２≦Ｊ_τ １≦τ１≦Ｔ，１≦τ２≦Ｔ｝と表現するものとする。

いま、Ｍで表現された遷移ネットワークにおいて、記号
が付加されているノードの全体を、｛Ｚ（τ，ｊ_τ）：１≦ｊ_τ≦Ｊ_τ，１≦τ≦Ｔ｝
(1) と表わす。ここで、Ｚ（τ，ｊ_τ）は（τ，ｊ_τ）で指
定されるノードのもつ記号である。Ｒ_τは時刻τが付加
されているノードの集合として、Ｊ_τはＲ_τの全要素数
である。Ｔはτの最大値で通常のＤＰでの標準パターン
長に相当する。次に入力されてくる文章のなかのノード
に対応する記号列を、｛ｆ（ｔ）：１≦ｔ＜∞｝ (2) と表わす。ここで、f(t)は時刻ｔの記号列を表わす。そ
のとき、遷移ネットワークＭのτ＝１からτ＝Ｔに至る
すべての可能な記号列のパスの中で最も整合する記号列
を、入力の記号列中に終端時刻ｔで（スポット的に）に
与えるアルゴリズムを以下に述べる。これを本発明にお
けるベクトル連続ＤＰのアルゴリズムとよぶ。

次に、時刻ｔに入力されてくる記号列f(t)と標準パター
ンの中の記号列ｚ（τ，ｊ_τ）との距離を局所距離と
し、これを距離関数ρを用いて、ｄ（ｔ，τ，ｊ_τ）＝ρ（ｆ（ｔ），ｚ（τ，ｊ_τ））
(3) で与える。f(t)がいくつかの候補をもつとき、すなわち
f_i(t),(i＝1,2,…I(t)であるとき、ｄ（ｔ，τ，ｊ_τ）＝ｍｉｎρ（ｆ_ｉ（ｔ），ｚ（τ，ｊ_τ）） (4) ｉ＝１，２，…Ｉ（ｔ）とすればよい。

なお、距離関数ρは例えば記号列f(t)と記号列ｚ（τ，
ｊ_τ）とが一致するとき１、一致しないとき∞とすれば
よい。

次に、座標点（ｔ，τ）におけるベクトルの累積距離
を、 {p(t,τ，ｊ_τ）：１≦ｊ_τ≦Ｊ_τ｝ (5) と表わす。ここで、１≦ｔ＜∞，１≦τ≦Ｔである。

累積距離については初期条件が定められるが、それは通
常の連続ＤＰの場合と同様に、Ｐ（−１，τ，ｊ_τ）＝ｐ（０，τ，ｊ_τ）＝∞
(6) となる。ここで、１≦ｊ_τ≦Ｊ_τ，１≦τ≦Ｔである。

なお、連続ＤＰにおけるパスの経路に対する傾斜制限を
第６図のように定義する。この傾斜制限は形は対象であ
るが重みは非対象である。また、［Ｊ_τ１，Ｊ_τ］＝｛（１，１），（１，２），…，（１，Ｊ_τ），（２，１），……，（Ｊ_τ−１，Ｊ_τ）｝ (7) と定義するとき、ｐ（ｔ，τ，ｊ_τ）（ｔ≧１）に関す
る漸化式は以下の(8)式（ケース(a)〜ケース(g)のよう
になる。

p(t,1,j₁)＝３×d(t,1,j₁) ケース(a) (1≦j₁≦J₁) p(t,2,j₂)＝min (1≦j₂≦J₂) p(t,τ，ｊ_τ）＝min (1≦ｊ_τ≦Ｊ_τ） (3≦τ≦Ｔ）ここで、サフィクスτをもつ組み合わせ（ｊ_τ，
ｊ′_τ）は上述の「取り出しＡ」によるノードの取り出
しを意味し、それ以外の組み合わせはすべて「取り出し
Ｂ」による取り出しを意味する。

ベクトル連続ＤＰの時刻ｔにおける出力値をA(t)と記す
と、それは通常の連続ＤＰの場合と類似して考えられ、となる。

次に、ベクトル連続ＤＰの動作の説明を第７図に基づい
て行なう。第７図において、遷移ネットワークを標準パ
ターン側としている。そして、横軸が入力記号列をもつ
時間パラメータｔを表わす。遷移ネットワークにおいて
はパラメータτを、標準パターンの時間パラメータτと
考える。

このパラメータτの標準パターン側の縦軸をとる。座標
点（ｔ，τ）は大きな円で示してあり、この点でのベク
トル累積距離の要素は小さな丸で示してある。大きな円
内の小さな丸はそれぞれＲ_τ，（１≦τ≦６）の要素に
対応している。

いま、傾斜制限の型は第６図に示すものとする。傾斜制
限を構成するパスは大きな円間をつなぐものと考える。
このパスの存在に基づいて、Ｃ（ｊ_τ１，ｊ_τ２）＝１
であるノード間の遷移を小さな丸の間の方向付結線で表
わす。この結線をチャネル結線とよぶ。一例として、点
（ｔ，τ）＝（ｔ，３）をとりあげる。遷移ネットワー
クでτ＝３であるノードをみると、それは１つしかな
く、またそのノードは自分自身への遷移をもっている。
この事実により、（ｔ，τ）平面で点（ｔ−１）平面で
点（ｔ−１，３）から点（ｔ，３）に至るチャネル結線
は１本のみである。

遷移ネットワークでτ＝２であるノードをみるとそれぞ
れはτ＝３の１つのノードへ遷移している。この事実に
より、（ｔ，τ）平面では、点（ｔ−２，２）から点
（ｔ−１，３）へ、点（ｔ−１，２）から点（ｔ，３）
へ、点（ｔ，２）から点（ｔ，３）へ、それぞれ２本の
結線が存在する。このとき、遷移ネットワークでτ＝２
にある２つのノードはそれぞれ自己への遷移があるの
で、点（ｔ−２，２）から点（ｔ−１，２）へ、点（ｔ
−１，２）から点（ｔ，２）へ等々のチャンネル結線が
存在するがそれらは点（ｔ，３）へ直接関与しないため
図中省略してある。

点（ｔ，３）へ直接関与するものとして他には点（ｔ−
１，１）から点（ｔ，２）へのパスがある。この場合、
遷移ネットワークのτ＝１のノードからの遷移を調べる
ことで、点（ｔ−１，１）から点（ｔ，２）へ至る２本
のチャネル結線の存在が了解できる。

この場合も、点（ｔ−１，１）から点（ｔ−１，２）へ
点（ｔ，１）から点（ｔ，２）へ等々のチャネル結線が
存在するが、それらも点（ｔ，３）へ直接関与しないた
め図中省略してある。このとき、ベクトル連続ＤＰの漸
化式は、点（ｔ，３）にある１つのノードに対応した累
積関距離値Ｐ（ｔ，３，１）として、このノードに至る
すべてのチャネル結線を通じて累積されうる値の中で最
小となるものを与える。

ベクトル連続ＤＰでは傾斜制限に基づき、（ｔ，τ）平
面近接の座標点間に多チャネル結線が仮定される。ベク
トル連続ＤＰの漸化式とは、これらの多チャネルを伝搬
してゆく値をノード毎に、かつ、連続ＤＰ的に点（ｔ，
τ）で最適に累積するアルゴリズムとなっている。

点（ｔ，τ）でのベクトルの累積距離の各要素Ｐ（ｔ，
τ，ｊ_τ）はＲ_１に属するノードからＲ_τのｊ番目のノ
ードへ至る最適パスが累積した距離を表わす。ベクトル
連続ＤＰの出力値A(t)は遷移ネットワークのτ＝１から
τ＝Ｔへ至り、かつ時刻ｔ終端時刻とする場合の最適パ
スによる正規化累積距離を表わす。時刻ｔは入力記号系
列の時間パラメータであることしから、例えばA(t)の局
所的最小値を定めることで遷移ネットワーク内の最適パ
スを入力記号系列中にスポットできることとなる。

次に、傾斜制限のパスと遷移ネットワークのノード間遷
移の関係について説明する。

ベクトル連続ＤＰは音声の特徴系列をも対象にしうる
が、音素・音節・単語等の記号系列にする場合、このア
ルゴリズムを入力についての脱落，挿入の処理としての
観点から評価するに留まらず、それを遷移ネットワーク
内の記号系列サーチアルゴリズムとしての観点からも評
価する必要がでてくる。後者の評価問題では、ベクトル
連続ＤＰにおける傾斜制限のパスと遷移ネットワークの
ノード間遷移の関係を調べることが重要となる。

ここでは、その制約を満足している例として第６図に示
した傾斜制限について、そのパスと遷移ネットワークの
ノード間遷移の関係について説明する。第８図(A)〜(D)
は４つの型のノード間遷移とそれに対応して形成される
チャネル結線を示している。第８図(A)のノード記号ａ
は自己遷移を意味するが、それはベクトル連続ＤＰの演
算系ではｔ軸に平行な傾斜のパスの中にチャネルを作
る。このチャネルは入力記号列に記号ａが２個連続して
出現してくる場合局所的にマッチングする。

第８図(B)はＲ_τの中でのａ→ｂという遷移の場合であ
るが、この場合も第８図(A)と同じようにｔ軸に平行の
傾斜のパスの中にチャネルを作る。このチャネルは入力
記号列にａ，ｂと出現してくる場合局所的にマッチング
する。

第８図(C)，(D)についても同様な論議ができる。ベクト
ル連続ＤＰで許される傾斜制限の例としては他に第９図
で示されるものがある。なお第９図(B)の傾斜制限を用
いる場合、第８図(A)，(B)，(C)のノード間遷移に局所
的にマッチングすることはありえない。一方、第９図
(B)の傾斜制限を用いる場合は遷移ネットワークにおい
て、Ｒ_τからＲ_τを介せずに直接Ｒ_τへ遷移するものを
扱うことができる。このように、傾斜制限の型は遷移ネ
ットワークを構成する基本的な遷移の型の組を決定する
といえる。そのため、構成したい遷移ネットワークに合
致した傾斜制限の型を選択すればよい。

次に、遷移ネットワーク構成とパラメータτによる順序
付けについて説明する。

先に述べたように、遷移ネットワークのすべてのノード
はパラメータτで順序付けられたノード集合の列に分割
されなければならない。しかし遷移ネットワークの構成
においてノード個数（時間長に対応）の異なるものが幾
つも分岐している場合、ノードのパラメータτによる順
序付けが可能であるかを考察しなければならない。

ノード個数の異なるものが幾つも分岐する場合の例とし
ては、文章中にある単語の幾つもの単語に置く変わる場
合や、語尾変化をもつ用言を表現する場合等がある。第
６図の傾斜制限を用いるベクトル連続ＤＰにおいて、分
岐できるもののノード個数変動範囲の拡大を考える。い
ま、空記号φを導入し、空記号φと入力記号との距離を
定数ε（≧０）を用いて、ｄ（ｔ，τ，ｊ_τ）＝ρ（ｆ（ｔ），ｚ（τ，ｊ_τ）＝
ε もしもｚ（τ，ｊ_τ）＝φのとき(10) と定義する。ここで、定数εはφでないノードについて
の局所距離d(t,τ，ｊ_τ）の値に比べて十分小さいとす
る。そのとき、分岐できるもののノード個数変動範囲の
最大は６となる。第(10)図に分岐できもののノードの個
数の差異が６である例を示す。

いま、…ａ…と…ABCDEFG…という２つの記号系列を考
え、これらはａとＡの前の記号列が同じであり、かつａ
とＧの後の記号列が同じであるとする。すなわち、遷移
ネットワークはａとＡの前のノードで分岐し、ａとＧの
後でこの分岐が終了しているとして表現されるものであ
る。

このとき、前者の記号列のａのあとに空記号φ２つを連
続して付加した記号列…ａφφ…を考え、これを前者の
記号列とする。そのとき、後者の記号列を第(10)図(A)
に示したように自己遷移を許さないノード記号を段階状
に並べて遷移ネットワークを構成する（第(10)図(A)で
は前者の記号列も示されている）。このように表現した
後で縦軸にパラメータτをとると、分岐に対応する記号
列の長さに６つの差が存在してもベクトル連続ＤＰは整
合を正しくとることができる。

第(10)図(B)は第(10)図(A)に対応した２種類の記号列が
入力してくる場合のチャネル結線の経路を示している。

第(10)図(B)での上の経路が第(10)図(A)の右側のパスに
対応し、第(10)図(B)の下の経路が(10)図(A)の左側のパ
スに対応する。第(A)の左側のパスに対応して第(10)図
(B)の下の経路をとることについてはεが十分小さいこ
とから明らかである。

第(10)図の場合が分岐できるもののノード個数の差が差
異大６である時の場合であり、５以下の差を示す分岐に
ついてももちろん遷移ネットワークが構成できる。さら
に、第(10)図では２つの分岐をしめしたが、任意の個数
の分岐も許される。

以上はあくまで第６図示の傾斜制限を用いたときのもの
であり、例えば第９図(C)の傾斜制限を用いれば許容さ
れるノード個数の変動範囲は６より大きくなる。第６図
の傾斜制限を用いて変動範囲が７以上となる場合は別の
遷移ネットワークとしなければならないが、そのときは
幾つものベクトル連続ＤＰ値A_x(t),(x＝1,2,…，）を比
較して最終判定をすればよい。

次に、ベクトル連続ＤＰに付随するパラメータの抽出に
ついて説明する。

ベクトル連続ＤＰでは標準パターン側が遷移ネットワー
クである。式(8)，(9)は最適整合値を与えるが、その値
が遷移ネットワーク内のいかなるパスを通って算出され
るか、またそのパスに対応した入力記号列の区間につい
ての情報を与えるものでない。スポットされている遷移
ネットワーク内のパスは時刻ｔで認識している文章を示
すものであり、またこの認識された文章に対応した入力
信号列区間の内容も、音声理解系の構成には必要なもの
である。これら２つの情報を取り出すために、式(8)に
付随した２つのパラメータ変数を導入している。

ベクトル連続ＤＰがスポット的に遷移ネットワークから
抽出する最適パスについて述べる。いま、式(8)−(a)
〜(g)において、最小値(min)によって選択される局所最
適パスを、それぞれ通過するノードの番号の組，（ｊ^※
_1a),(j^※ _1b,j^※ _2b,j^※ _2b),(j^※ _1c,j^※ _2c),(j^※ _1d,
j^※ _2d),(j^※ _τ−１ｅ，ｊ^※ _τｅ，ｊ^※ _τｅ），（ｊ^※
_τ−１ｆ，ｊ^※ _τｆ），（ｊ^※ _τ−２ｇ，
ｊ^※ _τ−１ｇ，ｊ^※ _τｇ）によって表わすとする。

パラメータ変数{w(t,τ，ｊ_τ，α）：1≦α≦N},(1≦
ｔ＜∞，1≦τ≦T,1≦j_τ≦Ｊ_τ）によって、点（ｔ，
τ）におけるｊ_τ番目のノードのもつ累積距離Ｐ（ｔ，
τ，ｊ_τ）に対応した遷移ネットワーク上の記号列パス
を表わす。ここで、αは記号列の記号の順序を表わすパ
ラメータでα＝１が記号列の最後尾、α＝Ｎが記号列の
先頭に対応するとする。また、Ｎ＝2・maxｊ_τ(1≦τ≦
T)とする。そのとき、w(t,τ，ｊ_τ，α）について、初
期条件を、 w(-t,τ，ｊ_τ，α）＝w(0,τ，ｊ_τ，α）＝φ (1≦τ≦T,1≦ｊ_τ≦Ｊ_τ,1≦α≦Ｎ） (10) として考える。ここで、φは空記号である。遷移ネット
ワーク内の最適パスは、局所的最適パスをつなげて得ら
れることから、式(8)−(a)〜(g)に対応して次の漸化式
によって与えられる。

w(t,1,j₁ 1)＝z(1,j^※ _1a) ケース(a)のとき w(t,2,j₂,1)＝z(2,j^※ _2b) w(t,2,j₂,2)＝z(2,j^※ _2b) w(t,2,j₂,α）＝w(t-2,1,j^※ _1b,α-2) (3≦α≦N) ケース(b)のとき w(t,2,j₂,1)＝z(2,j^※ _2c) w(t,2,j₂,α）＝w(t-1,1,j^※ _1c,α-1) (2≦α≦N) ケース(c)のとき w(t,2,j₂,1)＝z(2,j^※ _2d) w(t,2,j₂α）＝w(t-1,1,j^※ _1d,α-1) (2≦α≦N) ケース(d)のとき w(t,τ，ｊ_τ,1)＝z(τ，ｊ^※ _τｅ） w(t,τ，ｊ_τ,2)＝z(τ，ｊ^※ _τｅ） w(t,τ，ｊ_τ，α）＝w(t-2,τ−１，ｊ^※ _τ−１ｅ，α
-2) (3≦α≦N) ケース(e)のとき w(t,τ，ｊ_τ,1)＝z(τ，ｊ^※ _τｆ） w(t,τ，ｊ_τ，α）＝w(t-2,τ−１，ｊ^※ _τ−１ｆ，α
-1) (2≦α≦N) ケース(f)のとき w(t,τ，ｊ_τ,1)＝z(τ，ｊ^※ _τｇ） w(t,τ，ｊ_τ,2)＝z(τ，ｊ^※ _τ−１ｇ） w(t,τ，ｊ_τ，α）＝w(t-2,τ−２，ｊ^※ _τ−２ｇ，α
-2) (3≦α≦N) ケース(g)のとき (11) ここで、式(11)の(e)，(f)，(g)では３≦τ≦Ｔ，１≦
ｊ_τ≦Ｊ_τである。式(9)のＡ(t)を定めている最適累積
距離をp(t,T,j^※ _T)とすると、これに対応する遷移ネッ
トワーク内のパスの記号列は、 w(t,T,j^※ _T,N),w(t,T,j^※ _T,N-1)…，w(t,T,j^※ _T,1) (12) において空記号φを取り除いた部分である。

いま、パラメータ変数(t,τ，ｊ_τ），(1≦ｔ＜∞,1
≦τ≦Ｔ，１≦ｊ_τ≦Ｊ_τ）を点（ｔ，τ）におけるノ
ード（ｊ_τ）で累積距離p(t,τ，ｊ_τ）の算出に要する
入力フレーム区間長とする。そのとき、(t,τ，
ｊ_τ）は初期条件を (t,τ，ｊ_τ）＝(0,τ，ｊ_τ）＝０ (1≦τ≦Ｔ，１≦ｊ_τ≦Ｊ_τ） (13) として、式(8)-(a)〜(g)に対応した漸化式、 (t,1,j₁)＝０ケース(a)のとき (t,2,j₂)＝(t-2,1,j^※ _2b)+2 ケース(b)のとき (t,2,j₂)＝(t-1,1,j^※ _1c)+1 ケース(c)のとき (t,2,j₂)＝(t-1,1,j^※ _1d) ケース(d)のとき (t,τ，ｊ_τ）＝(t-2,τ-1,j^※ _τ−１ｅ）＋２ケース(e)のとき (t,τ，ｊ_τ）＝(t-2,τ-1,j^※ _τ−１ｆ）＋１ケース(f)のとき (t,τ，ｊ_τ）＝(t-2,τ-2,j^※ _τ−２ｇ）＋１ケース(g)のとき (14) によって定まる。なお、式(14)のケース(e)，(f)，(g)
では、３≦τ≦Ｔ，１≦ｊ_τ≦Ｊ_τである。式(9)の出
力値A(t)を定めているp(t,T,j_τ)を算出している入力の
区間は、［ｔ−(t,T,j^※ _T,t］ (15) によって定められる。

以上で、ベクトル連続ＤＰの原理を説明したので、次に
ベクトル連続ＤＰを適用した本実施例の構成の一例を第
２図に示す。

第２図において、10は音声を入力するマイクロフォンで
ある。20はアナログ−デジタル変換器（A/D変換器）で
あり、入力された音声をA/D変換する。30は中央演算処
理装置(CPU)であり、音声認識に関する演算処理を行
う。

40はリードオンリメモリ(ROM)であり、第４図に示す制
御手順の他に、入力音声をノード毎に認識する制御手順
が格納されている。50はランダムアクセスメモリ(RAM)
であり、RAM50はCPU30の演算処理に用いる各種変数や、
入力された音声に関する情報を記憶する。

RAM50にはネットワークテーブル51が設けられており、
ネットワークテーブル51に文章についての複数の標準パ
ターンが遷移ネットワークの形態で格納されている。な
お、標準パターンを固定しておく場合はネットワークテ
ーブル51をRAM40に記憶するようにしてもよい。60は認
識された文章パターンを印刷するプリンタである。

第３図は本実施例のネットワークテーブル51のメモリ構
成の一例を示す。

第３図により、標準パターンの１つとして第５図(B)に
示した文章について説明する。

図において、縦軸および横軸に文章を構成するノードを
配置している。例えば、横軸の「わたくし」というノー
ドN-1と、縦軸の「は」というノードNN-2とが結ぶマト
リクス位置にはアークを示す“１”が記憶されている。
さらに、繰り返しを意味する自己遷移を示す位置、例え
ば、ノードN-2とNN-2から定まる位置に“１”が記憶さ
れている。あるノードとそのノードと接続しない他のノ
ードとの関係は対応するマトリクス位置に、記号∞で示
されている。∞記号は予め定められた“１”に比べて非
常に大きい数値、例えば“0¹⁰"が用いられる。さらに、
上述の値“１”，“∞”がノードからノードへの遷移の
有無を示す変数ｃ(j_τ1,j_τ2)の値として取り扱われ
る。

次に、本実施例の動作を第１図，第２図，第４図を参照
して説明する。なお、入力される音声として「わたくし
は−とうきょうえきへいきます」を例に取り説明する。
なお、音声の入力に先立って、ベクトル連続ＤＰの値お
よび付属パラメータには初期値が設定される（ステップ
S10)。

時刻ｔにおいて「わたくしは」の音声がマイクロフォン
10から入力されると、マイクロフォン10から入力された
音声がA/D変換器20によりサンプリングされて、デジタ
ル信号として、CPU30に送られる。CPU30は従来公知のノ
ード認識に関する制御手順を行い、入力され音声に対応
するノードをRAM50へ記憶する。

このため、時刻ｔにおいて入力された音声は「わたくし
は」のノードが記号として表わされてRAM50のワーク領
域に記憶される（ステップS20）。

次に、CPU30は、標準パターンと全てのノード入力フレ
ームとの距離計算を行う。本例においては、標準パター
ンのτ＝１，j₁＝１のノードすなわちz_(1,1)＝「わたく
しは」と、入力フレームf(t)＝「わたくしは」との局所
距離は上述の(3)式によりd(t,1,1)＝１と求める。な
お、距離関数ρは入力パターンと標準パターンが一致し
ているとき“１”、一致しないときは“∞”とする。す
ると、d(t,2,1)〜d(t,6,1)の値は“∞”となる。次に、
ベクトル連続ＤＰの累積距離および付属パラメータの更
新をCPU30を行う（ステップS40)。本例において、標準
パターンのノードとして、w(t,1,1,1)＝「わたくし」が
記憶される。次に、この累積距離の中の最小距離をCPU3
0が決定する（ステップS50）。本例において、(5)式に
より定義される累積距離は、 p(t,1,1)＝3d(t,1,1)＝３ p(t,2,1)＝1+3・d(t,2,1)＝∞ p(t,6,1)＝∞ のように求める。したがって、最小累積距離としてp(t,
1,1)＝３が決定される。

次に、CPU30はしきい値と出力値の比較を行う（ステッ
プS60）。ベクトル連続ＤＰの時刻ｔにおける出力値A
(t)は(9)式によりが得られる。

CPU30は出力値A(t)と予め定められたしきい値例えば“1
0”とを比較して、しきい値＜A(t)なので時刻ｔにおい
て、標準パターン「わたくしは…いきます」と入力パタ
ーンとは一致していないと判断し、別の標準パターンと
の比較を行う。上述の手順により、全ての標準パターン
と入力フレームとの整合が行なわれ、これまでに入力さ
れた文字情報と一致する標準パターンがないときは、空
印刷を行い、時刻ｔ＋１を待って次のフレームの入力を
待つ（ステップS80→S90→S20）。

次に時刻ｔ＋１に「は」が入力されると、上述したよう
にCPU30により入力音声「は」が記号化されて、上述の
距離計算が行われる（ステップS20〜S30）。ステップS4
0〜S50の処理において、(8)式の漸化式によりp(t+1,T,
1)＝６が得られるが、p(t+1,T,1)＝∞となる。したがっ
てA(t+1)＝∞となり、やはり標準パターンと入力パター
ンは一致しないと判断される。なお、τ＝２のとき、局
所的最適パスを持つので、(11)式によりw(t+1,2,1)＝
「わたくし」、w(t+1,2,1)＝「は」が記憶される。

このように、順次、第４図の制御手順が繰り返されて、
時刻ｔ＋６になり「ます」が入力されると、(8)式のケ
ース(f)が最適パスとして適用され、すると、ステップS60のしきい値判定処理において、A(t
+6)＜しきい値（＝10）なのでのとき、ベクトル連続Ｄ
Ｐに関連して遷移ネットワーク上で選択されたノードの
例（(12)式参照）がプリンタ60により印刷される。すな
わち、CPU30は、認識した文章パターンとして「わたく
しはとうきょうえきへいきます」の印刷を行う（のステ
ップS70）。

この際、重要な点は、本発明では文頭の「私」，文末の
「ます」の単語が、それぞれ文頭／文末であるというこ
とを予めシステムには一切与えていないということであ
る。すなわち、この文章の前後に他の文章が連続してい
るときにおいても、この文章がスポット的に認識される
ことになっている。

以上説明したように、本発明は、標準パターンとして用
いる文章情報をネットワーク構成として、ベクトル連続
ＤＰの手法を用いて入力パターンと一致しているノード
をネットワークの経路に沿って選択していく。

したがって、１つ標準パターンに語尾変化，助詞の変
化，単語変化をも含めることが可能となる。従来では１
標準パターンにはネットワークにおいて分岐を許さない
１つの文章を用いなければならない。本発明のように文
章の語尾変化をも認識しようとする場合には、本例に用
いた文章パターンを例にとると、従来においては、「私
は東京駅へ行きます」，「私が東京駅へ行きます」…と
文章パターンを２×３×２＝12種類作成することにな
る。

これに対して、本発明は「私（は，が）東京駅（に，
へ，も）行く」という一つの標準パターンで上記12種類
の文章パターンを表現できる。したがって、標準パター
ンを記憶しておくメモリの容量を大幅に節約できること
は明らかである。

次に本実施例では連続ＤＰの距離計算を単語（ノード）
単位に行っているが、単語のみならず文章の認識確率を
高めたいときは音節単位で行えばよい。

さらに、この距離計算において、入力パターンと標準パ
ターンが一致しているとき“１”，一致していないとき
“∞”としているが、標準パターンに近い入力パターン
には、例えば“２”，“３”というように重み付けを言
うことにより、許容範囲内での標準パターンに似た入力
パターンをも認識することができる。

さらに、本実施例は入力する文章情報を音声パターンに
より入力する例について説明したが、キーボードや通信
ケーブルから記号化されて送られてくる文章情報につい
てスポット的にも文章認識が可能である。その他、通信
ケーブルにより転送されてきた文章情報の一部が特に雑
音などの影響により変化しても本発明は正しい文章認識
を行うことができる。さらには、キーボードからの文章
入力に際し、誤入力、例えば１文字に対する２度打ちの
誤入力があっても正しい文章認識を行うことができる。

なお、参考までに本発明と従来の方式との相違点を簡単
に紹介しておく。文献(1)は、本発明に関連した文献(1)
〜(4)の中では最も早い時期のものであるが、ここで
は、単語系列を標準パターンとして、入力を単語テラィ
ス系列をするとき、入力の単語ラティス系列中に、標準
パターンをなす単語系列をスポットする方式であり、以
下で述べるように、本発明と最も関連するが、本発明で
は標準パターン側を単語のネットワークにより、入力を
単語系列としてスポットする点が異なる。

文献(2)は、標準パターン側をネットワークにしている
が、入力の系列について、スポット的に整合するという
方式ではない点が本方式と異なっている。文献(3)，(4)
は文献(2)の拡張であるが、それらは依然として、入力
系列をスポット的に整合する方式ではない。

文献(5)にはその他のネットワークのマッチングについ
て述べられているが、これに記述されている内容から
も、本発明の特徴である入力系列をスポット的に整合す
る方式が既知とするものではないことを示している。

文献(6)，(7)，(8)，(9)はいずれも連続ＤＰを用いる点
は本発明と共通するが、標準パターン側を遷移ネットワ
ークとするものではなく、連続ＤＰの適用における制御
構造が、特に文献(8)，(9)は本発明と異なる。

「発明の効果」以上、説明したように、本発明によれば、１つの標準パ
ターンを共通単語を有する複数の文章パターンにより構
成するので従来に比べて標準パターン数を同一とすれ
ば、より少ないメモリ容量となすことができ、同一メモ
リ容量内には多数の標準パターンを格納することができ
る。さらには、１つの標準パターンの中から入力パター
ンに該当する文章パターンを入力パターンについて文章
の始めの相当する単語と終りに相当する単語を予め指定
する必要がないというスポット的に各時刻時刻で実時間
の文章認識ができる。この結果、複数の標準パターンと
入力パターンの比較に際し、入力パターンを標準パター
ンより短くでき、従来行っていた共通単語部分の重複比
較処理が不要になると共に、入力パターンの始端／終端
位置の指示も不要となるので、文章認識処理時間が大幅
に短縮される。加えて、本発明を英文章の認識に適用し
た場合単語の語尾変化を加味した標準パターンを作成す
ることができるという新たな効果を奏する。

【図面の簡単な説明】

第１図は本発明実施例のベクトル連続ＤＰの動作を示す
説明図、第２図は本発明実施例の構成の一例を示すブロック図、第３図は本発明実施例のネットワークテーブルの構成の
一例を示す説明図、第４図は本発明実施例の制御手順の一例を示すフローチ
ャート、第５図(A)，(B)は本発明実施例の遷移ネットワークの一
例を示す説明図、第６図は本発明実施例のベクトル連続ＤＰの非対象な重
みを持った傾斜制限を示す説明図、第７図は本発明実施例のベクトル連続ＤＰのアルゴリズ
ムを示す説明図、第８図(A)〜(D)は本発明実施例のノード間遷移における
４つの型を、それらに対応する（ｔ，τ）平面上近傍点
間のチャネル結線を示す説明図、第９図(A)〜(F)は本発明実施例のベクトル連続ＤＰで許
される傾斜制限の例を示す説明図、第１０図は本発明実施例における個数が最大６ノード分
異なる系列を生む分岐の遷移ネットワーク表現(A)とこ
の遷移ネットワークを入力系列と整合するときのベクト
ル連続ＤＰ表現とを示す説明図である。 10…マイクロフォン、 20…A/D変換器、 30…CPU、 40…RAM、 51…ネットワークテーブル、 60…プリンタ。

Claims

【特許請求の範囲】

【請求項１】文章内容を示す標準パターンを文章構成単
位を表わす複数の第１特徴要素の列で構成し、文章内容の異なる複数の前記標準パターンを記憶してお
き、文章構成単位を表わす複数の第２特徴要素の列で構成さ
れる文章を認識する際に、該文章を構成する前記第２特
徴要素を順次に入力し、当該入力された単一の第２特徴要素と、前記標準パター
ンとの間の局所距離を算出し、前記第２特徴要素が入力された時点を前記標準パターン
の終端の時点と強制的にみなした入力パターンを前記第
２特徴要素が入力される毎に想定し、該入力パターンと
前記標準パターンとの間の整合の結果を、前記局所距離
の更新的な累積により取得し、当該取得した整合の結果が予め定めた距離以下となった
時点を検出し、該時点において、前記第２特徴要素の入力時点毎に整合
の対象となった前記標準パターンを文章の認識結果とし
てスポット的に定めることを特徴とする文章認識方法。
【請求項２】前記標準パターンを、一部に前記第１特徴
要素を共有した複数の文章パターンにより構成し、当該
文章パターンを構成する前記第１特徴要素の接続順序
を、１つの文をなすネットワーク上の任意のパスのもつ
ノード数を同じとするネットワークの形態で記憶してお
き、前記認識結果の特定のために、該接続順序の示す文
章パターンと、前記入力パターンとの距離を算出するこ
とを特徴とする特許請求の範囲第１項に記載の文章認識
方法。