JPS60217395A

JPS60217395A - 音声による危機状態の検出装置

Info

Publication number: JPS60217395A
Application number: JP59073970A
Authority: JP
Inventors: 洋一竹林
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1984-04-13
Filing date: 1984-04-13
Publication date: 1985-10-30

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の技術分野］この発明は人間の発生した音声を利用して、そあ人間が
表現しようとしている危機状態を検出する装置に関する
。

［発明の技術的背景とその問題点］近年、エレクトロニクス、メカトロニクス、大規模シス
テム技術、ロボット技術等の科学技術の進歩は目覚まし
く、ファクトリ・オートメーション、オフィス・オート
メーション、ラバラトリ・オートメーション等の導入に
より、様々な産業分虹で合理化が図られ、業務の効率化
がなされてきている。また、ホーム・オートメーション
もより高度なものが導入さ゛れるようになってきた。

一方、パタニン認識技術も着実に進歩してきており、例
えば郵便番号め読取り装置、および英数字ｊカナ、さら
には漢字等を！！！ｌ！′議する光学的文字認識装置や
オンライン文字認識装置が実用化されている。さらに、
音声認識の分野でも特定話者を対象とする単語音声認識
装置、連続音声認識装置や単音節認識装置と日本語処理
技術による音声ワードプロセッサも実用化されている。

不特定話者用の単語音声認識装置も実用化されており、
銀行等における残額紹介等のテレホンサービスで多数の
ユーザーに利用されている。また、研究レベルでは連続
音声認識や話者認識に関する研究も盛んになされており
、このような研究の進展と半導体技術やＬＳＩ技術の進
歩とにより、広範な分野で音声認識装置が利用されよう
としている。この発明はこうした音声認識技術の発展を
利用したものである。

ところで、上述のような科学技術の進歩により合理化、
効率化が達成される反面、システムが複雑化、巨大化す
るにつれて、人間は従来とは異なる様々な危険に遭遇す
ることが多くなってくる。

例えば最近急速に進歩してきたロボット技術を見ると、
ロボットはコンピュータにより制御されて極めて精密な
動作９作業を行ない、部品の組立てや運搬等の多くの面
で人間の負担を軽減するのに寄与している。しかし、ロ
ボットはあくまで人間ではないので、電気的な雑音やプ
ログラムの誤りが原因で誤動作をを行なうことがある。

このような誤動作の結果、物品を破壊したり、人間に危
害を加えることもあるのが現状である。

また、ロボットに限らず種々のプラントや発電所等の大
規模システムでも、効率化のため人員削減を進めている
。従って、限られた人員で地震等の異常状態の検出をい
かに適確、かつ迅速に行なうかが大きな課題となってい
る。

人間の情報伝達手段のなかで、音声は最も基本的かつ迅
速なものである。従って人間は危機状態を認識したり、
危機感をいだいたとき、身振り・手振りよりもまず声を
出す。例えば日本人の場合は、「危ない！」「止まれ！
」　「ストップ！」「助けて！」「アー！」「待て！」
「キャーツ！」等である。従って、音声認識技術により
上記のような発話をｍｌすることで危機状態を検出でき
れば好都合であるが、先に挙げたような従来の音声認識
技術では言語的内容のみで、発話者が表現しようとして
いる危機状態までは検出できないという問題があった。

［発明の目的］この発明の目的は、人間が音声により危機状態を表現し
たときにそれを検出する装置を提供することである。

［発明の概要コこの発明は、人間が危機状態を知らせるために発声した
音声の言語的内容を通常の音声認識技術により認識する
と同時に、音声の発話絶対レベル。

アクセント、イントネーション等の韻律的特徴を抽出し
て感情を認識し、これらから人間が表現しようとしてい
る危機状態を適確に検出するものである。

すなわち、この発明に係る検出装置は入力された音声を
分析する手段と、この分析結果より得られる音声の特徴
ベクトルと予め作成されている音声認識辞書とを照合し
、音声の言語的内容を認識する手段と、この手段により
認識された音声の言語的内容と前記分析結果より得られ
る音声の韻律５− 的特徴とから、発話者が表現した危機状態の発生を検出
する手段とを備えたことを特徴としている。

［発明の効果］この発明によれば危機状態の検出に韻律的特徴を利用し
ているため、通常の会話中に現われる音声による誤動作
は低減され信頼性が高く、また言語的内容が不明確でも
発話の大きさや韻律の変化パターンにより危機状態の検
出が確実になされるという利点がある。

さらに、話者照合の機能を付加し、上記の言語的内容と
韻律的特徴とによる危機状態の検出結果を話者照合結果
と併用して危機状態の有無を判定すれば、他人の音声に
よる誤動作も減少し、さらに信頼性を高めることができ
る。

この発明の検出装置を用いると、例えばロボットが人間
に危害を加えそうになったときや、プラン］・が故障し
て緊急を要する場合等に、作業者等が発声した音声から
危機状態を自動的に検出して、その危機状態に対応した
処置を速やかに、かつ自動的に行なうことが可能となり
、種々のシステム−〇− の安全性向上、人間の安全性確保に大きく寄与すること
ができる。

［発明の実施例］第１図はこの発明の一実施例の検出装置の概略的構成を
示すものである。

図において、分析部１には図示しないマイクロフォンに
よって入力された音声が増幅器等を適宜介して電気信号
として入力される。この分析部１では入力された音声信
号を低域フィルタでＯ〜５．６ｋｌ−１ｚに帯域制限し
た後、Ａ／Ｄ変換器において例えば１２ｋＨｚの標本化
周波数で１２ビツトのディジタル信号に変換する。そし
て１６チヤネルのディジタル帯域通過フィルタで周波数
分析を行ない、自乗した後、１６ｍｓの時定数で平滑化
を行ない、６ｍＳ毎に１６次元のパワースペクトルを抽
出して、言語１ｌｉｌｉ部２と韻律情報処理部３に出力
する。

また、分析部１ではさらに上述した周波数分析を行なう
ほか、例えば新美康永著「音声認識」ｐｐ、５６−５９
　：昭和５４年共立出版に記載された相関法等の手法に
より音声波形の基本周波数（ピッチ周期）を抽出し、こ
れを８ｍＳ毎に韻律情報処理部３に出力する。さらにエ
ネルギーレベルの情報もやはり８ｍＳ毎に韻律情報処理
部３に与えられる。

言Ｎ認識部２では話者の発声した音声の言語的内容をＷ
ｇｉｌシ、認識結果を危機状態検出部４へ送る。言語認
識部２は例えば第２図に示すように、音素等の音韻を基
本単位として認識を行なうように構成すると効果的であ
る。第２図においては入力音声の分析結果として得られ
る１６次元ベクトル複数フレーム分、例えば５フレ一ム
分の１６Ｘ５＝８０次元ベクトルからなる音素特徴ベク
トルと音素辞書７とを音素認識部５で複合類似度法等に
より照合し、各音節に対する類似度値を得る。

そして、この類似度値を用いて入力音声を音素に分割し
、音素記号系列を単語認識部６に出力する。

単語認識部６では単語辞書８と入力音素系列とを音素の
コンフユージヨンマトリクスを用いて動的計画法により
照合ル、単語認識結果を得る。

このように音素を言語認識の基本単位とすれば、人間が
危機状態のときに発声しうる音声の言語的内容を予め登
録のために発声する必要はなく、単語辞書８の変更のみ
で任意の発話に対応できるという利点がある。また、言
語認識部２は上述したように単語認識だけでなく、連続
単語認識を行なうように構成することもでき、さらに危
機を表わす語案だけに焦点を合す、ワード支ボッティン
グの技術を用いるように構成することもできる。

一方、第１図における韻律情報処理部３では分析部１か
らのフィルタ出力と基本周波数とエネルギーの時系列か
ら、人間の発話に含まれる危機状態の表現に関係のある
韻律的特徴を抽出する。第３図に韻律情報処理部３の一
構成例を示す。分析部１から出力されるエネルギーおよ
びピッチ周波数（基本周波数）の時系列を用いて、発話
レベルの測定やアクセントおよびイントネーションの解
析が行なわれる。

まず、発話レベル測定部９では入力音声の発話の最大値
を測定し、危機状態検出部４へ出力する。

９− また、アクセント核抽出部１０ではアクセント核の存在
をピッチパターンより抽出し、危機状態検出部４へ出力
する。イントネーション判定部１１では危機状態のとき
に発話しうるピッチパターンか否かを判定し、その確か
らしさ、すなわち尤度を危機状態検出部４へ出力する。

上述した韻律情報処理部３を設けた点がこの発明の特徴
の一つであり、危機に際して人間が行なう発話のレベル
およびピッチパターンの性質に着目して、人間の表現し
た危機状態（危機感）の検出を高精度に行ならことを可
能にしている。

第１図における危機□状態検出回路４では、言語　″認
識部２から出力される単語音声認識結果と韻律情報処理
部３から出力される最大エネルギー、アクセント核情報
および栖ントネーション情報を、予め与えられている危
機状態の検出に関する知識と照合して総合判定を行ない
、危機状態か否かを表わす信号を出力する。

第４図に危機状態検出回路４の一構成例を示す。

単語認識結果、例えば「危ない！」「アー！」１０− 「待て！」等の言語的内容に関する情報と、最大エネル
ギーレベルに関する情報、アクセント核の位置、イント
ネーションの傾向等を総合判定部１２で危機状態検出用
知識辞書１３と照合し、危機状態か否かを判定する。例
えば「危ない！」と認識された場合、発話レベルが小さ
くとも、あるいはアクセントやイントネーションが多少
違っていても、危機状態を表わすよう知識辞書１３内の
知識を埋めておく。また、「アー！」と認識した場合は
、レベルが大きいときやピッチパターンが危機感を表わ
しているときのみ危機状態と判定するように知識辞書１
３を作成しておけばよい。すなわち、言語的内容と感情
的内容を総合的に判断して危機状態か否かの判定を下す
ようにする。

第５図はこの発明の他の実施例を示すもので、上）ホし
た実施例で説明した危機状態の検出機能に話者照合の技
術を組合わせることにより、特定話者用に高性能化した
危機状態の検出装置である。

すなわち、この実施例では分析部１で入力音声の分析結
果から得られる話者照合用特徴ベクトルと話者照合用辞
書１５とを話者照合部１４で照合し、その話者照合結果
を総合判定部１６へ送る。

総合判定部１６では、危機状態検出部４から出力される
危機状態に関する情報と上記話者照合結果とを総合的に
判断して、最終的な危機状態の有無を判定する。

このように構成することにより、ある特定の利用者以外
の人間による危機状態の誤検出を防ぐことができ、さら
に信頼性が向上する。

以上説明したように、この発明によれば人間の最も自然
、かつ迅速な情報伝達手段である音声に含まれる情報を
用いて１、シの人間が危機感を音声で表現したとき、そ
れを高精度かつ安定に検出することができる。従って、
この発明の検出装置をロボットに適用すれば、例えば人
間がロボットに危害が加えられそうなとき、人間が発声
によってロボットの動作を制御して停止させたり、ある
いは回避動作を行なわせることが可能となる。また、プ
ラントのような大規模システムにおいて作業者等が危機
状態を認識したとき、発声するだけで自動的にそれに対
する処置を実行することが可能となる。

なお、この発明は上記実施例に限定されるものではなく
、各ブロック内の具体的構成等については、要旨を逸脱
しない範囲で種々変形実施することが可能である。

【図面の簡単な説明】

第１図はこの発明の一実施例に係る音声による危機状態
の検出装置の構成図、第２図は言語認識部の一構成例を
示す図、第３図は韻律情報処理部の一構成例を示す図、
第４図は危機状態検出部の一構成例を示す図、第５図は
この発明の他の実施例の構成図である。１・・・分析部、２・・・言語認識部、３・・・韻律情
報処理部、４・・・危機状態検出部、１４・・・話者照
合部。出願人代理人　弁理士　鈴江武彦１３−

Claims

【特許請求の範囲】（１）入力された音声を分析する手段と、この分析結果
より得られる音声の特徴ベクトルと予め作成されている
音声認識辞書とを照合し、音声の言語的内容を認識する
手段と、この手段により認識された音声の言語的内容と
前記分析結果より得られる音声の韻律的特徴とから、発
話者が表現した危機状態の発生を検出する手段とを備え
たことを特徴とする音声による危機状態の検出装置。（２１発話者の表現した危機状態を検出する手段の検出
結果は、ロボット１御に用いられるものであることを特
徴とする特許請求の範囲第１項記載の音声による危機状
態の検出−置。（３）　発話者が表現した危機状態を検′出する手段の
検出結果は、話者照合結果と共に最終的な危機状態の有
無の判定に用いられるもの゛であることを特徴とする特
許請求の範囲第１項記載の音声による危機状態の検出装
置。