JPS603793A - 口唇情報解析装置 - Google Patents
口唇情報解析装置Info
- Publication number
- JPS603793A JPS603793A JP58111494A JP11149483A JPS603793A JP S603793 A JPS603793 A JP S603793A JP 58111494 A JP58111494 A JP 58111494A JP 11149483 A JP11149483 A JP 11149483A JP S603793 A JPS603793 A JP S603793A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- word
- lip
- words
- sent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000008188 pellet Substances 0.000 abstract description 2
- 230000005236 sound signal Effects 0.000 abstract description 2
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 abstract 1
- 229910052782 aluminium Inorganic materials 0.000 abstract 1
- 239000011888 foil Substances 0.000 abstract 1
- 206010011878 Deafness Diseases 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- VRAIHTAYLFXSJJ-UHFFFAOYSA-N alumane Chemical compound [AlH3].[AlH3] VRAIHTAYLFXSJJ-UHFFFAOYSA-N 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- YAFQFNOUYXZVPZ-UHFFFAOYSA-N liproxstatin-1 Chemical compound ClC1=CC=CC(CNC=2C3(CCNCC3)NC3=CC=CC=C3N=2)=C1 YAFQFNOUYXZVPZ-UHFFFAOYSA-N 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Image Processing (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
本発明は、口唇の動きを把握、分析することによりその
動きに対応した単語あるいは短い話し言葉を認識して音
声や文字に変換すg日ノ6情報解析装置に関するもので
ある。
動きに対応した単語あるいは短い話し言葉を認識して音
声や文字に変換すg日ノ6情報解析装置に関するもので
ある。
一般に、14の不自由な人あるいは発虐、発語が不自由
な人と健常者とが対話するには筆談あるいは手話等の手
段が用いられるが、これらの手段による対話には多くの
不便が伴う。しかしながら。
な人と健常者とが対話するには筆談あるいは手話等の手
段が用いられるが、これらの手段による対話には多くの
不便が伴う。しかしながら。
耳の不自由な人と健常者との対話において、健常者の話
す言葉がそのまま自動的に文字で表示されれば、あるい
は口の不自由な人と健帛渚との対話において、1jの不
自由な人か話そうとして日を動かしたときに、その口の
動きに対応して言葉が自動的に音声で発せられれば、耳
あるいは(」の不自由な人と健常者との対話が極めてス
ムーズに行われる。
す言葉がそのまま自動的に文字で表示されれば、あるい
は口の不自由な人と健帛渚との対話において、1jの不
自由な人か話そうとして日を動かしたときに、その口の
動きに対応して言葉が自動的に音声で発せられれば、耳
あるいは(」の不自由な人と健常者との対話が極めてス
ムーズに行われる。
而して、本発明者の調査研究によれば、1」IHの動き
を視認することにより話し言葉を理解するいわゆる読唇
において、口唇の動きに一対一に対応した子音の同定が
比較的困難であり、これに対してIit ?<−の5音
は容易に識別できることから、複数音の集まりである単
品あるいは短い話し言葉を認識中位とするのかイl効で
あることがわかった。
を視認することにより話し言葉を理解するいわゆる読唇
において、口唇の動きに一対一に対応した子音の同定が
比較的困難であり、これに対してIit ?<−の5音
は容易に識別できることから、複数音の集まりである単
品あるいは短い話し言葉を認識中位とするのかイl効で
あることがわかった。
」二記に鑑み、本発明は、口唇の一連の動きを単1;i
(あるいは短い話し言葉毎に認識し、それを文字または
音声に変換できるようにした1」唇情報解析装置を提供
しようとするものである。
(あるいは短い話し言葉毎に認識し、それを文字または
音声に変換できるようにした1」唇情報解析装置を提供
しようとするものである。
、−一記口的を達成するため、本発明の口唇情報解析装
j6は、被験11唇部を撮像することにより口唇の動き
を電気信号として検出するテレビカメラと、予め単語及
び1σい言葉を上記と同様にして検出した信号として記
憶装置に記憶させた1」唇情報解析器と、上記解析器か
らの出力信号に基づいて1」谷部の動きに対応する単語
あるいは短い話し言葉を実時間的に8声あるいは文字で
表示する表示装置とを備え、上記解析器を、テレビカメ
ラから送られる電気信号を予め記憶装置に記憶させた信
号と比較して、最も近似した信号に対応する単語または
言葉を選択、出力するものとして構成される。
j6は、被験11唇部を撮像することにより口唇の動き
を電気信号として検出するテレビカメラと、予め単語及
び1σい言葉を上記と同様にして検出した信号として記
憶装置に記憶させた1」唇情報解析器と、上記解析器か
らの出力信号に基づいて1」谷部の動きに対応する単語
あるいは短い話し言葉を実時間的に8声あるいは文字で
表示する表示装置とを備え、上記解析器を、テレビカメ
ラから送られる電気信号を予め記憶装置に記憶させた信
号と比較して、最も近似した信号に対応する単語または
言葉を選択、出力するものとして構成される。
以下、本発明の実施例を図面を参照しながら詳細に説明
する。
する。
第1図において、1は被験対象としての口唇部、2はそ
の口唇部1を撮像するテレビカメラ、3”はテレビカメ
ラ2からの撮像信吟を処理するロJtシ情報解析器、4
及び5はその解析器3からの出・( 力信号に基づいてu Ji部1の一連の動きに対応する
単語あるいは短い話し言葉を実時間的に音声あるいは文
字で表示する3声表示装置及び文字表示装置を示してい
る。
の口唇部1を撮像するテレビカメラ、3”はテレビカメ
ラ2からの撮像信吟を処理するロJtシ情報解析器、4
及び5はその解析器3からの出・( 力信号に基づいてu Ji部1の一連の動きに対応する
単語あるいは短い話し言葉を実時間的に音声あるいは文
字で表示する3声表示装置及び文字表示装置を示してい
る。
]二記1」谷部lにおける唇の動きの検出には、口j?
iと他の皮膚との違いを利用しfi lj唇を認識し、
そ”の時間的な変化から動きを検出するのか望まし\ いが、テレビカメラ2で把握し易くするため、正 ′中
線上における上唇の上端と下唇の下端、及び左右の1コ
角端の4点に発光グイオードを付着させ、あるいは」二
記4点にアルミ)^のペレット (直径5mm、曲率半
径2 cm!IIf!Lの凸面)等を伺着させ−て、+
、r )(−;部1をl(4明することもできる。1」
唇の動きに対応する」二記4点の動きは、高輝度点の動
きとしてテレビカメラ2で撮像Sれ、それにより、上記
各点の位置はポジションセンサと呼はれる光電未了、即
ち高速マルチポイントX−Y )ランカーによって1/
100秒刻みの電圧の変化としてとらえられる。
iと他の皮膚との違いを利用しfi lj唇を認識し、
そ”の時間的な変化から動きを検出するのか望まし\ いが、テレビカメラ2で把握し易くするため、正 ′中
線上における上唇の上端と下唇の下端、及び左右の1コ
角端の4点に発光グイオードを付着させ、あるいは」二
記4点にアルミ)^のペレット (直径5mm、曲率半
径2 cm!IIf!Lの凸面)等を伺着させ−て、+
、r )(−;部1をl(4明することもできる。1」
唇の動きに対応する」二記4点の動きは、高輝度点の動
きとしてテレビカメラ2で撮像Sれ、それにより、上記
各点の位置はポジションセンサと呼はれる光電未了、即
ち高速マルチポイントX−Y )ランカーによって1/
100秒刻みの電圧の変化としてとらえられる。
第21Jは口唇部1において所定の11ν間間隔で2回
「ただいま」と発声した場合において、上記のようにし
てイリた各点の動きを時間との関係で電圧により示した
もので、(a)は上J6の動き、(b)は−1・唇の動
き、(、c)は1」色差 (左端及び右端の口角端距離
) 、 (d)は音圧をそれぞれ示し、これらの各点に
おける波形が前後2回の発声時に略同様なパターンを示
すことから、パターン認識により単tL1あるいは短い
話し言葉を知得できることが理解される。
「ただいま」と発声した場合において、上記のようにし
てイリた各点の動きを時間との関係で電圧により示した
もので、(a)は上J6の動き、(b)は−1・唇の動
き、(、c)は1」色差 (左端及び右端の口角端距離
) 、 (d)は音圧をそれぞれ示し、これらの各点に
おける波形が前後2回の発声時に略同様なパターンを示
すことから、パターン認識により単tL1あるいは短い
話し言葉を知得できることが理解される。
−」−記各点での1に圧波形か印加される次段の1」唇
情報解析器3は、予め多数の単語及び短い話し言葉を上
記と同様の波形として記憶させた記憶装置を有するマイ
クロコンピュータによって構成され、そのマイクロコン
ピュータにおいて電圧波形のパターン・マツチングによ
る単晶あるいは短い話し1葉の認識を行わせるようにし
ている。その−例をさらに其体的に説明すると、先ず、
下唇の動きが最も顕銘であるので、下/iかある値以上
に下方に動いた111j点を発声が開始された時刻とし
、下J6がある値より」三方に戻り0.2秒以」−経過
したときを充用終了時点とすることにより発声期間を判
定する。この発辺期間内の4点の動きを、約 1ミリ秒
ことにサンプリングし、A/Dコンバーターにより各点
1バイトのディジタル情報に変換し、メモリーに書き
込む。発声終了と判定されると、取り込んだ情報を振幅
において規格化し、あらかしめ登録しである1コ唇の動
きのパターンとのマツチングを行う。マツチングの度合
が高い順から5位までの登録しであるパターンを選出し
、今取り込んだ口唇の動きのパターンを時間軸において
O,7倍から1.3倍まで0.1刻みで伸縮し、5位ま
での登録しであるパターンと再びマツチングを行う。こ
れらの操作で最もマツチングの度合か高すものを認識し
た言葉として出力する。
情報解析器3は、予め多数の単語及び短い話し言葉を上
記と同様の波形として記憶させた記憶装置を有するマイ
クロコンピュータによって構成され、そのマイクロコン
ピュータにおいて電圧波形のパターン・マツチングによ
る単晶あるいは短い話し1葉の認識を行わせるようにし
ている。その−例をさらに其体的に説明すると、先ず、
下唇の動きが最も顕銘であるので、下/iかある値以上
に下方に動いた111j点を発声が開始された時刻とし
、下J6がある値より」三方に戻り0.2秒以」−経過
したときを充用終了時点とすることにより発声期間を判
定する。この発辺期間内の4点の動きを、約 1ミリ秒
ことにサンプリングし、A/Dコンバーターにより各点
1バイトのディジタル情報に変換し、メモリーに書き
込む。発声終了と判定されると、取り込んだ情報を振幅
において規格化し、あらかしめ登録しである1コ唇の動
きのパターンとのマツチングを行う。マツチングの度合
が高い順から5位までの登録しであるパターンを選出し
、今取り込んだ口唇の動きのパターンを時間軸において
O,7倍から1.3倍まで0.1刻みで伸縮し、5位ま
での登録しであるパターンと再びマツチングを行う。こ
れらの操作で最もマツチングの度合か高すものを認識し
た言葉として出力する。
゛」二記出力は、次段の音声表示装置4における音声信
号発生器6に送られ、そこで形成された音声イ、)ケが
スピーカ7から上記口唇部lの動きに対応した音声で表
示される。また、」二記出力は、任意の切換え装置によ
って文字表示装め5にも送られ、液晶ディスプレイ等に
より文字として表示される。
号発生器6に送られ、そこで形成された音声イ、)ケが
スピーカ7から上記口唇部lの動きに対応した音声で表
示される。また、」二記出力は、任意の切換え装置によ
って文字表示装め5にも送られ、液晶ディスプレイ等に
より文字として表示される。
このように本発明によれば、発声あるいは発声に準する
1」)iの動きから単語あるいは短い言葉を知得できる
ので、発声φ発語の不自由な人の発語代行器あるいは耳
の不自由な人の聴覚代行器の一部として有効に利用する
ことができる。
1」)iの動きから単語あるいは短い言葉を知得できる
ので、発声φ発語の不自由な人の発語代行器あるいは耳
の不自由な人の聴覚代行器の一部として有効に利用する
ことができる。
第1図は本発明の実施例の構成図、第2図(a)〜(d
)はそれにより検出した唇の動きを電気信号で表わした
波形図である。 1−−・口唇部、 2・・・テレビカメラ、3・・・口
唇情報解析器。 指定代理人 」二叉技術院製品科学研究所長 高橋教司
)はそれにより検出した唇の動きを電気信号で表わした
波形図である。 1−−・口唇部、 2・・・テレビカメラ、3・・・口
唇情報解析器。 指定代理人 」二叉技術院製品科学研究所長 高橋教司
Claims (1)
- 1、被験口唇部を撮像することにより1コ唇の動きを電
気信号として検出するテレビカメラと、予め単語及び短
いuVを上記と同様にして検出した信−)として記憶装
:4に記憶〇させた口唇情報解析器と、」二記解析器か
らの出力信号に基づいて口唇部の動きに対応する単語あ
るいは短い話し言葉を実時間的に音声あるいは文字で表
示する表示装置とを備え、上記解析器を、テレビカメラ
から送られる電気信号を予め記憶装置に記憶させた信号
と比較して、最も近似した信号に対応する単語または言
葉を選択、出力するものとして構成したことを特徴とす
る0唇情報解析装置。
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58111494A JPS603793A (ja) | 1983-06-21 | 1983-06-21 | 口唇情報解析装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP58111494A JPS603793A (ja) | 1983-06-21 | 1983-06-21 | 口唇情報解析装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPS603793A true JPS603793A (ja) | 1985-01-10 |
| JPH0139147B2 JPH0139147B2 (ja) | 1989-08-18 |
Family
ID=14562696
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP58111494A Granted JPS603793A (ja) | 1983-06-21 | 1983-06-21 | 口唇情報解析装置 |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JPS603793A (ja) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6272466B1 (en) | 1997-03-04 | 2001-08-07 | Fuji Xerox Co., Ltd | Speech detection apparatus using specularly reflected light |
| US6343269B1 (en) | 1998-08-17 | 2002-01-29 | Fuji Xerox Co., Ltd. | Speech detection apparatus in which standard pattern is adopted in accordance with speech mode |
| JP2002135376A (ja) * | 2000-10-20 | 2002-05-10 | Kunihiko Koike | 無声入力通信装置 |
| JP2013045282A (ja) * | 2011-08-24 | 2013-03-04 | Kyushu Institute Of Technology | コミュニケーション支援システム |
| KR101410321B1 (ko) * | 2013-01-03 | 2014-06-27 | 한국과학기술원 | 무성음성인식 및 발성장치 및 방법 |
| CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
| JP2019124777A (ja) * | 2018-01-15 | 2019-07-25 | 富士通クライアントコンピューティング株式会社 | 情報処理装置,制御プログラムおよび制御方法 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS53142807A (en) * | 1977-05-18 | 1978-12-12 | Toyomichi Nakano | System for analyzing sound |
-
1983
- 1983-06-21 JP JP58111494A patent/JPS603793A/ja active Granted
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS53142807A (en) * | 1977-05-18 | 1978-12-12 | Toyomichi Nakano | System for analyzing sound |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6272466B1 (en) | 1997-03-04 | 2001-08-07 | Fuji Xerox Co., Ltd | Speech detection apparatus using specularly reflected light |
| US6343269B1 (en) | 1998-08-17 | 2002-01-29 | Fuji Xerox Co., Ltd. | Speech detection apparatus in which standard pattern is adopted in accordance with speech mode |
| JP2002135376A (ja) * | 2000-10-20 | 2002-05-10 | Kunihiko Koike | 無声入力通信装置 |
| JP2013045282A (ja) * | 2011-08-24 | 2013-03-04 | Kyushu Institute Of Technology | コミュニケーション支援システム |
| KR101410321B1 (ko) * | 2013-01-03 | 2014-06-27 | 한국과학기술원 | 무성음성인식 및 발성장치 및 방법 |
| CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出系统 |
| JP2019124777A (ja) * | 2018-01-15 | 2019-07-25 | 富士通クライアントコンピューティング株式会社 | 情報処理装置,制御プログラムおよび制御方法 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPH0139147B2 (ja) | 1989-08-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12374317B2 (en) | System and method for using gestures and expressions for controlling speech applications | |
| Yu et al. | The role of embodied intention in early lexical acquisition | |
| Duchnowski et al. | See me, hear me: integrating automatic speech recognition and lip-reading. | |
| Waibel et al. | Multimodal interfaces | |
| Hennecke et al. | Visionary speech: Looking ahead to practical speechreading systems | |
| US7720775B2 (en) | Learning equipment and learning method, and robot apparatus | |
| US7676372B1 (en) | Prosthetic hearing device that transforms a detected speech into a speech of a speech form assistive in understanding the semantic meaning in the detected speech | |
| US20160314781A1 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
| Freitas et al. | An introduction to silent speech interfaces | |
| Potamianos et al. | Audio and visual modality combination in speech processing applications | |
| CN119068870B (zh) | 一种多模态喉部振动信号与唇部动点数据的语音解码识别方法及系统 | |
| Luettin et al. | Continuous audio-visual speech recognition | |
| CN112232127A (zh) | 一种智能演讲训练系统及方法 | |
| JPS603793A (ja) | 口唇情報解析装置 | |
| JPH07181888A (ja) | 発声代行装置 | |
| Patel et al. | Teachable interfaces for individuals with dysarthric speech and severe physical disabilities | |
| JPH09319297A (ja) | 音声筆談器 | |
| Pyataeva et al. | Artificial neural network technology for lips reading | |
| Roy | A computational model of word learning from multimodal sensory input | |
| Adelhardt et al. | Multimodal user state recognition in a modern dialogue system | |
| Kratt et al. | Large vocabulary audio-visual speech recognition using the Janus speech recognition toolkit | |
| Yau et al. | Classification of voiceless speech using facial muscle activity and vision based techniques | |
| Hacker et al. | Are you looking at me, are you talking with me: multimodal classification of the focus of attention | |
| Goecke | A stereo vision lip tracking algorithm and subsequent statistical analyses of the audio-video correlation in Australian English | |
| Zeng et al. | Multi-stream confidence analysis for audio-visual affect recognition |