JP7081164B2 - 表示制御装置、通信装置、表示制御方法および通信方法 - Google Patents
表示制御装置、通信装置、表示制御方法および通信方法 Download PDFInfo
- Publication number
- JP7081164B2 JP7081164B2 JP2018005700A JP2018005700A JP7081164B2 JP 7081164 B2 JP7081164 B2 JP 7081164B2 JP 2018005700 A JP2018005700 A JP 2018005700A JP 2018005700 A JP2018005700 A JP 2018005700A JP 7081164 B2 JP7081164 B2 JP 7081164B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- voice
- lip
- recognition
- movement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—Three-dimensional [3D] animation
- G06T13/205—Three-dimensional [3D] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—Two-dimensional [2D] animation, e.g. using sprites
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Geometry (AREA)
- Computer Networks & Wireless Communication (AREA)
- Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Closed-Circuit Television Systems (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Communication Control (AREA)
Description
図1は、第一実施形態に係る通信装置の構成例を示すブロック図である。図2は、第一実施形態に係る通信装置の構成例を示す概略図である。通信装置1は、例えば、携帯電話のように通話機能を有する携帯用電子機器を含む通信装置またはコンピュータなどである。本実施形態では、通信装置1は、携帯電話であるものとして説明する。通信装置1は、カメラ10とマイクロフォン20と送受信部30と表示パネル(表示部)40とスピーカ50と制御部100とを有する。本実施形態では、通信装置1は、ユーザが発話者である。本実施形態では、ユーザの通話相手が聴覚障害者である。本実施形態では、通信装置1は、ユーザである発話者の発話音声の音声データと強調映像210の映像データとを、聴覚障害者である通話相手に送信する。
図9を参照しながら、本実施形態に係る通信装置1について説明する。図9は、第二実施形態に係る通信装置における処理の流れを示すフローチャートである。本実施形態では、通信装置1は、ユーザが聴覚障害者である。本実施形態では、通話相手が発話者である。本実施形態では、通信装置1は、通話相手の発話音声の音声に対応する通話相手の顔部の映像を表示して、聴覚障害者であるユーザが通話をしやすくする。通信装置1は、基本的な構成は第一実施形態の通信装置1と同様である。以下の説明においては、通信装置1と同様の構成要素には、同一の符号または対応する符号を付し、その詳細な説明は省略する。通信装置1は、制御部100における処理が通信装置1と異なる。
図10を参照しながら、本実施形態に係る通信装置1について説明する。図10は、第三実施形態に係る通信装置における処理の流れを示すフローチャートである。本実施形態では、通信装置1は、ユーザが聴覚障害者である。本実施形態では、通話相手が発話者である。通信装置1は、基本的な構成は第二実施形態の通信装置1と同様である。通信装置1は、制御部100における処理が第二実施形態の通信装置1と異なる。
10 カメラ
20 マイクロフォン
30 送受信部
40 表示パネル(表示部)
50 スピーカ
100 制御部
101 映像取得部
102 音声取得部
103 通話処理部
104 表示制御部
105 音声出力処理部
106 音声認識部
107 口唇検出部
108 口唇動作認識部
109 比較部
110 映像処理部
200 口唇部
210 強調映像
220 顔部映像
Claims (10)
- 少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、
前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、
前記発話者の発話音声の音声データを取得する音声取得部と、
前記音声取得部が取得した前記音声データから音声を認識する音声認識部と、
前記音声認識部が認識した認識結果と、前記口唇動作認識部が認識した認識結果とを比較する比較部と、
前記比較部の比較結果において、前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い場合、前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部と、
前記映像処理部が生成した映像を表示部に表示させる表示制御部と、
を備えることを特徴とする表示制御装置。 - 少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、
前記口唇検出部が検出した口唇部の動きが大きくなるように強調したアニメーションの映像を生成する映像処理部と、
前記映像処理部が生成した映像を表示部に表示させる表示制御部と、
を備えることを特徴とする表示制御装置。 - 通話処理を行う通話処理部と、
少なくとも発話者の口元を撮影した映像データを取得する映像取得部と、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、
通話時の発話音声を取得する音声取得部と、
前記音声取得部が取得した音声データから音声を認識する音声認識部と、
前記通話処理部が送信する映像を、前記音声認識部が認識した音声に基づき前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部と、
前記映像処理部が生成した映像を表示部に表示させる表示制御部と、
を備えることを特徴とする通信装置。 - 通話処理を行う通話処理部と、
少なくとも発話者の口元を撮影した映像データを前記通話処理部が受信して取得する映像取得部と、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出部と、
前記発話者の発話音声の音声データを取得する音声取得部と、
前記通話処理部が受信して取得した音声データから音声を認識する音声認識部と、
前記音声認識部が認識した音声に基づき前記口唇検出部が検出した口唇部の動きが大きくなるように強調した映像を生成する映像処理部と、
前記映像処理部が生成した映像を表示部に表示させる表示制御部と、
を備えることを特徴とする通信装置。 - 前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、
前記音声認識部が認識した認識結果と、前記口唇動作認識部が認識した認識結果とを比較する比較部、
を備え、
前記映像処理部は、前記通話処理部による通話開始後、前記比較部の比較結果が前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い結果が生じた場合、通話終了まで口唇動作を大きい映像となるように強調する処理を行う、
請求項3または4に記載の通信装置。 - 前記口唇検出部が検出した口唇部の動きから発話内容を認識する口唇動作認識部と、
前記音声認識部が認識した認識結果と、前記口唇動作認識部が認識した認識結果とを比較する比較部、
を備え、
前記映像処理部は、前記通話処理部による通話相手が以前の通話において、前記比較部の比較結果が前記音声認識部による認識結果に比して前記口唇動作認識部の認識結果の認識率が低い結果が生じた通話相手である場合、通話開始から口唇動作を大きい映像となるように強調する処理を行う、
請求項3または4に記載の通信装置。 - 少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記口唇検出ステップによって検出された口唇部の動きから発話内容を認識する口唇動作認識ステップと、
前記発話者の発話音声の音声データを取得する音声取得ステップと、
前記音声取得ステップによって取得された前記音声データから音声を認識する音声認識ステップと、
前記音声認識ステップによって認識された認識結果と、前記口唇動作認識ステップによって認識された認識結果とを比較する比較ステップと、
前記比較ステップにおける比較結果において、前記音声認識ステップによる認識結果に比して前記口唇動作認識ステップにより認識結果の認識率が低い場合、前記口唇検出ステップによって検出された口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、
前記映像処理ステップによって生成された映像を表示部に表示させる表示制御ステップと、
を含むことを特徴とする表示制御方法。 - 少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記口唇検出ステップによって検出された口唇部の動きが大きくなるように強調したアニメーションの映像を生成する映像処理ステップと、
前記映像処理ステップによって生成された映像を表示部に表示させる表示制御ステップと、
を含むことを特徴とする表示制御方法。 - 通話処理を行う通話処理ステップと、
少なくとも発話者の口元を撮影した映像データを取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
通話時の発話音声を取得する音声取得ステップと、
前記音声取得ステップによって取得された音声データから音声を認識する音声認識ステップと、
前記通話処理ステップによって送信される映像を、前記音声認識ステップによって認識された音声に基づき前記口唇検出ステップによって検出された口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、
前記映像処理ステップによって生成された映像を表示部に表示させる表示制御ステップ
と、
を含むことを特徴とする通信方法。 - 通話処理を行う通話処理ステップと、
少なくとも発話者の口元を撮影した映像データを前記通話処理ステップによって受信して取得する映像取得ステップと、
前記映像データから口唇部を検出するとともに、口唇部の動きを検出する口唇検出ステップと、
前記発話者の発話音声の音声データを取得する音声取得ステップと、
前記通話処理ステップによって受信して取得した音声データから音声を認識する音声認識ステップと、
前記音声認識ステップによって認識された音声に基づき前記口唇検出ステップによって検出された口唇部の動きが大きくなるように強調した映像を生成する映像処理ステップと、
前記映像処理ステップによって生成された映像を表示部に表示させる表示制御ステップと、
を含むことを特徴とする通信方法。
Priority Applications (6)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018005700A JP7081164B2 (ja) | 2018-01-17 | 2018-01-17 | 表示制御装置、通信装置、表示制御方法および通信方法 |
| PCT/JP2018/039528 WO2019142424A1 (ja) | 2018-01-17 | 2018-10-24 | 表示制御装置、通信装置、表示制御方法およびプログラム |
| EP18901303.0A EP3691256B1 (en) | 2018-01-17 | 2018-10-24 | Display control device, communication device, display control method, and program |
| CN201880065578.1A CN111201786B (zh) | 2018-01-17 | 2018-10-24 | 显示控制装置、通信装置、显示控制方法及存储介质 |
| KR1020207009456A KR102446222B1 (ko) | 2018-01-17 | 2018-10-24 | 표시 제어 장치, 통신 장치, 표시 제어 방법 및 컴퓨터 프로그램 |
| US16/842,811 US11508106B2 (en) | 2018-01-17 | 2020-04-08 | Display control device, communication device, display control method, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2018005700A JP7081164B2 (ja) | 2018-01-17 | 2018-01-17 | 表示制御装置、通信装置、表示制御方法および通信方法 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019125927A JP2019125927A (ja) | 2019-07-25 |
| JP7081164B2 true JP7081164B2 (ja) | 2022-06-07 |
Family
ID=67301388
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2018005700A Active JP7081164B2 (ja) | 2018-01-17 | 2018-01-17 | 表示制御装置、通信装置、表示制御方法および通信方法 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US11508106B2 (ja) |
| EP (1) | EP3691256B1 (ja) |
| JP (1) | JP7081164B2 (ja) |
| KR (1) | KR102446222B1 (ja) |
| CN (1) | CN111201786B (ja) |
| WO (1) | WO2019142424A1 (ja) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11069357B2 (en) * | 2019-07-31 | 2021-07-20 | Ebay Inc. | Lip-reading session triggering events |
| EP4009629A4 (en) | 2019-08-02 | 2022-09-21 | NEC Corporation | SPEECH PROCESSING DEVICE, SPEECH PROCESSING METHOD AND RECORDING MEDIA |
| KR102840394B1 (ko) | 2020-04-14 | 2025-07-29 | 주식회사 엘지에너지솔루션 | 권취롤로부터 전극 기재를 이송하는 시스템 및 방법 |
| KR102501665B1 (ko) * | 2021-02-15 | 2023-02-17 | 연세대학교 산학협력단 | 입술 움직임 정보 분석 방법 및 장치 |
| JP7624707B2 (ja) | 2021-03-19 | 2025-01-31 | 国立大学法人九州工業大学 | 顔合成読唇装置及び顔合成読唇方法 |
| CN113642469A (zh) * | 2021-08-16 | 2021-11-12 | 北京百度网讯科技有限公司 | 嘴唇动作的检测方法、装置、设备和存储介质 |
| JP2023112556A (ja) * | 2022-02-01 | 2023-08-14 | Necプラットフォームズ株式会社 | 視覚化装置、視覚化方法、及びプログラム |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003296753A (ja) | 2002-04-04 | 2003-10-17 | Computer Image Laboratory Co Ltd | 聴覚障害者用対話システム |
| WO2005109830A1 (ja) | 2004-05-12 | 2005-11-17 | Takashi Yoshimine | 会話支援装置及び会話支援方法 |
| JP2006140621A (ja) | 2004-11-10 | 2006-06-01 | Matsushita Electric Ind Co Ltd | 携帯電話機 |
| JP2012103904A (ja) | 2010-11-10 | 2012-05-31 | Sysystem Co Ltd | 画像処理装置および方法、並びに、プログラム |
Family Cites Families (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5907351A (en) * | 1995-10-24 | 1999-05-25 | Lucent Technologies Inc. | Method and apparatus for cross-modal predictive coding for talking head sequences |
| JPH09265253A (ja) * | 1996-03-29 | 1997-10-07 | Hitachi Ltd | 口唇アニメーション合成方法及び装置 |
| US6014625A (en) * | 1996-12-30 | 2000-01-11 | Daewoo Electronics Co., Ltd | Method and apparatus for producing lip-movement parameters in a three-dimensional-lip-model |
| JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
| KR100411760B1 (ko) | 2000-05-08 | 2003-12-18 | 주식회사 모리아테크놀로지 | 애니메이션 영상 합성 장치 및 방법 |
| WO2002029784A1 (en) * | 2000-10-02 | 2002-04-11 | Clarity, Llc | Audio visual speech processing |
| JP2004098252A (ja) * | 2002-09-11 | 2004-04-02 | Ntt Docomo Inc | コミュニケーション端末、口唇ロボットの制御方法及び口唇ロボットの制御装置 |
| JP2006005440A (ja) | 2004-06-15 | 2006-01-05 | Sony Corp | 通話送受信方法および通話端末 |
| KR100820141B1 (ko) | 2005-12-08 | 2008-04-08 | 한국전자통신연구원 | 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템 |
| JP2008099121A (ja) | 2006-10-13 | 2008-04-24 | Nec Electronics Corp | 携帯電話機及びプログラム |
| CN101101752B (zh) * | 2007-07-19 | 2010-12-01 | 华中科技大学 | 基于视觉特征的单音节语言唇读识别系统 |
| KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
| BRPI0904540B1 (pt) * | 2009-11-27 | 2021-01-26 | Samsung Eletrônica Da Amazônia Ltda | método para animar rostos/cabeças/personagens virtuais via processamento de voz |
| CN101751692B (zh) * | 2009-12-24 | 2012-05-30 | 四川大学 | 语音驱动唇形动画的方法 |
| US9493130B2 (en) * | 2011-04-22 | 2016-11-15 | Angel A. Penilla | Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input |
| KR20130022607A (ko) * | 2011-08-25 | 2013-03-07 | 삼성전자주식회사 | 입술 이미지를 이용한 음성 인식 장치 및 이의 음성 인식 방법 |
| WO2013086027A1 (en) | 2011-12-06 | 2013-06-13 | Doug Carson & Associates, Inc. | Audio-video frame synchronization in a multimedia stream |
| KR101862128B1 (ko) | 2012-02-23 | 2018-05-29 | 삼성전자 주식회사 | 얼굴을 포함하는 영상 처리 방법 및 장치 |
| JP5902632B2 (ja) * | 2013-01-07 | 2016-04-13 | 日立マクセル株式会社 | 携帯端末装置及び情報処理システム |
| WO2014209262A1 (en) * | 2013-06-24 | 2014-12-31 | Intel Corporation | Speech detection based upon facial movements |
| GB2516965B (en) * | 2013-08-08 | 2018-01-31 | Toshiba Res Europe Limited | Synthetic audiovisual storyteller |
| CN105022470A (zh) * | 2014-04-17 | 2015-11-04 | 中兴通讯股份有限公司 | 一种基于唇读的终端操作方法及装置 |
| US10460732B2 (en) * | 2016-03-31 | 2019-10-29 | Tata Consultancy Services Limited | System and method to insert visual subtitles in videos |
| US10770092B1 (en) * | 2017-09-22 | 2020-09-08 | Amazon Technologies, Inc. | Viseme data generation |
| EP3752957A4 (en) * | 2018-02-15 | 2021-11-17 | DMAI, Inc. | SYSTEM AND PROCEDURE FOR SPEECH UNDERSTANDING VIA INTEGRATED AUDIO AND VIDEO-BASED VOICE RECOGNITION |
| US10755463B1 (en) * | 2018-07-20 | 2020-08-25 | Facebook Technologies, Llc | Audio-based face tracking and lip syncing for natural facial animation and lip movement |
-
2018
- 2018-01-17 JP JP2018005700A patent/JP7081164B2/ja active Active
- 2018-10-24 CN CN201880065578.1A patent/CN111201786B/zh active Active
- 2018-10-24 EP EP18901303.0A patent/EP3691256B1/en active Active
- 2018-10-24 WO PCT/JP2018/039528 patent/WO2019142424A1/ja not_active Ceased
- 2018-10-24 KR KR1020207009456A patent/KR102446222B1/ko active Active
-
2020
- 2020-04-08 US US16/842,811 patent/US11508106B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003296753A (ja) | 2002-04-04 | 2003-10-17 | Computer Image Laboratory Co Ltd | 聴覚障害者用対話システム |
| WO2005109830A1 (ja) | 2004-05-12 | 2005-11-17 | Takashi Yoshimine | 会話支援装置及び会話支援方法 |
| JP2006140621A (ja) | 2004-11-10 | 2006-06-01 | Matsushita Electric Ind Co Ltd | 携帯電話機 |
| JP2012103904A (ja) | 2010-11-10 | 2012-05-31 | Sysystem Co Ltd | 画像処理装置および方法、並びに、プログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20200044947A (ko) | 2020-04-29 |
| EP3691256B1 (en) | 2022-07-06 |
| CN111201786B (zh) | 2022-04-08 |
| WO2019142424A1 (ja) | 2019-07-25 |
| EP3691256A1 (en) | 2020-08-05 |
| US11508106B2 (en) | 2022-11-22 |
| EP3691256A4 (en) | 2020-08-05 |
| JP2019125927A (ja) | 2019-07-25 |
| CN111201786A (zh) | 2020-05-26 |
| US20200234479A1 (en) | 2020-07-23 |
| KR102446222B1 (ko) | 2022-09-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7081164B2 (ja) | 表示制御装置、通信装置、表示制御方法および通信方法 | |
| US10083710B2 (en) | Voice control system, voice control method, and computer readable medium | |
| EP2925005A1 (en) | Display apparatus and user interaction method thereof | |
| CN100592749C (zh) | 会话支持系统与会话支持方法 | |
| US8319818B2 (en) | Information processing device, information processing method and storage medium storing computer program | |
| JP2009178783A (ja) | コミュニケーションロボット及びその制御方法 | |
| CN111629156A (zh) | 图像特效的触发方法、装置和硬件装置 | |
| US10424299B2 (en) | Voice command masking systems and methods | |
| CN117689752A (zh) | 文学作品插图生成方法、装置、设备及存储介质 | |
| US20170364516A1 (en) | Linguistic model selection for adaptive automatic speech recognition | |
| CN110875036A (zh) | 语音分类方法、装置、设备及计算机可读存储介质 | |
| JP2004015478A (ja) | 音声通信端末装置 | |
| KR20090011581A (ko) | 휴대 단말기의 안구 인식 촬영 장치 및 방법 | |
| CN119938157A (zh) | 一种电子设备的设置方法、装置、电子设备及存储介质 | |
| JP6401488B2 (ja) | 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム | |
| JP2005165887A (ja) | 単語認識装置 | |
| CN114333863A (zh) | 语音增强方法、装置、电子设备及计算机可读存储介质 | |
| JP2018081147A (ja) | コミュニケーション装置、サーバ、制御方法、および情報処理プログラム | |
| US20250078837A1 (en) | Call system, call apparatus, call method, and non-transitory computer-readable medium storing program | |
| JP7714731B1 (ja) | データ処理装置、データ処理方法、及びデータ処理プログラム | |
| CN116665643B (zh) | 韵律标注方法、装置和终端设备 | |
| JP7779825B2 (ja) | 発話認識システムおよび発話認識方法 | |
| KR20250179536A (ko) | 음성 인식을 위한 전자 장치 및 방법 | |
| KR101364844B1 (ko) | 화상통화기능을 갖는 이동통신단말기 및 그 제어방법 | |
| WO2019082648A1 (ja) | 電子機器、制御装置、制御プログラム及び電子機器の動作方法 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200831 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211012 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220426 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220509 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7081164 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |