JP7287459B2 - 発話画像化装置、発話画像化方法及びプログラム - Google Patents
発話画像化装置、発話画像化方法及びプログラム Download PDFInfo
- Publication number
- JP7287459B2 JP7287459B2 JP2021514735A JP2021514735A JP7287459B2 JP 7287459 B2 JP7287459 B2 JP 7287459B2 JP 2021514735 A JP2021514735 A JP 2021514735A JP 2021514735 A JP2021514735 A JP 2021514735A JP 7287459 B2 JP7287459 B2 JP 7287459B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- speaker
- feature
- image
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N1/00—Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
- H04N1/0035—User-machine interface; Control console
- H04N1/00352—Input means
- H04N1/00403—Voice input means, e.g. voice commands
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
- G06F16/538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N2201/00—Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
- H04N2201/0077—Types of the still picture apparatus
- H04N2201/0089—Image display device
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
特徴設定部11は、発話の中からのキーワードの候補を抽出(又は検出)するための条件を示す設定情報(何を、どれだけ)の設定をユーザから受け付ける。ユーザによる設定情報の設定は、キーワード抽出部12が動作する前に一度だけ行われればよい。但し、設定情報が変更される場合、特徴設定部11は、ユーザからの設定情報の受け付けを再度行ってもよい。なお、設定情報は、例えば、補助記憶装置102等に記憶される。
キーワード抽出部12は、設定情報、及び各集音装置20が入力した音声データや撮影装置40で取得された映像データ等を入力とし、或る期間(例えば、話者の交代からの所定期間)における音声データが示すテキスト(文字列)から設定情報に合致するキーワード(すなわち、音声データが示すテキストの一部の文字列)の候補を抽出し、抽出したキーワードの候補を出力する。
議題特徴抽出部13aは、キーワード抽出部12からキーワード群W1が出力されると、議題特徴抽出部13aに対する特徴情報として、例えば、事前に補助記憶装置102に登録された特徴情報を補助記憶装置102から読み出す。議題特徴抽出部13aに対する特徴情報とは、例えば、趣味や出かけ先となる場所など、議題や話題となりそうな名詞を含む単語又は文章である。
議題特徴抽出部13aは、キーワード群W1に含まれるキーワードごとに、各特徴単語とのシソーラス距離(概念距離)を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。シソーラス距離(概念距離)は、例えば、WordNetを用いて計算されてもよい。なお、シソーラス距離は、関連度が高いほど小さい値となり、関連度が低いほど大きい値となる。議題特徴抽出部13aは、当該合計値が閾値未満であるキーワードをキーワード群W2として抽出し、出力する。
機械学習を用いて予め単語データのベクトル空間を構築しておく。議題特徴抽出部13aは、例えば、キーワード群W1に含まれる各キーワードと各特徴単語とのそれぞれについて、word2vecといった機械学習のアルゴリズムを用いて、当該ベクトル空間における分散表現を取得する。これにより各キーワード及び各特徴単語を多次元のベクトルデータの数値に変換することが可能になる。議題特徴抽出部13aは、キーワード群W1に含まれるキーワードごとに、当該キーワードの分散表現と、各特徴単語の分散表現とのユークリッド距離を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。なお、ユークリッド距離は、関連度が高いほど小さい値となり、関連度が低いほど大きい値となる。議題特徴抽出部13aは、当該合計値が閾値未満であるキーワードをキーワード群W2として抽出し、出力する。
議題特徴抽出部13aは、まず、特徴文章を形態素解析し、特徴文章を単語単位に分割する。議題特徴抽出部13aは、分割された単語の中から、例えば、名詞のみを特徴単語として抽出する。例えば、自己紹介などの対話でよく用いられる議題として「好きな食べ物を答えてください」、「よく出かけるお出かけ場所を答えてください」といった文章を例に考える。この場合は、「食べ物」、「場所」といった単語が特徴単語として抽出される。議題特徴抽出部13aは、キーワード群W1に含まれるキーワードごとに、各特徴単語とのシソーラス距離(概念距離)を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。議題特徴抽出部13aは、当該合計値が閾値未満であるキーワードをキーワード群W2として抽出し、出力する。
機械学習を用いて予め単語データのベクトル空間を構築しておく。議題特徴抽出部13aは、例えば、キーワード群W1に含まれる各キーワードと各特徴文章とのそれぞれについて、doc2vecといった機械学習のアルゴリズムを用いて、当該ベクトル空間における分散表現を取得する。なお、特徴文章の分散表現を取得する場合、当該特徴文章を形態素解析し、単語群に分割する。当該単語群をdoc2vecアルゴリズムに渡すことで当該特徴文章を分散表現に変換することができる。議題特徴抽出部13aは、キーワード群W1に含まれるキーワードごとに、当該キーワードの分散表現と、各特徴単語の分散表現とのユークリッド距離を関連度として計算し、各特徴単語との関連度の合計値をキーワードごとに計算する。議題特徴抽出部13aは、当該合計値が閾値未満であるキーワードをキーワード群W2として抽出し、出力する。
話者特徴抽出部13bは、キーワード抽出部12からキーワード群W1及び参加者IDが出力されると、話者特徴抽出部13bに対する特徴情報として、例えば、事前に補助記憶装置102に参加者別に登録された特徴情報のうち、当該参加者IDに対応する特徴情報を補助記憶装置102から読み出す。話者特徴抽出部13bに対する特徴情報とは、例えば、話者の個人情報であり、例えば本人の居住地や家族構成などのプロフィールや趣味など個人を表す情報を含む単語(特徴単語)又は文章(特徴文章)である。
複数話者特徴抽出部13cは、キーワード抽出部12からキーワード群W1が出力されると、上述した話者特徴抽出部13bに対する特徴情報として、例えば、事前に補助記憶装置102に参加者別に登録された特徴情報のうち、全ての参加者に対する特徴情報を補助記憶装置102から読み出す。
複数話者特徴抽出部13cは、まず、それぞれが各参加者の1つの特徴単語を含む全ての組み合わせを生成し、各組み合わせをグループとする。すなわち、各グループは、グループ間において少なくともいずれか1以上の特徴単語が相互に異なるように生成される。本実施の形態のように参加者が3人の場合、各グループは、参加者Xのいずれ1つのかの特徴単語、参加者Yのいずれか1つの特徴単語及び参加者Zのいずれか1つの特徴単語の3つの特徴単語を含む。
<共通処理>において「参加者について共通の特徴情報」として抽出された特徴単語を用いる点を除き、複数話者特徴抽出部13cは、上記の<単語の場合の例1>と同様の処理手順を行い、キーワード群W1の中からキーワード群W2を抽出する。
<共通処理>において「参加者について共通の特徴情報」として抽出された特徴単語を用いる点を除き、複数話者特徴抽出部13cは、上記の<単語の場合の例2>と同様の処理手順を行い、キーワード群W1の中からキーワード群W2を抽出する。
DB参照特徴抽出部13dは、キーワード抽出部12からキーワード群W1が出力されると、DB参照特徴抽出部13dに対する特徴情報として、例えば、事前に所定のデータベースに登録された特徴情報を当該データベースから読み出す。DB参照特徴抽出部13dに対する特徴情報とは、以前において盛り上がった対話の議題に関する単語(特徴単語)又は文章(特徴文章)である。但し、DB参照特徴抽出部13dに対する特徴情報は、所定のものに限定されない。
画像化部14は、議題特徴抽出部13aから出力されたキーワード群W2、話者特徴抽出部13b又は複数話者特徴抽出部13cから出力されたキーワード群W2、及びDB参照特徴抽出部13dから出力されたキーワード群W2を入力とし、以下の手法1~3のいずれかによって各キーワード群W2に基づく画像を取得して、当該画像を出力する。なお、ここで、各キーワード群W2の論理和から重複を排除した結果をキーワード群W3という。
キーワード群W3に含まれる各キーワードについて、任意のフォントのテキストデータを生成し、当該テキストデータを画像化する。
キーワード群W3に含まれる各キーワードによって、例えば、インターネットを介して画像検索を実行し、キーワードごとに、検索された画像群の中から1つの画像を選択(取得)する。したがって、キーワード群W3に複数のキーワードが含まれる場合、複数の画像が取得される。
手法2によって選択された各画像を加工し、加工結果を出力する。例えば、当該画像の一部分(部分領域)が切り出されたり、当該画像に含まれている物体の輪郭のみ抽出たりした画像が生成されてもよい。
出力データ生成部15は、画像化部14から出力された画像データ(以下、「発話画像」という。)を入力とし、当該発話画像が、話者と他者(話者以外の参加者)との位置関係に基づく方向に回転された状態で、表示装置30によって出力(投影)されるようにするための画像データ(以下「出力データ」という。)を生成する。
11 特徴設定部
12 キーワード抽出部
13a 議題特徴抽出部
13b 話者特徴抽出部
13c 複数話者特徴抽出部
13d DB参照特徴抽出部
14 画像化部
15 出力データ生成部
20 集音装置
30 表示装置
40 撮影装置
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
B バス
Claims (6)
- 複数人による対話における発話から音声認識される複数の文字列のそれぞれについて、前記対話の参加者ごとに設定されている単語又は文章のうち、前記発話に係る前記参加者に対して設定されている単語又は文章との関連性に基づいて前記複数の文字列から一部の文字列を抽出する抽出部と、
前記一部の文字列に基づく画像を取得する取得部と、
前記画像を前記発話に係る話者に対応する位置に出力させる出力部と、
を有することを特徴とする発話画像化装置。 - 前記画像は、前記一部の文字列が画像化された画像、又は前記一部の文字列に基づいて検索された画像である、
ことを特徴とする請求項1記載の発話画像化装置。 - 前記出力部は、前記話者と他者との位置関係に基づく方向に回転された状態で前記画像を出力する、
ことを特徴とする請求項1又は2記載の発話画像化装置。 - 前記抽出部は、前記複数の文字列のそれぞれについて、前記発話に係る前記参加者に対して設定されている単語又は文章と所定の指標に基づく関連度を算出し、前記関連度に基づいて前記複数の文字列から一部の文字列を抽出する、
ことを特徴とする請求項1乃至3いずれか一項記載の発話画像化装置。 - 複数人による対話における発話から音声認識される複数の文字列のそれぞれについて、前記対話の参加者ごとに設定されている単語又は文章のうち、前記発話に係る前記参加者に対して設定されている単語又は文章との関連性に基づいて前記複数の文字列から一部の文字列を抽出する抽出手順と、
前記一部の文字列に基づく画像を取得する取得手順と、
前記画像を前記発話に係る話者に対応する位置に出力させる出力手順と、
をコンピュータが実行することを特徴とする発話画像化方法。 - 請求項1乃至4いずれか一項記載の発話画像化装置としてコンピュータを機能させることを特徴とするプログラム。
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2019/016596 WO2020213115A1 (ja) | 2019-04-18 | 2019-04-18 | 発話画像化装置、発話画像化方法及びプログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2020213115A1 JPWO2020213115A1 (ja) | 2020-10-22 |
| JP7287459B2 true JP7287459B2 (ja) | 2023-06-06 |
Family
ID=72837215
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021514735A Active JP7287459B2 (ja) | 2019-04-18 | 2019-04-18 | 発話画像化装置、発話画像化方法及びプログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US12205610B2 (ja) |
| JP (1) | JP7287459B2 (ja) |
| WO (1) | WO2020213115A1 (ja) |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014013494A (ja) | 2012-07-04 | 2014-01-23 | Nikon Corp | 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム |
| JP2015100054A (ja) | 2013-11-20 | 2015-05-28 | 日本電信電話株式会社 | 音声通信システム、音声通信方法及びプログラム |
| JP2017016296A (ja) | 2015-06-30 | 2017-01-19 | シャープ株式会社 | 画像表示装置 |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10331312B2 (en) * | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
| JP2018010510A (ja) * | 2016-07-14 | 2018-01-18 | 株式会社リコー | 画像処理装置、画像処理方法、及びプログラム |
| US11100384B2 (en) * | 2017-02-14 | 2021-08-24 | Microsoft Technology Licensing, Llc | Intelligent device user interactions |
| JP6800809B2 (ja) * | 2017-06-01 | 2020-12-16 | 株式会社東芝 | 音声処理装置、音声処理方法およびプログラム |
| WO2019079826A1 (en) * | 2017-10-22 | 2019-04-25 | Magical Technologies, Llc | DIGITAL ASSISTANT SYSTEMS, METHODS AND APPARATUSES IN AN INCREASED REALITY ENVIRONMENT AND LOCAL DETERMINATION OF VIRTUAL OBJECT PLACEMENT AND SINGLE OR MULTIDIRECTIONAL OBJECTIVES AS GATEWAYS BETWEEN A PHYSICAL WORLD AND A DIGITAL WORLD COMPONENT OF THE SAME ENVIRONMENT OF INCREASED REALITY |
| KR102480570B1 (ko) * | 2017-11-10 | 2022-12-23 | 삼성전자주식회사 | 디스플레이장치 및 그 제어방법 |
| US11152006B2 (en) * | 2018-05-07 | 2021-10-19 | Microsoft Technology Licensing, Llc | Voice identification enrollment |
| CN109460074B (zh) * | 2018-10-29 | 2021-02-23 | 歌尔科技有限公司 | 一种音频设备定向显示方法、装置和音频设备 |
| KR102902692B1 (ko) * | 2019-11-21 | 2025-12-19 | 엘지전자 주식회사 | 영상 촬영 장치의 원격 제어 장치 |
-
2019
- 2019-04-18 WO PCT/JP2019/016596 patent/WO2020213115A1/ja not_active Ceased
- 2019-04-18 US US17/594,396 patent/US12205610B2/en active Active
- 2019-04-18 JP JP2021514735A patent/JP7287459B2/ja active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2014013494A (ja) | 2012-07-04 | 2014-01-23 | Nikon Corp | 表示制御装置、表示システム、表示装置、端末装置、表示制御方法及びプログラム |
| JP2015100054A (ja) | 2013-11-20 | 2015-05-28 | 日本電信電話株式会社 | 音声通信システム、音声通信方法及びプログラム |
| JP2017016296A (ja) | 2015-06-30 | 2017-01-19 | シャープ株式会社 | 画像表示装置 |
Also Published As
| Publication number | Publication date |
|---|---|
| US12205610B2 (en) | 2025-01-21 |
| JPWO2020213115A1 (ja) | 2020-10-22 |
| WO2020213115A1 (ja) | 2020-10-22 |
| US20220199104A1 (en) | 2022-06-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11836183B2 (en) | Digital image classification and annotation | |
| CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
| JP6857581B2 (ja) | 成長型対話装置 | |
| JP2013521567A (ja) | クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法 | |
| KR20190113712A (ko) | 환경 콘텍스트를 이용한 질문 답변 | |
| US12164562B1 (en) | Background audio identification for query disambiguation | |
| CN117708290A (zh) | 问答方法、装置、电子设备和存储介质 | |
| WO2016163028A1 (ja) | 発言提示装置、発言提示方法およびプログラム | |
| WO2016184051A1 (zh) | 图片搜索方法、装置、设备及非易失性计算机存储介质 | |
| CN117676277A (zh) | 视频生成方法、装置、电子设备和存储介质 | |
| JP2017016296A (ja) | 画像表示装置 | |
| WO2023160515A1 (zh) | 视频处理方法、装置、设备及介质 | |
| CN113903335B (zh) | 一种用户意图识别方法、用户意图识别装置和存储介质 | |
| JP2020077272A (ja) | 会話システムおよび会話プログラム | |
| CN114822557B (zh) | 课堂中不同声音的区分方法、装置、设备以及存储介质 | |
| TWI270052B (en) | System for selecting audio content by using speech recognition and method therefor | |
| JP7287459B2 (ja) | 発話画像化装置、発話画像化方法及びプログラム | |
| JP6988715B2 (ja) | 回答文選択装置、方法、およびプログラム | |
| CN119106098A (zh) | 一种基于rag的视频剧情问答方法及装置 | |
| JP2020201748A (ja) | 発話生成装置、発話生成方法及び発話生成プログラム | |
| TWI823815B (zh) | 摘要產生方法及系統與電腦程式產品 | |
| TW202236257A (zh) | 顯示系統以及與顯示系統互動之方法 | |
| CN115331702B (zh) | 确定用户状态的方法、装置、电子设备及介质 | |
| JP6830148B1 (ja) | 修正候補特定装置、修正候補特定方法及び修正候補特定プログラム | |
| JP2024153072A (ja) | 業界地図作成システム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211007 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221220 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230130 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230425 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230508 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7287459 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |