JP7522246B2 - エンドツーエンドの音声変換 - Google Patents
エンドツーエンドの音声変換 Download PDFInfo
- Publication number
- JP7522246B2 JP7522246B2 JP2023036090A JP2023036090A JP7522246B2 JP 7522246 B2 JP7522246 B2 JP 7522246B2 JP 2023036090 A JP2023036090 A JP 2023036090A JP 2023036090 A JP2023036090 A JP 2023036090A JP 7522246 B2 JP7522246 B2 JP 7522246B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- speech
- accent
- voice
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Description
図1は、音声認識を実行せずに、ユーザ104から受信した音声オーディオ102を合成音声オーディオ106に変換する例示的なシステム100を示している。以下で簡潔に、および、より詳細に説明するように、英国訛りで話すユーザ104は、コンピューティングデバイス110の近くで発話108を行う。コンピューティングデバイス110は、発話108のオーディオデータ102を音声間変換サーバ(音声から音声への変換サーバ)112に送信する。音声間変換サーバ112は、発話108のオーディオデータ102を、合成発話114のオーディオデータ106に変換する。音声間変換サーバ112は、合成発話114のオーディオデータ106をコンピューティングデバイス116に送信し、コンピューティングデバイス116は、合成発話114を出力する。一部の実装形態では、エンドツーエンド音声変換サーバ112の機能は、コンピューティングデバイス110またはコンピューティングデバイス116、あるいはその両方に組み込まれている。
I reserve a table for two)」と尋ねる。自動エージェント206は、ユーザ208が自動エージェント206を実際の人から区別することができないように、人を模倣することができる。一部の実装形態では、自動エージェント206は、ユーザ208との電話の会話を始めることができる。一部の実装形態では、ユーザ208と自動エージェント206との間の会話は、VOIP通話または他のタイプのボイス通信などの電話以外の通信チャネルであり得る。
be exciting. What day did you want the reservation?)」と話す。
I’m calling to schedule a meeting with Bob.)」と言う。
システムは、自己回帰RNNで構成されるデコーダネットワークを使用して、エンコードされた入力シーケンスから一度に1フレームずつ出力スペクトログラムを予測する。前のデコーダのタイムステップからの予測は、最初に256ReLUユニットの2つの完全に接続されたレイヤーを含む小さなプリネットを通過し、これは、アテンションの学習に役立つ場合がある。プレネット出力とアテンションコンテキストベクトルは連結され、1024ユニットの2つの単方向LSTMレイヤーのスタックを通過する場合がある。次に、LSTM出力とアテンションコンテキストベクトルの連結が線形変換によって投影され、ターゲットスペクトログラムフレームの予測が生成される。最後に、これらの予測は、最初の予測に追加する残余を予測する5層の畳み込みポストネットを通過する。各ポストネットレイヤーには、5x1の形状の512個のフィルターがあり、その後にバッチ正規化とtanh活性化が続く。
Claims (20)
- データ処理ハードウェア上で実行されるコンピュータにより実装される方法であって、
第1の訛りで行われた発話の特徴を示す複数のソースオーディオフレームからなるシーケンスを受信することと、
音声変換モデルのエンコーダを用いて、複数のソースオーディオフレームからなる前記シーケンスを処理することにより、前記第1の訛りで行われた前記発話の特徴を示す複数のソース内部表現からなるシーケンスを生成することと、
前記音声変換モデルのデコーダを用いて、複数のソース内部表現からなる前記シーケンスを処理することにより、前記第1の訛りとは異なる第2の訛りでの前記発話の合成音声表現の特徴を示す複数のターゲットオーディオフレームからなるシーケンスを生成することと、
コンピューティングデバイスによる出力のために、前記第2の訛りでの前記発話の前記合成音声表現を提供することと、
を含む動作を前記データ処理ハードウェアに実行させ、
前記音声変換モデルは、前記第1の訛りで行われた前記発話における語のそれぞれの間の期間を調整するように構成されており、
前記第1の訛りで行われた前記発話における前記語のそれぞれの間の前記期間は、前記第2の訛りでの前記発話における語のそれぞれの間の期間とは異なる、方法。 - 複数のソース内部表現からなる前記シーケンスを処理することにより、第2の訛りでの前記発話の合成音声表現を生成することは、
複数のソースオーディオフレームからなる前記シーケンスに対する音声認識を実行せずに、複数のソース内部表現からなる前記シーケンスを処理することにより、前記合成音声表現を生成することを含む、
請求項1に記載のコンピュータにより実装される方法。 - 複数のソースオーディオフレームからなる前記シーケンスは、複数の入力スペクトログラムからなるシーケンスを含む、
請求項1に記載のコンピュータにより実装される方法。 - 複数のターゲットオーディオフレームからなる前記シーケンスは、複数の出力スペクトログラムからなるシーケンスを含む、
請求項1に記載のコンピュータにより実装される方法。 - 前記第1の訛りで行われた前記発話の抑揚は、前記第2の訛りでの前記発話の前記合成音声表現の抑揚とは異なる、
請求項1に記載のコンピュータにより実装される方法。 - 前記エンコーダは、双方向長短期記憶メモリ(LSTM)レイヤーを含む、
請求項1に記載のコンピュータにより実装される方法。 - 前記デコーダは、アテンション付きのスペクトログラムデコーダを含む、
請求項1に記載のコンピュータにより実装される方法。 - 前記動作は、
複数の発話からなるコレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションにおける各発話の転写を取得することと、
テキストを音声にするモデルへの入力として、各発話の前記転写を提供することと、
各発話の転写ごとに、合成ボイスでの複数の発話からなる追加コレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションの前記オーディオデータと、合成ボイスでの複数の発話からなる追加コレクションの前記オーディオデータを使用して、前記モデルを訓練することと、を含む、
請求項1に記載のコンピュータにより実装される方法。 - 前記動作は、前記発話の転写を取得することを省略することを含む、
請求項1に記載のコンピュータにより実装される方法。 - 前記第1の訛りで行われた前記発話における前記語のそれぞれの発言時間は、前記第2の訛りでの前記発話における前記語のそれぞれの発言時間とは異なる、
請求項1に記載のコンピュータにより実装される方法。 - データ処理ハードウェアと、
前記データ処理ハードウェアと通信するメモリハードウェアと、を備えるシステムであって、前記メモリハードウェアは命令を記憶し、該命令は、前記データ処理ハードウェア上で実行されたとき、
第1の訛りで行われた発話の特徴を示す複数のソースオーディオフレームからなるシーケンスを受信することと、
音声変換モデルのエンコーダを用いて、複数のソースオーディオフレームからなる前記シーケンスを処理することにより、前記第1の訛りで行われた前記発話の特徴を示す複数のソース内部表現からなるシーケンスを生成することと、
前記音声変換モデルのデコーダを用いて、複数のソース内部表現からなる前記シーケンスを処理することにより、前記第1の訛りとは異なる第2の訛りでの前記発話の合成音声表現の特徴を示す複数のターゲットオーディオフレームからなるシーケンスを生成することと、
コンピューティングデバイスによる出力のために、前記第2の訛りでの前記発話の前記合成音声表現を提供することと、
を含む動作を前記データ処理ハードウェアに実行させ、
前記音声変換モデルは、前記第1の訛りで行われた前記発話における語のそれぞれの間の期間を調整するように構成されており、
前記第1の訛りで行われた前記発話における前記語のそれぞれの間の前記期間は、前記第2の訛りでの前記発話における語のそれぞれの間の期間とは異なる、システム。 - 複数のソース内部表現からなる前記シーケンスを処理することにより、第2の訛りでの前記発話の合成音声表現を生成することは、
複数のソースオーディオフレームからなる前記シーケンスに対する音声認識を実行せずに、複数のソース内部表現からなる前記シーケンスを処理することにより、前記合成音声表現を生成することを含む、
請求項11に記載のシステム。 - 複数のソースオーディオフレームからなる前記シーケンスは、複数の入力スペクトログラムからなるシーケンスを含む、
請求項11に記載のシステム。 - 複数のターゲットオーディオフレームからなる前記シーケンスは、複数の出力スペクトログラムからなるシーケンスを含む、
請求項11に記載のシステム。 - 前記第1の訛りで行われた前記発話の抑揚は、前記第2の訛りでの前記発話の前記合成音声表現の抑揚とは異なる、
請求項11に記載のシステム。 - 前記エンコーダは、双方向長短期記憶メモリ(LSTM)レイヤーを含む、
請求項11に記載のシステム。 - 前記デコーダは、アテンション付きのスペクトログラムデコーダを含む、
請求項11に記載のシステム。 - 前記動作は、
複数の発話からなるコレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションにおける各発話の転写を取得することと、
テキストを音声にするモデルへの入力として、各発話の前記転写を提供することと、
各発話の転写ごとに、合成ボイスでの複数の発話からなる追加コレクションのオーディオデータを受信することと、
前記複数の発話からなるコレクションの前記オーディオデータと、合成ボイスでの複数の発話からなる追加コレクションの前記オーディオデータを使用して、前記モデルを訓練することと、を含む、
請求項11に記載のシステム。 - 前記動作は、前記発話の転写を取得することを省略することを含む、
請求項11に記載のシステム。 - 前記第1の訛りで行われた前記発話における前記語のそれぞれの発言時間は、前記第2の訛りでの前記発話における前記語のそれぞれの発言時間とは異なる、
請求項11に記載のシステム。
Applications Claiming Priority (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201962808627P | 2019-02-21 | 2019-02-21 | |
| US62/808,627 | 2019-02-21 | ||
| JP2021549246A JP7244665B2 (ja) | 2019-02-21 | 2019-11-26 | エンドツーエンドの音声変換 |
| PCT/US2019/063334 WO2020171868A1 (en) | 2019-02-21 | 2019-11-26 | End-to-end speech conversion |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021549246A Division JP7244665B2 (ja) | 2019-02-21 | 2019-11-26 | エンドツーエンドの音声変換 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023065681A JP2023065681A (ja) | 2023-05-12 |
| JP7522246B2 true JP7522246B2 (ja) | 2024-07-24 |
Family
ID=68966028
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021549246A Active JP7244665B2 (ja) | 2019-02-21 | 2019-11-26 | エンドツーエンドの音声変換 |
| JP2023036090A Active JP7522246B2 (ja) | 2019-02-21 | 2023-03-09 | エンドツーエンドの音声変換 |
Family Applications Before (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021549246A Active JP7244665B2 (ja) | 2019-02-21 | 2019-11-26 | エンドツーエンドの音声変換 |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US12300216B2 (ja) |
| EP (2) | EP4531037A3 (ja) |
| JP (2) | JP7244665B2 (ja) |
| KR (2) | KR102889648B1 (ja) |
| CN (2) | CN119446160A (ja) |
| WO (1) | WO2020171868A1 (ja) |
Families Citing this family (33)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12170095B2 (en) | 2019-08-08 | 2024-12-17 | Avaya Management L.P. | Optimizing interaction results using AI-guided manipulated video |
| EP4073786B1 (en) * | 2019-12-10 | 2026-03-11 | Google LLC | Attention-based clockwork hierarchical variational encoder |
| US11615779B2 (en) * | 2020-01-28 | 2023-03-28 | Google Llc | Language-agnostic multilingual modeling using effective script normalization |
| WO2021158247A1 (en) * | 2020-02-06 | 2021-08-12 | Google Llc | Stable real-time translations of audio streams |
| US11335324B2 (en) * | 2020-08-31 | 2022-05-17 | Google Llc | Synthesized data augmentation using voice conversion and speech recognition models |
| US11776528B2 (en) * | 2020-11-26 | 2023-10-03 | Xinapse Co., Ltd. | Method for changing speed and pitch of speech and speech synthesis system |
| US11645465B2 (en) * | 2020-12-10 | 2023-05-09 | International Business Machines Corporation | Anaphora resolution for enhanced context switching |
| CN113539231B (zh) * | 2020-12-30 | 2024-06-18 | 腾讯科技(深圳)有限公司 | 音频处理方法、声码器、装置、设备及存储介质 |
| KR102508640B1 (ko) * | 2021-03-26 | 2023-03-10 | 한양대학교 산학협력단 | 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치 |
| CN117396958A (zh) * | 2021-03-26 | 2024-01-12 | 谷歌有限责任公司 | 基于卷积增强变换神经网络的语音转换模型 |
| WO2022203922A1 (en) * | 2021-03-26 | 2022-09-29 | Google Llc | Conformer-based speech conversion model |
| US11948550B2 (en) * | 2021-05-06 | 2024-04-02 | Sanas.ai Inc. | Real-time accent conversion model |
| EP4338157A1 (en) * | 2021-06-30 | 2024-03-20 | Google LLC | Injecting text in self-supervised speech pre-training |
| WO2023277993A1 (en) | 2021-06-30 | 2023-01-05 | Google Llc | Advancing the use of text and speech in asr pretraining with consistency and contrastive losses |
| CN113362812B (zh) * | 2021-06-30 | 2024-02-13 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置和电子设备 |
| EP4145444B1 (en) * | 2021-09-07 | 2025-07-09 | Avaya Management L.P. | Optimizing interaction results using ai-guided manipulated speech |
| CN118120013A (zh) * | 2021-10-18 | 2024-05-31 | 高通股份有限公司 | 音频信号重构 |
| CN114023300A (zh) * | 2021-11-03 | 2022-02-08 | 四川大学 | 一种基于扩散概率模型的中文语音合成方法 |
| US20230186035A1 (en) * | 2021-12-14 | 2023-06-15 | Meta Platforms, Inc. | Textless Speech-to-Speech Translation on Real Data |
| CN114360557B (zh) * | 2021-12-22 | 2022-11-01 | 北京百度网讯科技有限公司 | 语音音色转换方法、模型训练方法、装置、设备和介质 |
| US11361780B2 (en) * | 2021-12-24 | 2022-06-14 | Sandeep Dhawan | Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore |
| KR102891215B1 (ko) * | 2022-01-05 | 2025-11-26 | 한국전자통신연구원 | 도메인특화 음성인식 모델 구성 방법 및 장치와 이를 이용한 종단형 음성인식기 |
| WO2023209762A1 (ja) * | 2022-04-25 | 2023-11-02 | 日本電信電話株式会社 | 学習装置、変換装置、方法及びプログラム |
| US11848005B2 (en) * | 2022-04-28 | 2023-12-19 | Meaning.Team, Inc | Voice attribute conversion using speech to speech |
| CN114708876B (zh) * | 2022-05-11 | 2023-10-03 | 北京百度网讯科技有限公司 | 音频处理方法、装置、电子设备及存储介质 |
| US12375624B2 (en) * | 2022-09-15 | 2025-07-29 | Zoom Communications, Inc. | Accent conversion for virtual conferences |
| US12021822B2 (en) * | 2022-10-04 | 2024-06-25 | International Business Machines Corporation | Formalizing informal agreements in physical space and digital space |
| US20240339122A1 (en) * | 2023-04-06 | 2024-10-10 | Datum Point Labs Inc. | Systems and methods for any to any voice conversion |
| JP2024151890A (ja) | 2023-04-13 | 2024-10-25 | ルネサスエレクトロニクス株式会社 | 半導体装置およびその製造方法 |
| GB2630776B (en) * | 2023-06-07 | 2025-09-17 | Habitat Learn Ltd | Lecturer speech signal processing |
| US12131745B1 (en) * | 2023-06-27 | 2024-10-29 | Sanas.ai Inc. | System and method for automatic alignment of phonetic content for real-time accent conversion |
| WO2025099956A1 (ja) * | 2023-11-09 | 2025-05-15 | 三菱電機株式会社 | 制御システム、制御方法および制御プログラム |
| CN117476027B (zh) * | 2023-12-28 | 2024-04-23 | 南京硅基智能科技有限公司 | 语音转换方法及装置、存储介质、电子装置 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005266349A (ja) | 2004-03-18 | 2005-09-29 | Nec Corp | 声質変換装置および声質変換方法ならびに声質変換プログラム |
Family Cites Families (14)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS63231495A (ja) | 1987-03-20 | 1988-09-27 | 日本電気株式会社 | 音声変換装置 |
| JP4817250B2 (ja) | 2006-08-31 | 2011-11-16 | 国立大学法人 奈良先端科学技術大学院大学 | 声質変換モデル生成装置及び声質変換システム |
| JP4246792B2 (ja) | 2007-05-14 | 2009-04-02 | パナソニック株式会社 | 声質変換装置および声質変換方法 |
| US9564120B2 (en) * | 2010-05-14 | 2017-02-07 | General Motors Llc | Speech adaptation in speech synthesis |
| US8775156B2 (en) * | 2010-08-05 | 2014-07-08 | Google Inc. | Translating languages in response to device motion |
| GB2489473B (en) * | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
| US20140358516A1 (en) * | 2011-09-29 | 2014-12-04 | Google Inc. | Real-time, bi-directional translation |
| US9570065B2 (en) | 2014-09-29 | 2017-02-14 | Nuance Communications, Inc. | Systems and methods for multi-style speech synthesis |
| US9704103B2 (en) * | 2014-12-16 | 2017-07-11 | The Affinity Project, Inc. | Digital companions for human users |
| CN106205623B (zh) * | 2016-06-17 | 2019-05-21 | 福建星网视易信息系统有限公司 | 一种声音转换方法及装置 |
| US10163451B2 (en) * | 2016-12-21 | 2018-12-25 | Amazon Technologies, Inc. | Accent translation |
| JP2019008120A (ja) * | 2017-06-23 | 2019-01-17 | 株式会社日立製作所 | 声質変換システム、声質変換方法、及び声質変換プログラム |
| US20190130896A1 (en) | 2017-10-26 | 2019-05-02 | Salesforce.Com, Inc. | Regularization Techniques for End-To-End Speech Recognition |
| EP3690875B1 (en) * | 2018-04-12 | 2024-03-20 | Spotify AB | Training and testing utterance-based frameworks |
-
2019
- 2019-11-26 KR KR1020237041230A patent/KR102889648B1/ko active Active
- 2019-11-26 EP EP25157481.0A patent/EP4531037A3/en active Pending
- 2019-11-26 CN CN202411921999.3A patent/CN119446160A/zh active Pending
- 2019-11-26 JP JP2021549246A patent/JP7244665B2/ja active Active
- 2019-11-26 EP EP19824092.1A patent/EP3928316B1/en active Active
- 2019-11-26 CN CN201980094770.8A patent/CN113678200B/zh active Active
- 2019-11-26 US US17/310,732 patent/US12300216B2/en active Active
- 2019-11-26 KR KR1020217026403A patent/KR20210114518A/ko not_active Ceased
- 2019-11-26 WO PCT/US2019/063334 patent/WO2020171868A1/en not_active Ceased
-
2023
- 2023-03-09 JP JP2023036090A patent/JP7522246B2/ja active Active
- 2023-03-23 US US18/188,524 patent/US20230230572A1/en active Pending
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2005266349A (ja) | 2004-03-18 | 2005-09-29 | Nec Corp | 声質変換装置および声質変換方法ならびに声質変換プログラム |
Non-Patent Citations (1)
| Title |
|---|
| ALBERT HAQUE; ET AL,CONDITIONAL END-TO-END AUDIO TRANSFORMS,ARXIV:1804.00047V1,CORNELL UNIVERSITY LIBRARY,2018年03月30日,NPL 22-004837 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP7244665B2 (ja) | 2023-03-22 |
| CN113678200B (zh) | 2025-01-17 |
| US20230230572A1 (en) | 2023-07-20 |
| EP3928316A1 (en) | 2021-12-29 |
| JP2022521289A (ja) | 2022-04-06 |
| CN113678200A (zh) | 2021-11-19 |
| US12300216B2 (en) | 2025-05-13 |
| JP2023065681A (ja) | 2023-05-12 |
| KR20210114518A (ko) | 2021-09-23 |
| EP4531037A3 (en) | 2025-08-06 |
| EP4531037A2 (en) | 2025-04-02 |
| US20220122579A1 (en) | 2022-04-21 |
| KR102889648B1 (ko) | 2025-11-20 |
| KR20230165395A (ko) | 2023-12-05 |
| EP3928316B1 (en) | 2025-03-19 |
| WO2020171868A1 (en) | 2020-08-27 |
| CN119446160A (zh) | 2025-02-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7522246B2 (ja) | エンドツーエンドの音声変換 | |
| JP6945695B2 (ja) | 発話分類器 | |
| US11848005B2 (en) | Voice attribute conversion using speech to speech | |
| US8566098B2 (en) | System and method for improving synthesized speech interactions of a spoken dialog system | |
| JP7167357B2 (ja) | 自動通話システム | |
| US20240265908A1 (en) | Methods for real-time accent conversion and systems thereof | |
| WO2008084476A2 (en) | Vowel recognition system and method in speech to text applications | |
| GB2480538A (en) | Real time correction of mispronunciation of a non-native speaker | |
| US20240257811A1 (en) | System and Method for Providing Real-time Speech Recommendations During Verbal Communication | |
| US12518735B2 (en) | Streaming, lightweight and high-quality device neural TTS system | |
| Tsiakoulis et al. | Statistical methods for building robust spoken dialogue systems in an automobile | |
| Williams et al. | Demonstration of AT&T “Let's Go”: A production-grade statistical spoken dialog system | |
| US20250218440A1 (en) | Context-based speech assistance | |
| US20250285640A1 (en) | Voice attribute conversion using speech to speech | |
| Senior et al. | The role of unfamiliar accents in competing speech | |
| WO2019176830A1 (ja) | 学習用音声データ生成装置、その方法、およびプログラム | |
| McLoughlin et al. | Speech recognition engine adaptions for smart home dialogues | |
| Kok et al. | Speech Recognition and Enhancement Using Artificial Intelligence | |
| TW202345145A (zh) | 使用神經網路和多個子帶網路的音訊樣本重構 | |
| Spyros | Multimodal System for Preschool Children |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230309 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240322 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240416 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240517 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240618 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240711 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7522246 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |