KR102415519B1 - 인공지능 음성의 컴퓨팅 탐지 장치 - Google Patents
인공지능 음성의 컴퓨팅 탐지 장치 Download PDFInfo
- Publication number
- KR102415519B1 KR102415519B1 KR1020200123985A KR20200123985A KR102415519B1 KR 102415519 B1 KR102415519 B1 KR 102415519B1 KR 1020200123985 A KR1020200123985 A KR 1020200123985A KR 20200123985 A KR20200123985 A KR 20200123985A KR 102415519 B1 KR102415519 B1 KR 102415519B1
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- artificial intelligence
- sound
- detection device
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 2는 본 발명의 제1 실시형태에서의 음성 분석부의 구성을 개략적으로 도시한 도면
도 3은 본 발명의 제2 실시형태에서의 음성 분석부의 구성을 개략적으로 도시한 도면
도 4는 도 3의 음성 분석부에 비언어적 음향요소를 부가적 판단요소로 추가한 실시형태를 개략적으로 도시한 도면.
도 5는 도 3의 음성 분석부에 음절의 전달 속도를 부가적 판단요소로 추가한 실시형태를 개략적으로 도시한 도면.
100: 음성 입력부
200: 음성 분석부
210: 탐색 모듈
220: 인공지능 음성 출력 모듈
230: 인공지능 음성 생성 모듈
240: 인공지능 모듈
200': 음성 분석부
240': 인공지능 모듈
250: 음편 생성부
300: 출력부
Claims (13)
- 적어도 하나 이상의 프로세서와, 상기 프로세서에 의해 처리되는 명령어들이 저장된 메모리를 포함하는 인공지능 음성의 컴퓨팅 탐지 장치로서,
전화 통화 음성을 입력받는 음성 입력부;
상기 음성 입력부로 입력된 통화 음성의 파형을 분석하여, 실제 음성인지 아니면 인공지능 음성인지를 판별하는 음성 분석부; 및
상기 음성 분석부에서 판별한 결과를 출력하는 출력부;
를 포함하고,
상기 음성 분석부는,
상기 음성 입력부로 입력된 통화 음성의 파형을 각 음절마다 복수의 음편으로 분할하는 음편 생성부와,
상기 음편 생성부에서 만들어진 복수의 음편을 유사한 음편끼리 하나의 음편 그룹으로 묶고, 각 음편 그룹 중의 적어도 어느 한 음편 그룹에 포함된 개체수가 제1 기준치를 초과했을 때 해당 음편 그룹에 포함된 음편 사이의 유사도를 판정하며, 판정된 유사도가 제2 기준치를 초과했을 때 인공지능 음성인 것으로 판정하는 인공지능 모듈을 포함하는, 인공지능 음성의 컴퓨팅 탐지 장치. - 제1항에 있어서,
상기 음성 분석부는,
텍스트 파일과, 상기 텍스트 파일을 사람이 낭독하는 음성 파일이 함께 있는 학습 파일을 검색하고 취득하는 탐색 모듈;
상기 탐색 모듈이 취득한 텍스트 파일을 인공지능 음성 생성 모듈에 입력하고, 상기 인공지능 음성 생성 모듈에서 출력된 인공지능 음성을 출력하는 인공지능 음성 출력 모듈; 및
상기 음성 파일과 인공지능 음성을 입력받고, 이들 사이의 파형상의 차이에 대해 기계학습하는 인공지능 모듈;
을 포함하는 인공지능 음성의 컴퓨팅 탐지 장치. - 제2항에 있어서,
상기 인공지능 모듈은,
기계학습을 수행한 후, 상기 음성 입력부로 입력된 통화 음성의 파형을 분석하여, 실제 음성인지 아니면 인공지능 음성인지를 판별하는,
인공지능 음성의 컴퓨팅 탐지 장치. - 제2항에 있어서,
상기 학습 파일은,
오디오 북 파일, 연설문 및 그 낭독 파일을 포함하는,
인공지능 음성의 컴퓨팅 탐지 장치. - 제2항에 있어서,
상기 인공지능 음성 생성 모듈은,
통신으로 연결된 외부의 상용화된 어플리케이션 또는 프로그램인 것을 특징으로 하는,
인공지능 음성의 컴퓨팅 탐지 장치. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 인공지능 음성의 컴퓨팅 탐지 장치는,
스마트 단말기의 어플리케이션, 또는 통신사의 기지국이나 중계기의 하드웨어에 탑재되는 프로그램인 것을 특징으로 하는,
인공지능 음성의 컴퓨팅 탐지 장치. - 제6항에 있어서,
상기 출력부는,
상기 음성 분석부에서 판별한 결과를 앱 알림창, 단문 메시지, 메신저 중의 적어도 어느 하나로서 출력하는,
인공지능 음성의 컴퓨팅 탐지 장치. - 삭제
- 제1항에 있어서,
상기 인공지능 모듈은,
제3 기준치를 초과하는 복수 개의 음편 그룹에서 제2 기준치를 초과하는 유사도가 나타났을 때 인공지능 음성인 것으로 판정하는, 인공지능 음성의 컴퓨팅 탐지 장치. - 제1항에 있어서,
상기 인공지능 모듈은,
상기 음성 입력부로 입력된 통화 음성의 파형 중에 포함된 주변 소음, 호흡음, 침 삼키는 소리, 입맛을 다시는 소리, 혀 차는 소리를 포함하는 비언어적 음향요소의 빈도수가 제4 기준치 미만인 경우, 이 빈도수를 인공지능 음성의 판정에 보조적으로 반영하는, 인공지능 음성의 컴퓨팅 탐지 장치. - 제1항에 있어서,
상기 인공지능 모듈은,
상기 음성 입력부로 입력된 통화 음성의 파형을 사전에 정해진 개수의 음절을 포함하는 음절 그룹으로 나누고, 각 음절 그룹의 전달 속도 사이의 표준편차가 제5 기준치 미만인 경우, 이 표준편차를 인공지능 음성의 판정에 보조적으로 반영하는, 인공지능 음성의 컴퓨팅 탐지 장치. - 제1항, 제9항 내지 제11항 중 어느 한 항에 있어서,
상기 인공지능 음성의 컴퓨팅 탐지 장치는,
스마트 단말기의 어플리케이션, 또는 통신사의 기지국이나 중계기의 하드웨어에 탑재되는 프로그램인 것을 특징으로 하는, 인공지능 음성의 컴퓨팅 탐지 장치. - 제12항에 있어서,
상기 출력부는,
상기 음성 분석부에서 판별한 결과를 앱 알림창, 단문 메시지, 메신저 중의 적어도 어느 하나로서 출력하는,
인공지능 음성의 컴퓨팅 탐지 장치.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020200123985A KR102415519B1 (ko) | 2020-09-24 | 2020-09-24 | 인공지능 음성의 컴퓨팅 탐지 장치 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020200123985A KR102415519B1 (ko) | 2020-09-24 | 2020-09-24 | 인공지능 음성의 컴퓨팅 탐지 장치 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20220040813A KR20220040813A (ko) | 2022-03-31 |
| KR102415519B1 true KR102415519B1 (ko) | 2022-07-05 |
Family
ID=80934953
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020200123985A Active KR102415519B1 (ko) | 2020-09-24 | 2020-09-24 | 인공지능 음성의 컴퓨팅 탐지 장치 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR102415519B1 (ko) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20240079027A1 (en) * | 2022-09-02 | 2024-03-07 | Foundation of Soongsil University-lndustry Cooperation | Synthetic voice detection method based on biological sound, recording medium and apparatus for performing the same |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN115022087B (zh) * | 2022-07-20 | 2024-02-27 | 中国工商银行股份有限公司 | 一种语音识别验证处理方法及装置 |
| KR102669692B1 (ko) * | 2022-09-02 | 2024-05-28 | 숭실대학교 산학협력단 | 생물학적 소리에 기반한 합성 음성 탐지 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021078012A (ja) | 2019-11-08 | 2021-05-20 | 株式会社ハロー | 留守番電話判定装置、方法及びプログラム |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH11190996A (ja) * | 1997-08-15 | 1999-07-13 | Shingo Igarashi | 合成音声判別システム |
| KR102069135B1 (ko) * | 2018-05-17 | 2020-01-22 | 서울시립대학교 산학협력단 | 화자 음성 인증 서비스에서 스푸핑을 검출하는 음성 인증 시스템 |
| KR20200016516A (ko) | 2018-08-07 | 2020-02-17 | 주식회사 에스알유니버스 | 개인화된 가상 음성 합성 장치 및 방법 |
-
2020
- 2020-09-24 KR KR1020200123985A patent/KR102415519B1/ko active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2021078012A (ja) | 2019-11-08 | 2021-05-20 | 株式会社ハロー | 留守番電話判定装置、方法及びプログラム |
Non-Patent Citations (1)
| Title |
|---|
| Hany Farid 외, ‘Detecting AI-Synthesized Speech Using Bispectral Analysis’, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops, 2019, pp. 104-109* |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20240079027A1 (en) * | 2022-09-02 | 2024-03-07 | Foundation of Soongsil University-lndustry Cooperation | Synthetic voice detection method based on biological sound, recording medium and apparatus for performing the same |
| US12394431B2 (en) * | 2022-09-02 | 2025-08-19 | Foundation Of Soongsil University-Industry Cooperation | Synthetic voice detection method based on biological sound, recording medium and apparatus for performing the same |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20220040813A (ko) | 2022-03-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12243532B2 (en) | Privacy mode based on speaker identifier | |
| US11990127B2 (en) | User recognition for speech processing systems | |
| US10741170B2 (en) | Speech recognition method and apparatus | |
| US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
| WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
| EP3948852A1 (en) | Contextual biasing for speech recognition | |
| CN112037774B (zh) | 用于关键短语识别的系统和方法 | |
| US20140358537A1 (en) | System and Method for Combining Speech Recognition Outputs From a Plurality of Domain-Specific Speech Recognizers Via Machine Learning | |
| Trabelsi et al. | Evaluation of the efficiency of state-of-the-art Speech Recognition engines | |
| JP2019211749A (ja) | 音声の始点及び終点の検出方法、装置、コンピュータ設備及びプログラム | |
| CN107409061A (zh) | 语音总结程序 | |
| CN112992147A (zh) | 语音处理方法、装置、计算机设备和存储介质 | |
| KR102415519B1 (ko) | 인공지능 음성의 컴퓨팅 탐지 장치 | |
| CN110853669B (zh) | 音频识别方法、装置及设备 | |
| CN112185374A (zh) | 一种确定语音意图的方法及装置 | |
| US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
| CN112216270B (zh) | 语音音素的识别方法及系统、电子设备及存储介质 | |
| US12334068B1 (en) | Detecting corrupted speech in voice-based computer interfaces | |
| US12230278B1 (en) | Output of visual supplemental content | |
| CN120690231A (zh) | 一种语音质检方法、装置、计算机设备及存储介质 | |
| CN120431929A (zh) | 语音修复方法、模型训练方法和电子设备 | |
| CN115641849B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
| CN118116387A (zh) | 多人交叉场景的单通道语音识别方法、系统、设备及介质 | |
| US12462798B1 (en) | Evaluation of speech processing components | |
| US11398239B1 (en) | ASR-enhanced speech compression |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20200924 |
|
| PA0201 | Request for examination | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20211130 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220615 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220628 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20220629 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| PR1001 | Payment of annual fee |
Payment date: 20250402 Start annual number: 4 End annual number: 4 |