KR100937101B1 - 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 - Google Patents
음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 Download PDFInfo
- Publication number
- KR100937101B1 KR100937101B1 KR1020080046544A KR20080046544A KR100937101B1 KR 100937101 B1 KR100937101 B1 KR 100937101B1 KR 1020080046544 A KR1020080046544 A KR 1020080046544A KR 20080046544 A KR20080046544 A KR 20080046544A KR 100937101 B1 KR100937101 B1 KR 100937101B1
- Authority
- KR
- South Korea
- Prior art keywords
- emotion
- speech signal
- spectral
- frame
- fast fourier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/141—Discrete Fourier transforms
- G06F17/142—Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Discrete Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
Claims (20)
- 스펙트럼 엔트로피 값을 이용한 감정 인식 방법에 있어서,감정 평가 모델 생성용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출하고, 이를 이용하여 감정 평가 모델을 생성하는 단계; 와평가용 음성 신호를 입력받고, 상기 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출한 후 이를 상기 감정 평가 모델에 적용하여 상기 평가 음성 신호에 따른 감정을 인식하는 단계를 포함하는 감정 인식 방법.
- 제1항에 있어서,상기 음성 신호의 프레임별 스펙트럼 엔트로피 값을 산출하는 단계는,상기 음성 신호를 프레임으로 세분화하는 단계;상기 음성 신호의 프레임 별 고대역을 강조하는 단계;상기 음성 신호의 스펙트럼 정규화를 수행하는 단계; 및상기 스펙트럼 정규화 분포로부터 프레임별 엔트로피 값을 산출하는 단계를 포함하는 것을 특징으로 하는 감정 인식 방법.
- 제2항에 있어서,상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는,상기 음성 신호를 패스트 푸리에 변환(fast fourier transform)하는 단계;상기 패스트 푸리에 변환된 결과로부터 파워 스펙트럼을 획득하는 단계; 및상기 파워 스펙트럼으로부터 정규화 연산을 수행하는 단계를 포함하는 것을 특징으로 하는 감정 인식 방법.
- 제2항에 있어서,상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는,상기 음성 신호를 패스트 푸리에 변환(fast fourier transform)하는 단계;상기 패스트 푸리에 변환된 결과로부터 파워 스펙트럼을 획득하는 단계;상기 파워 스펙트럼으로부터 델타 패스트 푸리에 변환 스펙트럼을 연산하고, 그 절대값을 연산하는 단계; 및상기 델타 패스트 푸리에 변환 스펙트럼의 절대값으로부터 정규화 연산을 수행하는 단계를 포함하는 것을 특징으로 하는 감정 인식 방법.
- 제2항 또는 제3항에 있어서,상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는,상기 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행하는 단계를 더 포함하는 것을 특징으로 하는 감정 인식 방법.
- 제2항에 있어서,상기 음성 신호의 프레임별 고대역을 강조하는 단계는,해밍 윈도우(hamming window) 등을 이용하여 프레임의 고역을 강조하는 것을 특징으로 하는 감정 인식 방법.
- 제1항에 있어서,상기 감정 평가 모델을 생성하는 단계는,GMM(gaussian mixture model) 알고리즘, HMM(Hidden Markov Model) 알고리즘 또는 SVM(support vector machine) 알고리즘 중 하나를 이용하는 것을 특징으로 하는 감정 인식 방법.
- 제7항에 있어서,상기 감정 평가 모델을 생성하는 단계는,MLE(maximum likelihood estimation) 또는 EM(expectation maximization) 알 고리즘을 이용하여 최대 가우시안 혼합 분포 값을 갖는 GMM 파라미터를 추정하는 것을 특징으로 하는 감정 인식 방법.
- 제8항에 있어서,상기 평가 음성 신호의 프레임별 스펙트럼 엔트로피 값을 상기 GMM 감정 평가 모델에 적용하여 감정 인식을 수행하는 단계는,상기 평가 음성 신호의 프레임별 스펙트럼 엔트로피 값과 상기 GMM 파라미터로부터 가우시안 혼합 분포를 구하는 단계; 와상기 가우시안 혼합 분포 중 가장 큰 확률 값을 가지는 GMM 파라미터에 따른 감정을 선택하는 단계를 포함하는 감정 인식 방법.
- 스펙트럼 엔트로피 값을 이용한 감정 인식 장치에 있어서,입력된 음성 신호를 프레임으로 세분화하는 프레임 생성부;세분화된 음성 신호의 프레임 별 파워 스펙트럼 정규화를 수행하는 스펙트럼 정규화 연산부;상기 스펙트럼의 정규화 결과를 이용하여 각 프레임별 엔트로피 값을 구하는 엔트로피 연산부; 및상기 프레임별 엔트로피 값으로부터 감정 평가 모델을 생성하는 감정 평가 모델 생성부를 포함하는 감정 인식 장치.
- 제10항에 있어서,입력되는 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값을 상기 감정 평가 모델에 적용하여 감정 인식을 수행하는 음성 평가부를 더 포함하는 감정 인식 장치.
- 제10항 또는 제11항에 있어서,상기 스펙트럼 정규화 연산부는,상기 음성 신호를 패스트 푸리에 변환(fast fourier transform)하고, 상기 패스트 푸리에 변환된 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 정규화를 수행하는 것을 특징으로 하는 감정 인식 장치.
- 제12항에 있어서,상기 스펙트럼 정규화 연산부는,상기 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행하는 것을 특징으로 하는 감정 인식 장치.
- 제10항 또는 제11항에 있어서,상기 스펙트럼 정규화 연산부는,상기 음성 신호의 스펙트럼 정규화를 수행하는 단계는,상기 음성 신호를 패스트 푸리에 변환하여 파워 스펙트럼을 획득하고, 이로부터 델타 패스트 푸리에 변환 스펙트럼의 절대값을 획득한 후, 상기 델타 패스트 푸리에 변환 스펙트럼의 절대값에 대한 정규화를 연산하는 것을 특징으로 하는 감정 인식 장치.
- 제14항에 있어서,상기 스펙트럼 정규화 연산부는,상기 패스트 푸리에 변환 결과로부터 파워 스펙트럼을 획득한 후, 상기 파워 스펙트럼의 Mel 필터 연산을 수행하는 것을 특징으로 하는 감정 인식 장치.
- 제10항 또는 제11항에 있어서,해밍 윈도우(hamming window) 등을 이용하여 프레임의 고역을 강조하는 것을 고대역 강조부를 더 포함하는 것을 특징으로 하는 감정 인식 장치.
- 제11항에 있어서,상기 감정 평가 모델 생성부는,GMM(gaussian mixture model) 알고리즘, HMM(Hidden Markov Model) 알고리즘 또는 SVM(support vector machine) 알고리즘 중 하나를 이용하는 것을 특징으로 하는 감정 인식 장치.
- 제17항에 있어서,상기 감정 평가 모델 생성부는,MLE(maximum likelihood estimation) 또는 EM(expectation maximization) 알고리즘을 이용하여 최대 가우시안 혼합 분포 값을 갖는 GMM 파라미터를 추정하는 것을 특징으로 하는 감정 인식 장치.
- 제18항에 있어서,상기 음성 평가부는,상기 평가용 음성 신호의 프레임별 스펙트럼 엔트로피 값과 상기 GMM 파라미터로부터 가우시안 혼합 분포를 구하고, 이 중 가장 큰 확률 값을 가지는 GMM 파라 미터에 따른 감정을 선택하는 것을 특징으로 하는 감정 인식 장치.
- 제11항 또는 제12항에 있어서,외부로부터 감정 평가 모델을 수신하기 위한 통신 인터페이스를 더 포함하는 것을 특징으로 하는 감정 인식 장치.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020080046544A KR100937101B1 (ko) | 2008-05-20 | 2008-05-20 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020080046544A KR100937101B1 (ko) | 2008-05-20 | 2008-05-20 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| KR20090120640A KR20090120640A (ko) | 2009-11-25 |
| KR100937101B1 true KR100937101B1 (ko) | 2010-01-15 |
Family
ID=41603852
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020080046544A Expired - Fee Related KR100937101B1 (ko) | 2008-05-20 | 2008-05-20 | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR100937101B1 (ko) |
Families Citing this family (11)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101398218B1 (ko) * | 2012-09-03 | 2014-05-22 | 경희대학교 산학협력단 | 감정 음성 인식장치 및 방법 |
| KR102191306B1 (ko) * | 2014-01-22 | 2020-12-15 | 삼성전자주식회사 | 음성 감정 인식 시스템 및 방법 |
| CN108962281B (zh) * | 2018-08-15 | 2021-05-07 | 三星电子(中国)研发中心 | 一种语言表达的评价和辅助方法及装置 |
| CN110021308B (zh) * | 2019-05-16 | 2021-05-18 | 北京百度网讯科技有限公司 | 语音情绪识别方法、装置、计算机设备和存储介质 |
| CN110211596B (zh) * | 2019-05-29 | 2021-04-06 | 哈尔滨工程大学 | 一种基于Mel子带谱熵鲸目动物哨声信号检测方法 |
| CN110473571A (zh) * | 2019-07-26 | 2019-11-19 | 北京影谱科技股份有限公司 | 基于短视频语音的情感识别方法和装置 |
| CN110827798B (zh) * | 2019-11-12 | 2020-09-11 | 广州欢聊网络科技有限公司 | 一种音频信号处理的方法及装置 |
| CN111292724A (zh) * | 2020-02-13 | 2020-06-16 | 上海凯岸信息科技有限公司 | 一种基于深度学习的语音情绪识别方案 |
| CN113903327B (zh) * | 2021-09-13 | 2024-06-28 | 北京卷心菜科技有限公司 | 一种基于深度神经网络的语音环境气氛识别方法 |
| KR102771884B1 (ko) * | 2022-01-18 | 2025-02-25 | 주식회사 인디제이 | 인공지능 기반의 사용자 맞춤형 음악 추천 서비스 장치 |
| CN116863963A (zh) * | 2023-01-30 | 2023-10-10 | 东华大学 | 一种基于能量帧时频融合的语音情感识别方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10177400A (ja) | 1996-12-19 | 1998-06-30 | Toyota Motor Corp | 音声認識装置 |
| JP2001331190A (ja) | 2000-05-22 | 2001-11-30 | Matsushita Electric Ind Co Ltd | 音声認識システムにおけるハイブリッド端点検出方法 |
| KR20040038419A (ko) * | 2002-11-01 | 2004-05-08 | 에스엘투(주) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 |
-
2008
- 2008-05-20 KR KR1020080046544A patent/KR100937101B1/ko not_active Expired - Fee Related
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH10177400A (ja) | 1996-12-19 | 1998-06-30 | Toyota Motor Corp | 音声認識装置 |
| JP2001331190A (ja) | 2000-05-22 | 2001-11-30 | Matsushita Electric Ind Co Ltd | 音声認識システムにおけるハイブリッド端点検出方法 |
| KR20040038419A (ko) * | 2002-11-01 | 2004-05-08 | 에스엘투(주) | 음성을 이용한 감정인식 시스템 및 감정인식 방법 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR20090120640A (ko) | 2009-11-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100937101B1 (ko) | 음성 신호의 스펙트럴 엔트로피를 이용한 감정 인식 방법및 장치 | |
| EP4205109B1 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
| Dave | Feature extraction methods LPC, PLP and MFCC in speech recognition | |
| US8160877B1 (en) | Hierarchical real-time speaker recognition for biometric VoIP verification and targeting | |
| CN105593936B (zh) | 用于文本转语音性能评价的系统和方法 | |
| Ramamohan et al. | Sinusoidal model-based analysis and classification of stressed speech | |
| CN112689871A (zh) | 使用神经网络以目标讲话者的话音从文本合成语音 | |
| Xu et al. | Voice conversion based on Gaussian processes by coherent and asymmetric training with limited training data | |
| Nidhyananthan et al. | Language and text-independent speaker identification system using GMM | |
| Shah et al. | Novel MMSE DiscoGAN for cross-domain whisper-to-speech conversion | |
| Xu et al. | Speaker recognition and speech emotion recognition based on GMM | |
| Yusnita et al. | Malaysian English accents identification using LPC and formant analysis | |
| CN110838294B (zh) | 一种语音验证方法、装置、计算机设备及存储介质 | |
| Sahidullah et al. | On the use of distributed dct in speaker identification | |
| Prasad et al. | Backend tools for speech synthesis in speech processing | |
| Dalva | Automatic speech recognition system for Turkish spoken language | |
| Jain et al. | Comparative study of speaker recognition techniques in IoT devices for text independent negative recognition | |
| Mittal et al. | Age approximation from speech using Gaussian mixture models | |
| Al Smadi | An improved real-time speech signal in case of isolated word recognition | |
| Angadi et al. | Text-Dependent Speaker Recognition System Using Symbolic Modelling of Voiceprint | |
| Kadhum et al. | Survey of Features Extraction and Classification Techniques for Speaker Identification | |
| Chougule et al. | Language independent speaker identification | |
| Sharma et al. | Speaker and gender identification on Indian languages using multilingual speech | |
| Amin et al. | Bangladeshi Dialect Recognition using MFCC, Delta, Delta-delta and GMM | |
| Orphanidou et al. | Voice morphing using the generative topographic mapping |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A201 | Request for examination | ||
| PA0109 | Patent application |
St.27 status event code: A-0-1-A10-A12-nap-PA0109 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| R17-X000 | Change to representative recorded |
St.27 status event code: A-3-3-R10-R17-oth-X000 |
|
| R17-X000 | Change to representative recorded |
St.27 status event code: A-3-3-R10-R17-oth-X000 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
St.27 status event code: A-1-2-D10-D22-exm-PE0701 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
St.27 status event code: A-2-4-F10-F11-exm-PR0701 |
|
| PR1002 | Payment of registration fee |
Fee payment year number: 1 St.27 status event code: A-2-2-U10-U11-oth-PR1002 |
|
| PG1601 | Publication of registration |
St.27 status event code: A-4-4-Q10-Q13-nap-PG1601 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 St.27 status event code: A-5-5-R10-R13-asn-PN2301 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 St.27 status event code: A-5-5-R10-R13-asn-PN2301 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| FPAY | Annual fee payment |
Payment date: 20130102 Year of fee payment: 4 |
|
| PR1001 | Payment of annual fee |
Fee payment year number: 4 St.27 status event code: A-4-4-U10-U11-oth-PR1001 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| FPAY | Annual fee payment |
Payment date: 20140106 Year of fee payment: 5 |
|
| PR1001 | Payment of annual fee |
Fee payment year number: 5 St.27 status event code: A-4-4-U10-U11-oth-PR1001 |
|
| LAPS | Lapse due to unpaid annual fee | ||
| PC1903 | Unpaid annual fee |
Not in force date: 20150108 Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE St.27 status event code: A-4-4-U10-U13-oth-PC1903 |
|
| PC1903 | Unpaid annual fee |
Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE Not in force date: 20150108 St.27 status event code: N-4-6-H10-H13-oth-PC1903 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| P22-X000 | Classification modified |
St.27 status event code: A-4-4-P10-P22-nap-X000 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |
|
| PN2301 | Change of applicant |
St.27 status event code: A-5-5-R10-R11-asn-PN2301 St.27 status event code: A-5-5-R10-R13-asn-PN2301 |
|
| R18-X000 | Changes to party contact information recorded |
St.27 status event code: A-5-5-R10-R18-oth-X000 |










