KR20170073113A

KR20170073113A - 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치

Info

Publication number: KR20170073113A
Application number: KR1020150181619A
Authority: KR
Inventors: 이석필; 변성우
Original assignee: 상명대학교산학협력단
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2017-06-28
Also published as: WO2017104875A1

Abstract

본 발명의 일면에 따른 톤과 템포 정보를 이용한 감정인식 방법은, 사용자의 음성신호를 입력받는 단계; 상기 음성신호를 절대적분치를 이용하여 음성구간과 비 음성구간으로 구분하여 음성구간을 검출하는 단계; 상기 검출된 음성구간으로부터 톤 정보와 템포 정보를 추출하는 단계; 및 둘 이상의 신경회로망에서 상기 톤 정보와 템포 정보를 이용하여 감정 정보를 추출하되, 상기 신경회로망 중 제1 신경회로망은 보통 감정과 슬픔 감정을 구분하고, 제2 신경회로망은 기쁨 감정과 화남 감정을 구분하여 감정정보를 추출하는 단계를 포함하는 것을 특징으로 한다.

Description

음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치{METHOD AND APPARATUS FOR RECOGNIZING EMOTION USING TONE AND TEMPO OF VOICE SIGNAL}

본 발명은 음성신호처리에 관한 것으로서, 보다 구체적으로는 음성신호의 톤과 템포 정보를 이용하여 화자의 감정을 인식하는 방법 및 그 장치에 관한 것이다.

의사소통에 있어 감정의 전달과 인식은 매우 중요한 요소인데, 이는 사람 사이의 의사소통뿐 아니라 사람과 동물 사이 또는 사람과 기계 사이의 의사소통에서도 정확한 의사소통을 위해 필요한 요소이다.

사람 사이의 의사소통은 음성, 제스처, 표정 등 여러 가지 요소들이 개별적 혹은 상호 복합적으로 작용하여 감정의 전달과 인식이 이루어진다.

최근 사물인터넷 기술이 발달함에 따라 사람과 기계 사이의 의사소통이나 감정전달도 중요한 요소로 떠오르고 있는데, 지금까지의 연구는 주로 사람 얼굴의 표정변화나 심박수, 체온 등의 생체신호를 기반으로 사람의 감정을 인식하고 판단하는 방법을 사용해왔다.

사람과 기계 사이의 의사소통을 위해 음성을 이용한 다양한 연구가 이루어져 왔으나, 이는 사람의 음성을 인식하거나 텍스트를 음성으로 합성하거나 또는 음성에 의해 화자를 인식, 인증하는 연구들이 주를 이루고 음성을 분석하여 감정을 인식하는 연구는 활발하지 못한 것이 현실이다.

종래 음성인식을 이용한 감정인식은 사람의 감정상태에 따라 음높이나 음량, 즉, 음성신호의 세기를 바탕으로 평온한 상태에서의 음높이를 기준으로 화가 난 상태 등을 판단하는 방법을 사용해왔다.

그러나 이러한 음높이를 이용하는 방법은 개인에 따라 편차가 심하여 그 평균값을 구하는 데 어려움이 있고, 음성신호의 세기는 마이크의 상태나 화자와 마이크 사이의 거리 등에 의해 크게 영향을 받는 등의 문제가 있어 감정인식의 정확성이 떨어지는 문제가 있다.

또한 음성신호는 음성구간과 비 음성구간이 있는데 음성신호 전체를 분석하여 감정을 인식하는 경우에 음성신호에 포함되어있는 비 음성구간이 음성인식이나 감정인식의 정확도를 떨어트리므로 이러한 비 음성구간을 제거하고 음성구간만 검출할 수 있는 스피치 온 셋 기술도 필요하다.

본 발명은 전술한 바와 같은 기술적 배경에서 안출된 것으로서, 인공지능 알고리즘과 스피치 온 셋 기술을 이용하여 음성신호의 음성구간과 비 음성구간을 구분하고 음성구간의 톤과 템포로 감정을 인식하는 장치와 그 방법을 제공하는 것을 그 목적으로 한다.

본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

전술한 목적을 달성하기 위한 본 발명의 일면에 따른 톤과 템포정보를 이용한 감정인식 방법은, 사용자의 음성신호를 입력받는 단계; 상기 음성신호를 절대적분치를 이용하여 음성구간과 비 음성구간으로 구분하여 음성구간을 검출하는 단계; 상기 검출된 음성구간으로부터 톤 정보와 템포 정보를 추출하는 단계; 및 둘 이상의 신경회로망에서 상기 톤 정보와 템포 정보를 이용하여 감정 정보를 추출하되, 상기 신경회로망 중 제1 신경회로망은 보통 감정과 슬픔 감정을 구분하고, 제2 신경회로망은 기쁨 감정과 화남 감정을 구분하여 감정정보를 추출하는 단계를 포함하는 것을 특징으로 한다.

본 발명의 다른 일면에 따른 톤과 템포 정보를 이용한 감정인식 장치는, 사용자의 음성신호를 입력받는 입력부; 상기 음성신호를 절대적분치를 이용하여 음성구간과 비 음성구간으로 구분하여 음성구간을 검출하는 음성구간 검출부; 상기 검출된 음성구간으로부터 톤 정보를 추출하는 톤 정보 추출부; 상기 추출된 음성구간으로부터 템포 정보를 추출하는 템포 정보 추출부; 및 둘 이상의 신경회로망을 포함하여 상기 톤 정보와 템포 정보를 이용하여 감정 정보를 추출하되, 상기 신경회로망 중 제1 신경회로망은 보통 감정과 슬픔 감정을 구분하고, 제2 신경회로망은 기쁨 감정과 화남 감정을 구분하여 감정정보를 추출하는 감정인식부를 포함한다.

본 발명에 따르면, 음성신호의 음성구간과 비 음성구간을 정확히 구분할 수 있고, 음성구간으로부터 좀 더 효과적이고 정확도를 높여 감정을 인식할 수 있는 효과가 있다.

도 1은 본 발명의 일실시예에 따른 감정인식 방법의 흐름도.
도 2는 본 발명의 일실시예에 따른 음성구간 추출방법의 흐름도.
도 3은 본 발명의 일실시예에 따라 추출된 음성구간을 도시한 도면.
도 4는 본 발명의 다른 실시예에 따른 감정인식 장치의 구조도.
도 5은 감정에 따른 음성신호의 톤 특징을 도시한 도면.
도 6은 감정에 따른 음성신호의 템포 특징을 도시한 도면.
도 7은 본 발명의 다른 실시예에 따른 감정인식 장치의 구조도.
도 8은 본 발명의 또 다른 실시예에 따른 감정인식 장치의 구조도.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다. 도 1은 본 발명에 따른 감정인식방법의 흐름도를 나타낸다.

우선 감정인식의 대상이 되는 사용자의 음성을 입력 받는다(S110).

입력음성은 마이크 등을 통해 취득할 수도 있고 음성메시지 등에서 음성을 취득하거나, 메일에 첨부된 동영상에서 음성부분만 추출하는 등의 방법으로 사용자의 음성을 입력받는다.

다음으로, 입력받은 사용자의 음성신호에서 감정인식에 필요한 음성구간을 검출한다(S120).

입력받은 음성신호는 음성구간과 비 음성구간이 혼재되어 있어 음성신호 전체를 그대로 사용하는 경우 감정인식의 인식률이 떨어지므로 음성구간만을 분리하여 감정인식에 사용하기 위함이다.

음성구간을 분리하기 위해서는 절대적분치(IAV: Integral Absolute Value) 특징을 사용한다. 이는 음성구간이 비 음성구간에 비해 에너지 크기 값이 크기 때문에 신호의 에너지크기 값을 반영하기 위함이다.

도 2는 음성구간을 검출하기 위한 흐름도이다.

음성구간 검출을 위해 우선 프레임 별 절대적분치를 계산한다(S210). 음성신호의 프레임은 샘플링 주파수와 샘플수에 따라 달라지는데, 48kHz의 샘플링 주파수를 가지고 1536개의 샘플을 포함하는 한 프레임은 32밀리세컨드(ms)의 길이를 가진다.

즉, 절대적분치는 한 프레임 내의 1536개 샘플의 절대값을 적분함으로써 얻을 수 있다.

이렇게 입력된 신호의 절대적분치를 구하면 구간 내의 최대값과 최소값을 산출하고(S220), 최대값 최소값으로부터 음성구간인지를 판단할 수 있는 임계치를 계산해낸다.

우선 최소값이 최대값의 70%를 넘는지 판단하는데(S230), 최소값이 최대값에 근접하는 경우에는 임계치가 너무 높아져서 음성구간으로 판단되는 구간이 너무 짧아지게 되는 문제를 방지하기 위함이다.

최소값이 최대값의 70% 이상이면 임계치를 최대값의 20%가 되는 값으로 하고(S240) 음성구간을 판단한다.

최소값이 최대값의 70% 미만이면 임계치는 최대값과 최소값의 차이값의 10%를 최소값에 더한 값을 임계치로 하고(S250) 임계치를 판단하게 된다.

전단계에서 구한 임계치를 프레임 별 절대적분치와 비교해서(S260), 절대적분치가 임계치보다 크면 음성구간이 시작된 것으로 판단하고(S270) 절대적분치가 임계치보다 작으면 음성구간이 종료된 것으로 판단하여(S280) 음성구간을 검출하기 위한 단계(S120)를 종료한다.

음성구간 검출단계(S120)에서 사용된 각 수치들은 설명을 위한 예시값으로 실험을 통하여 최적의 값으로 대체하여 계산하는 것이 가능하다.

음성구간 검출단계(S120)가 끝나면 음성구간의 톤 정보를 추출하고(S130) 음성 구간의 템포 정보를 추출하여(S140) 감정인식에 이용한다.

도 4는 톤과 템포 정보를 추출하여 신경회로망을 이용한 감정인식을 하는 장치를 나타낸다.

사람의 음성신호는 성대가 진동하여 발생하는 준 주기성 신호인데 이러한 음성신호의 진동 주기를 기본주파수 혹은 피치, 톤 이라 한다.

음성신호의 톤은 음성신호처리 분야에서 다양하게 이용되고 있는 중요한 특징으로, 톤 정보를 구하는 방법은 여러 가지가 있다.

자기상관함수(Autocorrelation) 혹은 AMDF(Average Magnitude Difference Function) 방법은 음성신호에서 자기상관관계가 가장 큰 주파수를 찾아서 해당 주파수를 기본주파수, 즉, 톤으로 결정하는 방법인데, 보통 사람의 주파수는 80Hz ~ 500Hz 사이에 존재하므로 80Hz에서 500Hz까지 주파수를 변경하며 자기상관값이 가장 큰 주기를 찾고, 상관도가 가장 높은 주파수를 기본주파수로 결정한다.

음성신호의 에너지를 이용하는 방법은 시간 축 신호인 음성신호를 FFT(Fast Fourier Transform)등으로 주파수 신호로 변환한 후 각 주파수 별 에너지 값을 측정하여 에너지 값이 가장 큰 주파수를 기본주파수로 결정하는 것이다. 음성신호를 주파수 신호로 변환하는 방법은 FFT 외에도 DCT(Discrete Cosine Transform), DFT(Discrete Fourier Transform), Filter bank 등의 방법이 사용될 수 있다.

도 4에서와 같이 프레임별로 추출된 톤을 전체 음성구간에 대해 평균값과 분산값을 구하고 이를 신경회로망에 전달하여 감정을 인식하는데 사용한다.

음성신호의 템포는 BPM(Beat Per Minute) 단위를 사용하여 측정한다. 음악의 경우 1분 내에 일정한 비트(Beat)의 수를 템포라 하지만, 사람의 음성인 경우에는 하나의 자음과 모음 또는 하나의 모음으로 이루어진 음절의 수를 이용하여 음성신호의 템포를 구한다.

본 발명에서는 음성신호의 파형(Envelope)을 분석하는 방법으로 모음과 자음을 추출하여 이 중 모음의 길이를 음절의 길이로 하였다.

음절추출 결과는 한 모음에 대한 프레임의 개수로 나타나는데, 전술한 바와 같이 48kHz, 1536 sample/frame 인 경우 한 프레임은 32ms의 길이에 해당하므로 한 문장에서 추출한 음절 길이의 평균값을 템포로 추출한다.

추출한 톤과 템포를 바탕으로 감정인식을 하기 위한 단계(S150)에서는 인공지능 알고리즘이 사용되는데, 본 실시예에서는 순환 신경망(Recurrent Neural Network) 알고리즘을 사용하였으나 이 외에도 심층 신경망(Deep Neural Network, DNN), 합성곱 신경망(Convolutional Neural Network, CNN), 제한 볼츠만 머신 (Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망 (Deep Belief Network, DBN), 심층 Q-네트워크(Deep Q-Networks) 등 다양한 인공지능 알고리즘을 사용할 수 있다.

톤 정보와 마찬가지로 템포 정보도 프레임별로 구한 템포를 전 음성구간에 대해 평균값과 분산값을 구하고 신경회로망에 전달한다.

이렇게 구한 톤 정보와 템포 정보를 이용하여 인공지능 알고리즘에서 감정을 분석하기 위해 초기에 학습과정이 필요한데, 사람들의 네 가지 감정에 대한 음성신호를 각각 입력하여 학습과정을 거친 후 최적의 임계값을 설정하게 된다.

학습이 완료된 후 신경회로망은 1차 신경회로망과 2차 신경회로망으로 나누어 감정을 인식하는데, 1차 신경회로망에서는 톤이 비교적 낮은 보통감정과 슬픔감정에 대한 인식을 하고, 2차 신경회로망에서는 1차 신경회로망에서 인식하지 못한 톤이 보통 감정과 슬픔 감정보다는 높은 기쁨과 화남 감정에 대한 인식과정을 거친다.

신경회로망을 1차와 2차 두 개로 나누어 감정을 인식함으로써, 1차 신경회로망에서는 보통 감정과 슬픔 감정만을 구분하고, 2차 신경회로망에서는 기쁨과 화남 감정만을 구분함으로써 좀 더 정확한 감정 인식이 가능한 장점이 있다.

감정인식단계는 전단계에서 추출한 톤의 분산과 평균값, 템포의 분산과 평균값을 학습을 통해 미리 설정해 둔 각 감정의 톤의 분산과 평균값 및 템포의 분산과 평균값과 비교하여 그 차이가 임계치 이내인 경우 해당 감정을 나타내는 것으로 판단한다.

도 5는 음성신호에서 톤을 추출하여 나타난 특징을 보여주는 그래프이다. 그래프에서 가로축은 시간을, 세로축은 음성신호의 주파수를 헤르쯔(Hz) 단위로 나타낸다.

삼각형은 화남(angry), 사각형은 기쁨(happy), 마름모꼴은 슬픔(sad)을 각각 나타내는데, 슬픔에 해당하는 마름모는 150Hz 이하에 분포하고 있어 저음의 특징을 나타내는데 반해 기쁨은 200Hz 이상, 화남은 300Hz 이상으로 슬픔에 비해서 높은 주파수 특징을 가짐을 보여준다.

따라서 이러한 특징들을 분석하여 신경회로망에서는 슬픔, 기쁨, 화남 또는 보통 감정상태를 분석하고 인식하는 것이 가능하다.

도 6은 음성신호의 템포를 추출하여 나타난 특징을 보여주는 그래프이다. 세로축은 음성신호의 유무를 나타내는데 음성이 있는 구간은 1이고 없는 구간은 0으로 나타난다. 가로축은 시간을 프레임 단위로 나타낸다.

그래프의 각 막대의 굵기 차이는 템포의 빠르기를 나타내는데 막대의 굵기가 굵을수록 템포가 빠름을 나타낸다.

도 6의 (a)는 슬픔, (b)는 기쁨, (c)는 화남에 대한 템포를 나타내는데, 화남과 기쁨의 경우 슬픔보다 굵은 선으로 표시되는 막대의 빈도가 너 높은 것을 볼 수 있다.

도 5과 도 6에서 나타나는 각 감정들의 톤 정보와 템포 정보를 이용하여 감정을 판단하고, 감정 판단을 위한 톤과 템포의 임계값은 실험을 통해 최적의 임계값을 정할 수 있다.

이상과 같은 단계를 거쳐 감정을 인식할 수 없는 경우에는 추가적으로 사람의 호흡 소리를 분석하여 감정을 인식하는 방법도 사용이 가능하다.

음성구간이 검출되지 않은 구간에서는, 사람이 극도로 슬픈 상태나 화가 난 상태인 경우에 말이 없이 호흡 소리만 발생할 수 있기 때문에 기존의 임계값을 사용하여 음성구간을 검출하는 경우에는 음성구간을 검출할 수 없어 감정을 인식할 수 없는 상황이 생길 수 있으므로, 이를 보완하기 위함이다.

또한 음성구간이 검출되더라도 보통/슬픔, 기쁨/화남 감정의 경계 구간에서 인식이 애매한 경우 추가적으로 호흡 소리의 에너지 크기와 템포를 분석함으로써 감정인식이 추가적으로 가능하다. 호흡소리의 임계값은 역시 실험에 의해 설정할 수 있다.

도 7은 본 발명에 따른 감정인식 장치(700)를 나타낸다.

입력부(710)는 마이크 등으로 사용자의 음성을 직접 입력받거나, 음성메시지 동영상 등의 파일에서 음성부분을 추출하는 방법으로 사용자의 음성신호를 입력받을 수 있다.

음성구간 검출부(720)는 입력부(710)로부터 음성신호를 전달받아 음성구간과 비 음성구간을 구분한다.

음성구간을 검출하기 위해서는 전술한 바와 같이 절대적분치 특징을 사용하여 에너지 크기를 기준으로 음성구간과 비 음성구간을 구분하여 톤 정보 추출부(730)와 템포 정보 추출부(740)로 전달한다.

톤 정보 추출부(730)는 음성의 기본주파수를 찾아내어 이를 기준으로 톤 정보를 알아낸다.

톤 정보를 구하는 방법은 자기상관함수를 이용하거나 주파수 신호의 각 주파수 별 에너지를 이용하는 방법을 사용할 수 있다.

템포 정보 추출부(740)는 음성의 템포, 즉, 빠르기를 찾아내는데 빠르기는 음성의 모음에 해당하는 음절의 길이로 판단한다.

톤 정보와 템포 정보를 찾아내면 이를 바탕으로 감정인식부(750)에서 음성신호에 해당하는 감정을 검출하게 된다.

감정인식부(750)는 2차 신경망 회로로 구성될 수 있고, 1차 신경망 회로에서는 비교적 저음인 보통, 슬픔의 감정을 구분해 내고, 2차 신경망 회로에서는 보통, 슬픔의 감정에 비해 고음인 기쁨, 화남의 감정을 구분하여 감정을 인식한다.

이상과 같은 감정인식장치에 의해 보다 정밀하게 사용자의 감정을 인식하는 것이 가능하고, 많은 부분에 활용될 가능성이 있다.

한편, 본 발명의 실시예에 따른 감정인식 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 도 8에 도시된 바와 같이, 컴퓨터 시스템은 적어도 하나 이상의 프로세서(821)와, 메모리(823)와, 사용자 입력 장치(126)와, 데이터 통신 버스(822)와, 사용자 출력 장치(827)와, 저장소(828)를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스(822)를 통해 데이터 통신을 한다.

컴퓨터 시스템은 네트워크에 커플링된 네트워크 인터페이스(129)를 더 포함할 수 있다. 상기 프로세서(821)는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리(123) 및/또는 저장소(828)에 저장된 명령어를 처리하는 반도체 장치일 수 있다.

상기 메모리(823) 및 상기 저장소(128)는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 상기 메모리(823)는 ROM(124) 및 RAM(825)을 포함할 수 있다.

따라서, 본 발명의 실시예에 따른 감정인식 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 감정인식 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 인식 방법을 수행할 수 있다.

한편, 상술한 본 발명에 따른 감정인식 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술분야에 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.

Claims

사용자의 음성신호를 입력받는 단계;
상기 음성신호를 절대적분치를 이용하여 음성구간과 비 음성구간으로 구분하여 음성구간을 검출하는 단계;
상기 검출된 음성구간으로부터 톤 정보와 템포 정보를 추출하는 단계; 및
둘 이상의 신경회로망에서 상기 톤 정보와 템포 정보를 이용하여 감정 정보를 추출하되, 상기 신경회로망 중 제1 신경회로망은 보통 감정과 슬픔 감정을 구분하고, 제2 신경회로망은 기쁨 감정과 화남 감정을 구분하여 감정정보를 추출하는 단계;
를 포함하는 감정인식 방법.
제1항에 있어서, 상기 음성구간을 검출하는 단계는,
상기 음성신호의 절대적분치의 최대값과 최소값을 산출하고,
상기 최소값이 상기 최대값의 기설정된 일정비율을 초과하면 임계치를 최대값과 제1 비율을 곱한 값으로 하고, 상기 기설정된 일정비율 이하이면 임계치를 최소값에 최대값과 최소값의 차이에 제2 비율을 곱한 값을 더한 값으로 결정하며,
상기 절대적분치가 상기 임계치를 초과하면 음성구간으로 판단하고, 상기 절대적분치가 상기 임계치 이하이면 비 음성구간으로 판단하는 것
인 감정인식 방법.
제1항에 있어서,
상기 톤 정보는 상기 검출한 음성구간의 기본주파수의 평균값과 분산값을 포함하고,
상기 템포 정보는 상기 검출한 음성구간의 빠르기의 평균값과 분산값을 포함하는 것
인 감정인식 방법.
제3항에 있어서,
상기 감정정보를 추출하는 단계는, 상기 기본주파수의 평균값과 분산값 및 상기 빠르기의 평균값과 분산값을, 기설정된 각 감정의 기본주파수의 평균값과 분산값 및 빠르기의 평균값과 분산값과 비교하여 기설정된 임계치 이하인 경우 해당 감정으로 판단하는 것
인 감정인식 방법.
제1항에 있어서, 상기 톤 정보를 추출하는 단계는
자기상관함수, AMDF(Average Magnitude Difference Function) 또는 FFT(Fast Fourier Transform)를 이용하여 기본주파수를 추출하는 것
인 감정인식 방법.
사용자의 음성신호를 입력받는 입력부;
상기 음성신호를 절대적분치를 이용하여 음성구간과 비 음성구간으로 구분하여 음성구간을 검출하는 음성구간 검출부;
상기 검출된 음성구간으로부터 톤 정보를 추출하는 톤 정보 추출부;
상기 추출된 음성구간으로부터 템포 정보를 추출하는 템포 정보 추출부; 및
둘 이상의 신경회로망을 포함하여 상기 톤 정보와 템포 정보를 이용하여 감정 정보를 추출하되, 상기 신경회로망 중 제1 신경회로망은 보통 감정과 슬픔 감정을 구분하고, 제2 신경회로망은 기쁨 감정과 화남 감정을 구분하여 감정정보를 추출하는 감정인식부;
를 포함하는 감정인식 장치.
제6항에 있어서, 상기 음성구간 검출부는
상기 음성신호의 절대적분치의 최대값과 최소값을 산출하고,
상기 최소값이 상기 최대값의 기설정된 일정비율을 초과하면 임계치를 최대값과 제1 비율을 곱한 값으로 하고, 상기 기설정된 일정비율 이하이면 임계치를 최소값에 최대값과 최소값의 차이에 제2 비율을 곱한 값을 더한 값으로 결정하며,
상기 절대적분치가 상기 임계치를 초과하면 음성구간으로 판단하고, 상기 절대적분치가 상기 임계치 이하이면 비 음성구간으로 판단하는 것
인 감정인식 장치.
제6항에 있어서,
상기 톤 정보 추출부는 상기 검출한 음성구간의 톤의 평균값과 분산값을 포함하는 톤 정보를 추출하고,
상기 템포 정보 추출부는 상기 검출한 음성구간의 템포의 평균값과 분산값을 포함하는 템포 정보를 추출하는 것
인 감정인식 장치.
제8항에 있어서, 상기 감정인식부는
상기 톤의 평균값과 분산값 및 상기 템포의 평균값과 분산값을, 기설정된 각 감정의 톤의 평균값과 분산값 및 템포의 평균값과 분산값과 비교하여 기설정된 임계치 이하인 경우 해당 감정으로 판단하는 것
인 감정인식 장치.
제6항에 있어서, 상기 톤 정보 추출부는
자기상관함수, AMDF(Average Magnitude Difference Function) 또는 FFT(Fast Fourier Transform)를 이용하여 기본주파수를 추출하는 것
인 감정인식 장치.