KR20210000802A - 인공지능 음성 인식 처리 방법 및 시스템 - Google Patents
인공지능 음성 인식 처리 방법 및 시스템 Download PDFInfo
- Publication number
- KR20210000802A KR20210000802A KR1020190075833A KR20190075833A KR20210000802A KR 20210000802 A KR20210000802 A KR 20210000802A KR 1020190075833 A KR1020190075833 A KR 1020190075833A KR 20190075833 A KR20190075833 A KR 20190075833A KR 20210000802 A KR20210000802 A KR 20210000802A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- user
- gender
- artificial intelligence
- recognition processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
본 발명은 사용자 목소리의 성별 인식을 기반으로 사용자의 목소리와 다른 이성의 목소리로 자동 응대 처리가 가능하도록 구성한 인공지능 음성 인식 처리 방법 및 시스템에 관한 것으로서, 더욱 상세하게는, 사용자의 음성을 검출하는 단계; 상기 검출된 사용자의 음성을 통해 음성의 의미 및 사용자의 성별과 연령대를 분석하는 단계; 상기 분석된 사용자의 성별과 연령대에 따라 기설정된 응답모드를 자동으로 선택하는 단계; 및 상기 선택된 응답모드로 상기 음성의 의미에 대응되는 응답을 출력하는 단계;를 포함하며, 상기 응답모드 선택시 사용자의 성별과 다른 이성의 목소리를 선택하는 인공지능 음성 인식 처리 방법 및 시스템에 관한 것이다.
Description
본 발명은 인공지능 음성 인식 처리 방법 및 시스템에 관한 것으로서, 특히, 사용자 목소리의 성별 인식을 기반으로 사용자의 목소리와 다른 이성의 목소리로 자동 응대 처리가 가능하도록 구성한 인공지능 음성 인식 처리 방법 및 시스템에 관한 것이다.
일반적으로, 인공지능(AI : Artificial Intelligence) 음성 인식을 통한 응답(비서) 목소리는 대부분 여성의 목소리로 출력된다.
인공지능은 기본적으로 성별이 없지만 이름이나 목소리에 의해 성별이 구분 된다. 대부분의 음성인식 비서의 이름이 “시리”, “코타나“, 알렉사“ 등과 같은 여성 이름을 갖고 있다. 한편, 변호사 업무나 고차원적 업무 대응의 AI는 “왓슨”, “로스"등과 같은 남성 이름을 갖고 있다.
AI는 성별이 없는 상태에서 시작하지만, 어떤 데이터가 쌓이고, 알고리즘이 어떻게 구성되느냐에 따라 성별이 지어질 수 있다.
이와 같은 AI 비서로 남성에 비해 여성의 목소리가 많은 것은 남성의 목소리 보다 여성의 목소리가 편안하다는 일부 연구 결과를 인용한 것이나, 일각에서는 성 역할에 대한 고정관념 반영의 결과라고 주장하면서 사회적 성 차별 이슈 및 고정관념 강화의 문제점으로 대두되었다.
즉, AI 음성 비서에게 여성의 이름과 목소리를 사용하는 것은 나쁜 뜻이 없더라도 이와 같은 고정관념을 강화시키는 계기가 되고 있으며, 의료, 법률, 퀴즈 분야에서는 똑똑한 우월적 남성 목소리를 주로 사용함으로써 성적 차별화를 더욱 부추기고 있다.
현재, 제조사가 AI 음성 비서의 이름(호출어) 및 성별을 결정하여 제품을 출시하고 있으며, 목소리 또한 정해진 성별 목소리로 들려주고 있다. 따라서, 다양한 사용자의 성별 및 연령에 따른 호감형 AI 음성 비서의 목소리를 반영하지 못하고 있는 실정이다.
도 1은 종래 일반적인 인공지능 음성 인식 시스템의 구성도를 나타낸다.
대부분의 음성인식 시스템은 도 1과 같은 구성을 가지고 있으며, 화자(10)의 입력신호(11) 중에서, 실제 사람이 발성한 음성신호만 검출하여, 특징을 추출(30)하고, 기준 음향 모델과(40)의 유사도를 측정해 패턴을 분류(50)하며, 언어모델(60) 기반으로 언어로서 처리(70)하여 최종 문장으로 인식하는 원리이다.
이와 같은 기술은 음성인식 오류를 개선하는 부분에만 초점이 맞추어져 있으며, 인식 문장을 통해 대화처리의 데이터베이스에 저장된 언어를 생성 및 합성하여 스피커를 통해 음성으로 출력하는 시스템으로 구성된다. 즉, 특징추출(30)에서 단순히 화자의 성별만을 인식하고 패턴분류 및 언어처리를 하는 알고리즘으로 음성 인식률을 높이는 기술 자체에만 초점이 맞춰져 있다.
본 발명이 해결하고자 하는 기술적 과제는, 사용자의 목소리를 통해 파악된 성별을 기반으로 사용자와 다른 성별(이성)의 목소리로 응대하도록 구성한 인공지능 음성 인식 처리 방법 및 시스템을 제공하는데 있다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 상기와 같이 사용자의 성별은 물론 연령대에 따라서도 호감도를 갖는 연령대의 목소리로 응대하도록 구성한 인공지능 음성 인식 처리 방법 및 시스템을 제공하는데 있다.
상기 기술적 과제를 달성하기 위한 본 발명인 인공지능 음성 인식 처리 방법은, 사용자의 음성을 검출하는 단계; 상기 검출된 사용자의 음성을 통해 음성의 의미 및 사용자의 성별과 연령대를 분석하는 단계; 상기 분석된 사용자의 성별과 연령대에 따라 기설정된 응답모드를 자동으로 선택하는 단계; 및 상기 선택된 응답모드로 상기 음성의 의미에 대응되는 응답을 출력하는 단계;를 포함하며, 상기 응답모드 선택시 사용자의 성별과 다른 이성의 목소리를 선택하는 것을 특징으로 한다.
또한, 본 발명인 인공지능 음성 인식 처리 시스템은, 사용자의 음성을 검출하는 음성검출부; 상기 음성검출부를 통해 검출된 사용자의 음성으로부터 음성의 의미 및 사용자의 성별과 연령대를 분석하는 음성분석부; 상기 음성분석부를 통해 분석된 사용자의 성별과 연령대에 따라 기설정된 응답모드를 자동으로 선택하는 음성처리부; 및 상기 선택된 응답모드로 상기 음성의 의미에 대응되는 응답을 출력하는 음성출력부;를 포함하며, 상기 응답모드 선택시 사용자의 성별과 다른 이성의 목소리를 선택하는 것을 특징으로 한다.
이때, 상기 사용자의 성별은, 성대 진동 주파수와 지터(Jitter)를 통해 분석하는 것을 특징으로 한다.
또한, 상기 사용자의 연령은, 시머(shimmer)와 NHR(noise-to-harmonics ratio)을 통해 분석하는 것을 특징으로 한다.
또한, 상기 사용자의 성별과 연령대 분석은 선형 예측 계수 방법, 캡스트럼 방법, 멜프리퀸스캡스트럼 방법, 주파수 대역별 에너지스펙트럼 방법, 가우시안 혼합모델, 신경망 모델, 지지벡터머신 및 은닉마코브모델 중 적어도 어느 하나를 활용하여 분석하는 것을 특징으로 한다.
또한, 상기 응답모드는, 사용자의 음성이 중성일 경우 중성으로 응답하는 것을 특징으로 한다.
또한, 사용자의 연령대보다 낮은 연령대의 음성으로 응답하는 것을 특징으로 한다.
이상에서 상술한 본 발명은 다음과 같은 효과가 있다.
먼저, 사용자의 성별과 다른 이성의 목소리로 응답하도록 구성함으로써, 사용자의 호감도 및 친밀감을 증대시킬 수 있다.
추가적으로, 사용자의 연령대보다 더 낮은 연령대의 목소리를 제공함으로써, 상기 호감도 및 친밀감을 더욱 증대시킬 수 있다.
또한, 전술한 구성에 의해 종래 대비 사회적 성 차별 이슈 및 성 고정관념 문제를 해소시킬 수 있다.
도 1은 종래 일반적인 인공지능 음성 인식 시스템의 구성도,
도 2는 본 발명인 인공지능 음성 인식 처리 시스템의 일 실시례에 따른 구성도,
도 3은 본 발명에 따른 성별과 연령별 성대 진동 주파수를 나타낸 도면,
도 4는 본 발명에 따른 성별과 연령별 지터를 나타낸 도면,
도 5는 본 발명에 따른 성별과 연령별 시머를 나타낸 도면,
도 6은 본 발명에 따른 성별과 연령별 NHR을 나타낸 도면.
도 7은 본 발명인 인공지능 음성 인식 처리 방법의 일 실시례에 따른 구성도,
도 8은 본 발명인 인공지능 음성 인식 처리 방법에 따른 음성 비서 수동선택 방법을 나타낸 도면,
도 9는 본 발명인 인공지능 음성 인식 처리 방법에 따른 음성 비서 자동선택 방법을 나타낸 도면.
도 2는 본 발명인 인공지능 음성 인식 처리 시스템의 일 실시례에 따른 구성도,
도 3은 본 발명에 따른 성별과 연령별 성대 진동 주파수를 나타낸 도면,
도 4는 본 발명에 따른 성별과 연령별 지터를 나타낸 도면,
도 5는 본 발명에 따른 성별과 연령별 시머를 나타낸 도면,
도 6은 본 발명에 따른 성별과 연령별 NHR을 나타낸 도면.
도 7은 본 발명인 인공지능 음성 인식 처리 방법의 일 실시례에 따른 구성도,
도 8은 본 발명인 인공지능 음성 인식 처리 방법에 따른 음성 비서 수동선택 방법을 나타낸 도면,
도 9는 본 발명인 인공지능 음성 인식 처리 방법에 따른 음성 비서 자동선택 방법을 나타낸 도면.
이하, 본 발명의 일부 실시례들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시례를 설명함에 있어, 관련된 공지구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시례에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 실시례의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.
먼저, 본 발명은 공개된 인공지능 음성인식 처리 시스템에 모두 적용할 수 있는 것으로써, 인공지능 자체는 공지의 기술이므로 자세한 설명은 생략하도록 한다.
도 2는 본 발명인 인공지능 음성 인식 처리 시스템의 일 실시례에 따른 구성도이고, 도 3은 본 발명에 따른 성별과 연령별 성대 진동 주파수를 나타낸 도면이며, 도 4는 본 발명에 따른 성별과 연령별 지터를 나타낸 도면이고, 도 5는 본 발명에 따른 성별과 연령별 시머를 나타낸 도면이며, 도 6은 본 발명에 따른 성별과 연령별 NHR을 나타낸 도면이다. 도 2 내지 도 6을 참조하여 본 발명인 인공지능 음성 인식 처리 시스템을 설명하면 다음과 같다.
도 1을 참조하면, 본 발명에 따른 인공지능(AI : Artificial Intelligence) 음성 인식 처리 시스템은 음성검출부(100), 음성분석부(200), 음성처리부(300) 및 음성출력부(400)를 포함하여 구성된다.
음성검출부(100)는 마이크 등을 통해 입력되는 사용자(발화자)의 음성만을 검출한다. 음성검출부(100)는 음성 인식을 위해 널리 사용 되는 기술로 인간의 음성을 이용하여 기계 및 사용 장치를 동작시키는 수단으로서도 중요한 역할을 한다.
음성신호의 인식 기술은 크게 음성 인식(Speech Recognition)과 화자인식(Speaker Recognition)으로 분류된다. 음성 인식은 다시 특정 화자에 대해서만 인식하는 “화자종속(Speaker Dependent) 시스템”과, 화자에 상관없이 인식하는 “화자독립(Speaker Independent) 시스템”으로 나뉘어진다.
화자종속 음성 인식은 사용 전에, 사용자의 음성을 저장 및 등록시키고, 실제 인식을 수행할 때는 입력된 음성의 패턴과 저장된 음성의 패턴을 비교하여 인식하는 기술이다.
음성 입력은 마이크 등에서 발화자(사용자)의 음성 신호를 입력 받게 되면 음성 부문만을 검출하여야 하는데, 음성 검출 부문은 인식 성능에 큰 영향을 미친다. 잡음이 많이 환경에서 화자의 음성 신호의 검출 구간에 잡음이 포함되는 경우가 많으므로 음성 인식률을 높이기 위해서는 음성검출부(100)를 구성하는 것이 바람직하다.
음성분석부(200)는 음성검출부(100)를 통해 검출된 사용자의 음성정보를 토대로 음성의 의미를 파악하고, 사용자의 성별과 연령대를 분석한다. 음성의 의미란 사용자가 의도하는 바를 파악하는 것으로 자연어처리를 통해 분석할 수 있다. 자연어처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해할 수 있도록 다양한 분석 방법을 통해 기계적인 형태로 변환하는 기술을 의미한다. 또한, 이를 다시 인간이 해석할 수 있는 형태소 만드는 기술도 포함한다. 자연어는 인공지능의 하위 분야로 1960년대의 인공지능을 만들려던 시도가 실패한 후에 인간의 언어를 분석하고 이해하는 기술이 세분화되면서 파생된 학문 분야로 언어공학, 인공지능, 전산언어학의 연구 분야이다. 자연어(Natural Language)는 프로그래밍 언어처럼 사람이 인공적으로 만든 언어가 아닌 과거에 오랜 시간을 거쳐 자연스럽게 발생한 의사소통을 위해 사용해 온 한국어나 영어 같은 언어를 의미한다. 일반적으로 공학에서 언어라고 하면 C나 JAVA와 같은 프로그래밍 언어를 떠오르기 때문에 사람이 사용하는 자연어를 구분하여 부르고 있다. 음성의 의미를 파악하는 기술 자체 역시 공지의 기술이므로 음성의 의미를 파악하는 구체적인 방법론에 대한 설명은 생략하도록 한다.
한편, 자연어 처리가 가능한 인공지능 기기의 예로 챗봇(Chat Bot)을 들 수 있다. 챗봇(Chat bot)은 말 그대로 '채팅(Chatting)'과 '로봇(Robot)'의 합성어로써 사람처럼 대화(채팅)하는 로봇을 의미할 수 있다. 챗봇은 구글, 아마존, 애플 등에서 제조하여 판매하고 있는 구글홈, 알렉사, 시리 등의 가정용 기기일 수 있으며, 고객 응대 등을 하는 기업형 기기일 수도 있다.
음성분석부(200)는 사용자의 성별과 연령대를 분석하기 위해 특징 벡터 산출부, 성별 검출 모듈부 및 연령 검출 모듈부를 구비할 수 있다.
특징 벡터 산출, 성별 검출 및 연령 검출을 위해 선형 예측 계수 방법, 캡스트럼 방법, 멜프리퀸스캡스트럼(MFCC) 방법, 주파수 대역별 에너지스펙트럼 방법, 가우시안 혼합모델(GMM), 신경망 모델(NNM), 지지벡터머신(SVM) 및 은닉마코브모델(HMM) 중 적어도 어느 하나를 활용하여 분석할 수 있으며, 상기 열거한 방법 및 모델들 역시 공지의 기술이므로 자세한 설명은 생략하도록 한다.
도 3을 참조하면, 'Fo' 는 성대 진동 주파수를 나타내는 것으로 지각적으로는 음높이(pitch)에 해당한다. 도 4에 도시된 지터(Jitter)란 진동의 주기가 얼마나 일정한지를 보여주는 수치를 나타낸다.
도 5의 시머(shimmer)란 진동의 진폭이 얼마나 일정한지를 보여주는 수치로 주기나 진폭이 불규칙할수록 시머의 값이 커지며, 도 6의 NHR(noise-to-harmonics ratio)은 70 ~ 4,500Hz 사이에 존재하는 배음과 1,500 ~ 4,500Hz 사이에 존재하는 비정상 배음간의 비율 평균치로 그 값이 클수록 소음의 비율이 높음을 나타낸다.
도 3 및 도 4를 참조하면, 발화자의 성별에 유의미한 차이를 보이는 것은 하기와 같이 성대 진동 주파수 'Fo' 와 '지터' 이다.
- 진동 주파수 Fo : 남성 119.02 ± 22.71 Hz, 여성 199.60 ± 26.93 Hz
- 지터 : 남성 0.24 ± 0.15 %, 여성 0.14 ± 0.11%
또한, 도 5 및 도 6을 참조하면, 발화자의 연령별에 유의미한 차이를 보이는 것은 하기와 같이 '시머' 와 'NHR' 이다.
- 시머 : 남성 6.05 ± 5.16 %, 여성 5.90 ± 4.69 %
- NHR : 남성 0.0192 ± 0.02, 여성 0.013 ± 0.01
상기와 같은 특징의 차이에 기초하여 성별 및 연령을 구분할 수 있는 임계 값을 통해 발화자의 특징을 산출할 수 있다.
음성처리부(300)는 음성분석부(200)를 통해 분석된 사용자의 성별과 연령대에 따라 기설정된 응답모드를 자동으로 선택한다. 응답모드는 사용자의 성별과 반대되는 다른 성별의 목소리를 선택하고, 사용자의 음성이 중성일 경우 중성의 목소리를 선택하며, 사용자의 연령대보다 낮은 연령대의 목소리를 선택하도록 구성된다.
즉, 사용자가 남성이면 여성 목소리를, 사용자가 여성이면 남성 목소리를, 사용자가 중성이면 중성 목소리로 응답하며, 이와 함께, 사용자의 연령대가 20~30대이면 20대의 음성으로 응답하고, 사용자의 연령대가 40~50대이면 30대의 음성으로 응답하며, 사용자의 연령대가 60대이면 10대의 음성으로 응답하도록 구성할 수 있다. 이때, 사용자의 목소리가 중성일 경우 20대 중성 목소리를 기본적으로 선택하도록 처리할 수 있다.
음성출력부(400)는 음성처리부(300)에서 선택된 응답모드로 전술한 음성의 의미에 대응되는 응답을 스피커 등을 통해 출력한다.
즉, 본 발명에 따른 인공지능 음성 인식 처리 시스템은 사용자의 목소리를 통해 사용자의 성별과 연령대를 파악하여 사용자의 성별과 다른 성별의 음성을 자동으로 출력함은 물론, 사용자의 연령대보다 낮은 연령대의 음성을 자동으로 출력하는 것이 핵심 기술이라 할 것이다. 이는 남성은 고음 영역대의 맑은 목소리에 매력을 느끼고, 여성은 중저음 영역대의 남성 목소리에 매력과 친밀감을 느낀다는 사실을 기초로 한 것이다.
도 7은 본 발명인 인공지능 음성 인식 처리 방법의 일 실시례에 따른 구성도이고, 도 8은 본 발명인 인공지능 음성 인식 처리 방법에 따른 음성 비서 수동선택 방법을 나타낸 도면이며, 도 9는 본 발명인 인공지능 음성 인식 처리 방법에 따른 음성 비서 자동선택 방법을 나타낸 도면이다.
먼저, 도 7을 참조하여 본 발명인 인공지능 음성 인식 처리 방법을 설명하면 다음과 같다.
본 발명인 인공지능 음성 인식 처리 방법은, 음성을 검출하는 단계(S100), 사용자의 성별과 연령대를 분석하는 단계(S200), 응답모드를 자동으로 선택하는 단계(S300) 및 응답을 출력하는 단계(S400)를 포함하여 구성된다.
음성을 검출하는 단계(S100)는 전술한 음성검출부(100)의 설명을 참조할 수 있으며, 사용자의 성별과 연령대를 분석하는 단계(S200)는 전술한 음성분석부(200)의 설명을 참조할 수 있다. 또한, 응답모드를 자동으로 선택하는 단계(S300)는 전술한 음성처리부(300)의 설명을 참조할 수 있으며, 응답을 출력하는 단계(S400)는 전술한 음성출력부(400)의 설명을 참조할 수 있으므로 자세한 설명은 생략하도록 한다.
본 발명에 따른 인공지능 음성 인식 처리 방법은 수동 모드 및 자동 모드로 구성될 수 있다.
도 8을 참조하여 본 발명의 수동 모드에 의한 인공지능 음성 인식 처리 방법의 알고리즘 구현 상태를 설명하면 다음과 같다.
먼저, 제품의 하드웨어의 물리적 버튼(비서 성별 선택 버튼)을 누르면 사용자가 '비서 수동 선택'을 할 것인지 여부를 결정하게 된다. 이때, '비서 성별 선택 3가지 안내 음성' 가이드를 사용자에게 들려주어 선택하도록 구성할 수 있다.
일례로, 사전에 데이터베이스(DB)에 등록된 인공지능 음성 비서 목소리 중 20대의 목소리를 스피커로 출력하여 사용자가 선택하도록 한다. 수동 모드의 선택이 완료되면 사용자의 목소리(호출어)의 성별에 관계없이 사용자의 명령에 대한 수행 결과를 사전에 사용자가 선택한 인공지능 음성 비서 목소리가 스피커를 통해 출력된다.
다음으로, 도 9를 참조하여 본 발명의 자동 모드에 의한 인공지능 음성 인식 처리 방법의 알고리즘 구현 상태를 설명하면 다음과 같다.
'성별 검출 모듈부' 에서 사용자가 인공지능 음성 비서 호출어를 발화하면 호출어의 성별에 무관하게 사용자의 음성 명령 목소리를 가지고 성별을 검출한다.
1차적으로, 성별은 성대 진동 주파수(Fo)와 지터 값의 성별 기준 값을 참조하여 발화자의 목소리의 특징을 추출하여 성별을 분류하고, 분류된 성별은 '성별 인식 레지스터'에 저장한다.
2차적으로, 연령대를 분류하기 위해 연령 검출 모듈부에서 발화자의 호출어 음성의 시머와 NHR 값의 연령대 구분 임계 값을 참조하여 발화자의 특징을 추출한 후 연령대를 분류하여 '연령 인식 레지스터'에 저장한다.
발화자의 성별 및 연령대 분류가 완료되면 음성처리부(300)에서 기 저장된 7가지 음성 모드 데이터 베이스(DB)를 활용하여 선택된 음성을 출력한다.
즉, 발화자의 목소리가 남성일 경우는 이성형의 여성 인공지능 음성 비서 목소리로 대응한다. 따라서, 발화자가 30대 연령이면 여성 20대 인공지능 음성 비서로, 발화자가 40~50대 연령이면 여성 30대 인공지능 음성 비서로, 발화자가 60대 이상이면 여성 10대 인공지능 음성 비서로 처리한다.
또한, 발화자의 목소리가 여성일 경우는 이성형의 남성 인공지능 음성 비서 목소리로 대응한다. 따라서, 발화자가 30대 연령이면 남성 20대 인공지능 음성 비서로, 발화자가 40~50대 연령이면 남성 30대 인공지능 음성 비서로, 발화자가 60대 이상이면 남성 10대 인공지능 음성 비서로 처리한다.
또한, 발화자의 목소리가 중성일 경우는 20대 중성 음성 기본으로 처리한다.
이상에서 설명한 본 발명에 따르면, 사용자(발화자)의 목소리를 자동으로 분석하고 분석된 목소리 정보를 통해 사용자의 성별 및 연령대를 파악한 후 사용자의 성별과 다른 성별의 목소리 또는 중성일 경우 중성의 목소리를 출력하고, 사용자의 연령대보다 낮은 연령대의 목소리를 출력함으로써 인공지능 음성 비서의 목소리에 대한 사용자의 호감도 및 친밀감을 증대시킬 수 있으며, 종래와 같은 사회적 성 차별 이슈 및 성 고정관념을 해소시킬 수 있다.
이상에서, 본 발명의 실시례를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시례에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미가 있다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 게시된 실시례들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시례에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 음성검출부
200 : 음성분석부
300 : 음성처리부 400 : 음성출력부
S100 : 음성을 검출하는 단계
S200 : 사용자의 성별과 연령대를 분석하는 단계
S300 : 응답모드를 자동으로 선택하는 단계
S400 : 응답을 출력하는 단계
300 : 음성처리부 400 : 음성출력부
S100 : 음성을 검출하는 단계
S200 : 사용자의 성별과 연령대를 분석하는 단계
S300 : 응답모드를 자동으로 선택하는 단계
S400 : 응답을 출력하는 단계
Claims (12)
- 사용자의 음성을 검출하는 단계;
상기 검출된 사용자의 음성을 통해 음성의 의미 및 사용자의 성별과 연령대를 분석하는 단계;
상기 분석된 사용자의 성별과 연령대에 따라 기설정된 응답모드를 자동으로 선택하는 단계; 및
상기 선택된 응답모드로 상기 음성의 의미에 대응되는 응답을 출력하는 단계;를 포함하며,
상기 응답모드 선택시 사용자의 성별과 다른 이성의 목소리를 선택하는 인공지능 음성 인식 처리 방법. - 제1항에 있어서,
상기 사용자의 성별은,
성대 진동 주파수와 지터(Jitter)를 통해 분석하는 인공지능 음성 인식 처리 방법. - 제1항에 있어서,
상기 사용자의 연령은,
시머(shimmer)와 NHR(noise-to-harmonics ratio)을 통해 분석하는 인공지능 음성 인식 처리 방법. - 제1항에 있어서,
상기 사용자의 성별과 연령대 분석은 선형 예측 계수 방법, 캡스트럼 방법, 멜프리퀸스캡스트럼 방법, 주파수 대역별 에너지스펙트럼 방법, 가우시안 혼합모델, 신경망 모델, 지지벡터머신 및 은닉마코브모델 중 적어도 어느 하나를 활용하여 분석하는 인공지능 음성 인식 처리 방법. - 제1항에 있어서,
상기 응답모드는,
사용자의 음성이 중성일 경우 중성으로 응답하는 인공지능 음성 인식 처리 방법. - 제5항에 있어서,
사용자의 연령대보다 낮은 연령대의 음성으로 응답하는 인공지능 음성 인식 처리 방법. - 사용자의 음성을 검출하는 음성검출부;
상기 음성검출부를 통해 검출된 사용자의 음성으로부터 음성의 의미 및 사용자의 성별과 연령대를 분석하는 음성분석부;
상기 음성분석부를 통해 분석된 사용자의 성별과 연령대에 따라 기설정된 응답모드를 자동으로 선택하는 음성처리부; 및
상기 선택된 응답모드로 상기 음성의 의미에 대응되는 응답을 출력하는 음성출력부;를 포함하며,
상기 응답모드 선택시 사용자의 성별과 다른 이성의 목소리를 선택하는 인공지능 음성 인식 처리 시스템. - 제7항에 있어서,
상기 사용자의 성별은,
성대 진동 주파수와 지터(Jitter)를 통해 분석하는 인공지능 음성 인식 처리 시스템. - 제7항에 있어서,
상기 사용자의 연령은,
시머(shimmer)와 NHR(noise-to-harmonics ratio)을 통해 분석하는 인공지능 음성 인식 처리 시스템. - 제7항에 있어서,
상기 사용자의 성별과 연령대 분석은 선형 예측 계수 방법, 캡스트럼 방법, 멜프리퀸스캡스트럼 방법, 주파수 대역별 에너지스펙트럼 방법, 가우시안 혼합모델, 신경망 모델, 지지벡터머신 및 은닉마코브모델 중 적어도 어느 하나를 활용하여 분석하는 인공지능 음성 인식 처리 시스템. - 제7항에 있어서,
상기 응답모드는,
사용자의 음성이 중성일 경우 중성으로 응답하는 인공지능 음성 인식 처리 시스템. - 제11항에 있어서,
사용자의 연령대보다 낮은 연령대의 음성으로 응답하는 인공지능 음성 인식 처리 시스템.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190075833A KR20210000802A (ko) | 2019-06-25 | 2019-06-25 | 인공지능 음성 인식 처리 방법 및 시스템 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190075833A KR20210000802A (ko) | 2019-06-25 | 2019-06-25 | 인공지능 음성 인식 처리 방법 및 시스템 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20210000802A true KR20210000802A (ko) | 2021-01-06 |
Family
ID=74127883
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020190075833A Withdrawn KR20210000802A (ko) | 2019-06-25 | 2019-06-25 | 인공지능 음성 인식 처리 방법 및 시스템 |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20210000802A (ko) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| USD951912S1 (en) * | 2021-06-04 | 2022-05-17 | XiaoYi Technology (Shenzhen) Co., LTD. | Sound machine |
| KR20230055719A (ko) * | 2021-10-19 | 2023-04-26 | 주식회사 카카오엔터프라이즈 | 응답 목소리가 가변되는 음성 인식 장치, 음성 인식 시스템, 음성 인식 프로그램 및 그것의 제어 방법 |
| CN118629394A (zh) * | 2024-08-12 | 2024-09-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种中性音色的语音合成方法及相关装置 |
| WO2025023762A1 (ko) * | 2023-07-26 | 2025-01-30 | 삼성전자주식회사 | 전자 장치 및 사용자 발화 처리 방법 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100806025B1 (ko) | 2007-02-13 | 2008-02-26 | 주식회사 케이티프리텔 | 고객 맞춤형 음성 안내 서비스 시스템 및 방법 |
| KR20190026518A (ko) | 2017-09-05 | 2019-03-13 | 엘지전자 주식회사 | 인공지능 음성 인식 장치의 동작 방법 |
-
2019
- 2019-06-25 KR KR1020190075833A patent/KR20210000802A/ko not_active Withdrawn
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR100806025B1 (ko) | 2007-02-13 | 2008-02-26 | 주식회사 케이티프리텔 | 고객 맞춤형 음성 안내 서비스 시스템 및 방법 |
| KR20190026518A (ko) | 2017-09-05 | 2019-03-13 | 엘지전자 주식회사 | 인공지능 음성 인식 장치의 동작 방법 |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| USD951912S1 (en) * | 2021-06-04 | 2022-05-17 | XiaoYi Technology (Shenzhen) Co., LTD. | Sound machine |
| KR20230055719A (ko) * | 2021-10-19 | 2023-04-26 | 주식회사 카카오엔터프라이즈 | 응답 목소리가 가변되는 음성 인식 장치, 음성 인식 시스템, 음성 인식 프로그램 및 그것의 제어 방법 |
| WO2025023762A1 (ko) * | 2023-07-26 | 2025-01-30 | 삼성전자주식회사 | 전자 장치 및 사용자 발화 처리 방법 |
| CN118629394A (zh) * | 2024-08-12 | 2024-09-10 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种中性音色的语音合成方法及相关装置 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8719035B2 (en) | Method and apparatus for recognizing and reacting to user personality in accordance with speech recognition system | |
| JP4568371B2 (ja) | 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム | |
| US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
| JP4914295B2 (ja) | 力み音声検出装置 | |
| US20180137880A1 (en) | Phonation Style Detection | |
| CN116417003A (zh) | 语音交互系统、方法、电子设备和存储介质 | |
| US11270691B2 (en) | Voice interaction system, its processing method, and program therefor | |
| KR20080086791A (ko) | 음성 기반 감정 인식 시스템 | |
| KR20210000802A (ko) | 인공지능 음성 인식 처리 방법 및 시스템 | |
| JP6797338B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
| JP2005534983A (ja) | 自動音声認識の方法 | |
| Gupta et al. | Speech feature extraction and recognition using genetic algorithm | |
| Chakraborty et al. | Knowledge-based framework for intelligent emotion recognition in spontaneous speech | |
| JP6712754B2 (ja) | 談話機能推定装置及びそのためのコンピュータプログラム | |
| KR102114365B1 (ko) | 음성인식 방법 및 장치 | |
| JP4074543B2 (ja) | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 | |
| KR102370437B1 (ko) | 버추얼 상담 시스템 및 이를 이용한 상담방법 | |
| Gade et al. | A comprehensive study on automatic speaker recognition by using deep learning techniques | |
| JP2003163951A (ja) | 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法 | |
| JP2996019B2 (ja) | 音声認識装置 | |
| JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
| Kurian et al. | Connected digit speech recognition system for Malayalam language | |
| CN114582373B (zh) | 用于在人机对话中识别用户情绪的方法及装置 | |
| Shrawankar et al. | Speech: a challenge to digital signal processing technology for human-to-computer interaction | |
| Lykartsis et al. | Prediction of dialogue success with spectral and rhythm acoustic features using dnns and svms |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190625 |
|
| PG1501 | Laying open of application | ||
| PC1203 | Withdrawal of no request for examination | ||
| WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |