KR20170131465A

KR20170131465A - 스피치의 방향에 기초한 전자 디바이스의 제어

Info

Publication number: KR20170131465A
Application number: KR1020177027318A
Authority: KR
Inventors: 성락 윤; 태수 김; 덕훈 김; 규웅 황
Original assignee: 퀄컴 인코포레이티드
Priority date: 2015-03-27
Filing date: 2016-02-04
Publication date: 2017-11-29
Anticipated expiration: 2036-02-04
Also published as: KR101981878B1; ES2754448T3; WO2016160123A1; HUE047117T2; US20160284350A1; CN107408386A; CN107408386B; EP3274988B1; US9911416B2; JP2018512619A; EP3274988A1

Abstract

사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 방법이 개시된다. 이 방법은, 사운드 센서에 의해 입력 사운드를 수신하는 것을 포함할 수도 있다. 이 방법은 또한, 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하고, 입력 사운드에서 스피치를 검출하는 것에 응답하여 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하며, 그리고, 그 제 1 및 제 2 특성들에 기초하여 사용자에 의해 말해진 스피치의 출발의 방향이 그 전자 디바이스를 향하는 것인지 여부를 결정할 수도 있다.

Description

스피치의 방향에 기초한 전자 디바이스의 제어

우선권의 주장

본 출원은 "CONTROLLING ELECTRONIC DEVICE BASED ON DIRECTION OF SPEECH" 라는 제목으로 2015년 3월 27일 출원된 미국 출원 제 14/671,858 호로부터의 우선권을 주장하고, 그것의 내용은 그 전체가 참조에 의해 본원에 통합된다.

본 개시의 분야

본 개시물은 일반적으로 전자 디바이스들을 제어하는 것에 관한 것이고, 보다 구체적으로는, 음성 커맨드에 응답하여 전자 디바이스들을 제어하는 것에 관한 것이다.

최근, 스마트 폰들, 태블릿 컴퓨터들, 스마트 TV 들 등과 같은 전자 디바이스들의 사용이 보편화되었다. 이들 디바이스들은 종종 유선 또는 무선 네트워크들을 통해 음성 및/또는 데이터 통신 기능들을 제공한다. 또한, 이러한 디바이스들은 사운드 프로세싱, 이미지 또는 비디오 프로세싱, 내비게이션, 음악 또는 멀티미디어 파일들의 재생 등과 같은 사용자 편의를 향상시키도록 설계된 다양한 기능들을 제공할 수도 있다.

이러한 기능들 중에서, 종래의 전자 디바이스들은 종종 스피치 인식 기능을 구비한다. 이러한 전자 디바이스들은 사용자로부터 음성 커맨드를 수신하고 인식하는 것에 응답하여 기능을 수행할 수도 있다. 예를 들어, 스피치 인식 기능을 구비한 전자 디바이스는 사용자로부터의 음성 커맨드에 응답하여 애플리케이션을 활성화하거나, 오디오 파일을 플레이하거나, 또는 사진을 찍을 수도 있다.

전자 디바이스들의 보편화된 사용으로 인해, 사용자들은 종종 서로 근접하여 위치되는, 스피치 인식 기능을 구비한 복수의 전자 디바이스들에 대한 액세스를 갖는다. 예를 들어, 사용자는 거실에 있을 수도 있고, 그 거실에는 그 또는 그녀의 스마트폰, 태블릿 컴퓨터, 및 스마트 TV 가 위치된다. 이러한 경우에, 사용자가 의도된 타겟으로서 스마트폰을 향해 음성 커맨드를 말하는 경우에, 태블릿 컴퓨터 및 스마트 TV 및 스마트폰은 그 음성 커맨드를 수신하고 응답할 수도 있다. 따라서, 이러한 전자 디바이스들은 그들이 음성 커맨드에 대해 응답할 음성 커맨드의 의도된 타겟인지 여부를 정확하게 결정하는 것이 가능하지 않을 수도 있다.

본 개시는 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 방법들 및 장치를 제공한다.

본 개시의 하나의 양태에 따르면, 사용자에 의해 말해진 (spoken) 스피치 (speech) 에 응답하여 전자 디바이스를 제어하기 위한 방법이 개시된다. 이 방법은, 사운드 (sound) 센서에 의해 입력 사운드를 수신하는 것을 포함할 수도 있다. 이 방법은 또한, 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하고, 입력 사운드에서 스피치를 검출하는 것에 응답하여 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하며, 그리고, 그 제 1 및 제 2 특성들에 기초하여 사용자에 의해 말해진 스피치의 출발의 방향 (direction of departure) 이 그 전자 디바이스를 향하는 것인지 여부를 결정할 수도 있다. 이 개시물은 또한 이 방법에 관련된 디바이스를 기술한다.

본 개시의 다른 양태에 따르면, 전자 디바이스는 사운드 센서, 스피치 검출기, 주파수 분석 유닛, 및 스피치 방향 결정 유닛을 포함할 수도 있다. 사운드 센서는 입력 사운드를 수신하도록 구성될 수도 있다. 또한, 스피치 검출기는 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하도록 구성될 수도 있다. 또한, 주파수 분석 유닛은, 입력 사운드에서 스피치를 검출하는 것에 응답하여 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하도록 구성될 수도 있고, 스피치 방향 결정 유닛은, 제 1 및 제 2 특성들에 기초하여 사용자에 의해 말해진 스피치의 출발의 방향이 그 전자 디바이스를 향하는 것인지 여부를 결정하도록 구성될 수도 있다.

이 개시의 실시형태들은 첨부 도면들과 함께 읽혀질 때 이하의 상세한 설명을 참조하여 이해될 것이다.
도 1 은 본 개시의 하나의 실시형태에 따른, 사용자에 의해 말해진 스피치를 검출하고 그 스피치의 출발의 방향에 기초하여 기능을 수행하도록 구성된 전자 디바이스들을 나타낸다.
도 2 는 본 개시의 하나의 실시형태에 따른, 사용자에 의해 말해지고 전자 디바이스에서 사운드 센서에 의해 수신된 음성 커맨드들에 대한 출발의 방향들을 나타낸다.
도 3 은 본 개시의 하나의 실시형태에 따른, 출발의 방향에서 사용자에 의해 말해지고 전자 디바이스들의 각각에서 하나 이상의 사운드 센서들에 의해 수신된 음성 커맨드를 나타낸다.
도 4 는 본 개시의 하나의 실시형태에 따른, 스피치의 출발의 방향이 그 자신을 향한 것인지 여부를 결정하고 그 스피치에서의 음성 커맨드와 연관된 기능을 수행하도록 구성된 전자 디바이스의 블록도를 나타낸다.
도 5 는 본 개시의 하나의 실시형태에 따른, 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 일 예시적인 방법의 플로우차트를 나타낸다.
도 6 은 본 개시의 하나의 실시형태에 따른, 사용자로부터 수신된 스피치의 출발의 방향 (DOD) 이 그 자신을 향한 것인지 여부를 결정하기 위해 전자 디바이스에서 수행되는 일 예시적인 방법의 플로우차트를 나타낸다.
도 7 은 본 개시의 하나의 실시형태에 따른, 다른 전자 디바이스들과 관련하여 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 일 예시적인 방법의 플로우차트를 나타낸다.
도 8 은 본 개시의 하나의 실시형태에 따른, 주파수의 함수로서 특정된 시간에서 수신된 입력 사운드의 에너지 값들을 폴롯팅함으로써 전자 디바이스에 의해 생성될 수도 있는 일 예시적인 그래프를 나타낸다.
도 9 는 본 개시의 하나의 실시형태에 따른, 사용자에 의해 말해진 스피치의 의도된 타겟을 결정하기 위해 통신 네트워크를 통해 서버 (920) 와 통신하도록 구성된 복수의 전자 디바이스들을 나타낸다.
도 10 은 본 개시의 하나의 실시형태에 따른, 서버와 관련하여 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 일 예시적인 방법의 플로우차트를 나타낸다.
도 11 은 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 본 개시의 방법들 및 장치가 일부 실시형태들에 따라 구현될 수도 있는 전자 디바이스의 블록도를 나타낸다.
도 12 는 일부 실시형태들에 따라 구현되는, 전술된 서버들의 임의의 하나일 수도 있는 서버 시스템을 나타내는 블록도이다.

여러 가지 실시형태들에 대한 상세한 참조가 이루어질 것인데, 그 예들은 첨부된 도면들에서 예시된다. 다음의 상세한 설명에서, 본 주제의 완전한 이해를 제공하기 위해 다양한 구체적인 세부사항들이 제시된다. 그러나, 이들 구체적인 세부사항들없이도 본 주제가 실시될 수 있음은 당해 기술분야에서 통상의 지식을 가진 자 (이하, '통상의 기술자' 라 함) 에게 있어서 명백할 것이다. 다른 경우들에서, 잘 알려진 방법들, 절차들, 시스템들, 및 컴포넌트들은 여러 실시형태들의 양태들을 불필요하게 모호하게 하지 않도록 하기 위해 자세하게 설명하지 않는다.

도 1 은 본 개시의 하나의 실시형태에 따른, 사용자 (110) 에 의해 말해진 스피치를 검출하고 그 스피치의 출발의 방향에 기초하여 기능을 수행하도록 구성된 전자 디바이스들 (120 내지 150) 을 나타낸다. 전자 디바이스들 (120 내지 150) 은 셀룰러 전화기, 스마트폰, 랩톱 컴퓨터, 웨어러블 컴퓨터, 태블릿 컴퓨터, 게이밍 디바이스, 멀티미디어 플레이어, 스마트 TV, 음성-제어되는 조명 디바이스 등과 같은 사운드 캡처링 및 프로세싱 능력들을 구비한 임의의 적합한 디바이스일 수도 있다. 예시된 실시형태에서, 전자 디바이스들 (120 내지 150) 은 각각 스마트폰, 태블릿 컴퓨터, 스마트 TV, 및 음성-제어되는 조명 디바이스이고, 실내 (100) 에 위치할 수도 있다. 비록 전자 디바이스들 (120 내지 150) 이 실내 (100) 에 있는 것으로 도시되지만, 임의의 수의 전자 디바이스들이 실내 (100) 에 또는 사용자 (110) 에 대해 가까운 임의의 다른 적합한 장소에 위치할 수도 있다.

사용자 (110) 는 타겟 디바이스의 동작을 제어하기 위해 타겟 디바이스로서 전자 디바이스들 (120 내지 150) 중 하나를 향하는 방향으로 음성 커맨드를 말할 수도 있다. 본 명세서에서 사용된 바와 같이, "전자 디바이스를 향하는 출발의 방향 (a direction of departure toward an electronic device)" 또는 그것의 임의의 변형형태는 사운드 소스 (예컨대, 사용자) 와 전자 디바이스 사이의 라인을 따르는 방향을 지칭할 수도 있고, 특정된 각도 또는 범위 내에서 라인으로부터 벗어나는 임의의 방향들을 포함할 수도 있다. 예시된 실시형태에서, 사용자 (110) 는 전자 디바이스 (120) 를 활성화시키기 위해서 또는 전자 디바이스 (120) 가 기능 (예컨대, 음성 어시스턴트 애플리케이션 (122)) 을 수행하도록 지시하기 위해서 전자 디바이스 (120) 를 향하는 방향으로 음성 커맨드 (예컨대, "하이 어시스턴트 (HI ASSISTANT)") 를 말할 수도 있다. 본 명세서에서 사용된 바와 같이, "음성 커맨드 (voice command)" 라는 용어는 전자 디바이스들 (120 내지 150) 에서 기능 또는 애플리케이션을 수행 또는 활성화하도록 하는 커맨드 (command) 또는 명령 (instruction) 을 나타내는 하나 이상의 워드들 또는 사운드를 포함하는 임의의 스피치 (speech) 또는 발성 (utterance) 을 지칭할 수도 있다.

음성 커맨드에 응답하여, 전자 디바이스들 (120 내지 150) 은 사용자 (110) 로부터의 음성 커맨드의 출발의 방향에 기초하여 그 음성 커맨드와 연관된 애플리케이션을 실행하거나 기능을 수행할 수도 있다. 예를 들어, 전자 디바이스 (120) 는 음성 커맨드 "하이 어시스턴트" 의 출발의 방향이 그 자신을 향한 것이라고 결정 시, 음성 어시스턴트 애플리케이션 (122) 을 활성화할 수도 있다. 사용자로부터의 스피치의 출발의 방향에 기초하여, 전자 디바이스는, 이하 보다 자세히 나타내는 바와 같이, 사용자에 의해 말해진 스피치가 그 자신을 향하는 방향에 있는지 여부를 결정할 수도 있다.

전자 디바이스들 (120 내지 150) 은 사운드 센서 (예컨대, 마이크로폰) 를 통해 입력 사운드를 지속적으로, 주기적으로, 또는 간헐적으로 수신하고 그 입력 사운드에서 스피치를 검출하도록 구성될 수도 있다. 예시된 실시형태에서, 사용자 (110) 는 전자 디바이스 (120) 의 음성 어시스턴트 애플리케이션 (122) 을 활성화하기 위해 전자 디바이스 (120) 를 향해 음성 커맨드 (예컨대, "하이 어시스턴트") 를 말할 수도 있다. 음성 커맨드를 포함하는 사용자의 스피치는 입력 사운드로서 전자 디바이스들 (120 내지 150) 에 의해 수신될 수도 있다. 사용자의 스피치가 입력 사운드로서 수신되고 있음에 따라, 전자 디바이스들 (120 내지 150) 은 그 입력 사운드에서 스피치를 검출할 수도 있다.

일단 입력 사운드에서 스피치가 검출되면, 전자 디바이스들 (120 내지 150) 의 각각은, 사용자 (110) 로부터의 스피치의 출발의 방향 (즉, 스피치의 발화된 방향) 이 그 자신을 향하는 것인지 여부를 결정할 수도 있다. 본 명세서에서 사용된 바와 같이, 구문 "스피치의 출발의 방향이 그 자신을 향하는 것인지 여부를 결정하는 것 (determining whether a direction of departure of speech is toward itself)" 또는 그것의 임의의 변형 형태는, 스피치의 말해진 방향이 전자 디바이스를 향하는 것인지 여부를 결정하는 것을 지칭할 수도 있고, 포지티브 테스트 (positive test) (즉, 스피치의 말해진 방향이 전자 디바이스를 향하는 것인지 여부를 결정하는 것) 또는 네거티브 테스트 (negative test) (즉, 스피치의 말해진 방향이 전자 디바이스를 향하지 않는 것인지 여부를 결정하는 것) 중 어느 일방을 포함할 수도 있다. 전자 디바이스들 (120 내지 150) 중에서, 전자 디바이스 (120) 는 스피치의 출발의 방향이 그 자신을 향한 것임을 결정하고 스피치에서 음성 커맨드 (예컨대, "하이 어시스턴트") 를 인식함으로써 음성 어시스턴트 애플리케이션 (122) 을 활성화하는 것으로 진행할 수도 있다. 전자 디바이스들 (130 내지 150) 의 각각은 스피치의 출발의 방향이 그 자신을 향하지 않은 것임을 결정하여 음성 커맨드가 프로세싱되지 않도록 결정할 수도 있다.

스피치의 출발의 방향이 그 자신을 향한 것인지 여부를 결정하기 위해서, 전자 디바이스들 (120 내지 150) 의 각각은 사용자 (110) 로부터 수신된 스피치의 특성들 (characteristics) 을 분석할 수도 있다. 하나의 실시형태에서, 전자 디바이스들 (120 내지 150) 의 각각은, 제 1 주파수 범위 (예컨대, 제 1 주파수 대역) 의 제 1 특성들 및 제 2 주파수 범위 (예컨대, 제 2 주파수 대역) 의 제 2 특성들을 결정하고, 그 제 1 및 제 2 특성들에 기초하여 스피치의 출발의 방향이 그 자신을 향하는 것인지 여부를 결정할 수도 있다. 예를 들어, 제 1 주파수 범위는 제 2 주파수 범위보다 더 높을 수도 있고, 제 1 및 제 2 주파수 범위들은 적어도 하나의 주파수를 포함할 수도 있다.

하나의 실시형태에 따르면, 제 1 및 제 2 특성들은, 사용자 (110) 로부터 수신된 스피치에서 연관된 주파수 범위를 특징지을 수도 있는 에너지 값들, 스펙트럼적 모멘트들 (예를 들어, 평균, 분산, 비대칭도, 및 첨도), 스펙트럼적 평탄도 (spectral flatness), 스펙트럼적 중심, 크레스트 팩터 (crest factor), 스펙트럼적 기울기, 스펙트럼적 롤-오프 (roll-off), F0 콘투어 (contour) 등과 같은 값들 또는 파라미터들일 수도 있다. 예를 들어, 전자 디바이스들 (120 내지 150) 의 각각은 제 1 및 제 2 특성들 사이의 비율을 계산하고, 그 비율에 기초하여 스피치의 출발의 방향이 그 자신을 향하는 것임을 결정할 수도 있다. 대안적으로 또는 추가적으로, 전자 디바이스들 (120 내지 150) 은 그 제 1 및 제 2 특성들에 기초하여 스펙트럼적 평탄도를 결정하고, 그 스펙트럼적 평탄도 값에 기초하여 스피치의 출발의 방향이 그 자신을 향하는 것임을 결정할 수도 있다. 계산된 비율 또는 스펙트럼적 평탄도 값은 스피치의 출발의 방향이 그 자신을 향하는 확률을 나타낼 수도 있다.

특정 실시형태에서, 전자 디바이스들 (120 내지 150) 의 각각은 스피치의 고 주파수 범위의 에너지 값과 저 주파수 범위의 에너지 값 사이의 비율을 계산하고, 그 비율이 미리결정된 임계 값일 수도 있는 임계 값 이상일 때, 스피치의 출발의 방향이 그 자신을 향하는 것임을 결정할 수도 있다. 대안적으로 또는 추가적으로, 전자 디바이스들 (120 내지 150) 의 각각은 다음 식에 따라 스피치의 고 주파수 범위의 스펙트럼적 평탄도 값을 결정할 수도 있다:

여기서, E_L 은 저 주파수 범위의 에너지 값을 나타내고, H₁ 내지 H_n 은 고 주파수 범위의 n 개의 부분들을 나타내며 (예컨대, 고 주파수 범위는 n=3 일 때 3 개의 상이한 부분들로 나눠질 수도 있다), E_H1 내지 E_Hn 은 고 주파수 범위의 n 부분들의 에너지 값들을 각각 나타낸다. 이 경우에, 전자 디바이스들 (120 내지 150) 의 각각은, 스펙트럼적 평탄도 값이 미리결정된 임계 값일 수도 있는 임계 값 이하일 때, 스피치의 출발의 방향이 그 자신을 향하는 것임을 결정할 수도 있다.

저 주파수 신호 또는 사운드는 모든 방향들로 전파되는 경향이 있는 한편, 고 주파수 신호 또는 사운드는 주로 신호 또는 사운드의 출발 방향으로 전파함에 있어서 보다 지향성이기 때문에, 전자 디바이스들 (120 내지 150) 의 각각은 스피치의 출발의 방향이 그 자신을 향한 것인지 여부를 결정하기 위해 고 주파수 범위의 에너지 값과 저 주파수 범위의 에너지 값 사이의 비율 또는 고 주파수 범위의 스펙트럼적 평탄도 값을 이용할 수도 있다. 예시된 실시형태에서, 전자 디바이스 (120) 는 스피치의 말해진 방향이 그 자신을 향한 것임을 결정하고, 스피치에서 음성 커맨드 (예컨대, "하이 어시스턴트") 를 인식하기 위해 스피치에 대해 스피치 인식을 수행할 수도 있다. 일단 음성 커맨드가 인식되면, 전자 디바이스 (120) 는 음성 커맨드 (예컨대, "하이 어시스턴트") 와 연관된 음성 어시스턴트 애플리케이션 (122) 을 활성화할 수도 있다.

일부 실시형태들에서, 전자 디바이스들 (120 내지 150) 은 유선 또는 무선 네트워크 (미도시) 를 통해 서로 통신하도록 구성될 수도 있다. 이 경우에, 전자 디바이스들 (120 내지 150) 의 각각은 사용자 (110) 에 의해 말해진 스피치를 검출하고, 스피치의 고 주파수 범위의 스펙트럼적 평탄도 값 또는 스피치의 제 1 및 제 2 특성들 (예컨대, 에너지 값들) 사이의 비율을 계산할 수도 있다. 계산된 비율 또는 스펙트럼적 평탄도 값은 그 다음에 다른 전자 디바이스들에 전송될 수도 있다. 전자 디바이스들 (120 내지 150) 의 스펙트럼적 평탄도 값들 또는 비율들을 비교 시, 전자 디바이스들 (120 내지 150) 중 최고 비율 또는 최저 스펙트럼적 평탄도 값을 갖는 하나의 전자 디바이스는 그것이 스피치에 대한 의도된 타겟 디바이스인 것을 결정할 수도 있다. 응답하여, 타겟 전자 디바이스는 스피치에서 음성 커맨드를 인식하도록 진행하고 음성 커맨드와 연관된 기능을 수행할 수도 있다.

도 2 는 본 개시의 하나의 실시형태에 따른, 사용자 (110) 에 의해 말해지고 전자 디바이스 (120) 에서 사운드 센서에 의해 수신되는 음성 커맨드들 (210 및 220) 각각에 대한 출발의 방향들 (212 및 222) 을 나타낸다. 사용자 (110) 는 음성 커맨드들 (210 및 220) 을 상이한 시간들에서 상이한 방향들로 말할 수도 있고, 음성 커맨드들 (210 및 220) 은 전자 디바이스 (120) 에 의해 스피치로서 검출될 수도 있다. 도시된 바와 같이, 사용자 (110) 로부터의 음성 커맨드 (210) 의 출발의 방향 (212) 은 전자 디바이스 (120) 를 향할 수도 있는 반면에, 음성 커맨드 (220) 의 출발의 방향 (222) 은 전자 디바이스 (120) 로부터 멀어지는 다른 방향에 있을 수도 있다.

전자 디바이스 (120) 는 그 방향이 전자 디바이스 (120) 와 사용자 (110) 사이의 라인으로부터 특정된 각도 또는 범위 내에 있는 것으로 결정될 때, 스피치의 출발의 방향이 그 자신을 향한 것임을 결정하도록 구성될 수도 있다. 예시된 실시형태에서, 특정된 각도 또는 범위는 사용자 (110) 와 전자 디바이스 (120) 사이의 기준 라인 (230) 으로부터 β 도일 수도 있다. 스피치의 출발의 방향과 기준 라인 (230) 사이의 각도가 β 도 이하인 경우에, 전자 디바이스 (120) 는 스피치의 출발의 방향이 그 자신을 향한 것이라고 결정할 수도 있다. 예를 들어, 전자 디바이스 (120) 는 음성 커맨드 (210) 를 스피치로서 검출하고, 스피치의 출발의 방향 (212) 과 기준 라인 (230) 사이의 각도 θ₁ 가 β 도보다 적은 것을 결정할 수도 있다. 이 경우에, 전자 디바이스 (120) 는, 스피치의 출발의 방향 (212) 이 그 자신을 향한 것이라고 결정하고, 그 스피치에서 음성 커맨드 (210) 를 인식하여 그 음성 커맨드 (210) 와 연관된 기능을 수행할 수도 있다.

다른 한편, 전자 디바이스 (120) 는 음성 커맨드 (220) 를 스피치로서 검출하고, 스피치의 출발의 방향 (222) 과 기준 라인 (230) 사이의 각도 θ₂ 가 β 도보다 큰 것을 결정할 수도 있다. 이 경우에, 전자 디바이스 (120) 는, 스피치의 출발의 방향 (222) 이 그 자신을 향한 것이 아니라고 결정하여, 음성 커맨드 (220) 는 프로세싱되지 않는다. 따라서, 사용자 (110) 로부터 스피치의 출발의 방향 (direction of departure; DOD) 에 기초하여, 전자 디바이스 (120) 는, 사용자 (110) 가 동일한 위치에서 상이한 방향들로 말할 때에도 그 스피치가 그 전자 디바이스를 향하여 말해진 것인지 여부를 결정할 수도 있다. 하나의 실시형태에서, 전자 디바이스 (120) 는 단일의 사운드 센서 (예컨대, 마이크로폰) 또는 임의의 수의 사운드 센서들을 이용함으로써 스피치의 출발의 방향을 결정할 수도 있다.

본 명세서에서 사용된 바와 같이, 스피치의 출발의 방향은, 사용자에 의해 말해진 스피치의 도착 각도를 지칭하는 "도착의 방향 (direction of arrival)" (DOA) 과는 상이하다. 도착의 방향 (DOA) 이 사용되었을 경우에, 전자 디바이스 (120) 는, 그 전자 디바이스 (120) 에서의 음성 커맨드 (210) 의 도착의 방향이 기준 라인 (230) 에 의해 정의된 방향인 것을 결정할 수도 있다. 유사하게, 전자 디바이스 (120) 는, 음성 커맨드 (220) 가 전자 디바이스 (120) 로부터 멀어지는 방향으로 말해질 때에도, 그 전자 디바이스 (120) 에서의 음성 커맨드 (220) 의 도착의 방향이 기준 라인 (230) 에 의해 정의된 방향인 것을 결정할 수도 있다. 양자의 경우들에서, 전자 디바이스 (120) 에서의 음성 커맨드들 (210 및 220) 의 도착의 방향 (230) 은, 한 쌍의 사운드 센서들 (예컨대, 한 쌍의 마이크로폰) 사이의 라인으로서 정의될 수도 있는 기준 라인 (240) 으로부터 멀어지는 α 도이다. 도착의 방향들 (230) 은 상이한 방향들로 말해진 음성 커맨드들 (210 및 220) 에 대해 동일한 것으로 결정되기 때문에, 전자 디바이스 (120) 는, 사운드의 소스가 기준 라인 (240) 에 대해 어느 방향에 위치되는지를 결정하기 위해 도착의 방향 (DOA) 을 이용하고, 스피치가 전자 디바이스 (120) 를 향하는 방향으로 말해지는지 여부를 결정하기 위해 출발의 방향을 이용할 수도 있다. 비록 도 2 에서는 전자 디바이스 (120) 가 도시되지만, 전자 디바이스 (130, 140, 또는 150) 와 같은 임의의 다른 전자 디바이스가, 전자 디바이스 (120) 와 유사한 방식으로, 사용자 (예컨대, 사용자 (110)) 로부터의 스피치가 그 자신을 향하는 방향으로 말해지는지 여부를 결정하도록 구성될 수도 있다.

도 3 은 본 개시의 하나의 실시형태에 따른, 출발의 방향 (312) 에서 사용자 (110) 에 의해 말해지고 전자 디바이스들 (120 및 130) 의 각각에서 하나 이상의 사운드 센서들에 의해 수신되는 음성 커맨드 (310) 를 나타낸다. 사용자 (110) 는 전자 디바이스들 (120 및 130) 부근에 위치할 수도 있고, 전자 디바이스 (120) 를 향해 음성 커맨드 (310) 를 말할 수도 있다. 도시된 바와 같이, 사용자 (110) 와 전자 디바이스 (120) 사이의 거리 (D1) 는 사용자 (110) 와 전자 디바이스 (130) 사이의 거리 (D2) 보다 더 클 수도 있다.

하나의 실시형태에서, 전자 디바이스들 (120 및 130) 의 각각은 음성 커맨드 (310) 를 스피치로서 검출하고, 스피치의 제 1 주파수 범위의 제 1 특성들 (예컨대, 고 주파수 대역의 에너지 값) 과 제 2 주파수 범위의 제 2 특성들 (예컨대, 저 주파수 대역의 에너지 값) 사이의 비율을 계산할 수도 있다. 대안적으로 또는 추가적으로, 전자 디바이스들 (120 및 130) 의 각각은, 스피치의 제 1 주파수 범위의 제 1 특성들 (예컨대, 고 주파수 대역의 에너지 값들) 및 제 2 주파수 범위의 제 2 특성들 (예컨대, 저 주파수 대역의 에너지 값들) 에 기초하여 스피치의 고 주파수 범위의 스펙트럼적 평탄도 값을 결정할 수도 있다. 계산된 비율 또는 스펙트럼적 평탄도 값에 기초하여, 전자 디바이스들 (120 및 130) 의 각각은 음성 커맨드 (310) 의 출발의 방향 (312) 이 그 자신을 향하는 것인지 여부를 결정할 수도 있다. 전자 디바이스들 (120 및 130) 에 의해 수신되는 스피치의 신호 강도는 사용자 (110) 로부터의 거리 (예컨대, D1 또는 D2) 에 따라 변화할 수도 있기 때문에, 전자 디바이스 (120 또는 130) 는, 사용자 (110) 로부터의 거리와는 독립적인 정규화된 값으로서 스피치의 고 주파수 범위의 스펙트럼적 평탄도 값 또는 스피치의 제 1 특성들 및 제 2 특성들 사이의 비율을 사용할 수도 있다. 따라서, 전자 디바이스 (120 또는 130) 에 의해 계산된 스펙트럼적 평탄도 값 또는 비율은 사용자 (110) 로부터 수신되는 입력 사운드의 신호 강도와는 독립적일 수도 있다.

예시된 실시형태에 따르면, 전자 디바이스들 (120 및 130) 의 각각은 음성 커맨드 (310) 를 스피치로서 검출하고, 사운드 소스 (예컨대, 사용자 (110)) 로부터의 거리 (D1 또는 D2) 와는 독립적으로 그 스피치의 출발의 방향 (312) 이 그 자신을 향하는 것인지 여부를 결정할 수도 있다. 예를 들어, 전자 디바이스 (120) 는 음성 커맨드 (310) 를 스피치로서 검출하고, 고 주파수 대역의 스펙트럼적 평탄도 값 또는 스피치의 고 및 저 주파수 대역들의 에너지 값들 사이의 비율에 기초하여 스피치의 출발의 방향 (312) 이 그 자신을 향하는 것임을 결정할 수도 있다. 하나의 실시형태에서, 전자 디바이스 (120) 는, 그 비율이 임계 값 이상일 때 또는 스펙트럼적 평탄도 값이 임계 값 이하일 때, 스피치의 출발의 방향 (312) 이 그 자신을 향하는 것이라고 결정할 수도 있다. 스피치의 출발의 방향 (312) 이 그 자신을 향하는 것이라고 결정 시, 전자 디바이스 (120) 는 스피치에서 음성 커맨드 (310) 를 인식하고, 그 음성 커맨드 (310) 와 연관된 기능을 수행할 수도 있다.

다른 한편, 전자 디바이스 (120) 보다 사용자 (110) 에 대해 더 가갑게 위치한 전자 디바이스 (130) 는 음성 커맨드 (310) 를 스피치로서 검출하고, 고 주파수 대역의 스펙트럼적 평탄도 값 또는 스피치의 고 및 저 주파수 대역들의 에너지 값들 사이의 비율에 기초하여 스피치의 출발의 방향 (312) 이 그 자신을 향하지 않는 것임을 결정할 수도 있다. 비록 거리 D1 이 거리 D2 보다 더 크기 때문에 전자 디바이스 (130) 에 의해 수신되는 스피치의 사운드 강도가 전자 디바이스 (120) 의 것보다 더 클 수도 있지만, 전자 디바이스 (130) 는, 그 비율 또는 스펙트럼적 평탄도 값에 기초하여 스피치의 출발의 방향 (312) 이 그 자신을 향하지 않는 것이라고 결정할 수도 있어서, 음성 커맨드 (310) 는 프로세싱되지 않는다.

도 4 는 본 개시의 하나의 실시형태에 따른, 스피치의 출발의 방향이 그 자신을 향한 것인지 여부를 결정하고 그 스피치에서의 음성 커맨드와 연관된 기능을 수행하도록 구성된 전자 디바이스 (120) 의 블록도를 나타낸다. 전자 디바이스 (120) 는 사운드 센서 (420), 프로세서 (430), I/O 유닛 (440), 저장 유닛 (450), 및 통신 유닛 (460) 을 포함할 수도 있다. 도시된 바와 같이, 프로세서 (430) 는 스피치 검출기 (432), 주파수 분석 유닛 (434), 스피치 방향 결정 유닛 (436), 및 스피치 인식 유닛 (438) 을 포함할 수도 있다. 프로세서 (430) 는, 애플리케이션 프로세서 (AP), 중앙 프로세싱 유닛 (CPU), 디지털 신호 프로세서 (DSP) 등과 같은 전자 디바이스 (120) 를 관리 및 동작시키기 위한 임의의 적합한 프로세서일 수도 있다. 전자 디바이스 (120) 는 셀룰러 전화기, 스마트폰, 랩톱 컴퓨터, 웨어러블 컴퓨터, 태블릿 컴퓨터, 게이밍 디바이스, 멀티미디어 플레이어, 스마트 TV, 음성-제어되는 조명 디바이스 등과 같은 사운드 캡처링 및 프로세싱 능력들을 구비한 임의의 적합한 디바이스일 수도 있다.

사운드 센서 (420) 는 입력 사운드 (410) 를 지속적으로, 주기적으로, 또는 간헐적으로 수신하고, 수신된 입력 사운드 (410) 를 스피치 검출기 (432) 에 제공하도록 구성될 수도 있다. 예를 들어, 사운드 센서 (420) 는 입력 사운드 (410) 로서 사용자로부터 음성 커맨드를 포함하는 스피치의 적어도 부분을 수신하고, 그 입력 사운드 (410) 를 스피치 검출기 (432) 에 제공할 수도 있다. 사운드 센서 (420) 는 입력 사운드 (410) 를 수신, 캡처, 감지, 및/또는 검출하기 위해 사용될 수도 있는 하나 이상의 마이크로폰들 또는 임의의 다른 유형들의 사운드 센서들을 포함할 수도 있다. 또한, 사운드 센서 (420) 는 이러한 기능들을 수행하기 위해 임의의 적합한 소프트웨어 및/또는 하드웨어를 채용할 수도 있다.

일부 실시형태들에서, 사운드 센서 (420) 는 전력 소모를 감소시키기 위해 듀티 사이클에 따라 입력 사운드 (410) 를 주기적으로 수신하도록 구성될 수도 있다. 예를 들어, 사운드 센서 (420) 는 10% 듀티 사이클로 주기적으로 활성화될 수도 있다. 100ms 의 주기가 주어지면, 사운드 센서 (420) 는 따라서 10ms 동안 "활성 상태 (active state)" 에서 동작하고 다음 90ms 동안 "유휴 상태 (idle state)" 에 있도록 구성될 수도 있다.

이 경우에, 입력 사운드 (410) 의 부분이 듀티 사이클의 활성 부분 동안 수신될 때, 사운드 센서 (420) 는, 입력 사운드 (410) 의 그 부분이 임계 사운드 강도보다 더 큰지 여부를 결정할 수도 있다. 특정 실시형태에서, 임계 사운드 강도는 미리결정된 임계 사운드 강도일 수도 있다. 입력 사운드 (410) 의 부분의 강도가 미리결정된 임계 사운드 강도보다 더 큰 것으로 결정되는 경우에, 사운드 센서 (420) 는 프로세서 (430) 에서 스피치 검출기 (432) 를 활성화하고 입력 사운드 (410) 의 그 부분을 스피치 검출기 (432) 에 제공할 수도 있다. 대안적으로, 수신된 부분이 임계 사운드 강도를 초과하는지 여부를 결정함이 없이, 사운드 센서 (420) 는 듀티 사이클의 활성 상태 동안 주기적으로 입력 사운드 (410) 의 부분을 수신하고, 그 수신된 부분을 스피치 검출기 (432) 에 제공하기 위해 스피치 검출기 (432) 를 자동적으로 활성화할 수도 있다. 다른 실시형태에서, 사운드 센서 (420) 는 입력 사운드 (410) 를 지속적으로 수신하고, 수신된 입력 사운드 (410) 를 스피치 검출기 (432) 에 제공하기 위해 스피치 검출기 (432) 를 활성화할 수도 있다.

활성인 것으로 되면, 스피치 검출기 (432) 는 사운드 센서 (420) 로부터 입력 사운드 (410) 의 적어도 부분을 수신할 수도 있다. 스피치 검출기 (432) 는 그 다음에, 그 입력 사운드 (410) 의 적어도 부분으로부터 복수의 사운드 피처들 (features) 을 추출하고, GMM (Gaussian mixture model) 기반 분류기, 신경망, HMM (Hidden Markov model), 그래픽 모델 (graphical model), SVM (Support Vector Machine) 등과 같은 임의의 적합한 사운드 분류 방법들을 이용함으로써, 추출된 사운드 피처들이 스피치와 같은 관심 대상의 사운드를 나타내는지 여부를 결정할 수도 있다. 입력 사운드 (410) 의 적어도 그 부분이 관심 대상의 사운드 (예컨대, 스피치) 인 것으로 결정되는 경우에, 스피치 검출기 (432) 는 사운드 센서 (420) 를 통해 입력 사운드 (410) 의 나머지 부분을 수신할 수도 있다. 또한, 스피치 검출기 (432) 는 주파수 분석 유닛 (434) 을 활성화하고, 입력 사운드 (410) 를 주파수 분석 유닛 (434) 에 제공할 수도 있다.

주파수 분석 유닛 (434) 은 입력 사운드 (410) 로서 사용자로부터 수신된 스피치의 특성들을 분석하도록 구성될 수도 있다. 하나의 실시형태에서, 주파수 분석 유닛 (434) 은 스피치 (예컨대, 입력 사운드 (410)) 의 제 1 주파수 범위 (예컨대, 제 1 주파수 대역) 의 제 1 특성들 및 제 2 주파수 범위 (예컨대, 제 2 주파수 대역) 의 제 2 특성들을 결정할 수도 있다. 예를 들어, 제 1 주파수 범위는 제 2 주파수 범위보다 더 높을 수도 있고, 제 1 및 제 2 주파수 범위들은 적어도 하나의 주파수를 포함할 수도 있다.

하나의 실시형태에 따르면, 제 1 및 제 2 특성들은, 사용자로부터 수신된 스피치에서 연관된 주파수 범위를 특징지을 수도 있는 에너지 값들, 스펙트럼적 모멘트들 (예를 들어, 평균, 분산, 비대칭도, 및 첨도), 스펙트럼적 평탄도, 스펙트럼적 중심, 크레스트 팩터, 스펙트럼적 기울기, 스펙트럼적 롤-오프, F0 콘투어 등과 같은 값들 또는 파라미터들일 수도 있다. 특정 실시형태에서, 주파수 분석 유닛 (434) 은 제 1 및 제 2 특성들 사이의 비율을 계산할 수도 있다. 예를 들어, 주파수 분석 유닛 (434) 은 입력 사운드 (410) 를 시간 도메인으로부터 주파수 도메인 또는 시간-주파수 도메인으로 변환하고, 고 주파수 범위 (예컨대, 10 kHz 내지 15 kHz) 의 에너지 값과 저 주파수 범위 (예컨대, 0 kHZ 내지 5 kHz) 의 에너지 값 사이의 비율을 계산할 수도 있다. 대안적으로 또는 추가적으로, 주파수 분석 유닛 (434) 은 상기 식 1 을 이용하여 스피치의 고 주파수 범위의 스펙트럼적 평탄도 값을 계산할 수도 있다. 주파수 분석 유닛 (434) 은 계산된 비율 또는 스펙트럼적 평탄도 값을 스피치 방향 결정 유닛 (436) 에 제공할 수도 있다. 그 비율 또는 스펙트럼적 평탄도 값은 사용자의 스피치의 출발의 방향이 전자 디바이스 (120) 를 향하는 확률을 나타낼 수도 있다.

비율 또는 스펙트럼적 평탄도 값을 수신하면, 스피치 방향 결정 유닛 (436) 은, 그 비율 또는 스펙트럼적 평탄도 값에 기초하여 스피치의 출발의 방향이 그 자신을 향한 것인지 여부를 결정할 수도 있다. 하나의 실시형태에서, 스피치 방향 결정 유닛 (436) 은, 그 비율이 임계 값 이상일 때 또는 스펙트럼적 평탄도 값이 임계 값 이하일 때, 스피치의 출발의 방향이 전자 디바이스 (120) 를 향한 것이라고 결정할 수도 있다. 특정 실시형태에서, 임계 값은 미리결정된 임계 값일 수도 있다. 저 주파수 신호 또는 사운드는 모든 방향들로 전파되는 경향이 있는 한편, 고 주파수 신호 또는 사운드는 주로 신호 또는 사운드의 출발 방향으로 전파함에 있어서 보다 지향성이기 때문에, 주파수 분석 유닛 (434) 은 스피치의 출발의 방향이 전자 디바이스를 향한 것인지 여부를 결정하기 위해 고 주파수 범위의 에너지 값과 저 주파수 범위의 에너지 값 사이의 비율 또는 고 주파수 범위의 스펙트럼적 평탄도 값을 이용할 수도 있다.

사용자의 스피치의 출발의 방향이 전자 디바이스 (120) 를 향하는 것이라고 결정하는 것에 응답하여, 입력 사운드 (410) 는 그 스피치에 대해 스피치 인식을 수행하기 위해 스피치 인식 유닛 (438) 에 제공될 수도 있다. 스피치 인식 유닛 (438) 은 그러면, 스피치 (즉, 입력 사운드 (410)) 에서 음성 커맨드를 인식할 수도 있다. 하나의 실시형태에서, 스피치 인식 유닛 (438) 은 하나 이상의 사용자들의 스피치 및/또는 음성 커맨드들을 인식함에 있어서 사용하기 위해 저장 유닛 (450) 으로부터 언어 모델들, 음향 모델들, 문법 모델들 등을 액세스할 수도 있다. 저장 유닛 (450) 은 원격 또는 로컬 스토리지일 수도 있고, 임의의 적합한 스토리지 또는 메모리 디바이스들, 이를 테면, RAM (Random Access Memory), ROM (Read-Only Memory), EEPROM (Electrically Erasable Programmable Read-Only Memory), 플래시 메모리 또는 SSD (solid state drive) 를 이용하여 구현될 수도 있다. 일단 음성 커맨드가 인식되면, 프로세서 (430) 는 그 음성 커맨드와 연관된 기능을 수행하고, I/O 유닛 (440) 을 통해 사용자에 그 결과를 나타낼 수도 있다. 비록 도 4 에서는 전자 디바이스 (120) 가 도시되었지만, 전자 디바이스 (130, 140, 또는 150) 와 같은 임의의 다른 전자 디바이스가, 전자 디바이스 (120) 와 유사한 방식으로, 사용자로부터의 스피치가 그 자신을 향하는 방향으로 말해지는지 여부를 결정하도록 구성될 수도 있다.

일부 실시형태들에서, 전자 디바이스 (120) 는 통신 유닛 (460) 을 통해 외부 디바이스 (예컨대, 도 1 에서의 전자 디바이스들 (120 내지 150) 또는 서버) 와 통신하도록 구성될 수도 있다. 이 경우에, 전자 디바이스 (120) 는 계산된 비율 또는 스펙트럼적 평탄도 값을 통신 유닛 (460) 을 통해 외부 디바이스에 전송할 수도 있다. 전자 디바이스 (120) 는 또한, 통신 유닛 (460) 을 통해 스피치의 발화된 방향의 표시로서 외부 디바이스로부터 비율 또는 스펙트럼적 평탄도 값을 수신할 수도 있다. 그 비율들 또는 스펙트럼적 평탄도 값들을 비교 시, 스피치 방향 결정 유닛 (436) 은, 전자 디바이스 (120) 가 최고 비율 또는 최저 스펙트럼적 평탄도 값을 갖는 경우에, 그 전자 디바이스 (120) 가 스피치에 대한 의도된 타겟 디바이스라고 결정할 수도 있다. 전자 디바이스 (120) 가 최고 비율 또는 최저 스펙트럼적 평탄도 값을 갖는 것으로 결정되는 경우에, 스피치 인식 유닛 (438) 은 음성 커맨드와 연관된 기능을 수행하기 위해 스피치 (즉, 입력 사운드 (410)) 에서 음성 커맨드를 인식할 수도 있다.

대안적으로 또는 추가적으로, 전자 디바이스 (120) 는 그것이 음성 커맨드에 대한 의도된 타겟 디바이스라는 것을 나타내는 메시지를 외부 디바이스 (예컨대, 서버) 로부터 수신할 수도 있다. 이 메시지를 수신 시, 스피치 인식 유닛 (438) 은 스피치 (즉, 입력 사운드 (410)) 에서 음성 커맨드를 인식할 수도 있다. 프로세서 (430) 는 그 다음에, 인식된 음성 커맨드와 연관된 기능을 수행할 수도 있다.

도 5 는 본 개시의 하나의 실시형태에 따른, 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 일 예시적인 방법 (500) 의 플로우차트를 나타낸다. 처음에, 전자 디바이스 (예컨대, 도 1 에서의 전자 디바이스들 (120 내지 150) 중 하나) 는 510 에서 사운드 센서 (예컨대, 마이크로폰) 를 통해 입력 사운드로서 음성 커맨드를 포함하는 스피치를 수신할 수도 있다. 520 에서, 전자 디바이스는 수신된 입력 사운드에서 스피치가 검출되는지 여부를 결정할 수도 있다. 전자 디바이스는 GMM (Gaussian mixture model) 기반 분류기, 신경망, HMM (Hidden Markov model), 그래픽 모델, SVM (Support Vector Machine) 등과 같은 임의의 방법들을 이용함으로써 스피치를 검출할 수도 있다. 스피치가 검출되지 않는 경우에 (즉, 520 에서 '아니오'), 방법 (500) 은 510 으로 다시 돌아가고, 사운드 센서를 통해 다른 입력 사운드를 수신할 수도 있다.

수신된 입력 사운드에서 스피치가 검출될 때 (즉, 520 에서 '예'), 530 에서 전자 디바이스는 스피치의 출발의 방향 (DOD) 을 결정하고, 그 스피치의 출발의 방향 (DOD) 이 그 자신을 향하는 것인지 여부를 결정할 수도 있다. 전자 디바이스가, 스피치의 출발의 방향 (DOD) 이 그 자신을 향하는 것이 아니라고 결정하는 경우에 (즉, 530 에서 '아니오'), 방법 (500) 은 510 으로 다시 돌아가고, 사운드 센서를 통해 다른 입력 사운드를 수신할 수도 있다. 다른 한편, 전자 디바이스가, 스피치의 출발의 방향 (DOD) 이 그 자신을 향하는 것이라고 결정하는 경우에 (즉, 530 에서 '예'), 540 에서 전자 디바이스는 스피치에서 음성 커맨드를 인식할 수도 있다. 스피치에서의 음성 커맨드가 인식되는 경우에, 550 에서 전자 디바이스는 그 음성 커맨드와 연관된 기능을 수행할 수도 있다. 스피치의 제 1 주파수 범위의 제 1 특성들과 제 2 주파수 범위의 제 2 특성들 사이의 비율을 결정하는 본 개시의 일부 실시형태들이 이하에서 도 6 내지 도 10 을 참조하여 설명된다. 상술된 바와 같이, 이러한 실시형태들은 스피치의 제 1 주파수 범위의 제 1 특성들과 제 2 주파수 범위의 제 2 특성들 사이의 비율을 결정하는 것에 추가하여 또는 그 대신에 스피치의 고 주파수 범위의 스펙트럼적 평탄도 값을 결정할 수도 있다.

도 6 은 본 개시의 하나의 실시형태에 따른, 사용자로부터 수신된 스피치의 출발의 방향 (DOD) 이 그 자신을 향한 것인지 여부를 결정하기 위해 전자 디바이스에서 수행되는 일 예시적인 방법 (530) 의 플로우차트를 나타낸다. 처음에, 610 및 620 에서 각각, 전자 디바이스는 스피치의 제 1 주파수 범위의 제 1 특성들과 제 2 주파수 범위의 제 2 특성들 사이의 비율을 결정할 수도 있다. 예를 들어, 제 1 주파수 범위는 제 2 주파수 범위보다 더 높을 수도 있고, 제 1 및 제 2 주파수 범위들은 적어도 하나의 주파수를 포함할 수도 있다. 하나의 실시형태에 따르면, 제 1 및 제 2 특성들은 사용자로부터 수신된 스피치에서 연관된 주파수 범위를 특징지을 수도 있는 에너지 값들, 스펙트럼적 모멘트들 (예를 들어, 평균, 분산, 비대칭도, 및 첨도), 스펙트럼적 평탄도, 스펙트럼적 중심, 크레스트 팩터, 스펙트럼적 기울기, 스펙트럼적 롤-오프, F0 콘투어 등과 같은 값들 또는 파라미터들일 수도 있다.

630 에서, 전자 디바이스는 스피치의 제 1 주파수 범위의 제 1 특성들과 제 2 주파수 범위의 제 2 특성들 사이의 비율을 결정할 수도 있다. 예를 들어, 전자 디바이스는 스피치의 고 주파수 범위의 에너지 값과 저 주파수 범위의 에너지 값 사이의 비율을 계산할 수도 있다. 비율을 결정하면, 640 에서 전자 디바이스는 그 비율이 미리결정된 값일 수도 있는 임계 값 이상인지 여부를 결정할 수도 있다. 하나의 실시형태에서, 오 경보를 감소시키고 검출의 정확도를 향상시키기 위한 최적의 값이 임계 값으로서 결정되고 설정될 수도 있다.

그 비율이 임계 값 이상일 때 (즉, 640 에서 '예'), 전자 디바이스는 스피치의 출발의 방향이 그 자신을 향한 것이라고 결정할 수도 있고, 방법 (530) 은 스피치의 음성 커맨드를 인식하기 위해 도 5 에서의 방법 (540) 으로 진행할 수도 있다. 다른 한편, 그 비율이 임계 값 미만일 때 (즉, 640 에서 '아니오'), 전자 디바이스는 스피치의 출발의 방향이 그 자신을 향한 것이 아니라고 결정할 수도 있고, 방법 (530) 은 사운드 센서를 통해 다른 입력 사운드를 수신하기 위해 도 5 에서의 방법 (510) 으로 진행할 수도 있다.

도 7 은 본 개시의 하나의 실시형태에 따른, 다른 전자 디바이스들과 관련하여 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 일 예시적인 방법 (700) 의 플로우차트를 나타낸다. 처음에, 전자 디바이스 (예컨대, 도 1 에서의 전자 디바이스들 (120 내지 150) 중 하나) 는 710 에서 사운드 센서 (예컨대, 마이크로폰) 를 통해 입력 사운드로서 음성 커맨드를 포함하는 스피치를 수신할 수도 있다. 720 에서, 전자 디바이스는 수신된 입력 사운드에서 스피치가 검출되는지 여부를 결정할 수도 있다. 전자 디바이스는 GMM (Gaussian mixture model) 기반 분류기, 신경망, HMM (Hidden Markov model), 그래픽 모델, SVM (Support Vector Machine) 등과 같은 임의의 방법들을 이용함으로써 스피치를 검출할 수도 있다. 스피치가 검출되지 않는 경우에 (즉, 720 에서 '아니오'), 방법 (700) 은 사운드 센서를 통해 다른 입력 사운드를 수신하기 위해 710 으로 다시 돌아갈 수도 있다.

수신된 입력 사운드에서 스피치가 검출될 때 (즉, 720 에서 '예'), 730 에서 전자 디바이스는 스피치의 출발의 방향 (DOD) 을 결정할 수도 있다. 하나의 실시형태에서, 전자 디바이스는 스피치의 고 주파수 범위의 에너지 값과 저 주파수 범위의 에너지 값 사이의 비율을 계산할 수도 있다. 740 에서, 전자 디바이스는 스피치의 출발의 방향 (DOD) 이 그 자신을 향하는 것인지 여부를 결정할 수도 있다. 하나의 실시형태에서, 전자 디바이스는 스피치의 고 주파수 범위의 에너지 값과 저 주파수 범위의 에너지 값 사이의 비율이 미리결정된 값일 수도 있는 임계 값 이상일 때, 스피치의 출발의 방향이 그 자신을 향하는 것이라고 결정할 수도 있다. 전자 디바이스가 스피치의 출발의 방향 (DOD) 이 그 자신을 향하는 것이 아니라고 결정하는 경우에 (즉, 740 에서 '아니오'), 방법 (700) 은 사운드 센서를 통해 다른 입력 사운드를 수신하기 위해 710 으로 다시 돌아갈 수도 있다.

다른 한편, 전자 디바이스가, 스피치의 출발의 방향 (DOD) 이 그 자신을 향하는 것이라고 결정하는 경우에 (즉, 740 에서 '예'), 750 에서 전자 디바이스는 외부 디바이스들로부터 스피치의 말해진 방향의 적어도 하나의 표시를 수신할 수도 있다. 하나의 실시형태에서, 스피치의 말해진 방향의 표시는 외부 디바이스에서 수신된 스피치의 고 주파수 범위의 에너지 값과 저 주파수 범위의 에너지 값 사이의 비율일 수도 있다. 760 에서, 전자 디바이스는, 다른 외부 디바이스들로부터 수신된 적어도 하나의 표시 및 계산된 비율에 기초하여, 그것이 스피치의 의도된 타겟인지 여부를 결정할 수도 있다. 예를 들어, 전자 디바이스는, 다른 디바이스들로부터 수신된 비율들과 계산된 비율들을 비교하고, 계산된 비율이 최고 값을 가질 때, 그것이 스피치의 타겟이라고 결정할 수도 있다.

전자 디바이스가, 그것이 스피치의 의도된 타겟이 아니라고 결정하는 경우에 (즉, 760 에서 '아니오'), 방법 (700) 은 사운드 센서를 통해 다른 입력 사운드를 수신하기 위해 710 으로 다시 돌아갈 수도 있다. 다른 한편, 전자 디바이스가 그것이 스피치의 의도된 타겟이라고 결정하는 경우에 (즉, 760 에서 '예'), 770 에서 전자 디바이스는 음성 커맨드를 인식할 수도 있다. 일단 음성 커맨드가 인식되면, 780 에서 전자 디바이스는 음성 커맨드와 연관된 기능을 수행할 수도 있다. 다른 실시형태에서, 전자 디바이스는 740 의 단계를 수행하는 것을 생략할 수도 있다. 이 경우에, 전자 디바이스는, 730 에서 스피치의 출발의 방향 (DOD) 을 결정하는 것 (예컨대, 스피치의 고 주파수 범위의 에너지 값과 저 주파수 범위의 에너지 값 사이의 비율을 계산하는 것) 후에 750 에서 외부 디바이스들로부터 스피치의 말해진 방향의 적어도 하나의 표시를 수신하도록 바로 진행할 수도 있다.

도 8 은 본 개시의 하나의 실시형태에 따른, 주파수의 함수로서 특정된 시간에서 수신된 입력 사운드의 에너지 값들을 폴롯팅함으로써 전자 디바이스에 의해 생성될 수도 있는 일 예시적인 그래프 (800) 를 나타낸다. 그래프 (800) 의 수평 축은 0Hz 로부터 시작하는 주파수 범위를 나타낼 수도 있고, 수직 축은 입력 사운드의 에너지 값들의 범위를 나타낼 수도 있다. 예를 들어, 특정 주파수에서의 입력 사운드의 신호 강도는 에너지 값으로서 표현될 수도 있다. 그래프 (800) 에서의 주파수 범위는 2.5kHz 의 폭을 각각 갖는 복수의 주파수 범위들 (810 내지 880) (예컨대, 주파수 대역들) 로 나누어질 수도 있다. 대안적으로, 그 복수의 주파수 범위들 (810 내지 880) 은 상이한 폭들을 가질 수도 있다.

하나의 실시형태에서, 전자 디바이스는 사운드 센서를 통한 입력 사운드로서 특정 시간에서 음성 커맨드를 포함하는 사용자의 스피치를 수신할 수도 있다. 주파수 범위와 연관된 수신된 사운드의 강도들은 그 다음에 에너지 값들로 변환될 수도 있다. 에너지 값들은 주파수의 함수로서 그래프 (800) 에서 플롯팅될 수도 있다.

복수의 주파수 범위들 (810 내지 880) 중에서, 전자 디바이스는 저 주파수 범위 (810) 및 고 주파수 범위 (850) 를 선택할 수도 있다. 비록 그래프 (800) 는 선택되는 저 및 고 주파수 범위들 (810 및 850) 로 도시되지만, 저 주파수 범위 또는 고 주파수 범위에 대해 임의의 수의 주파수 범위들이 선택될 수도 있다. 저 주파수 범위 (810) 및 고 주파수 범위 (850) 의 각각에 대한 에너지 값은 주파수 범위 내의 에너지 값들을 적분함으로써 획득될 수도 있다. 전자 디바이스는 그 다음에, 고 및 저 주파수 범위들 (850 및 810) 각각에 대해 에너지 값들 사이의 비율을 계산할 수도 있다. 그 비율은 상이한 방향성 전파 특성들을 가질 수도 있는 고 및 저 주파수 범위들 (850 및 810) 각각에 대한 에너지 값들에 기초하기 때문에, 이 비율은 사용자의 스피치의 출발의 방향이 전자 디바이스를 향하는 확률을 나타낼 수도 있다.

전자 디바이스는, 비율이 미리결정된 값일 수도 있는 임계 값 이상일 때 사용자의 스피치의 출발의 방향이 그 자신을 향하는 것이라고 결정하도록 구성될 수도 있다. 하나의 실시형태에서, 오 경보를 감소시키고 검출의 정확도를 향상시키기 위한 최적의 값이 임계 값으로서 결정되고 설정될 수도 있다. 예를 들어, 임계 값은 0.5 로서 설정될 수도 있다. 이 경우에, 고 및 저 주파수 범위들 (850 및 810) 각각의 에너지 값들 사이의 비율은 그래프 (800) 에서 나타낸 바와 같이 0.6 으로 결정될 수도 있다. 그 비율은 임계 값 이상이기 때문에, 전자 디바이스는 사용자의 스피치의 출발의 방향이 그 자신을 향한 것이라고 결정할 수도 있다. 다른 한편, 그 비율이 임계 값 미만인 것으로 결정되는 경우에, 전자 디바이스는 사용자의 스피치의 출발의 방향이 그 자신을 향한 것이 아니라고 결정할 수도 있다.

다른 실시형태에서, 전자 디바이스는 사운드 센서를 통한 입력 사운드로서 특정 기간 동안 음성 커맨드를 포함하는 사용자의 스피치를 수신할 수도 있다. 입력 사운드는 푸리에 변환 등과 같은 임의의 적합한 변환 또는 함수를 이용함으로써 시간 도메인으로부터 시간-주파수 도메인으로 변환될 수도 있다. 이 경우에, 전자 디바이스는 주파수 및 시간의 함수로서 수신된 입력 사운드와 연관된 에너지 값들을 플롯팅하는 3-차원 그래프를 생성할 수도 있다. 예를 들어, 3-차원 그래프는 시간 축을 따라 임의의 적합한 수의 2-차원 그래프들 (예컨대, 그래프 (800)) 을 포함할 수도 있다. 저 주파수 범위에 대한 에너지 값 및 고 주파수 범위에 대한 에너지 값은 특정 기간 동안 주파수 범위 내의 에너지 값들을 적분함으로써 획득될 수도 있다. 전자 디바이스는 그 다음에, 고 및 저 주파수 범위들에 대한 에너지 값들 사이의 비율을 계산하고, 그래프 (800) 를 참조하여 설명된 바와 유사한 방식으로 사용자의 스피치의 출발의 방향이 그 자신을 향하는 것인지 여부를 결정할 수도 있다.

도 9 는 본 개시의 하나의 실시형태에 따른, 사용자 (110) 에 의해 말해진 스피치의 의도된 타겟을 결정하기 위해 통신 네트워크 (910) 를 통해 서버 (920) 와 통신하도록 구성된 복수의 전자 디바이스들 (120 내지 150) 을 나타낸다. 예시된 실시형태에서, 전자 디바이스들 (120 내지 150) 은 각각 스마트폰, 태블릿 컴퓨터, 스마트 TV, 음성-제어되는 조명 디바이스이고, 실내 (900) 에 위치할 수도 있다. 비록 전자 디바이스들 (120 내지 150) 이 실내 (900) 에 있는 것으로 도시되지만, 임의의 수의 전자 디바이스들이 실내 (900) 에 또는 사용자 (110) 에 대해 가까운 임의의 다른 적합한 장소에 위치할 수도 있다.

예시된 실시형태에서, 사용자 (110) 는 전자 디바이스 (130) 를 활성화시키기 위해서 또는 전자 디바이스 (120) 가 기능을 수행하도록 지시하기 위해서 전자 디바이스 (130) 를 향하는 방향으로 음성 커맨드를 말할 수도 있다. 이 경우에, 전자 디바이스들 (120 내지 150) 의 각각은 입력 사운드로서 음성 커맨드를 수신하고, 그 입력 사운드에서 스피치를 검출할 수도 있다. 스피치를 검출하면, 전자 디바이스들 (120 내지 150) 의 각각은 스피치의 제 1 주파수 범위의 제 1 특성들 (예컨대, 고 주파수 범위의 에너지 값) 과 제 2 주파수 범위의 제 2 특성들 (예컨대, 저 주파수 범위의 에너지 값) 사이의 비율을 계산할 수도 있다.

계산된 비율들은 그 다음에, 통신 네트워크 (910) 를 통해 서버 (920) 에 전송될 수도 있다. 하나의 실시형태에서, 통신 네트워크 (910) 는 유선 네트워크 또는 무선 네트워크일 수도 있다. 그 비율들을 수신하면, 서버 (920) 는 전자 디바이스들 (120 내지 150) 로부터 수신된 비율들을 비교하고, 최고 비율을 갖는 전자 디바이스가 음성 커맨드에 대한 의도된 타겟 디바이스라고 결정할 수도 있다.

추가적으로, 서버 (920) 는 그 최고 비율을 미리결정된 값일 수도 있는 임계 값과 비교하도록 구성될 수도 있다. 예를 들어, 임계 값은 오 경보를 감소시키고 검출의 정확도를 향상시키기 위한 최적의 값으로서 결정될 수도 있다. 최고 비율이 임계 값 이상일 때, 서버 (920) 는, 그 최고 비율을 갖는 전자 디바이스가 음성 커맨드에 대한 의도된 타겟 디바이스라고 결정할 수도 있다. 다른 한편, 최고 비율이 임계 값 미만일 때, 서버 (920) 는, 전자 디바이스들 중 어느 것도 음성 커맨드에 대한 의도된 타겟 디바이스가 아니라고 결정할 수도 있다.

예시된 실시형태에서, 서버 (920) 는, 사용자가 전자 디바이스 (130) 를 향하는 방향으로 음성 커맨드를 말하였기 때문에, 전자 디바이스 (130) 로부터 수신된 비율이 전자 디바이스들 (120 내지 150) 로부터 수신된 비율들 중에서 최고 비율이라고 결정할 수도 있다. 응답하여, 서버 (920) 는, 음성 커맨드에 대한 의도된 타겟 디바이스라는 것을 나타내는 메시지를 전자 디바이스 (130) 에 전송할 수도 있다. 그 메시지를 수신하면, 전자 디바이스 (130) 는 음성 커맨드를 인식하고 그 음성 커맨드와 연관된 기능을 수행하는 것으로 진행할 수도 있다.

도 10 은 본 개시의 하나의 실시형태에 따른, 서버와 관련하여 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 일 예시적인 방법 (1000) 의 플로우차트를 나타낸다. 처음에, 전자 디바이스 (예컨대, 도 1 에서의 전자 디바이스들 (120 내지 150) 중 하나) 는 1010 에서 사운드 센서 (예컨대, 마이크로폰) 를 통해 입력 사운드로서 음성 커맨드를 포함하는 스피치를 수신할 수도 있다. 1020 에서, 전자 디바이스는 수신된 입력 사운드에서 스피치가 검출되는지 여부를 결정할 수도 있다. 전자 디바이스는 GMM (Gaussian mixture model) 기반 분류기, 신경망, HMM (Hidden Markov model), 그래픽 모델, SVM (Support Vector Machine) 등과 같은 임의의 방법들을 이용함으로써 스피치를 검출할 수도 있다. 스피치가 검출되지 않는 경우에 (즉, 1020 에서 '아니오'), 방법 (1000) 은 1010 으로 다시 돌아가서, 사운드 센서를 통해 다른 입력 사운드를 수신할 수도 있다.

수신된 입력 사운드에서 스피치가 검출될 때 (즉, 1020 에서 '예'), 1030 에서 전자 디바이스는 스피치의 제 1 주파수 범위의 제 1 특성들 (예컨대, 고 주파수 범위의 에너지 값) 과 제 2 주파수 범위의 제 2 특성들 (예컨대, 저 주파수 범위의 에너지 값) 사이의 비율을 계산할 수도 있다. 계산된 비율은 스피치의 출발의 방향이 그 자신을 향하는 확률을 나타낼 수도 있다. 1040 에서, 전자 디바이스는 계산된 비율을 서버에 전송할 수도 있다.

서버에 비율을 전송한 후에, 1050 에서, 전자 디바이스는 특정된 기간 내에서 서버로부터 그것이 음성 커맨드의 의도된 타겟 디바이스인 것을 나타내는 메시지가 수신되는지 여부를 결정할 수도 있다. 전자 디바이스가 특정된 시간 주기 내에서 서버로부터 그 신호를 수신하지 않는 경우에, 방법 (1000) 은 사운드 센서를 통해 다른 입력 사운드를 수신하기 위해 1010 으로 다시 돌아갈 수도 있다. 다른 한편, 전자 디바이스가 특정된 주기 내에서 서버로부터 그 신호를 수신하는 경우에, 1060 에서 전자 디바이스는 스피치에서 음성 커맨드를 인식할 수도 있다. 일단 스피치에서의 음성 커맨드가 인식되면, 1070 에서 전자 디바이스는 그 음성 커맨드와 연관된 기능을 수행할 수도 있다.

도 11 은 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 본 개시의 방법들 및 장치가 일부 실시형태들에 따라 구현될 수도 있는 전자 디바이스 (1100) 의 블록도를 나타낸다. 전자 디바이스는 셀룰러 전화기, 스마트폰, 웨어러블 컴퓨터, 스마트 워치, 스마트 안경, 태블릿 퍼스널 컴퓨터, 단말기, 핸드셋, 퍼스널 디지털 어시스턴트 (PDA), 무선 모뎀, 코드리스 전화기, 태블릿 및 기타 등등일 수도 있다. 무선 통신 시스템은 CDMA 시스템, GSM 시스템, W-CDMA 시스템, LTE 시스템, LTE 어드밴스드 시스템, 및 기타 등등일 수도 있다.

전자 디바이스 (1100) 는 수신 경로 및 송신 경로를 통해 양방향 통신을 제공하는 것이 가능할 수도 있다. 수신 경로에서, 기지국들에 의해 송신된 신호들이 안테나 (1112) 에 의해 수신될 수도 있고, 수신기 (RCVR) (1114) 로 제공될 수도 있다. 수신기 (1114) 는 수신된 신호를 컨디셔닝하고 디지털화하고, 추가적인 프로세싱을 위해 디지털 섹션에 컨디셔닝되고 디지털화된 신호를 제공할 수도 있다. 송신 경로에서, 송신기 (TMTR) (1116) 는 디지털 섹션 (1120) 으로부터 송신될 데이터를 수신하여, 그 데이터를 프로세싱하고 컨디셔닝해서, 변조된 신호를 생성할 수도 있으며, 변조된 신호는 안테나 (1112) 를 통해 기지국들로 송신된다. 수신기 (1114) 및 송신기 (1116) 는 CDMA, GSM, W-CDMA, LTE, LTE 어드밴스드 등을 지원할 수도 있는 트랜시버의 일부분일 수도 있다.

디지털 섹션 (1120) 은, 예를 들어, 모뎀 프로세서 (1122), RISC/DSP (reduced instruction set computer/digital signal processor) (1124), 제어기/프로세서 (1126), 내부 메모리 (1128), 일반화된 오디오/비디오 인코더 (1132), 일반화된 오디오 디코더 (1134), 그래픽/디스플레이 프로세서 (1136), 및 외부 버스 인터페이스 (external bus interface; EBI) (1138) 와 같은 다양한 프로세싱, 인터페이스, 및 메모리 유닛들을 포함할 수도 있다. 모뎀 프로세서 (1122) 는 데이터 송신 및 수신을 위한 프로세싱, 예를 들어, 인코딩, 변조, 복조, 및 디코딩을 수행할 수도 있다. RISC/DSP (1124) 는 전자 디바이스 (1100) 에 대해 범용 프로세싱 및 특수 프로세싱을 수행할 수도 있다. 제어기/프로세서 (1126) 는 디지털 섹션 (1120) 내의 다양한 프로세싱 유닛 및 인터페이스 유닛의 동작을 제어할 수도 있다. 내부 메모리 (1128) 는 디지털 섹션 (1120) 내의 다양한 유닛들에 대한 데이터 및/또는 명령들을 저장할 수도 있다.

일반화된 오디오/비디오 인코더 (1132) 는 오디오/비디오 소스 (1142), 마이크로폰 (1144), 이미지 센서 (1146) 등으로부터의 입력 신호들에 대한 인코딩을 수행할 수도 있다. 일반화된 오디오 디코더 (1134) 는 코딩된 오디오 데이터에 대한 디코딩을 수행할 수도 있고, 출력된 신호들을 스피커/헤드셋 (1148) 으로 제공할 수도 있다. 그래픽/디스플레이 프로세서 (1036) 는 디스플레이 유닛 (1150) 에 제시될 수도 있는 그래픽들, 비디오들, 이미지들, 및 텍스트들에 대한 프로세싱을 수행할 수도 있다. EBI (1138) 는 디지털 섹션 (1120) 과 메인 메모리 (1152) 간의 데이터의 전송을 가능하게 할 수도 있다.

디지털 섹션 (1120) 은 하나 이상의 프로세서들, DSP들, 마이크로프로세서들, RISC들 등으로 구현될 수도 있다. 디지털 섹션 (1120) 은 또한 하나 이상의 ASIC (application specific integrated circuit) 들 및/또는 일부 다른 유형의 집적 회로 (IC) 들 상에 제작될 수도 있다.

도 12 는 일부 실시형태들에 따라 구현되는, 전술된 서버들의 임의의 하나일 수도 있는 서버 시스템 (1200) 을 나타내는 블록도이다. 서버 시스템 (1200) 은 하나 이상의 프로세싱 유닛들 (예컨대, CPU 들) (1202), 하나 이상의 네트워크 또는 다른 통신 네트워크 인터페이스들, 메모리 (1212), 및 이들 컴포넌트들을 상호연결하기 위한 하나 이상의 통신 버스들 (1214) 을 포함할 수도 있다. 서버 시스템 (1200) 은 또한 디스플레이 디바이스 및 키보드를 갖는 사용자 인터페이스 (미도시) 를 포함할 수도 있다.

메모리 (1212) 는 고속 랜덤 액세스 메모리 (예컨대, DRAM, SRAM, DDR RAM 또는 다른 랜덤 액세스 솔리드 스테이트 메모리 디바이스들) 와 같은 임의의 적합한 메모리일 수도 있다. 메모리 (1212) 는 비-휘발성 메모리 (예컨대, 하나 이상의 자기 디스크 스토리지 디바이스들, 광학 디스크 스토리지 디바이스들, 플래시 메모리 디바이스들, 또는 다른 비-휘발성 솔리드 스테이트 스토리지 디바이스들) 를 포함할 수도 있거나 대안적으로는 그런 비-휘발성 메모리일 수도 있다. 일부 실시형태들에서, 메모리 (1212) 는 CPU(들) (1202) 로부터 원격으로 위치된 및/또는 다수의 사이트들에서 원격으로 위치된 하나 이상의 스토리지 디바이스들을 포함할 수도 있다.

메모리 (1212) 에 의해 표현된 상기 메모리 디바이스들의 임의의 하나는 전술된 프로세스들, 동작들, 및 방법들의 임의의 것을 수행 및/또는 실행하기 위한 명령들의 셋트에 대응하는 임의의 수의 모듈들 또는 프로그램들을 저장할 수도 있다. 예를 들어, 메모리 (1212) 는 다양한 기본 시스템 서비스들을 핸들링하기 위한 그리고 하드웨어 의존적 태스크들을 수행하기 위한 절차들을 포함하는 명령들을 저장하도록 구성된 오퍼레이팅 시스템 (1216) 을 포함할 수도 있다. 메모리 (1212) 의 네트워크 통신 모듈 (1218) 은, 인터넷, 다른 광역 네트워크들, 로컬 영역 네트워크들, 메트로폴리탄 영역 네트워크들, 및 기타 등등과 같은 하나 이상의 통신 네트워크들 및 하나 이상의 통신 네트워크 인터페이스들 (1210) (유선 또는 무선) 을 통해 다른 컴퓨터들에 서버 시스템 (1200) 을 접속하기 위해 사용될 수도 있다.

메모리 (1212) 는 또한, 언어 모델들, 음향 모델들, 문법 모델들 등을 포함하도록 구성된 데이터베이스 (1220) 를 포함할 수도 있다. 데이터베이스의 모델들의 각각은 하나 이상의 사용자들의 스피치 및/또는 커맨드들을 인식하기 위해서 사용될 수도 있다. 오퍼레이팅 시스템 (1216) 은 네트워크 통신 모듈 (1218) 을 통해 데이터베이스 (1220) 를 업데이트할 수도 있다. 오퍼레이팅 시스템 (1216) 은 또한, 네트워크 통신 모듈 (1218) 을 통해, 전자 디바이스가 음성 커맨드에 대한 의도된 타겟 디바이스인 것을 나타내는 메시지를 제공할 수도 있다.

일반적으로, 본원에 설명된 임의의 디바이스는, 무선 전화기, 셀룰러 전화기, 랩톱 컴퓨터, 무선 멀티미디어 디바이스, 무선 통신 PC (personal computer) 카드, PDA, 외부 모뎀이나 내부 모뎀, 무선 채널을 통해 통신하는 디바이스 등과 같은 다양한 유형의 디바이스들을 나타낼 수도 있다. 디바이스는, 액세스 단말기 (access terminal; AT), 액세스 유닛, 가입자 유닛, 이동국, 모바일 디바이스, 모바일 유닛, 모바일 전화기, 모바일, 원격국, 원격 단말기, 원격 유닛, 사용자 디바이스, 사용자 장비, 핸드헬드 디바이스 등과 같은 다양한 이름들을 가질 수도 있다. 본원에 설명된 임의의 디바이스는 명령들 및 데이터를 저장하기 위한 메모리, 뿐만 아니라 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합들을 가질 수도 있다.

본원에 기술된 기법들은 다양한 수단으로 구현될 수도 있다. 예를 들어, 이러한 기법들은 하드웨어, 펌웨어, 소프트웨어, 또는 그 조합으로 구현될 수도 있다. 본원의 개시물과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 회로들, 및 알고리즘 단계들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 양자의 조합들로 구현될 수도 있음을 통상의 기술자는 더 이해할 것이다. 하드웨어 및 소프트웨어의 이러한 상호교환성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 회로들, 및 단계들은 그들의 기능성의 관점에서 일반적으로 위에서 설명되었다. 그러한 기능이 하드웨어 또는 소프트웨어로 구현되는지 여부는 특정 애플리케이션 및 전체 시스템에 부과되는 설계 제약들에 따라 달라진다. 통상의 기술자는 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능을 구현할 수도 있으나, 그러한 구현 결정들이 본 개시물의 범위로부터 벗어나게 하는 것으로 해석되어서는 안된다.

하드웨어 구현에서, 기법들을 수행하는데 이용되는 프로세싱 유닛들은, 하나 이상의 ASIC 들, DSP 들, 디지털 신호 프로세싱 디바이스들 (digital signal processing device; DSPD) 들, 프로그램가능 논리 디바이스 (rogrammable logic device; PLD) 들, 필드 프로그램가능 게이트 어레이 (field programmable gate array; FPGA), 프로세서들, 제어기들, 마이크로 제어기들, 마이크로프로세서들, 전자 디바이스들, 본원에 설명된 기능들을 수행하도록 설계된 다른 전자 유닛들, 컴퓨터, 또는 그들의 조합 내에서 구현될 수도 있다.

따라서, 본원의 개시물과 관련하여 설명된 다양한 예시적인 논리 블록들, 모듈들, 및 회로들은 범용 프로세서, DSP, ASIC, FPGA 나 다른 프로그램 가능 논리 디바이스, 이산 게이트나 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에 설명된 기능들을 수행하도록 설계된 것들의 임의의 조합으로 구현되거나 수행될 수도 있다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안에서, 프로세서는 임의의 프로세서, 제어기, 마이크로제어기, 또는 상태 머신일 수도 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들면, DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서들, DSP 코어와 연계한 하나 이상의 마이크로프로세서들, 또는 임의의 다른 그러한 구성으로 구현될 수도 있다.

소프트웨어로 구현되는 경우, 상기 기능들은 컴퓨터 판독 가능한 매체에 저장될 수도 있다. 컴퓨터 판독가능 매체들은 한 장소에서 다른 장소로 컴퓨터 프로그램의 전송을 가능하게 하는 임의의 매체를 포함하는 통신 매체들 및 컴퓨터 저장 매체들 양자를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수도 있다. 비제한적인 예로서, 이러한 컴퓨터 판독 가능한 매체는 RAM, ROM, EEPROM, CD-ROM 또는 다른 광학 디스크 스토리지, 자기 디스크 스토리지 또는 다른 자기 스토리지 디바이스들, 또는 요구되는 프로그램 코드를 명령들 또는 데이터 구조들의 형태로 이송 또는 저장하기 위해 사용될 수 있으며 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함할 수 있다. 본원에서 이용된 디스크 (disk) 와 디스크 (disc) 는, 컴팩트 디스크(CD), 레이저 디스크, 광학 디스크, 디지털 다기능 디스크 (DVD), 플로피 디스크, 및 블루-레이 디스크를 포함하며, 여기서 디스크 (disk) 들은 통상 자기적으로 데이터를 재생하는 반면, 디스크(disc) 들은 레이저들을 이용하여 광학적으로 데이터를 재생한다. 상기한 것들의 조합들도 컴퓨터 판독가능 매체들의 범위 내에 포함되어야 한다. 예를 들어, 컴퓨터 판독가능 저장 매체는 프로세서에 의해 실행가능한 명령들을 포함하는 비-일시적 (non-transitory) 컴퓨터 판독가능 저장 디바이스일 수도 있다. 따라서, 컴퓨터 판독가능 저장 매체는 신호가 아닐 수도 있다.

앞서의 본 개시물의 설명은 통상의 기술자가 개시물을 제조하거나 이용하는 것을 가능하게 하기 위해 제공된다. 본 개시물의 다양한 수정들이 통상의 기술자에게 자명할 것이고, 본원에 정의된 일반적인 원리들은 본 개시의 범위를 벗어나지 않으면서 다양한 변형들에 적용될 수도 있다. 따라서, 본 개시물은 본원에 설명된 예시들에 제한되고자 하는 것이 아니라, 본원에 개시된 원리들 및 신규한 특징들과 일관되는 가장 넓은 범위에 일치되고자 한다.

비록 예시적인 실시형태들이 하나 이상의 독립형 컴퓨터 시스템의 맥락에서 현재 개시된 주제의 양태들을 이용하는 것을 언급할 수도 있으나, 본 주제는 그렇게 제한되지 않고, 오히려 네트워크나 분산된 컴퓨팅 환경과 같은 임의의 컴퓨팅 환경과 연결하여 구현될 수도 있다. 더 나아가, 현재 개시된 주제의 양태들은 복수의 프로세싱 칩들이나 디바이스들에서 또는 그에 걸쳐 구현될 수도 있고, 저장소는 복수의 디바이스들에 걸쳐 유사하게 영향을 받게 될 수도 있다. 이러한 디바이스들은 PC들, 네트워크 서버들, 및 핸드헬드 디바이스들을 포함할 수도 있다.

비록 본 청구물이 구조적 특징들 및/또는 방법론적 작용들에 대한 언어 특정적으로 설명되었으나, 첨부된 청구항들에서 정의된 청구물은 위에서 설명된 특정 특징들 또는 작용들로 반드시 제한되는 것은 아님이 이해될 것이다. 오히려, 위에서 설명된 특정 특징들 및 작용들은 청구항들을 구현하는 예시적인 형태로서 설명된다.

상기 식별된 모듈들 또는 프로그램들 (즉, 명령들의 셋트들) 은 별개의 소프트웨어 프로그램들, 절차들 또는 모듈들로서 구현될 필요가 없고, 따라서, 이들 모듈들의 다양한 서브셋트들이 다양한 실시형태들에서 결합되거나 또는 그 이외에 재배열될 수도 있음이 이해될 것이다. 또한, 메모리 (1212) 는 상술되지 않은 추가적인 모듈들 및 데이터 구조들을 저장할 수도 있다.

<본 개시의 양태들>

이하에서는, 본 개시의 몇몇 양태들이 추가적으로 진술될 것이다.

(예 1) 본 개시의 일 양태에 따르면, 사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 방법이 제공되고, 이 방법은, 사운드 센서에 의해 입력 사운드를 수신하는 단계; 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하는 단계; 입력 사운드에서 스피치를 검출하는 것에 응답하여 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 단계; 및, 그 제 1 및 제 2 특성들에 기초하여, 사용자에 의해 말해진 스피치의 출발의 방향이 그 전자 디바이스를 향하는 것인지 여부를 결정하는 단계를 포함한다.

(예 2) 예 1 의 방법에서, 제 1 주파수 범위는 제 2 주파수 범위보다 더 높다.

(예 3) 예 1 또는 2 의 방법에서, 제 1 및 제 2 주파수 범위들은 적어도 하나의 주파수를 포함한다.

(예 4) 예들 1 내지 3 중 어느 하나의 방법은, 스피치의 출발의 방향이 전자 디바이스를 향하는 것임을 결정하는 것에 응답하여 스피치에서 음성 커맨드를 인식하는 단계; 및, 인식된 음성 커맨드와 연관된 기능을 수행하는 단계를 더 포함한다.

(예 5) 예들 1 내지 4 중 어느 하나의 방법에서, 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 단계는, 제 1 특성들로서 제 1 주파수 범위의 제 1 에너지 값을 결정하는 단계; 및, 제 2 특성들로서 제 2 주파수 범위의 제 2 에너지 값을 결정하는 단계를 포함한다.

(예 6) 예들 1 내지 5 중 어느 하나의 방법에서, 스피치의 출발의 방향이 전자 디바이스를 향하는 것인지 여부를 결정하는 단계는, 제 1 에너지 값과 제 2 에너지 값 사이의 비율 (ratio) 을 결정하는 단계; 및, 그 비율에 기초하여 스피치의 출발의 방향이 전자 디바이스를 향하는 것임을 결정하는 단계를 포함한다.

(예 7) 예들 1 내지 6 중 어느 하나의 방법에서, 비율은 입력 사운드의 신호 강도와는 독립적이다.

(예 8) 예들 1 내지 7 중 어느 하나의 방법은, 외부 디바이스로부터 스피치의 말해진 방향의 표시를 수신하는 단계를 더 포함한다.

(예 9) 예들 1 내지 8 중 어느 하나의 방법은, 제 1 및 제 2 특성들 및 외부 디바이스로부터의 표시에 기초하여 스피치의 타겟 (target) 이 전자 디바이스 또는 외부 디바이스인지 여부를 결정하는 단계; 스피치의 타겟이 전자 디바이스인 것을 결정하는 것에 응답하여 스피치에서 음성 커맨드를 인식하는 단계; 및, 인식된 음성 커맨드와 연관된 기능을 수행하는 단계를 더 포함한다.

(예 10) 본 개시의 다른 양태에 따르면, 입력 사운드를 수신하도록 구성된 사운드 센서; 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하도록 구성된 스피치 검출기; 입력 사운드에서 스피치를 검출하는 것에 응답하여 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하도록 구성된 주파수 분석 유닛; 및, 제 1 및 제 2 특성들에 기초하여, 사용자에 의해 말해진 스피치의 출발의 방향이 전자 디바이스를 향하는 것인지 여부를 결정하도록 구성된 스피치 방향 결정 유닛을 포함하는 전자 디바이스가 제공된다.

(예 11) 예 10 의 전자 디바이스에서, 제 1 주파수 범위는 제 2 주파수 범위보다 더 높다.

(예 12) 예 10 또는 11 의 전자 디바이스에서, 제 1 및 제 2 주파수 범위들은 적어도 하나의 주파수를 포함한다.

(예 13) 예들 10 내지 12 중 어느 하나의 전자 디바이스는, 스피치의 출발의 방향이 전자 디바이스를 향하는 것임을 결정하는 것에 응답하여 스피치에서 음성 커맨드를 인식하도록 구성된 스피치 인식 유닛을 더 포함하고, 전자 디바이스는 인식된 음성 커맨드와 연관된 기능을 수행한다.

(예 14) 예들 10 내지 13 중 어느 하나의 전자 디바이스에서, 주파수 분석 유닛은, 제 1 특성들로서 제 1 주파수 범위의 제 1 에너지 값을 결정하고; 그리고, 제 2 특성들로서 제 2 주파수 범위의 제 2 에너지 값을 결정하도록 구성된다.

(예 15) 예들 10 내지 14 중 어느 하나의 전자 디바이스에서, 스피치 방향 결정 유닛은, 제 1 에너지 값과 제 2 에너지 값 사이의 비율을 결정하고; 그리고, 그 비율에 기초하여 스피치의 출발의 방향이 전자 디바이스를 향하는 것임을 결정하도록 구성된다.

(예 16) 예들 10 내지 15 중 어느 하나의 전자 디바이스에서, 비율은 입력 사운드의 신호 강도와는 독립적이다.

(예 17) 예들 10 내지 16 중 어느 하나의 전자 디바이스는, 외부 디바이스로부터 스피치의 말해진 방향의 표시를 수신하도록 구성된 통신 유닛을 더 포함한다.

(예 18) 예들 10 내지 17 중 어느 하나의 전자 디바이스에서, 스피치 방향 결정 유닛은, 제 1 및 제 2 특성들 및 외부 디바이스로부터의 표시에 기초하여 스피치의 타겟이 전자 디바이스 또는 외부 디바이스인지 여부를 결정하도록 구성되고, 전자 디바이스는, 스피치의 타겟이 전자 디바이스인 것을 결정하는 것에 응답하여 스피치에서 음성 커맨드를 인식하도록 구성된 스피치 인식 유닛을 더 포함하며, 전자 디바이스는, 인식된 음성 커맨드와 연관된 기능을 수행한다.

(예 19) 본 개시의 또 다른 양태에 따르면, 입력 사운드를 수신하는 수단; 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하는 수단; 입력 사운드에서 스피치를 검출하는 것에 응답하여 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 수단; 및, 제 1 및 제 2 특성들에 기초하여, 사용자에 의해 말해진 스피치의 출발의 방향이 전자 디바이스를 향하는 것인지 여부를 결정하는 수단을 포함하는 전자 디바이스가 제공된다.

(예 20) 예 19 의 전자 디바이스는, 스피치의 출발의 방향이 전자 디바이스를 향하는 것임을 결정하는 것에 응답하여 스피치에서 음성 커맨드를 인식하는 수단; 및, 인식된 음성 커맨드와 연관된 기능을 수행하는 수단을 더 포함한다.

(예 21) 예 19 또는 20 의 전자 디바이스에서, 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 수단은, 제 1 특성들로서 제 1 주파수 범위의 제 1 에너지 값을 결정하고; 그리고, 제 2 특성들로서 제 2 주파수 범위의 제 2 에너지 값을 결정하도록 구성된다.

(예 22) 예들 19 내지 21 중 어느 하나의 전자 디바이스에서, 사용자에 의해 말해진 스피치의 출발의 방향이 전자 디바이스를 향하는 것인지 여부를 결정하는 수단은, 제 1 에너지 값과 제 2 에너지 값 사이의 비율을 결정하고; 그리고, 그 비율에 기초하여 스피치의 출발의 방향이 전자 디바이스를 향하는 것임을 결정하도록 구성된다.

(예 23) 예들 19 내지 22 중 어느 하나의 전자 디바이스는, 외부 디바이스로부터 스피치의 말해진 방향의 표시를 수신하는 수단을 더 포함한다.

(예 24) 예들 19 내지 23 중 어느 하나의 전자 디바이스에서, 사용자에 의해 말해진 스피치의 출발의 방향이 전자 디바이스를 향하는 것인지 여부를 결정하는 수단은, 제 1 및 제 2 특성들 및 외부 디바이스로부터의 표시에 기초하여 스피치의 타겟이 전자 디바이스 또는 외부 디바이스인지 여부를 결정하도록 구성되고, 전자 디바이스는, 스피치의 타겟이 전자 디바이스인 것을 결정하는 것에 응답하여 스피치에서 음성 커맨드를 인식하는 수단; 및, 인식된 음성 커맨드와 연관된 기능을 수행하는 수단을 더 포함한다.

(예 25) 본 개시의 또 다른 양태에 따르면, 명령들을 포함하는 비-일시적 컴퓨터 판독가능 저장 매체가 제공되고, 이 명령들은 전자 디바이스의 적어도 하나의 프로세서로 하여금, 사운드 센서에 의해 입력 사운드를 수신하는 것; 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하는 것; 입력 사운드에서 스피치를 검출하는 것에 응답하여 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 것; 및, 제 1 및 제 2 특성들에 기초하여 사용자에 의해 말해진 스피치의 출발의 방향이 전자 디바이스를 향하는 것인지 여부를 결정하는 것의 동작들을 수행하게 한다.

(예 26) 예 25 의 비-일시적 컴퓨터 판독가능 저장 매체는, 전자 디바이스의 적어도 하나의 프로세서로 하여금, 스피치의 출발의 방향이 전자 디바이스를 향하는 것임을 결정하는 것에 응답하여 스피치에서 음성 커맨드를 인식하는 것; 및, 인식된 음성 커맨드와 연관된 기능을 수행하는 것의 동작들을 수행하게 하는 명령들을 더 포함한다.

(예 27) 예 25 또는 26 의 비-일시적 컴퓨터 판독가능 저장 매체에서, 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 것은, 제 1 특성들로서 제 1 주파수 범위의 제 1 에너지 값을 결정하는 것; 및, 제 2 특성들로서 제 2 주파수 범위의 제 2 에너지 값을 결정하는 것을 포함한다.

(예 28) 예들 25 내지 27 중 어느 하나의 비-일시적 컴퓨터 판독가능 저장 매체에서, 스피치의 출발의 방향이 전자 디바이스를 향하는 것인지 여부를 결정하는 것은, 제 1 에너지 값과 제 2 에너지 값 사이의 비율을 결정하는 것; 및, 그 비율에 기초하여 스피치의 출발의 방향이 전자 디바이스를 향하는 것임을 결정하는 것을 포함한다.

(예 29) 예들 25 내지 28 중 어느 하나의 비-일시적 컴퓨터 판독가능 저장 매체는, 전자 디바이스의 적어도 하나의 프로세서로 하여금, 외부 디바이스로부터 스피치의 말해진 방향의 표시를 수신하는 동작을 수행하게 하는 명령들을 더 포함한다.

(예 30) 예들 25 내지 29 중 어느 하나의 비-일시적 컴퓨터 판독가능 저장 매체는, 전자 디바이스의 적어도 하나의 프로세서로 하여금, 제 1 및 제 2 특성들 및 외부 디바이스로부터의 표시에 기초하여 스피치의 타겟이 전자 디바이스 또는 외부 디바이스인지 여부를 결정하는 것; 스피치의 타겟이 전자 디바이스인 것을 결정하는 것에 응답하여 스피치에서 음성 커맨드를 인식하는 것; 및, 인식된 음성 커맨드와 연관된 기능을 수행하는 것의 동작들을 수행하게 하는 명령들을 더 포함한다.

Claims

사용자에 의해 말해진 스피치에 응답하여 전자 디바이스를 제어하기 위한 방법으로서,
사운드 센서에 의해 입력 사운드를 수신하는 단계;
상기 입력 사운드에서 상기 사용자에 의해 말해진 상기 스피치를 검출하는 단계;
상기 입력 사운드에서 상기 스피치를 검출하는 것에 응답하여 상기 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 단계; 및
상기 제 1 및 제 2 특성들에 기초하여 상기 사용자에 의해 말해진 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것인지 여부를 결정하는 단계를 포함하는, 전자 디바이스를 제어하기 위한 방법.
제 1 항에 있어서,
상기 제 1 주파수 범위는 상기 제 2 주파수 범위보다 더 높은, 전자 디바이스를 제어하기 위한 방법.
제 1 항에 있어서,
상기 제 1 및 제 2 주파수 범위들은 적어도 하나의 주파수를 포함하는, 전자 디바이스를 제어하기 위한 방법.
제 1 항에 있어서,
상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것이라고 결정하는 것에 응답하여 상기 스피치에서 음성 커맨드를 인식하는 단계; 및
인식된 상기 음성 커맨드와 연관된 기능을 수행하는 단계를 더 포함하는, 전자 디바이스를 제어하기 위한 방법.
제 1 항에 있어서,
상기 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 단계는,
상기 제 1 특성들로서 상기 제 1 주파수 범위의 제 1 에너지 값을 결정하는 단계; 및
상기 제 2 특성들로서 상기 제 2 주파수 범위의 제 2 에너지 값을 결정하는 단계를 포함하는, 전자 디바이스를 제어하기 위한 방법.
제 5 항에 있어서,
상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것인지 여부를 결정하는 단계는,
상기 제 1 에너지 값과 상기 제 2 에너지 값 사이의 비율을 결정하는 단계; 및
상기 비율에 기초하여 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것임을 결정하는 단계를 포함하는, 전자 디바이스를 제어하기 위한 방법.
제 6 항에 있어서,
상기 비율은 상기 입력 사운드의 신호 강도와는 독립적인, 전자 디바이스를 제어하기 위한 방법.
제 1 항에 있어서,
외부 디바이스로부터 상기 스피치의 말해진 방향의 표시를 수신하는 단계를 더 포함하는, 전자 디바이스를 제어하기 위한 방법.
제 8 항에 있어서,
상기 제 1 및 제 2 특성들 및 상기 외부 디바이스로부터의 상기 표시에 기초하여 상기 스피치의 타겟이 상기 전자 디바이스 또는 상기 외부 디바이스인지 여부를 결정하는 단계;
상기 스피치의 타겟이 상기 전자 디바이스라고 결정하는 것에 응답하여 상기 스피치에서 음성 커맨드를 인식하는 단계; 및
인식된 상기 음성 커맨드와 연관된 기능을 수행하는 단계를 더 포함하는, 전자 디바이스를 제어하기 위한 방법.
전자 디바이스로서,
입력 사운드를 수신하도록 구성된 사운드 센서;
상기 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하도록 구성된 스피치 검출기;
상기 입력 사운드에서 상기 스피치를 검출하는 것에 응답하여 상기 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하도록 구성된 주파수 분석 유닛; 및
상기 제 1 및 제 2 특성들에 기초하여 상기 사용자에 의해 말해진 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것인지 여부를 결정하도록 구성된 스피치 방향 결정 유닛을 포함하는, 전자 디바이스.
제 10 항에 있어서,
상기 제 1 주파수 범위는 상기 제 2 주파수 범위보다 더 높은, 전자 디바이스.
제 10 항에 있어서,
상기 제 1 및 제 2 주파수 범위들은 적어도 하나의 주파수를 포함하는, 전자 디바이스.
제 10 항에 있어서,
상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것이라고 결정하는 것에 응답하여 상기 스피치에서 음성 커맨드를 인식하도록 구성된 스피치 인식 유닛을 더 포함하고,
상기 전자 디바이스는 인식된 상기 음성 커맨드와 연관된 기능을 수행하는, 전자 디바이스.
제 10 항에 있어서,
상기 주파수 분석 유닛은,
상기 제 1 특성들로서 상기 제 1 주파수 범위의 제 1 에너지 값을 결정하고; 그리고
상기 제 2 특성들로서 상기 제 2 주파수 범위의 제 2 에너지 값을 결정하도록 구성되는, 전자 디바이스.
제 14 항에 있어서,
상기 스피치 방향 결정 유닛은,
상기 제 1 에너지 값과 상기 제 2 에너지 값 사이의 비율을 결정하고; 그리고
상기 비율에 기초하여 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것임을 결정하도록 구성되는, 전자 디바이스.
제 15 항에 있어서,
상기 비율은 상기 입력 사운드의 신호 강도와는 독립적인, 전자 디바이스.
제 10 항에 있어서,
외부 디바이스로부터 상기 스피치의 말해진 방향의 표시를 수신하도록 구성된 통신 유닛을 더 포함하는, 전자 디바이스.
제 17 항에 있어서,
상기 스피치 방향 결정 유닛은, 상기 제 1 및 제 2 특성들 및 상기 외부 디바이스로부터의 상기 표시에 기초하여 상기 스피치의 타겟이 상기 전자 디바이스 또는 상기 외부 디바이스인지 여부를 결정하도록 구성되고,
상기 전자 디바이스는, 상기 스피치의 타겟이 상기 전자 디바이스라고 결정하는 것에 응답하여 상기 스피치에서 음성 커맨드를 인식하도록 구성된 스피치 인식 유닛을 더 포함하며,
상기 전자 디바이스는, 인식된 상기 음성 커맨드와 연관된 기능을 수행하는, 전자 디바이스.
전자 디바이스로서,
입력 사운드를 수신하는 수단;
상기 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하는 수단;
상기 입력 사운드에서 상기 스피치를 검출하는 것에 응답하여 상기 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 수단; 및
상기 제 1 및 제 2 특성들에 기초하여 상기 사용자에 의해 말해진 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것인지 여부를 결정하는 수단을 포함하는, 전자 디바이스.
제 19 항에 있어서,
상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것이라고 결정하는 것에 응답하여 상기 스피치에서 음성 커맨드를 인식하는 수단; 및
인식된 상기 음성 커맨드와 연관된 기능을 수행하는 수단을 더 포함하는, 전자 디바이스.
제 19 항에 있어서,
상기 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 수단은,
상기 제 1 특성들로서 상기 제 1 주파수 범위의 제 1 에너지 값을 결정하고; 그리고
상기 제 2 특성들로서 상기 제 2 주파수 범위의 제 2 에너지 값을 결정하도록 구성되는, 전자 디바이스.
제 21 항에 있어서,
상기 사용자에 의해 말해진 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것인지 여부를 결정하는 수단은,
상기 제 1 에너지 값과 상기 제 2 에너지 값 사이의 비율을 결정하고; 그리고
상기 비율에 기초하여 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것임을 결정하도록 구성되는, 전자 디바이스.
제 19 항에 있어서,
외부 디바이스로부터 상기 스피치의 말해진 방향의 표시를 수신하는 수단을 더 포함하는, 전자 디바이스.
제 23 항에 있어서,
상기 사용자에 의해 말해진 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것인지 여부를 결정하는 수단은, 상기 제 1 및 제 2 특성들 및 상기 외부 디바이스로부터의 상기 표시에 기초하여 상기 스피치의 타겟이 상기 전자 디바이스 또는 상기 외부 디바이스인지 여부를 결정하도록 구성되고,
상기 전자 디바이스는,
상기 스피치의 타겟이 상기 전자 디바이스라고 결정하는 것에 응답하여 상기 스피치에서 음성 커맨드를 인식하는 수단; 및
인식된 상기 음성 커맨드와 연관된 기능을 수행하는 수단을 더 포함하는, 전자 디바이스.
명령들을 포함하는 비-일시적 컴퓨터 판독가능 저장 매체로서,
상기 명령들은 전자 디바이스의 적어도 하나의 프로세서로 하여금,
사운드 센서에 의해 입력 사운드를 수신하는 동작;
상기 입력 사운드에서 사용자에 의해 말해진 스피치를 검출하는 동작;
상기 입력 사운드에서 상기 스피치를 검출하는 것에 응답하여 상기 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 동작; 및
상기 제 1 및 제 2 특성들에 기초하여 상기 사용자에 의해 말해진 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것인지 여부를 결정하는 동작
의 동작들을 수행하게 하는, 비-일시적 컴퓨터 판독가능 저장 매체.
제 25 항에 있어서,
상기 전자 디바이스의 상기 적어도 하나의 프로세서로 하여금,
상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것이라고 결정하는 것에 응답하여 상기 스피치에서 음성 커맨드를 인식하는 동작; 및
인식된 상기 음성 커맨드와 연관된 기능을 수행하는 동작
의 동작들을 수행하게 하는 명령들을 더 포함하는, 비-일시적 컴퓨터 판독가능 저장 매체.
제 25 항에 있어서,
상기 스피치의 제 1 주파수 범위의 제 1 특성들 및 제 2 주파수 범위의 제 2 특성들을 결정하는 동작은,
상기 제 1 특성들로서 상기 제 1 주파수 범위의 제 1 에너지 값을 결정하는 동작; 및
상기 제 2 특성들로서 상기 제 2 주파수 범위의 제 2 에너지 값을 결정하는 동작을 포함하는, 비-일시적 컴퓨터 판독가능 저장 매체.
제 27 항에 있어서,
상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것인지 여부를 결정하는 동작은,
상기 제 1 에너지 값과 상기 제 2 에너지 값 사이의 비율을 결정하는 동작; 및
상기 비율에 기초하여 상기 스피치의 출발의 방향이 상기 전자 디바이스를 향하는 것임을 결정하는 동작을 포함하는, 비-일시적 컴퓨터 판독가능 저장 매체.
제 25 항에 있어서,
상기 전자 디바이스의 상기 적어도 하나의 프로세서로 하여금, 외부 디바이스로부터 상기 스피치의 말해진 방향의 표시를 수신하는 동작을 수행하게 하는 명령들을 더 포함하는, 비-일시적 컴퓨터 판독가능 저장 매체.
제 29 항에 있어서,
상기 전자 디바이스의 상기 적어도 하나의 프로세서로 하여금,
상기 제 1 및 제 2 특성들 및 상기 외부 디바이스로부터의 상기 표시에 기초하여 상기 스피치의 타겟이 상기 전자 디바이스 또는 상기 외부 디바이스인지 여부를 결정하는 동작;
상기 스피치의 타겟이 상기 전자 디바이스라고 결정하는 것에 응답하여 상기 스피치에서 음성 커맨드를 인식하는 동작; 및
인식된 상기 음성 커맨드와 연관된 기능을 수행하는 동작
의 동작들을 수행하게 하는 명령들을 더 포함하는, 비-일시적 컴퓨터 판독가능 저장 매체.