KR20020071966A - 음향 출력 디바이스를 포함하는 유닛의 제어 방법 - Google Patents

음향 출력 디바이스를 포함하는 유닛의 제어 방법 Download PDF

Info

Publication number
KR20020071966A
KR20020071966A KR1020027009554A KR20027009554A KR20020071966A KR 20020071966 A KR20020071966 A KR 20020071966A KR 1020027009554 A KR1020027009554 A KR 1020027009554A KR 20027009554 A KR20027009554 A KR 20027009554A KR 20020071966 A KR20020071966 A KR 20020071966A
Authority
KR
South Korea
Prior art keywords
command signal
signal
volume
output
output signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
KR1020027009554A
Other languages
English (en)
Inventor
볼커 스탈
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20020071966A publication Critical patent/KR20020071966A/ko
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Selective Calling Equipment (AREA)
  • Control Of Amplification And Gain Control (AREA)

Abstract

본 발명은 음향 명령 신호(BS)에 의해 음향 출력 디바이스(2)를 포함하는 유닛(1)의 제어 방법에 관한 것이다. 본 발명에 따라, 상기 유닛(1)이 음향 명령 신호가 유닛(1)으로 송신되었음을 인식할 때, 상기 유닛(1)은 유닛의 볼륨을 자동적으로 감소시킨다.

Description

음향 출력 디바이스를 포함하는 유닛의 제어 방법{METHOD FOR CONTROL OF A UNIT COMPRISING AN ACOUSTIC OUTPUT DEVICE}
디바이스, 특히 가전 전자 기기 분야의 디바이스의 사용을 위해 사용자 친화성(user-friendliness) 및 옵션(option)을 증가시키고, 이에 따라 디바이스를 더욱 매력적으로 만들기 위해, 점점 더 많은 디바이스는, 음향 명령 신호에 의해 디바이스의 제어가 가능해지도록 설치된다. 이를테면, 예를 들어, 알람 시계 또는 램프와 같은 스위치가능한 디바이스는 업계에서 오랫동안 이용가능해 왔는데, 상기 디바이스는, 매우 간단한 음향 명령 신호, 예를 들어 손뼉을 치거나 휘파람을 부는 것과 같은 소리에 의해 스위치 온 및 오프되거나 상이한 모드 사이에서 스위칭될 수 있다. 음성 인식 시스템이 개발됨에 따라, 명령 신호와 같은 다양한 보이스(voice) 명령을 인식하고 수용할 수 있는 디바이스가 또한 이용가능하게 되어, 그러한 디바이스의 복잡한 제어도 또한 가능해진다. 그러한 보이스-제어가능한 디바이스는 매우 편리한데, 그 이유는, 조작자가 자신의 손을 사용하지 않고도 각 디바이스를 동작시킬 수 있기 때문이다. 따라서, 이러한 제어 방법은, 조작자가 다른 활동을 위해, 자신의 손을 필요로 하는 어디서든지 상당한 장점을 갖는데, 예를 들어 카 라디오의 제어의 경우에 여기서 조작자는 볼륨 또는 채널을 바꾸기 위해 운전대에서 자신의 손을 떼서는 안 된다. 더욱이, 이러한 방법은 더 일반적으로 디바이스 동작에 관해 또한 매력적인데, 그 이유는, 그러한 보이스 제어가, 인간-기계 인터페이스(MMI: Man-Machine Interface)로 하여금 기계, 즉 버튼 및 제어기에 의한 동작을 갖는 지금까지의 종래의 통신 단계(plane)로부터, 인간에게 수직적인 즉, 음성을 통한 정보 전달을 갖는 통신 단계로 전환되도록 하기 때문이다. 그러나, 문제는, 음향 출력 수단을 포함하고 디바이스 자체 기능으로 인해 음향 신호를 발생시키는 디바이스, 즉, 예를 들어 라디오, CD 플레이어, 텔레비전, 비디오 플레이어, 컴퓨터 등과 같은 모든 오디오 또는 오디오 영상 디바이스의 제어에서 발생한다. 오디오 기능을 갖는 그러한 디바이스를 통해, 명령 신호를 식별하도록 설계된 인식 수단은 명령 신호뿐 아니라, 음향 에코로서 디바이스 자체에 의해 발생된 음향 출력 신호(예를 들어 CD 플레이어 상에서 플레이된 음악)를 수신한다. 따라서, 디바이스의 자체 출력 신호는 배경 잡음의 방식으로 명령 신호의 배경이 된다(lies beneath). 명령 신호 또는 디바이스의 자체 출력 신호의 볼륨에 따라, 이것은 명령 신호를 인식하는데 상당한 문제를 초래할 수 있다.
소위 "AEC 방법"(Acoustic Echo Cancellation: 음향 에코 제거)은 종래에 그러한 디바이스의 인식 성능을 향상시키는데 사용된다. 이러한 접근법을 통해, 디바이스 자체에 의해 생성된 출력 신호는 룸 임펄스(room impulse) 응답 신호를 추정하는 것, 즉 디바이스가 위치한 방 내에서의 출력 신호의 반사로 인해 픽업(pick-up) 수단에 의해 다시 검출되는 신호를 추정하는 것에 사용된다. 이것은 소위 "적응형 필터 방법(adaptive filter method)"에 의해 달성되는데, 이 방법으로 전송 기능은 반복적으로 결정되고, 상기 방법을 통해 본래 출력 신호는 초기에 변형되고, 그 다음에 이에 따라 변형된 출력 신호는 필터에서 수신된 전체 입력 신호로부터 제거된다. 이 방법은, 반복 방법이 영구히 계속되고, 이에 따라 전송 기능에서의 변화에 의해 수반되는 방에서의 변화가 검출되는 정도까지 적응가능하다. 예를 들어, 방안에서 커튼이 열려져 있거나 닫혀있고, 문이 열려져 있거나 사람들이 방안에 돌아다니는 경우에, 음향 에코에서의 변화가 발생할 수 있다. 일반적으로, 이러한 방법은 매우 성공적이다. 그러나, 디바이스 자체 출력 신호의 볼륨이 증가하는 경우 음성 인식 시스템의 정밀도가 상당히 감소한다는 것이 관찰되었다. 그 이유는, 적응형 AEC 필터가 방 특성을 최적으로 모델링할 수 없으므로, 음향 에코의 필터링 아웃(filtering-out) 이후의 신호의 간섭이 디바이스 자체 볼륨에 대략 비례하기 때문이다.
본 발명은 음향 명령 신호에 의해 음향 출력 수단을 포함하는 디바이스를 제어하는 방법에 관한 것이다. 추가로, 본 발명은, 음향 출력 수단과, 명령 신호를 수신하기 위한 수신 수단과, 이러한 명령 신호를 인식하기 위한 인식 수단과, 인식된 명령 신호의 함수로서 디바이스를 제어하기 위한 제어 수단을 구비하는 디바이스에 관한 것이다.
도 1은, 본 발명에 필수 성분만이 도시되고, 예를 들어 CD 플레이어인 오디오 디바이스(1)의 개략적인 블록도.
본 발명의 목적은, 디바이스 자체가 음향 출력 신호를 발생시키는 디바이스, 및 명령 신호의 인식 정밀도가 종래 기술에 비해 향상되는 해당 디바이스의 음향 제어의 간단하고, 사용자-친화성있는 방법을 제공하는 것이다.
상기 목적은 청구항 1에 기재된 방법 및 청구항 10에 기재된 디바이스에 의해 달성된다.
본 발명에 따라, 가능한 음향 명령 신호가 디바이스로 송신되고 있다는 것을 디바이스가 인식하자마자, 볼륨은 디바이스 자체에 의해 즉시 감소된다. 디바이스의 볼륨을 자동적으로 감소시킴으로써, 디바이스에 대한 명령 신호는 더 작은 음향 에코로 인해 더 쉽고 신뢰성있게 인식될 수 있다. 더욱이, 일반적으로 오디오 디바이스가 그리 시끄럽지 않을 때 사용자가 보이스 명령을 내리는 것이 더 좋다. 더욱이, 볼륨의 감소에 의해 소위 "롬바드 효과(Lombard effect)"가 또한 감소되는데, 상기 효과는, 사람이 배경 잡음을 고려하여 얘기해야할 때, 사람이 예를 들어 더 큰 소리로 또한 더 조심스러운 발음으로 자동적으로 다르게 얘기한다는 것을 의미하는데. 이것은 음성 인식 시스템의 인식 성능에 필수적으로 영향을 미친다.
본 발명에 따른 적절한 디바이스는, 먼저 음향 출력 수단과, 예를 들어 종래의 마이크(microphone)와 같은, 음향 명령 신호를 수신하기 위한 수신 수단 뿐 아니라, 이러한 명령 신호를 인식하기 위한 인식 수단과, 인식된 명령 신호의 함수로서 디바이스를 제어하기 위한 제어 수단을 포함해야 한다. 더욱이, 상기 디바이스는, 디바이스를 위한 가능한 명령 신호의 수신이 인식되자마자, 음향 출력 수단에 의해 출력된 출력 신호의 볼륨이 감소되는 적합한 수단과 함께, 수신 수단이 디바이스를 위한 가능한 명령 신호를 수신하고 있는 것을 인식하기 위한 적합한 수단을 포함해야 한다.
명령 신호가 디바이스로 향한다는 이러한 인식은 다양한 방식으로 수행될 수있다. 예를 들어, 디바이스는, 한정된 볼륨 및/또는 피치 및/또는 음성 방향에서 일정한 사용자가 얘기한 단어가 가능한 명령 신호로서 인식되고, 그 다음에 그 볼륨이 감소되도록 설치되거나 조정될 수 있다.
특히 간단하고, 바람직한 실시예에서, 키 명령 신호는 본래 명령 신호 전에 송신되는데, 그 볼륨은 상기 키 명령 신호가 인식될 때 감소된다. 이러한 키 명령 신호가, 추가 명령 신호를 수신하기 위한 준비 상태(state of readiness)로 디바이스를 조정하는, 즉 각 디바이스의 제어 수단을 초기에 활성화하는, 바로 그 명령 신호라는 것을 알 수 있다. 그러한 "활성화 신호"는 많은 경우에 어떻게 해서든지 필요한데, 그 이유는, 이 방식으로, 사용자가 무의식중에 내뱉은 명령 신호, 예를 들어 대화 내의 특정한 단어, 또는 다른 배경 잡음이 디바이스에 의해 식별되고 수용되지 못하게 하여, 실제로 원하지 않는 제어 동작을 수행하지 못하게 하는 것이 가능하기 때문이다. 특히, 그러한 키 명령 신호는, 복수의 보이스-제어가능 디바이스가 각 경우에 유사하거나 동일한 명령 신호를 수용하는 동일한 영역에 존재하는 경우에 감지할 수 있다. 이러한 경우에, 특정 명령 신호가 사용(intended)되는 디바이스는 적절한 우선 키 명령 신호로 어드레싱되어야 한다. 따라서, 예를 들어, 보이스-제어된 컴퓨터 및 텔레비전은 서로 바로 가까이 배치될 수 있는데, "컴퓨터" 또는 "TV" 각각에 대한 키 명령 신호가 디바이스를 위한 명령 신호에 우선한다.
키 명령 신호의 인식 중에 디바이스의 출력 신호의 볼륨의 자동 감소는, 각 디바이스가 추가 명령 신호를 수신하기 위한 준비 상태에 있고, 말하자면 사용자의말을 "듣는"다는 것을 사용자가 이를 통해 동시에 통보받는다는 장점을 또한 갖는다. 디바이스는 키 명령 신호의 수신의 시각적 또는 청각적 확증(confirmation)을 선택적으로 또한 추가적으로 출력할 수 있다.
볼륨 감소는, 예를 들어 키 명령에 후속하는 명령 신호가 인식된 후에 다시 자동적으로 달성되는 것이 바람직하다. 이것은, 예를 들어 각 키 명령 신호 바로 뒤에 명령 신호가 수용된다는 것을 의미한다. 대안적으로, 키 명령 신호 또는 명령 신호의 인식 이후의 특정 간격 이후에 볼륨이 이전에 설정된 값으로 자동적으로 재조정되는 것이 가능하다. 이러한 경우에, 추가 명령 신호가 후속하는 지의 여부를 알기 위해, 디바이스는 명령 신호의 수신 이후에 특정 시간을 대기한다. 그 다음에, 디바이스는 준비 상태 또는 활성화 상태 중에서 자동적으로 다시 스위칭된다.
실시예의 특히 바람직한 예의 경우에, 출력 신호의 볼륨은 검출된 명령 신호 에너지의 함수로서 감소된다. 명령 신호 에너지는 수신된 명령 신호의 신호 에너지를 의미하는 것으로 이해되며, 여기서 키 명령 신호는 본래 (특정) 명령 신호로 이런 의미에서 또한 이해된다. 따라서, 예를 들어, 디바이스 자체 출력 신호의 볼륨은, 디바이스 자체 출력 신호가 사실상 명령 신호에 관해 너무 소리가 커서, 명령 신호의 신뢰성있는 인식이 더 이상 보장될 수 없을 때만 감소될 수 있다. 이것은, 출력 신호의 결정되거나 추정된 음향 에코의 출력 신호 에너지 또는 신호 에너지와 명령 신호 에너지 사이의 비율이 결정된다는 점에서 간단히 제어될 수 있다. 이러한 비율이 미리 결정된 임계치에 관한 특정한 값의 범위 내에 있는 경우에만, 볼륨이 감소된다. 예를 들어, 출력 신호 또는 음향 에코의 에너지와 명령 신호 에너지의 비율이 결정되면, 볼륨은 이러한 비율이 미리 결정된 임계치보다 높을 때만 감소된다. 이와 반대로, 명령 신호 에너지와, 출력 신호 에너지 또는 음향 에코의 에너지와의 에너지 비율이 결정되면, 볼륨은 이러한 비율이 미리 결정된 임계치보다 낮을 때만 감소된다. 명령 신호 에너지는 예를 들어 수신 수단 또는 마이크의 입력에서 측정될 수 있다.
특히 바람직한 방법의 경우에, 출력 신호의 볼륨은, 신호 에너지의 비율이 미리 결정된 값에 있을 때까지 정밀하게 감소된다. 사용자에 대해, 이것은, 디바이스 자체에 의해 출력된 음향 신호, 예를 들어 CD 플레이어로부터의 음악이 어떻게 해서든지 조용하거나, 사용자가 디바이스의 마이크에 아주 가까이 있을 때, 음악 볼륨은 감소되지 않고, 오히려 불변인 상태에 있다. 그렇지 않으면, 음악 에너지 및 마이크 인렛(inlet)에서의 보이스 명령의 에너지가 미리 결정된 비율에 있을 때까지 볼륨은 감소된다. 이러한 비율은 이전에 한정될 수 있고, 사용자가 설정할 수 있거나, 인식 수단의 일정한 인식 신뢰도가 얻어진다는 점에서 또한 자동적으로 한정될 수 있다.
이러한 경우에, 특히, 디바이스가, 키 명령 신호가 인식되었다는 것을 디스플레이하는, 시각적 또는 청각적 디스플레이를 위한 추가 수단을 포함한다는 것을 감지할 수 있는데, 그 이유는, 사용자가 볼륨이 키 명령 신호의 인식 이후에 감소될 것이라는 점에만 항상 의존할 수 없기 때문이다.
디바이스는 디바이스에 의해 수신된 전체 신호로부터 디바이스 자체에 의해 출력된 출력 신호의 음향 에코를 필터링하기 위한 필터 수단을 추가적으로 포함하는 것이 바람직한데, 즉, AEC 방법 외에도 새로운 방법이 사용되어, 이를 통해 최적의 인식 성능을 달성할 수 있다.
오디오 디바이스 또는 오디오 영상 디바이스를 제어하는데 사용된 전형적인 보이스 명령은 디바이스의 볼륨을 제어하기 위한 명령 단어이다. 이러한 "볼륨 명령 신호"는 예를 들어 단어 "더 크게(louder)" 또는 "더 조용하게(quieter)"를 포함할 수 있다. 본 발명에 따라, 볼륨이 키 명령 신호의 인식 바로 직후에 디바이스에 의해 감소되기 때문에, 사용자는 자신의 볼륨 명령 신호가 어떤 영향을 미치는 지를 더 이상 인식할 수 없다. 그러므로, 그러한 볼륨 명령 신호에 대해, 그러한 볼륨 명령 신호의 인식 이후에, 디바이스 자체는 초기에 볼륨을 감소 이전에 설정된 값으로 되돌리는 것이 바람직하다. 그때에 볼륨이 볼륨 명령 신호에 대응하는 값으로 설정되는데, 즉, 단어 "더 조용하게"가 인식될 때, 예를 들어 볼륨은 일정한 등급만큼 감소되거나, 단어 "더 크게"가 인식될 때, 일정한 등급만큼 증가한다.
본 발명은 도면에 도시된 실시예의 일례를 참조하여 추가로 설명되지만, 본 발명은 여기에 한정되지 않는다.
오디오 디바이스(1)는 먼저 오디오 신호 소스(6)를 포함한다. 예를 들어 CD 플레이어의 경우에, 이러한 오디오 신호 소스(6)는 CD 드라이브, 샘플링(sampling)수단, 및 검출된 광학 데이터를 오디오 신호로 변환하기 위한 전자 장치(electronics)이다. 그 다음에, 오디오 신호 소스(6)에 의해 발생된 오디오 신호는 예를 들어 종래의 출력 스테이지(stage)(8)인 증폭기(8)로 공급되고, 상기 증폭기(8)로부터 여기서 종래의 확성기(2)인 음향 출력 수단(2)을 통해 출력된다.
제어 목적을 위해, 디바이스(1)는 제어 수단(5)을 포함하는데, 상기 제어 수단(5)은 예를 들어 마이크로 제어기 등과 같은 형태를 취할 수 있다. 이러한 제어 수단(5)에 의해, 오디오 신호 소스(6)는 작동될 수 있고, 예를 들어 CD 상의 특정 트랙이 선택될 수 있다. 이러한 제어 가능성은 예시된 제어 리드(lead)(18)로 도면에 표시된다. 이와 유사하게, 디바이스(1)의 볼륨은 제어 수단(5)을 통해 조절될 수 있다. 이것은 출력 스테이지(8)의 작동에 의해 달성된다. 이러한 제어 가능성은 제어 리드(19)로 도면에 도시된다.
제어 명령은 여기서 보이스 명령인 음향 명령 신호(BS)의 형태로 디바이스(1)에 의해 수신되는데, 여기서 사용자는 여기서 마이크(3)인 픽업 수단(3)을 통해 이를 입력하고, 상기 음향 제어 신호(BS)는 리드(14, 15)를 통해 여기서 음성 인식 시스템(4)인 인식 수단(4)으로 공급된다. 그 다음에, 인식된 명령은 신호 리드(17)를 통해 제어 수단(5)으로 공급되고, 그 다음에 제어 수단(5)은 수신된 명령에 따라 디바이스(1)의 각각의 성분을 제어한다.
도면에 도시된 바와 같이, 마이크(3)는 명령 신호(BS)뿐 아니라 음향 에코(AE)를 픽업하는데, 상기 음향 에코(AE)는 여기서 CD에서 나오는 음악인, 디바이스(1) 자체의 확성기(2)에 의해 출력된 음향 신호에 의해 발생된다. 음향에코(AE)는 출력 신호 뿐 아니라 방의 음향 파라미터에 따른다. 명령 신호(BS)의 인식 동안 이러한 음향 에코(AE)에 의해 야기된 간섭을 감소시키기 위해, 디바이스는, 음향 에코(AE)가 마이크(3)에 의해 수신된 전체 신호로부터 필터링되는 필터 수단(9)(AEC 유닛으로서 이후에 지칭됨)을 포함한다.
이 때문에, 출력 신호는, 탭핑 포인트(21)에서 출력 스테이지(8) 이전에 출력 스테이지(8)를 통해 오디오 신호 소스(6)로부터 확성기(2)로 연장하는 신호 출력 분기(branch)로부터 태핑(tapped)되고, 신호 리드(11)를 통해 AEC 유닛(9)에 공급되는데, 상기 AEC 유닛(9)은 전달 함수에 의해 태핑된 출력 신호를 변형시킨다. 이러한 전달 함수는 추정된 룸 임펄스 응답에 대응한다. 현재 각 룸 임펄스 응답은 반복 방법에 의해 결정되며, 여기서 갱신이 일정하게 달성되고, 이에 따라 방에서의 변화, 예를 들어 사람 또는 물체의 움직임을 고려하는 적응형 필터링이 수행된다. 전달 함수에 의해 변형된 출력 신호는, AEC 유닛(9)의 가산기(10)에서 신호 리드(14)를 통해 마이크(3)로부터 나오는 전체 신호로부터 제거된다. 출력 리드(15)를 통해, 그 다음에, 명령 신호(BS)에만 이상적으로 대응하는 잔류 신호는 AEC 유닛(9)으로부터 음성 인식 시스템(4)에 공급된다. AEC 수단(9)은 입력(12)을 추가로 포함하는데, 제어 리드(19)를 통해 제어 수단(5)에 의해 출력 스테이지(8)로 출력된 제어 신호는 볼륨을 조정하기 위해 상기 입력(12)에 인가된다. 따라서, 전달 함수에 대한 계수는 설정된 볼륨에 따라 AEC 유닛(9)에서 스케일링(scaled)될 수 있다.
본 발명에 따라, 디바이스(1)는 감쇠기(7)의 형태인 수단(7)을 추가로 포함하는데, 상기 감쇠기(7)를 통해 디바이스(1)의 볼륨은, 키 명령 신호(SBS)가 음성 인식 시스템(4)에 의해 인식되는 경우에 감소될 수 있다. 본 실시예의 예에서, 그러므로, 이러한 키 명령 신호(SBS)는 사용자에 의해 제 1 명령 신호로서 발음되어야 한다. 음성 인식 시스템(4)은, 이러한 특정 키 명령 신호(SBS), 즉 예를 들어 단어 "CD"와 같은 특정 키 단어를 단지 기다리도록 설계된다. 일단 이러한 키워드가 수용되면, 음성 인식 시스템(4)의 전체 복잡한 명령 어휘가 활성화되고, 디바이스(1)는 준비 모드에 있는데, 여기서 예를 들어 "더 크게", "더 조용하게", "그 다음 트랙", "트랙 5" 등과 같은 명령인 추가 명령 신호가 인식되고 수용된다. 일단 키 명령 신호(SBS)에 후속하는 각 명령 신호(BS)가 인식되면, 디바이스(1)는 키 명렁 신호(SBS)를 다시 기다리는 상태로 다시 스위칭한다.
키 명령 신호(SBS)를 인식하자마자, 감쇠기(7)는 본 발명에 따라 제어 리드(20)를 통해 제어 수단(5)에 의해 자동적으로 활성화되어, 디바이스(1) 자체 출력 신호의 볼륨은 감소된다. 이러한 방식으로, 후속적인 명령 신호(BS), 즉 본래 명령은 음성 인식 시스템(4)이 식별하기에 더 쉬워진다. 예를 들어, 볼륨은 예를 들어 10dB인 특정 값만큼 감소될 수 있거나, 미리 설정된 볼륨 레벨로 감소될 수 있다. 볼륨을 완전히 0으로 감소시키는 것이 또한 가능하다.
그러나, 도면에 도시된 실시예의 예에서, 필터(9)의 신호 입력 분기 업스트림 및 다운스트림에 인가된 신호는 신호 리드(13, 16)를 통해 제어 수단(5)에 공급된다. 필터(9)의 이러한 신호 업 및 다운스트림으로부터, 제어 수단(5)이, 음향 에코(AE)가 마이크에서 어떤 신호 에너지를 나타내는 지와, 실제로 원하는 명령신호(BS)에 의해 어떤 신호 에너지가 나타나는 지를 결정하는 것이 가능하다. 제어 수단(5)은, 음향 에코(AE)의 신호 에너지와 명령 신호(BS)의 신호 에너지 사이의 일정한 비율이 달성될 때까지 감쇠기(7)에 의해 출력 신호의 볼륨을 감소시키도록 설계된다. 신호 에너지의 비율이 이미 이러한 값 미만이면, 볼륨은 더 이상 감소되지 않는데, 즉 음악 볼륨은, 음악이 어떻게 해서든지 조용하거나 또는 사용자가 마이크에 가까이 있어 명령 신호(BS)가 인식하기 쉬워질 때 더 이상 감소되지 않는다. 그렇지 않으면, 음악 볼륨은, 마이크 인렛에서 음악의 에너지 및 보이스 명령의 에너지가 미리 결정된 비율에 있을 정도로 충분히 정밀하게 감소된다.
간단한 스위치(22)에 의해, 신호 출력 분기에서의 감쇠기(7)는 도시된 실시예의 예에서 바이패스(by-passed)될 수 있으므로, 사용자가 원한다면, 사용자로 하여금 본 발명에 따른 기능을 해제하도록 한다.
별도의 감쇠기(7)는 여기서 신호 출력 분기에 배열되어, 신호는 AEC 유닛(9)에 대해 출력 신호의 태핑을 위한 스퍼 포인트(spur point)(21) 앞에서 감쇠된다. 이러한 방식으로, 볼륨에서의 감소의 경우에, AEC 유닛(9)이 룸 임펄스 응답을 추정할 때 이러한 볼륨 감소를 고려한다는 점을 자동적으로 고려한다. AEC 유닛(9)에서 볼륨의 감소를 고려하지 않고도 디바이스(1)의 출력 신호의 볼륨에서의 감소는, 필터(9)에서의 필터링으로 인한 추가 간섭을 초래하고, 오히려 명령 신호(BS)의 인식을 방해하는 경향이 있다.
별도의 감쇠기(7) 대신에, 제어 수단(5)의 볼륨은 출력 스테이지(8)의 조정에 의해 키 명령 신호(SBS)의 인식 이후에 또한 감소될 수 있다.
본 발명에 따르거나 본 발명에 따른 방법을 통해 디바이스(1)의 경우에, 보이스 제어의 인식에 대한 정밀도는 음성 인식 시스템의 입력 신호의 왜곡을 감소시킴으로써 상당히 향상된다. 더 사용자-친화성있는 음성 인터페이스가 제공되는데, 그 이유는, 상기 디바이스(1)가 보이스 명령을 받을 준비가 되어 있다는, 사용자가 디바이스(1)로부터 확인 응답(acknowledgement)을 볼륨에서의 감소의 형태로 수신하기 때문이다. 추가 확인 응답은, 선택적으로 시각적 또는 추가 음향 신호, 예를 들어 신호 톤(tone)의 형태에 따를 수 있다.
상술한 바와 같이, 본 발명은, 디바이스 자체가 음향 출력 신호를 발생시키는 디바이스, 및 명령 신호의 인식 정밀도가 종래 기술에 비해 향상되는 해당 디바이스의 음향 제어의 간단하고, 사용하기 쉬운 방법 등에 이용된다.

Claims (15)

  1. 음향 명령 신호(BS)에 의해 음향 출력 수단(2)을 포함하는 디바이스(1)의 제어 방법으로서,
    상기 디바이스(1)가, 음향 명령 신호가 상기 디바이스(1)로 송신되고 있음을 인식하자마자, 상기 음향 출력 수단(2)에 의해 출력된 출력 신호의 볼륨은 감소되는 것을 특징으로 하는, 디바이스 제어 방법.
  2. 제 1항에 있어서, 먼저 음향 키 명령 신호(SBS)가 상기 디바이스(1)로 송신되고, 이것에 의해 상기 디바이스(1)는 추가 명령 신호(BS)를 수신하기 위한 준비(readiness) 상태에 이르고, 상기 디바이스(1)에 의해 이러한 키 명령 신호(SBS)를 인식하자마자, 상기 음향 출력 수단(2)에 의해 출력된 상기 출력 신호의 볼륨은 감소되는 것을 특징으로 하는, 디바이스 제어 방법.
  3. 제 1항 또는 제 2항에 있어서, 상기 출력 신호의 볼륨은 결정된 명령 신호 에너지의 함수로서 감소되는 것을 특징으로 하는, 디바이스 제어 방법.
  4. 제 3항에 있어서, 상기 출력 신호의 볼륨은, 결정된 출력 신호 에너지 또는 상기 출력 신호의 결정된 음향 에코(AE)의 신호 에너지와 상기 명령 신호 에너지 사이의 비율이 미리 결정된 임계치에 관한 특정한 값의 범위에 있는 경우마다 감소되는 것을 특징으로 하는, 디바이스 제어 방법.
  5. 제 4항에 있어서, 상기 출력 신호의 볼륨은 상기 출력 신호 에너지 또는 상기 출력 신호의 음향 에코(AE)의 신호 에너지와 상기 명령 신호 에너지 사이의 비율이 미리 결정된 값에 대응할 때까지 감소되는 것을 특징으로 하는, 디바이스 제어 방법.
  6. 제 1항 내지 제 5항 중 어느 한 항에 있어서, 상기 키 명령 신호(SBS)에 후속하는 명령 신호(BS)의 인식 이후에, 상기 볼륨은 상기 감소 이전에 설정된 값으로 재조정되는 것을 특징으로 하는, 디바이스 제어 방법.
  7. 제 1항 내지 제 6항 중 어느 한 항에 있어서, 상기 볼륨은, 키 명령 신호(SBS) 또는 명령 신호(BS)의 인식 이후의 특정 간격이 지나간 후에 감소 이전에 설정된 값으로 재조정되는 것을 특징으로 하는, 디바이스 제어 방법.
  8. 제 1항 내지 제 7항 중 어느 한 항에 있어서, 상기 볼륨을 변화시키도록 송신되는 볼륨 명령 신호의 인식 이후에, 볼륨은 감소 이전에 설정된 값으로 초기에 재조정되고, 그 다음에 상기 볼륨 명령 신호에 대응하는 값으로 조정되는 것을 특징으로 하는, 디바이스 제어 방법.
  9. 제 1항 내지 제 8항 중 어느 한 항에 있어서, 상기 키 명령 신호의 인식은 상기 디바이스의 사용자에게 시각적으로 또는 청각적으로 디스플레이되는 것을 특징으로 하는, 디바이스 제어 방법.
  10. 음향 출력 수단(2)과, 음향 명령 신호(BS)를 수신하기 위한 수신 수단(3)과, 이러한 명령 신호(BS)를 인식하기 위한 인식 수단(4)과, 인식된 명령 신호(BS)의 함수로서 상기 디바이스(1)를 제어하기 위한 제어 수단(5)을 구비하는, 디바이스(1)로서,
    상기 수신 수단(3)이 상기 디바이스(1)에 대한 명령 신호(BS)를 수신하고 있음을 인식하기 위한 수단과, 상기 디바이스(1)에 대한 가능한 명령 신호(BS)의 수신이 인식되자마자 상기 음향 출력 수단(2)에 의해 출력된 상기 출력 신호의 볼륨을 감소시키기 위한 수단(7)을 특징으로 하는, 디바이스.
  11. 제 10항에 있어서, 상기 수신 수단(3)이 상기 디바이스(1)에 대한 명령 신호(BS)를 수신하고 있음을 인식하기 위한 수단은 키 명령 신호(SBS)를 인식하기 위한 수단을 포함하는데, 이것에 의해 상기 디바이스(1)는 추가 명령 신호(BS)를 수신하기 위한 준비 상태에 이르게 되는 것을 특징으로 하는, 디바이스.
  12. 제 10항 또는 제 11항에 있어서, 상기 수신 수단(3)에 의해 수신된 전체 신호로부터 상기 디바이스(1) 자체에 의해 출력된 출력 신호의 음향 에코(AE)를 필터링하기 위한 필터 수단(9)을 특징으로 하는, 디바이스.
  13. 제 12항에 있어서, 상기 디바이스의 분기점(branch point)의 상기 출력 신호를 감소시키기 위한 수단(7)은 태핑 포인트(tapping point)(21)의 업스트림에 배열되는데, 상기 태핑 포인트(21)에서 상기 출력 신호에 대응하는 신호는 상기 필터 수단(9)에 태핑되는 것을 특징으로 하는, 디바이스.
  14. 제 12항 또는 제 13항에 있어서, 상기 필터 수단(9)은 상기 디바이스(1)의 상기 출력 신호의 볼륨을 감소시키기 위한 제어 명령을 송신하기 위한 입력(12)을 포함하는 것을 특징으로 하는, 디바이스.
  15. 제 10항 내지 제 14항 중 어느 한 항에 있어서, 상기 출력 신호의 신호 에너지 및/또는 상기 출력 신호의 음향 에코(AE) 에너지와 상기 명령 신호(BS)의 신호 에너지 사이의 비율을 결정하기 위한 수단(5, 13, 16)을 특징으로 하는, 디바이스.
KR1020027009554A 2000-11-27 2001-11-19 음향 출력 디바이스를 포함하는 유닛의 제어 방법 Ceased KR20020071966A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE10058786.0 2000-11-27
DE10058786A DE10058786A1 (de) 2000-11-27 2000-11-27 Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
PCT/EP2001/013468 WO2002043049A1 (de) 2000-11-27 2001-11-19 Verfahren zur steuerung eines eine akustische ausgabeeinrichtung aufweisenden geräts

Publications (1)

Publication Number Publication Date
KR20020071966A true KR20020071966A (ko) 2002-09-13

Family

ID=7664796

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027009554A Ceased KR20020071966A (ko) 2000-11-27 2001-11-19 음향 출력 디바이스를 포함하는 유닛의 제어 방법

Country Status (7)

Country Link
US (1) US20030138118A1 (ko)
EP (1) EP1340224A1 (ko)
JP (1) JP2004514926A (ko)
KR (1) KR20020071966A (ko)
CN (1) CN1216364C (ko)
DE (1) DE10058786A1 (ko)
WO (1) WO2002043049A1 (ko)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050010927A (ko) * 2002-06-19 2005-01-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 신호 처리 장치
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
GB2394589B (en) * 2002-10-25 2005-05-25 Motorola Inc Speech recognition device and method
US8607281B2 (en) * 2006-09-07 2013-12-10 Porto Vinci Ltd. Limited Liability Company Control of data presentation in multiple zones using a wireless home entertainment hub
US9319741B2 (en) 2006-09-07 2016-04-19 Rateze Remote Mgmt Llc Finding devices in an entertainment system
US8214219B2 (en) * 2006-09-15 2012-07-03 Volkswagen Of America, Inc. Speech communications system for a vehicle and method of operating a speech communications system for a vehicle
WO2008095167A2 (en) 2007-02-01 2008-08-07 Personics Holdings Inc. Method and device for audio recording
JP5380777B2 (ja) * 2007-02-21 2014-01-08 ヤマハ株式会社 音声会議装置
US11317202B2 (en) 2007-04-13 2022-04-26 Staton Techiya, Llc Method and device for voice operated control
US10009677B2 (en) 2007-07-09 2018-06-26 Staton Techiya, Llc Methods and mechanisms for inflation
US9129291B2 (en) 2008-09-22 2015-09-08 Personics Holdings, Llc Personalized sound management and method
US12349097B2 (en) 2010-12-30 2025-07-01 St Famtech, Llc Information processing using a population of data acquisition devices
KR101590332B1 (ko) 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
KR101987255B1 (ko) * 2012-08-20 2019-06-11 엘지이노텍 주식회사 음성 인식 장치 및 이의 음성 인식 방법
US9922646B1 (en) 2012-09-21 2018-03-20 Amazon Technologies, Inc. Identifying a location of a voice-input device
CN102945672B (zh) * 2012-09-29 2013-10-16 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
US9165566B2 (en) 2013-01-24 2015-10-20 Microsoft Technology Licensing, Llc Indefinite speech inputs
WO2014122191A1 (en) 2013-02-05 2014-08-14 Contour Design, Inc. Improved pointing device
DE102013012453B3 (de) * 2013-07-26 2014-10-16 Audi Ag Verfahren zum Betreiben eines Infotainment-Systems eines Kraftwagens und Infotainment-System für einen Kraftwagen
US9167082B2 (en) 2013-09-22 2015-10-20 Steven Wayne Goldstein Methods and systems for voice augmented caller ID / ring tone alias
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
KR102338041B1 (ko) * 2014-09-29 2021-12-10 현대모비스 주식회사 음성 인식 장치 및 방법
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
CN104505092B (zh) * 2014-12-10 2017-12-22 广东美的制冷设备有限公司 空调器语音控制方法和系统
US10031591B2 (en) 2015-05-08 2018-07-24 Contour Design, Inc. Pointing device bracket assembly and system
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
CN106297837A (zh) * 2016-08-05 2017-01-04 易晓阳 一种语音控制音乐本地播放方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106409294B (zh) * 2016-10-18 2019-07-16 广州视源电子科技股份有限公司 防止语音命令误识别的方法和装置
SE545355C2 (en) 2016-11-11 2023-07-18 Contour Innovations Llc Inner-sensor pointing device systems
CN106796790B (zh) * 2016-11-16 2020-11-10 深圳达闼科技控股有限公司 机器人语音指令识别的方法及相关机器人装置
US10079015B1 (en) 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
KR102398390B1 (ko) 2017-03-22 2022-05-16 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN110678922A (zh) 2017-12-06 2020-01-10 谷歌有限责任公司 闪避和擦除来自附近设备的音频
JP6929811B2 (ja) * 2018-03-13 2021-09-01 Tvs Regza株式会社 音声対話端末、および音声対話端末制御方法
CN109658930B (zh) * 2018-12-19 2021-05-18 Oppo广东移动通信有限公司 语音信号处理方法、电子装置及计算机可读存储介质
CN114603559A (zh) * 2019-01-04 2022-06-10 上海阿科伯特机器人有限公司 移动机器人的控制方法、装置、移动机器人及存储介质
US11373686B1 (en) * 2019-12-23 2022-06-28 Gopro, Inc. Systems and methods for removing commands from sound recordings
FR3109050B1 (fr) * 2020-04-01 2022-03-04 Sagemcom Broadband Sas Réduction de la consommation électrique d’un équipement de restitution audio
CN112413859B (zh) * 2020-11-24 2021-11-16 珠海格力电器股份有限公司 空调器控制方法、装置、空调器及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2150174A5 (ko) * 1971-08-18 1973-03-30 Dreyfus Jean
US4378603A (en) * 1980-12-23 1983-03-29 Motorola, Inc. Radiotelephone with hands-free operation
US4712231A (en) * 1984-04-06 1987-12-08 Shure Brothers, Inc. Teleconference system
JPS63171071A (ja) * 1987-01-08 1988-07-14 Matsushita Commun Ind Co Ltd 音声制御装置
US5267323A (en) * 1989-12-29 1993-11-30 Pioneer Electronic Corporation Voice-operated remote control system
DE4009900A1 (de) * 1990-03-20 1991-11-07 Blaupunkt Werke Gmbh Kraftfahrzeugkommunikationszentrale
JPH07109560B2 (ja) * 1990-11-30 1995-11-22 富士通テン株式会社 音声認識装置
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
US5633936A (en) * 1995-01-09 1997-05-27 Texas Instruments Incorporated Method and apparatus for detecting a near-end speech signal
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
EP0810502A1 (de) * 1996-05-30 1997-12-03 DIEHL GMBH & CO. Steuereinheit für eine Heizungsanlage
DE19712632A1 (de) * 1997-03-26 1998-10-01 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Sprachfernsteuerung von Geräten
DE60032982T2 (de) * 1999-09-13 2007-11-15 Matsushita Electric Industrial Co., Ltd., Kadoma Spracherkennung zur Steuerung eines Geräts

Also Published As

Publication number Publication date
CN1216364C (zh) 2005-08-24
JP2004514926A (ja) 2004-05-20
WO2002043049A1 (de) 2002-05-30
DE10058786A1 (de) 2002-06-13
EP1340224A1 (de) 2003-09-03
CN1397063A (zh) 2003-02-12
US20030138118A1 (en) 2003-07-24

Similar Documents

Publication Publication Date Title
KR20020071966A (ko) 음향 출력 디바이스를 포함하는 유닛의 제어 방법
EP1556857B1 (en) Controlling an apparatus based on speech
CN114080589B (zh) 自动主动降噪(anr)控制以改善用户交互
US7536212B2 (en) Communication system using short range radio communication headset
US8666750B2 (en) Voice control system
EP2434482B1 (en) Real-time transcription correction system
US20060247927A1 (en) Controlling an output while receiving a user input
US20080249779A1 (en) Speech dialog system
GB2375258A (en) Real-time transcription correction system
KR100556365B1 (ko) 음성 인식장치 및 방법
WO2003107327A1 (en) Controlling an apparatus based on speech
US5054078A (en) Method and apparatus to suspend speech
JP2001195085A (ja) 音声認識用オーディオキャンセル装置
CN113314121A (zh) 无声语音识别方法、装置、介质、耳机及电子设备
JPS63171071A (ja) 音声制御装置
KR20060020363A (ko) 음성 인식 장치 및 방법
JP4765394B2 (ja) 音声対話装置
US20260001402A1 (en) System and method for automatic attenuation of entertainment audio based on background audio
CN113766383B (zh) 一种控制耳机静音的方法和装置
CA2520594C (en) Voice transcription system with voice playback and silence compression
JP2019020475A (ja) 音声認識装置、音声認識方法
JPH11298382A (ja) ハンズフリー装置
CN112328201A (zh) 音频路径切换方法
JPS63209296A (ja) 音声認識制御装置
JPH10190815A (ja) 音声切換装置

Legal Events

Date Code Title Description
PA0105 International application

St.27 status event code: A-0-1-A10-A15-nap-PA0105

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

A201 Request for examination
P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

E601 Decision to refuse application
PE0601 Decision on rejection of patent

St.27 status event code: N-2-6-B10-B15-exm-PE0601

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

PN2301 Change of applicant

St.27 status event code: A-3-3-R10-R13-asn-PN2301

St.27 status event code: A-3-3-R10-R11-asn-PN2301

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000

R18 Changes to party contact information recorded

Free format text: ST27 STATUS EVENT CODE: A-3-3-R10-R18-OTH-X000 (AS PROVIDED BY THE NATIONAL OFFICE)

R18-X000 Changes to party contact information recorded

St.27 status event code: A-3-3-R10-R18-oth-X000