KR20200070110A

KR20200070110A - 복수 오디오 스트림의 공간 위치 변경

Info

Publication number: KR20200070110A
Application number: KR1020190158930A
Authority: KR
Inventors: 웡 후 심; 텍 치 리
Original assignee: 크리에이티브 테크놀로지 엘티디
Priority date: 2018-12-07
Filing date: 2019-12-03
Publication date: 2020-06-17
Anticipated expiration: 2039-12-03
Also published as: US10966046B2; JP2020108143A; KR102792863B1; JP7705647B2; TWI808277B; US20200186954A1; TW202028929A; CN111294724B; CN111294724A; EP3664477A1; SG10201911051PA; EP3664477B1

Abstract

오디오 렌더링 시스템은 오디오 입력 신호와 바람직하게는 룸 응답을 포함하는 개인화된 공간 오디오 전달 함수를 조합하는 프로세서를 포함한다. 개인화된 공간 오디오 전달 함수는 복수의 개인에 대한 인이어 마이크로폰 측정으로부터 얻어진 복수의 후보 전달 함수 데이터세트를 갖는 데이터베이스로부터 선택된다. 대안으로, 개인화된 전달 함수 데이터세트는 청자의 실제 인-이어 측정으로부터 얻어진다. 전경 및 배경 위치가 지정되고 전경 및 배경 방향 및 거리에 대해 선택된 데이터세트로부터의 전달 함수 쌍과 매칭된다. 입력 오디오, 가령, 음성 및 음악의 두 개의 채널이 처리된다. 음성 통신, 가령, 음성 콜이 수락될 때 렌더링되는 음악은, 개인화된 전달 함수를 이용해, 전경에서 배경 공간 오디오 위치에 대응하는 배경 채널로 이동된다. 동시에 음성 콜이 전경 채널로 전환된다.

Description

복수 오디오 스트림의 공간 위치 변경{SPATIAL REPOSITIONING OF MULTIPLE AUDIO STREAMS}

관련 출원의 교차 참조

본 출원은 2018년01월07일자 미국 특허 출원 번호 62/614,482, 발명의 명칭 "METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING", 2015년12월31일자 싱가포르 특허 출원 번호 10201510822Y 발명의 명칭 "A METHOD FOR GENERATING A CUSTOMIZED/PERSONALIZED HEAD RELATED TRANSFER FUNCTION"를 기초로 우선권 주장하는 2016년12월28일자 국제 출원 번호 PCT/SG2016/050621, 발명의 명칭 "A METHOD FOR GENERATING A CUSTOMIZED/PERSONALIZED HEAD RELATED TRANSFER FUNCTION"의 전체 내용을 참조로서 포함한다. 본 출원은 2018년 05월 02일자 미국 특허 출원 번호 15/969,767 발명의 명칭 "SYSTEM 및 A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE", 및 2018년 09월 19일자 미국 특허 출원 번호 16/136,211, 발명의 명칭 "METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING"의 전체 내용도 참조로서 더 포함한다.

1. 발명의 기술분야

본 발명은 헤드폰을 통해 렌더링되기 위한 오디오를 생성하기 위한 방법 및 시스템과 관련된다. 더 구체적으로, 본 발명은 오디오 스트림과 함께 공간 오디오 위치와 연관된 룸 임펄스 응답 정보(room impulse response)를 갖는 개인화된 공간 오디오 전달 함수의 데이터베이스를 이용하고 개인화된 공간 오디오 전달 함수를 이용해 공간 오디오 위치를 생성하여, 헤드폰을 통한 더 실감나는 오디오 렌더링을 만드는 것과 관련된다.

2. 관련 분야에 대한 설명

사용자는 종종 콜이 착신될 때 자신의 전화기에서 음악을 청취하는 중이고 음악이 중단되지 않고 계속되기를 원할 수 있다. 불행히도, 대부분의 전화기는 콜이 수락될 때 음악을 음소거(mute)하도록 설정되어 있다. 콜이 수락될 때 음악 또는 그 밖의 다른 오디오가 중단되지 않은 채 계속되게 하고 도한 사용자가 두 개의 상이한 오디오 소스를 구별할 수 있게 하는 개선된 시스템이 필요하다.

이를 위해, 본 발명은 다양한 실시예에서 바이노럴 신호(binaural signal)를 헤드폰으로 제공하도록 구성된 프로세서 및 시스템을 제공하며, 시스템은 제1 위치, 가령, 전경 위치에서 제1 입력 오디오 채널에 오디오를 배치하기 위한 수단, 및 제2 위치, 가령, 배경 위치에서 제2 입력 오디오 채널에 오디오를 배치하기 위한 수단을 포함한다.

본 발명의 실시예들 중 일부에서, 시스템은 적어도 두 개의 오디오 스트림과 함께 공간 오디오 위치와 연관된 룸 임펄스 응답 정보(가령, HRTF 또는 BRIR)를 갖는 개인화된 공간 오디오 전달 함수의 데이터베이스를 포함한다. 적어도 두 개의 위치에 대한 개인화된 BRIR이 두 개의 입력 오디오 스트림과 함께 사용되어 전경 공간 오디오 소스 및 배경 공간 오디오 소스를 확립하여 청자를 위한 헤드폰을 통한 몰입 경험을 제공할 수 있다.

도 1은 본 발명의 일부 실시예에 따라 처리되는 오디오에 대한 공간 오디오 위치를 도시하는 다이어그램이다.
도 2는 본 발명의 일부 실시예에 따라 상이한 공간 오디오 위치에서 오디오 소스, 가령, 복수의 상이한 유형의 미디어 및 음성 통신 중 임의의 것을 제공하기 위한 시스템을 도시하는 다이어그램이다.
도 3은 본 발명의 실시예에 따라 커스텀화하고, 커스터화하기 위한 청자 속성을 획득하며, 청자에 ㄷ대한 커스텀화된 BRIR을 선택하고, BRIR에 의해 수정된 오디오를 렌더링하기 위해 BRIR를 생성하기 위한 시스템을 나타내는 다이어그램이다.

본 발명의 바람직한 실시예가 상세히 언급될 것이다. 바람직한 실시예가 도면에 도시되어 있다. 본 발명이 이들 바람직한 실시예와 함께 기재될 것이지만, 본 발명을 이러한 바람직한 실시예에 한정하려는 의도는 없음이 이해될 것이다. 반대로, 청구범위에 의해 정의되는 본 발명의 사상 및 범위 내에 포함될 수 있는 대안예, 수정예, 및 균등예를 포함하는 것이 의도이다. 이하의 기재에서, 많은 특정한 세부사항이 제공되어 본 발명의 완전한 이해를 제공할 수 있다. 본 발명은 이들 특정한 세부사항 중 일부 또는 전부 없이 실시될 수 있다. 한편, 본 발명을 불필요하게 모호하게 하지 않기 위해 잘 알려진 수단은 상세히 기재되어 있지 않다.

도면 전체에서 유사한 번호가 유사한 부분을 지칭한다. 본 명세서에 도시되고 기재된 다양한 도면이 본 발명의 다양한 특징을 도시하기 위해 사용된다. 특정 특징이 하나의 도면에는 도시되어 있고 다른 도면에 도시되어 있지 않는 경우, 달리 지시되거나 구조적으로 상기 특징을 포함하지 못하는 경우를 제외하고, 이들 특징은 마치 상기 도면에 완전히 도시되어 있는 것처럼 상기 다른 도면으로 나타내어지는 실시예에 포함되도록 적응될 수 있음이 자명할 것이다. 달리 지시되지 않는 한, 도면은 반드시 실제 비율로 그려진 것은 아니다. 도면에 제공되는 어떠한 치수도 본 발명의 범위로 한정되지 않으며 예시에 불과하다.

일반적으로 양 귀와 관련된 또는 양 귀와 함께 사용되는 기법을 지칭하는 바이노럴(binaural) 기법이 사용자가 오디오를 3차원장으로 지각할 수 있게 한다. 이는 일부 실시예에서, BRIR(Binaural Room Impulse Response) 및 이의 관련 BRTF(Binaural Room Transfer Function)의 결정 및 이용을 통해 이뤄진다. BRIR은 확성기로부터의 음파와 청자의 귀, 머리 및 몸통뿐 아니라 방 안의 벽 및 그 밖의 다른 물체의 상호작용을 시뮬레이션한다. 대안으로, 일부 실시예에서, HRTF(Head Related Transfer Function)가 사용된다. HRTF는 무향 환경에서의 상호작용을 나타내는 임펄스 응답에 대응하는 주파수 영역에서의 전달 함수이다. 즉, 여기서 임펄스 응답은 청자 귀, 머리 및 몸통과의 소리 상호작용을 나타낸다.

HRTF 또는 BRTF를 결정하기 위한 알려진 방법에 따르면, 실제 또는 더미 머리 및 바이노럴 마이크로폰이 사용되어 실제 방 안의 복수의 확성기 위치 각각에 대한 스테레오 임펄스 응답(IR)을 기록할 수 있다. 즉, 각각의 귀에 대해 하나씩, 한 쌍의 임펄스 응답이 각각의 위치에 대해 생성된다. 이 쌍은 BRIR이라 지칭된다. 그 후 이들 BRIR을 이용해 음악 트랙 또는 그 밖의 다른 오디오 스트림이 컨볼루션(필터링)될 수 있고, 결과가 함께 혼합되며 헤드폰을 통해 재생될 수 있다. 올바른 이퀄라이제이션(equalization)이 적용되는 경우, 음악의 채널이 BRIR이 기록된 방 안의 스피커 위치에서 재생되는 것처럼 소리날 것이다.

종종 사용자는 전화 콜이 착신될 때 자신의 전화기 상에서 음악을 듣고 있는 중이며 콜이 수락될 때 음악이 중단되지 않고 계속되기를 바랄 수 있다. 음소거 기능을 호출하기보다, 두 개의 개별 오디오 신호, 즉, 전화 콜과 음악이 동일한 채널(들)로 공급될 수 있다. 그러나 일반적으로 인간은 동일한 방향으로부터 오는 음원을 구별하는 데 어려움을 가진다. 이 문제를 해결하기 위해 그리고 하나의 실시예에 따라, 콜이 착신될 때, 음악이 제1 위치로부터 제2 위치의 스피커 또는 채널, 가령, 배경 위치로 전향된다, 즉, 음악과 음성 통신이 상이한 위치에 놓이게 된다. 불행히도, 멀티-스피커 셋업으로 사용될 때, 렌더링된 오디오 스트림을 위치설정하는 이들 방법이 음원의 분리를 가능하게 하지만, 오늘날의 음성 통신의 대부분의 퍼센티지가 모바일 전화기를 통해 착신되고, 이는 일반적으로 멀티채널 스피커 셋업으로 연결되지 않는다. 덧붙여, 멀티채널 셋업과 함께 사용되는 이러한 방법은, 확성기의 물리적 위치에 따라 완전히 정렬되지 않은 위치에 대해 패닝함으로써 오디오 음원이 지정될 때, 때때로 최적화되지 않은 결과를 제공한다. 이는 분분적으로, 지각된 오디오 위치를 멀티채널 스피커 위치들 사이 위치로 이동시키기 위한 전통적인 패닝 방법에 의해 이러한 위치가 근사될 때 청자가 공간 오디오 위치를 정밀하게 찾는 데 어렵기 때문이다.

본 발명은 가령, HRTF를 이용함으로써 오디오에 미치는 적어도 개인의 머리, 몸통, 및 귀의 영향을 적어도 시뮬레이션하는 전달 함수를 이용해 가상화된 위치를 이용해, 음성 콜 및 음악을 상이한 공간 오디오 위치로 자동으로 위치설정함으로써, 헤드폰을 통한 음성 통신의 이러한 문제를 해결한다. 더 바람직하게는, 오디오에 미치는 방의 영향이 BRIR로 오디오 스트림을 처리함으로써 고려된다. 그러나 비-개인화된 상용화된 BRIR 데이터세트가 지각되는 음원의 대부분의 사용자에게 형편없는 방향감과 심지어 형편없는 거리감을 준다. 이는 음원들을 구별하는 데 어려움을 초래할 수 있다.

이들 추가 문제를 해결하기 위해, 일부 실시예에서 본 발명은 개인화된 BRIR(개인화된 BRIR)을 이용한다. 하나의 실시예에서, 마이크로폰을 청자의 귀에 삽입하고 하나의 레코딩 세션으로 임펄스 응답을 기록함으로써, 개인화된 HRTF 또는 BRIR가 생성된다. 이는 모바일 전화기 또는 그 밖의 다른 오디오 유닛의 판매 시 포함되기에 불편할 수 있고 시간 소모적인 프로세스이다. 다른 실시예에서, 각각의 개별 청자에 대한 이미지-기반 속성의 추출로부터 얻어진 개인화된 BRIR(또는 연관된 BRTF)를 이용해 음성 및 음악 음원이 개별적인 제1(가령, 전경(foreground)) 및 제2(가령, 배경(background)) 위치에서 찾아지며, 상기 속성은 복수의 측정된 개인에 대한 개인화된 공간 오디오 전달 함수의 후보 풀을 갖는 데이터베이스로부터 적절한 개인화된 BRIR를 결정하도록 사용된다. 적어도 두 개의 개별 공간 오디오 위치 각각에 대응하는 개인화된 BRIR은 제1 및 제2 오디오 스트림을 두 개의 상이한 공간 오디오 위치로 지향시키는 사용되는 것이 바람직하다.

또한, 청가에 의해 두 음원 중 하나가 더 가까이 있고 또 다른 하나는 더 멀리 있다고 결정될 때 인간은 두 음원을 더 잘 구별할 수 있음이 알려져 있기 때문에, 일부 실시예에서, 추출된 이미지-기반 속성을 이용해 추출된 개인화된 BRIR을 이용해, 음악이 배경 공간 위치에서 먼 곳에 그리고 음성은 더 가까운 거리에 자동으로 위치한다.

하나의 또 다른 실시예에서, 추출된 이미지-기반 속성이 모바일 전화기에 의해 생성된다. 또 다른 실시예에서, 음성 콜이 더 낮은 우선순위를 가진다고 결정되면, 청자로부터의 제어 신호, 가령, 스위치를 활성화함으로써 생성된 제어 신호를 수신하면, 음성 콜이 전경에서 배경으로 전향되고 음악은 전경으로 전향된다. 또 다른 실시예에서, 음성 콜이 더 낮은 우선순위를 가진다고 결정되고 청자로부터의 제어 신호가 수신되면, 동일한 방향에 대한 상이한 거리에 대응하는 개인화된 BRIR를 이용해, 음성 콜의 겉보기 거리가 증가되고 음악의 겉보기 거리가 감소된다.

본 명세서의 실시예 중 대부분이 헤드폰에서 사용되는 개인화된 BRIR을 기재하지만, 기재된 음성 통신과 함께 미디어 스트림을 위치설정하기 위한 기법이, 도 3과 관련하여 기재된 단계에 따라 사용자에게 커스텀화된 임의의 적절한 전달 함수로 확장될 수 있다.

본 발명의 범위가 각각의 제1 오디오 소스 및 음성 통신을 사용자 주위의 임의의 위치에 놓는 것을 포함하도록 의도된다. 또한, 본 명세서에서의 전경 및 배경의 사용이 창자 앞 또는 청자 뒤의 각각의 영역으로 한정되지 않는다. 오히려, 전경은 두 개의 개별 위치 중 더 우세한 또는 중요한 것을 지칭하고, 배경은 개별 위치 중 덜 우세한 것을 지칭하는 것으로 해석될 것이다. 또한, 본 발명의 범위는 본 명세서에 기재된 기법에 따라 HRTF 또는 BRIR을 사용하여 제1 오디오 스트림을 제1 위치로, 제2 오디오 스트림을 제2 공간 오디오 위치로 보내는 매우 일반적인 의미로 발생한다는 점에 유의해야 한다. 또한, 본 발명의 일부 실시예는, 전경 위치에 더 가까운 거리를 할당하고 배경 위치에 더 먼 거리를 할당하는 개신 신호의 감쇠를 동시에 적용하는 전경 또는 배경 위치에 대한 사용자 주위의 임의의 방향 위치의 선택으로 확장될 수 있다. 가장 가까운 형태로, 전경 및 배경 위치를 나타내기 위해 두 쌍의 BRIR을 적용하는 필터링 회로가 먼저 본 발명의 실시예에 따라 도시될 것이다.

도 1은 본 발명의 일부 실시예에 따라 처리되는 오디오를 위한 공간 오디오 위치를 도시하는 다이어그램이다. 우선, 청자(105)가 헤드폰(103)을 통해 제1 오디오 신호, 가령, 음악을 청취하는 중일 수 있다. 제1 오디오 스트림에 적용되는 BRIR을 이용해, 청자는 제1 오디오 스트림이 제1 오디오 위치(102)로부터 오는 중임을 감지한다. 일부 실시예에서, 이는 전경 위치이다. 하나의 실시예에서, 한 기법이 이 전경 위치를 청자(105)에 대한 0도 위치에 놓는다. 트리거링 이벤트가 발생할 때, 가령, 전화 콜이 수신될 때, 제2 스트림(가령, 음성 통신 또는 전화 콜)이 제1 위치(102)로 라우팅되고 제1 오디오 신호가 제2 위치(104)로 라우팅된다. 나타난 실시예에서, 이 제2 위치는 200도 위치에 놓이며, 이 위치는, 일부 실시예에서, 덜 중요한 또는 배경 위치라고 기재된다. 200도 위치는 단지 비제한적 예시로서 선택된다. 이 제2 위치에 오디오 스트림을 배치하는 것이 관심 청자에 ㄷ방위대한 이러한 제2 위에 대한 고도 및 거리에 대응하는 BRIR(또는 BRTF)를 이용해 이뤄지는 것이 바람직하다.

하나의 실시예에서, 제1 오디오 스트림의 제2 위치(가령, 배경)로의 전환이 제1 오디오 스트림이 중간 공간 위치를 거쳐 이동 중이라는 어떠한 감각도 제공하지 않고 갑작스럽게 발생한다. 이는 경로(110)로 그래픽으로 도시되어 있으며, 어떠한 중간 공간 위치도 없음을 보여준다. 또 다른 실시예에서, 오디오는 전경 위치(102)로부터 배경 위치(104)로의 적접 또는 대안으로 호 형태로의 이동감을 제공하기 위한 짧은 과도 시간 주기 동안 중간 포인트(112 및 114)에 위치한다. 바람직한 실시예에서, 중간 위치(112 및 114)에 대한 BRIR가 오디오 스트림을 공간적으로 위치설정하는 데 사용된다. 대안 실시예에서, 전경 및 배경 위치에 대한 BRIR을 이용하고 전경 위치와 배경 위치에 대응하는 이들 가상 확성기들 간에 패닝(panning)함으로써 이동감이 달성된다. 일부 실시예에서, 사용자는 음성 통신 (예를 들어, 전화 콜)이 우선 순위 상태를 가질 자격이 없다는 것을 인식하고 전화 콜을 제2 위치(예를 들어, 배경 위치) 또는 심지어 사용자가 선택한 제3 위치로 전달하고 음악을 다시 제1 위치(예를 들어, 전경)로 되 돌리는 것을 선택할 수 있다. 하나의 실시예에서, 이는 음악에 대응하는 오디오 스트림을 전경(제1) 위치(102)로 뒤 전송하고 음성 통신을 배경 위치(104)로 전송함으로써 수행된다. 또 다른 실시예에서, 음성 콜을 청자의 머리(105)에서 더 멀게 만들고 음악을 더 가까이 둠으로써 이러한 우선순위의 재순위화(rerank)가 수행된다. 이는 상이한 위치에서 캡처된 청자에 대한 새로운 HRTF 또는 BRTF를 할당함으로써 수행되고, 새로운 거리를 나타내기 위해 캡처된 측정치로부터 계산되거나 보간되는 것이 바람직하다. 예를 들어, 배경 위치(104)로부터 음악의 우선순위를 증가시키기 위해, 겉보기 거리가 공간 오디오 위치(118 또는 116)로 감소될 수 있다. 바람직하게는, 새로운 HRTF 또는 BRTF로 음악 오디오 스트림을 처리함으로써 이뤄진 이 감소된 거리가, 음성 통신 신호에 비해, 음악의 볼륨을 증가시킨다. 일부 실시예에서, 음성 신호는 캡처된 HRTF/BRTF 값들의 선택으로부터 또는 보간된 것으로부터 청자 머리(105)로부터의 거리가 동시에 증가될 수 있다. 보간/계산은 셋 이상의 포인트를 사용하여 수행될 수 있다. 예를 들어, 두개의 선(AB 및 CD)의 교차 점을 얻기 위해 보간/계산은 점 A, B, C 및 D를 필요로 할 수 있다.

대안으로, 음성 통신을 생성하는 공간 오디오 위치가 재순위화 단계 동안 정지 위치로 유지되거나 증가될 수 있다. 일부 실시예에서, 2개의 개별 오디오 스트림은 동일한 중요도를 누린다.

또 다른 실시예에서, 사용자는 사용자 인터페이스로부터 스트림 중 적어도 하나에 대해 공간 오디오 위치를 선택할 수 있다, 더 바람직하게는, 모든 스트림에 대한 단일 또는 복수의 위치를 선택할 수 있다.

도 2는 본 발명의 일부 실시예에 따라 상이한 공간 오디오 위치에서의 오디오 소스와 음성 통신을 시뮬레이션하기 위한 시스템을 도시하는 다이어그램이다. 도 2는 제1 공간 오디오 위치에 대해 개별적인 필터 쌍(즉, 필터(207, 208))을 그리고 제2 공간 오디오 위치에 대해 필터(209, 210)를 이용함으로써, 공간 오디오 위치설정 시스템에 들어가는 일반적으로 2개의 상이한 스트림(202 및 204)을 도시한다. 헤드폰(216)의 왼쪽 헤드폰 컵에 대한 신호가 가산기(214)에 더해지고 오른쪽 헤드폰 컵에 대한 필터링된 결과가 마찬가지로 가산기(215)에서 더해지기 전에 이득(222-225)이 모든 필터링된 스트림에 적용될 수 있다. 하드웨어 모듈의 이 모음이 관련된 기본 원리를 보여주지만, 도 3에 도시된 바와 같이, 그 밖의 다른 실시예가 메모리, 가령, 오디오 렌더링 모듈(730)(가령, 모바일 전화기)의 메모리(732)에 저장된 BRRI 또는 HRTF를 이용한다. 일부 실시예에서, 개인에 대한 HRTF에 추가로 룸 응답을 갖는 전달 함수를 선택함으로써 이들 공간 오디오 위치가 생성된다는 사실에 의해, 청자는 제1 공간 오디오 위치와 제2 공간 오디오 위치를 구별하는 데 도움을 받는다. 바람직한 실시예에서, 청자에 대한 커스텀된 BRIR을 이용해 제1 및 제2 위치가 결정된다.

헤드폰을 통해 렌더링하기 위한 시스템 및 방법은 직접적인 인-이어(in-ear) 마이크로폰 측정에 의해 또는 대안으로 인-이어 마이크로폰 측정이 사용되지 않는 경우 개인화된 BRIR/HRIR 데이터세트에 의해 HRTF 또는 BRTF가 청자에 대해 개인화될 때 가장 잘 동작한다. 본 발명의 바람직한 실시예에 따르면, 도 3에 일반적으로 도시된 바와 같이, 사용자로부터 이미지-기반 속성을 추출하는 것 및 BRIR의 후보 풀로부터 적절한 BRIR을 결정하는 것을 포함하는, BRIR을 생성하기 위한 하나의 커스텀 방법이 사용된다. 더 상세히, 도 3은 컴스텀 사용을 위해 HRTF를 생성하고, 커스텀화를 위해 청자 속성을 획득하며, 청자에 대한 커스텀화된 HRTF를 선택하고, 상대적 사용자 머리 움직임에 따라 동작하도록 적응된 회전 필터를 제공하며, 본 발명의 실시예에 따라 BRIR에 의해 수정된 오디오를 렌더링하기 위한 시스템을 도시한다. 추출 디바이스(702)는 청자의 오디오 관련 물리적 속성을 식별하고 추출하도록 구성된 디바이스이다. 블록(702)이 바람직한 실시예에서 이들 속성(가령, 귀의 높이)을 직접 측정하도록 구성될 수 있지만, 적절한 측정치가 사용자의 하나 이상의 귀를 포함하도록 사용자로부터 취해진 이미지로부터 추출된다. 이들 속성을 추출하는 데 필요한 처리는 추출 디바이스(702)에서 발생하는 것이 바람직하지만 그 밖의 다른 곳에서도 발생할 수 있다. 비-제한적 예를 들면, 이미지 센서(704)로부터의 이미지를 수신한 후, 원격 서버(710)에서, 속성이 프로세서에 의해 추출될 수 있다.

바람직한 실시예에서, 이미지 센서(704)는 사용자의 귀의 이미지를 획득하고 프로세서(706)는 사용자에 대한 적절한 속성을 추출하고 이를 원격 서버(710)로 전송하도록 구성된다. 예를 들어, 하나의 실시예에서, 액티브 형태 모델(Active Shape Model)이 귓바퀴 이미지에서 랜드마크를 식별하고 랜드마크 및 이의 기하학적 관계 및 선형 거리를 이용해 저장된 BRIR 데이터세트의 모음, 즉, BRIR 데이터세트의 후보 풀로부터 커스텀화된 BRIR를 생성하기 위해 관련된 사용자에 대한 속성을 식별하는 데 사용될 수 있다. 또 다른 실시예에서, RGT 모델(Regression Tree Model)이 속성을 추출하는 데 사용된다. 또 다른 실시예에서, 기계 학습, 가령, 신경망 및 그 밖의 다른 형태의 인공 지능(AI)이 속성을 추출하는 데 사용된다. 신경망의 하나의 예시가 컨볼루션 신경망(Convolutional neural network)이다. 새로운 청자의 고유 물리 속성을 식별하기 위한 몇 가지 방법의 완전한 설명이 본 명세서에 참조로서 완전히 포함되는, 2016년12월28일자 출원 번호 PCT/SG2016/050621, 발명의 명칭 "A Method for Generating a customized Personalized Head Related Transfer Function"에 기재되어 있다.

바람직하게는, 원격 서버(710)가 네트워크, 가령, 인터넷을 통해 액세스 가능하다. 바람직하게는, 원격 서버는 추출 디바이스(702)에서 추출된 물리적 속성 또는 그 밖의 다른 이미지 관련 속성을 이용해 가장 잘 매칭되는 BRIR 데이터베이스를 결정하기 위해 메모리(714)를 액세스하는 선택 프로세서(710)를 포함한다. 바람직하게는, 선택 프로세서(712)는 복수의 BRIR 데이터세트를 갖는 메모리(714)를 액세스한다. 즉, 후보 풀 내 각각의 데이터세트가 방위각 및 고도, 그리고 아마도 또한 머리 기울임의 적절한 각도에서의 각각의 포인트에 대한 BRIR 쌍을 가질 것이다. 예를 들어, 방위각 및 고도의 3도마다 측정이 이뤄져서 BRIR의 후보 풀을 구성하는 샘플링된 개인에 대한 BRIR 데이터세트를 생성할 수 있다.

앞서 언급된 바와 같이, 이들은 적당한 크기의 모집단(즉, 100명 초과의 개인)에 대해 인 이어 마이크로폰에 의한 측정에 의해 얻어지는 것이 바람직하지만, 각각의 BRIR 세트와 연관된 유사한 이미지 관련 속성와 함께 저장된 더 작은 개인 그룹으로 작업할 수 있다. 이들은 부분적으로 직접 측정에 의해 그리고 부분적으로 보간에 의해 생성되어, BRIR 쌍의 구면 격자(spherical grid)를 형성할 수 있다. 부분적으로 측정/부분적으로 보간된 격자를 이용하더라도, BRIR 데이터세트로부터의 하나의 점에 대한 적절한 BRIR 쌍을 식별하기 위해 적절한 방위각 및 고도 값이 사용되면, 격자 라인에 속하지 않는 추가 점이 보간될 수 있다. 예를 들어, 임의의 적절한 보간 방법이 사용될 수 있는데, 비제한적 예를 들면, 바람직하게는 주파수 영역에서의, 인접 선형 보간, 이중선형 보간 및 구면 삼중 보간이 있다.

하나의 실시예에서 메모리(714)에 저장된 BRIR 데이터세트 각각은 적어도 청자에 대한 전체 구면 격자를 포함한다. 이러한 경우, (청자 주위의 수평면 상의, 즉, 귀 높이에서의) 방위각 또는 고도의 임의의 각도가 음원의 배치를 위해 선택될 수 있다. 또 다른 실시예에서, BRIR 데이터세트가 더 제한되는데, 예를 들어, 기존 스테레오 셋업에 따르는(즉, 직선 0도 위치에 비해 +30도 및 -30도) 또는 완전한 구면 격자의 또 다른 서브셋에서, 멀티채널 셋업, 가령, 5.1 시스템 또는 7.1 시스템을 위한 스피커 배치 방 안 확성기 배치를 생성하기에 필요한 BRIR 쌍으로 제한된다.

HRIR은 머리-관련 임펄스 응답이다. 무향 조건 하에서 시간 영역에서 음원으로부터 수신자로의 소리의 전파를 완전히 기술한다. 포함하는 정보의 대부분이 측정되는 개인의 생리구조 및 인체계측과 관련된다. HRTF는 머리-관련 전달 함수이다. 이는 주파수 영역에서의 설명을 제외하고 HRIR과 동일하다. BRIR은 바이노럴 룸 임펄스 응답(binaural room impulse response)이다. 이는 방 안에서 측정되기 때문에 캡처된 특정 구성에 대한 룸 응답을 더 포함하는 것을 제외하고 HRIR과 동일하다. BRTF는 BRIR의 주파수-영역 버전이다. 본 명세서에서 BRIR가 BRTF와 쉽게 변환 가능하고, 마찬가지로 HRIR은 HRTF와 쉽게 변환 가능하기 때문에, 본 발명의 실시예는 본 명세서에 구체적으로 기재되지 않더라도 쉽게 변환 가능한 단계를 포함하는 것으로 의도된다. 따라서 예를 들어 발명의 설명이 또 다른 BRIR 데이터세트를 액세스하는 것을 언급할 때 또 다른 BRTF를 액세스하는 것이 포함됨을 이해할 것이다.

도 3은 메모리에 저장된 데이터에 대한 샘플 논리적 관계를 더 도시한다. 메모리는 컬럼(716)에서 복수의 개인에 대한 BRIR 데이터세트를 포함하는 것으로 도시된다(가령, HRTF DS1A, HRTF DS2A 등). 이들은 각각의 BRIR 데이터세트와 연관된 속성, 바람직하게는 이미지 관련 속성에 의해 인덱싱되고 액세스된다. 컬럼(715)에 나타난 연관된 속성이 새로운 청자 속성이 측정되고 컬럼(716, 717, 및 718)에 저장된 BRIR과 연관된 속성에 매칭되게 할 수 있다. 즉, 이들은 이들 컬럼에서 보이는 BRIR 데이터세트의 후보 풀로의 인덱스로서 역할 한다. 컬럼(717)은 기준 0점 위치에서의 저장된 BRIR를 지칭하며 BRIR 데이터세트의 나머지와 연관되고 청자 머리 회전이 모니터링되고 수용될 때 효율적인 저장 및 처리를 위한 회전 필터와 조합될 수 있다. 이 옵션의 추가 기재가 본 명세서에 그 전체가 참조로서 포함되는 2018년09월19일에 함께 출원된 출원 16/136,211, 발명의 명칭 "METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING"에 상세히 기재되어 있다.

일반적으로, BRIR(또는 HRTF) 데이터세트의 후보 풀을 액세스하는 한 가지 목적은 개인에 대한 커스텀화된 오디오 응답 특성(가령, BRIR 데이터세트)을 생성하는 것이다. 일부 실시예에서, 이들이 사용됨으로써, 입력 오디오 신호, 가령, 음성 통신 및 미디어 스트림을 처리하여, 앞서 기재된 바와 같이, 제1 위치 및 제2 위치와 연관된 공간 오디오의 정확한 지각을 위해 이들을 위치설정할 수 있다. 일부 실시예에서, 이 커스텀화된 오디오 응답 특성, 가령, 개인화된 BRIR이 이미지 관련 속성, 가령, 개인에 대한 생체측정 데이터를 추출하는 것을 포함한다. 예를 들어, 이 생체측정 데이터는 귓바퀴, 전체적인 개인의 귀, 머리 및/또는 어깨와 관련된 데이터를 포함할 수 있다. 추가 실시예에서, 처리 전략, 가령, (1) 복수 매칭, (2) 복수 인식기 유형, 및 (3) 클러스터 기반이 사용되어, (복수 적중이 도출되는 경우) 차후 조합되어 개인에 대한 커스텀화된 BRIR 데이터세트를 생성할 수 있는 중간 데이터세트를 생성할 수 있다. 이들은 가중 합 등의 방법을 이용함으로써 조합될 수 있다. 일부 경우, 단 하나의 매칭이 존재하는 경우 중간 결과를 조합할 필요가 없다. 하나의 실시예에서, 중간 데이터세트가 추출된 속성에 대한 (후보 풀로부터) 검색된 BRIR 데이터세트의 매칭의 정확성을 적어도 부분적으로 기초로 한다. 또 다른 실시예에서, 복수 인식기 매칭 단계가 사용되어, 프로세서가 생체측정 데이터에 대응하는 복수의 훈련 파라미터를 기초로 하나 이상의 데이터세트를 검색할 수 있다. 또 다른 실시예에서, 클러스터 기반 처리 전략이 사용되어, 추출된 데이터(가령, 생체측정 데이터)를 기초로 가능한 데이터세트가 클러스터링된다. 클러스터는 이미지로부터 추출된 데이터(가령, 생체측정)와 매칭되는 대응하는 BRIR 데이터세트와 모델을 형성하기 위해 클러스터링되거나 함께 그룹지어 지는 관계를 갖는 복수의 데이터세트를 포함한다.

본 발명의 일부 실시예에서, 2개 이상의 거리 구면이 저장된다. 이는 청자로부터의 2개의 상이한 거리에 대해 생성되는 구면 격자를 지칭한다. 하나의 실시예에서, 둘 이상의 상이한 구면 격자 거리 구에 대해 하나의 기준 위치 BRIR가 저장되고 연관된다. 또 다른 실시예에서 각각의 구면 격자가 적용 가능한 회전 필터와 함께 사용되기 위한 각자의 기준 BRIR을 가질 것이다. 선택 프로세서(712)가 사용되어, 메모리(714) 내 속성을 새로운 청자에 대한 추출 디바이스(702)로부터 수신된 추출된 속성과 매칭시킬 수 있다. 올바른 BRIR 데이터세트가 도출될 수 있도록 연관된 속성을 매칭시키기 위한 다양한 방법이 사용된다. 앞서 기재된 바와 같이, 이들은 복수-매칭 기반 처리 전략, 복수 인식기 처리 전략, 클러스터 기반 처리 전략 및 본 명세서에 참조로서 포함되는 2018년 05월 02일자 미국 특허 출원 번호 15/969,767, 발명의 명칭 "SYSTEM AND A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE"에 기재된 것에 의해 생체측정 데이터를 비교하는 단계를 포함한다. 컬럼(718)은 제2 거리에서 측정된 개인에 대한 BRIR 데이터세트의 세트를 지칭한다. 즉, 이 컬럼은 측정된 개인에 대해 기록된 제2 거리에서의 BRIR 데이터세트를 포스팅한다. 또 다른 예시를 들면, 컬럼(718)에서의 제1 BRIR 데이터세트가 1.0 m 내지 1.5 m에서 취해질 수 있고 반면에 컬럼(718)에서의 BRIR 데이터세트가 청자로부터 5 m에서 측정된 데이터세트를 지칭할 수 있다. 이상적으로, BRIR 데이터세트는 완전한 구면 격자를 형성하지만 본 발명 실시예는 완전 구면 격자의 임의의 그리고 모든 서브세트, 비제한적 예를 들면, 종래의 세트레오 세트의 BRIR 쌍을 포함하는 서브세트, 5.1 멀티채널 셋업, 7.1 멀티채널 셋업, 및 그 밖의 다른 모든 변형 및 방위각 및 고도의 매 3도 이하마다의 BRIR 쌍을 포함하는 구면 격자 및 밀도가 불규칙한 구면 격자의 서브세트에 적용된다. 예를 들어, 이는 청자 앞의 격자 점의 밀도가 청가 뒤보다 훨씬 높은 경우의 구면 격자를 포함할 수 있다. 덧붙여, 컬럼(716 및 718)의 내용의 배열이 측정 및 보간으로부터 도출된 것으로 저장된 BRIR 쌍뿐 아니라 전자를 회전 필터를 포함하는 BRIR로의 변환을 반영하는 BRIR 데이터세트를 생성함으로써 더 정제된 것에도 적용된다.

하나 이상의 매칭 또는 계산된 BRIR 데이터세트의 결정 후, 데이터세트는, 새로운 청자에 대해 매칭 또는 앞서 기재된 그 밖의 다른 기법에 의해 결정된 전체 BRIR 데이터세트 또는 선택된 공간화된 오디오 위치에 대응하는 서브세트의 저장을 위해, 오디오 렌더링 디바이스(730)로 전송된다. 그런 다음 오디오 렌더링 디바이스는 하나의 실시예에서 바람직한 방위각 또는 고도 위치에 대한 BRIR 쌍을 선택하고 이들을 입력 오디오 신호에 적용하여 헤드폰(735)으로 공간화된 오디오를 제공할 수 있다. 또 다른 실시예에서, 선택된 BRIR 데이터세트는 오디오 렌더링 디바이스(730) 및/또는 헤드폰(735)에 연결된 개별 모듈에 저장된다. 또 다른 실시예에서, 렌더링 디바이스 내에 제한적인 저장 공간만 이용 가능한 경우, 렌더링 디바이스는 청자와 가장 잘 매칭되는 연관된 속성 데이터의 식별자 또는 최적 매칭 BRIR 데이터세트의 식별자만 저장하고 (선택된 방위각 및 고도에 대한) 희망 BRIR 쌍을 필요에 따라 원격 서버(710)로부터 실시간으로 다운로드한다. 앞서 언급된 바와 같이, 이들 BRIR 쌍은 적당한 크기의 모집단(즉, 100명 초과의 사람들)에 대한 인 이어 마이크로폰에 의한 측정에 의해 얻어지고 각각의 BRIR 데이터 세트와 연관된 유사한 이미지 관련 속성과 함께 저장되는 것이 바람직하다. 모든 7200개의 점을 취하는 대신, 이들은 부분적으로 직접 측정에 의해 그리고 부분적으로 보간에 의한 BRIR 쌍의 구면 격자의 형성에 의해, 생성될 수 있다. 부분적 측정/부분적 보간된 격자를 이용하는 경우라도, 적절한 방위각 및 고도 값이 사용되어 BRIR 데이터세트로부터의 한 점에 대해 적절한 BRIR 쌍을 식별되면, 격자 라인 상에 없는 추가 점들이 보간될 수 있다.

개인에 대해 커스텀 선택된 HRTF 또는 BRIR 데이터세트가 선택되면, 이들 개인화된 전달 함수가 사용되어 사용자 또는 시스템이 각자의 미디어 스트림 및 음성 통신을 위치설정하기 위한 적어도 제1 및 제2 공간 오디오 위치를 제공할 수 있다. 다시 말하면, 제1 및 제2 공간 오디오 위치 각각에 대한 전달 함수의 쌍이 사용되어, 이들 스트림을 가상으로 배치시키고 이에 따라 개별 공간 오디오 위치로 인해 청자는 자신의 선호되는 오디오 스트림(가령, 전화 콜 또는 미디어 스트림)에 집중할 수 있다. 본 발명의 범위는 모든 미디어 스트림, 비제한적 예를 들면 비디오 및 음악과 연관된 오디오를 포함하는 것으로 의도된다.

지금까지 본 발명이 이해의 명확성을 이유로 일부 상세히 기재되었지만, 이하의 특허청구범위 내에서 특정 변형 및 수정이 실시될 수 있음이 자명할 것이다. 따라서 본 실시예는 설명으로 간주되며 제한으로 간주되지 않고, 본 발명은 본 명세서에서 제공되는 세부사항에 한장되지 않고, 이하의 청구항의 범위 및 균등예 내에서 수정될 수 있다.

Claims

공간 오디오 위치 전달 함수 데이터세트를 이용함으로써 이벤트를 처리하기 위한 오디오 처리 디바이스로서, 상기 디바이스는
적어도 음성 통신 스트림 및 미디어 스트림을 제1 공간 오디오 위치 및 제2 공간 오디오 위치 중 선택된 곳에 각각 포함하는 제1 오디오 신호 및 제2 오디오 신호를 위치설정하도록 구성된 오디오 렌더링 모듈 - 제1 공간 오디오 위치 및 제2 공간 오디오 위치 각각은, 공간 오디오 위치 전달 함수 데이터세트로부터의 각자의 제1 전달 함수 및 제2 전달 함수를 이용해 렌더링됨 - ,
음성 통신 이벤트의 개시를 모니터링하기 위한 모니터링 모듈 - 상기 이벤트는 전화 콜의 수신을 포함하고, 전화 콜의 개시되면, 음성 통신을 제1 공간 오디오 위치로 위치설정하고 미디어 스트림을 제2 공간 위치로 위치설정함으로써 제1 오디오 신호 및 제2 오디오 신호를 처리함 - , 및
두 개의 출력 채널을 통해 최종 오디오를 연결된 헤드폰 쌍으로 렌더링하도록 구성된 출력 모듈
을 포함하는, 오디오 처리 디바이스.
제1항에 있어서, 공간 오디오 위치 전달 함수 데이터세트는 개인화된 HRIR(Head Related Impulse Response) 데이터세트 및 개인화된 BRIR(Binaural Room Impulse Response) 데이터세트 중 하나이며, 개인에 대해 커스텀화된 데이터세트인, 오디오 처리 디바이스.
제2항에 있어서, 입력 이미지로부터 개인에 대한 이미지 기반 속성을 추출하고 상기 이미지 기반 속성을, 개인들의 모집단에 대해 제공됐던 복수의 HRIR 또는 BRIR 데이터세트의 후보 풀을 갖는 메모리로부터 개인화된 HRIR 또는 BRIR 데이터세트를 결정하도록 구성된 선택 프로세서로 전송하도록 구성된 제2 프로세서를 더 포함하고, HRIR 또는 BRIR 데이터세트 각각은 각자의 대응하는 이미지 기반 속성과 연관되는, 오디오 처리 디바이스.
제3항에 있어서, 선택 프로세서는 후보 풀을 액세스하여, 개인에 대한 추출된 이미지 기반 속성을 후보 풀에 대한 추출된 속성에 비교함으로써 개인화된 BRIR 데이터세트를 결정하여, 정확도 메트릭(closeness metric)를 기초로 하나 이상의 BRIR 데이터세트를 식별하고, 사용되는 처리 전략은 복수 매치(multiple match), 복수-인식자 유형(multiple-recognizer type), 및 클러스터 기반(cluster based) 중 하나인, 오디오 처리 디바이스.
제2항에 있어서, 결정된 개인화된 BRIR 데이터세트로부터의 제1 공간 오디오 위치 및 제2 공간 오디오 위치가, 메모리 내 캡처된 데이터세트로부터 보간 또는 그 밖의 다른 계산 방법에 의해 도출되며, 제1 공간 오디오 위치 및 제2 공간 오디오 위치는 각각 전경 위치 및 배경 위치인, 오디오 처리 디바이스.
제5항에 있어서, 개인 청자에 의해 음성 콜이 더 낮은 우선순위를 가진다고 결정되고 대응하는 제어 신호가 생성되면, 음성 콜이 배경 위치로 전향되고 음악이 전경 위치로 전향되는, 오디오 처리 디바이스.
제2항에 있어서, 개인 청자에 의해 음성 콜이 더 낮은 우선순위를 가진다고 결정되고 대응하는 제어 신호가 생성되면, 동일 방향에 대해 상이한 거리에 대응하는 개인화된 BRIR를 이용해, 음성 콜의 겉보기 거리가 증가되고 음악의 겉보기 거리가 감소되는, 오디오 처리 디바이스.
제2항에 있어서, 제1 공간 오디오 위치로의 음성 통신의 위치설정 및 제 공간 오디오 위치로의 미디어 스트림의 위치설정이 각자의 초기 위치로부터 갑작스러운 방식으로 수행되는, 오디오 처리 디바이스.
제2항에 있어서, 입력 이미지를 획득하도록 구성된 휴대용 이미지 캡처 디바이스를 더 포함하며, 오디오 처리 디바이스는 이미지를 캡처 및 획득하고 이미지-기반 속성을 추출하는 모바일 전화기, 통신 디바이스, 및 태블릿 중 하나인, 오디오 처리 디바이스.
제1항에 있어서, 오디오 처리 디바이스는 음성 통신 스트림이 종료되면 미디어 스트림을 제1 가상 공간 오디오 위치로 재위치설정하도록 구성되는, 오디오 처리 디바이스.
제1항에 있어서, 미디어 스트림은 음악을 포함하는, 오디오 처리 디바이스.
제1항에 있어서, 동일한 방향에 대한 상이한 거리에 대응하는 개인화된 BRIR로부터의 각자의 제1 공간 오디오 위치 소리 전달 함수 및 제2 공간 오디오 위치 소리 전달 함수를 이용해 음성 콜의 겉보기 거리가 증가되고 음악의 겉보기 거리가 감소되는, 오디오 처리 디바이스.
제1항에 있어서, 출력 모듈은 무선 연결 및 유선 연결 중 하나를 통해 헤드폰으로 연결되는, 오디오 처리 디바이스.
제1항에 있어서, 출력 모듈은 디지털-아날로그 변환기를 포함하며, 헤드폰으로의 연결이 아날로그 포트를 통해 이뤄지는, 오디오 처리 디바이스.
제1항에 있어서, 출력 모듈은 디지털 신호를 헤드폰으로 전달하도록 구성되고 헤드폰은 디지털-아날로그 변환기를 포함하는, 오디오 처리 디바이스.
제1항에 있어서, 제1 공간 오디오 위치 및 제2 공간 오디오 위치 중 적어도 하나에 대한 위치를 선택하도록 구성된 사용자 인터페이스를 더 포함하는, 오디오 처리 디바이스.
헤드폰의 세트로의 오디오 스트림을 처리하기 위한 방법으로서, 상기 방법은
적어도 음성 통신 스트림 및 미디어 스트림을 적어도 제1 공간 오디오 위치 및 제2 공간 오디오 위치 중 선택된 곳에 포함하는 제1 오디오 신호 및 제2 오디오 신호를 위치설정하는 단계 - 제1 공간 오디오 위치 및 제2 공간 오디오 위치 각각은 공간 오디오 위치 전달 함수 데이터세트로부터 각자의 제1 전달 함수 및 제2 전달 함수를 이용함으로써 렌더링됨 - ,
음성 통신 이벤트의 개시를 모니터링하는 단계 - 이벤트는 전화 콜의 수신을 포함하고, 전화 콜이 개시되면, 음성 통신을 제1 공간 오디오 위치로 위치설정하고 미디어 스트림을 제2 공간 오디오 위치로 위치설정함으로써, 제1 오디오 신호 및 제2 오디오 신호를 처리하며, 적어도 연관된 룸 임펄스 응답(room impulse response)이 제2 공간 오디오 위치에 대해 제공됨 - , 및
두 개의 출력 채널을 통해 연결된 헤드폰 쌍으로 최종 오디오를 렌더링하는 단계를 포함하는, 오디오 스트림을 처리하기 위한 방법.
제17항에 있어서, 공간 오디오 위치 전달 함수 데이터세트는 개인에 대해 커스텀화된 HRIR 데이터세트 및 BRIR 데이터세트 중 하나인, 오디오 스트림을 처리하기 위한 방법.
제18항에 있어서, 커스텀화는 입력 이미지로부터 개인에 대한 이미지-기반 속성을 추출하는 것 및 상기 이미지 기반 속성을, 개인들의 모집단에 대해 제공됐던 복수의 HRIR 또는 BRIR 데이터세트의 후보 풀을 갖는 메모리로부터 개인화된 HRIR 또는 BRIR 데이터세트를 결정하도록 구성된 선택 프로세서로 전송하는 것을 포함하며, 각각의 HRIR 또는 BRIR 데이터세트가 각자의 대응하는 이미지 기반 속성과 연관되는, 오디오 스트림을 처리하기 위한 방법.
제19항에 있어서, 개인화된 BRIR 데이터세트를 결정하는 것은 후보 풀 내 기존 BRIR 데이터세트들 간 보간하는 것을 포함하는, 오디오 스트림을 처리하기 위한 방법.