KR20200070110A - 복수 오디오 스트림의 공간 위치 변경 - Google Patents

복수 오디오 스트림의 공간 위치 변경 Download PDF

Info

Publication number
KR20200070110A
KR20200070110A KR1020190158930A KR20190158930A KR20200070110A KR 20200070110 A KR20200070110 A KR 20200070110A KR 1020190158930 A KR1020190158930 A KR 1020190158930A KR 20190158930 A KR20190158930 A KR 20190158930A KR 20200070110 A KR20200070110 A KR 20200070110A
Authority
KR
South Korea
Prior art keywords
audio
brir
location
dataset
spatial audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020190158930A
Other languages
English (en)
Other versions
KR102792863B1 (ko
Inventor
웡 후 심
텍 치 리
Original Assignee
크리에이티브 테크놀로지 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 크리에이티브 테크놀로지 엘티디 filed Critical 크리에이티브 테크놀로지 엘티디
Publication of KR20200070110A publication Critical patent/KR20200070110A/ko
Application granted granted Critical
Publication of KR102792863B1 publication Critical patent/KR102792863B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers
    • H04R3/04Circuits for transducers for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers
    • H04R3/12Circuits for transducers for distributing signals to two or more loudspeakers
    • H04R3/14Cross-over networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S1/005For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/07Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 렌더링 시스템은 오디오 입력 신호와 바람직하게는 룸 응답을 포함하는 개인화된 공간 오디오 전달 함수를 조합하는 프로세서를 포함한다. 개인화된 공간 오디오 전달 함수는 복수의 개인에 대한 인이어 마이크로폰 측정으로부터 얻어진 복수의 후보 전달 함수 데이터세트를 갖는 데이터베이스로부터 선택된다. 대안으로, 개인화된 전달 함수 데이터세트는 청자의 실제 인-이어 측정으로부터 얻어진다. 전경 및 배경 위치가 지정되고 전경 및 배경 방향 및 거리에 대해 선택된 데이터세트로부터의 전달 함수 쌍과 매칭된다. 입력 오디오, 가령, 음성 및 음악의 두 개의 채널이 처리된다. 음성 통신, 가령, 음성 콜이 수락될 때 렌더링되는 음악은, 개인화된 전달 함수를 이용해, 전경에서 배경 공간 오디오 위치에 대응하는 배경 채널로 이동된다. 동시에 음성 콜이 전경 채널로 전환된다.

Description

복수 오디오 스트림의 공간 위치 변경{SPATIAL REPOSITIONING OF MULTIPLE AUDIO STREAMS}
관련 출원의 교차 참조
본 출원은 2018년01월07일자 미국 특허 출원 번호 62/614,482, 발명의 명칭 "METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING", 2015년12월31일자 싱가포르 특허 출원 번호 10201510822Y 발명의 명칭 "A METHOD FOR GENERATING A CUSTOMIZED/PERSONALIZED HEAD RELATED TRANSFER FUNCTION"를 기초로 우선권 주장하는 2016년12월28일자 국제 출원 번호 PCT/SG2016/050621, 발명의 명칭 "A METHOD FOR GENERATING A CUSTOMIZED/PERSONALIZED HEAD RELATED TRANSFER FUNCTION"의 전체 내용을 참조로서 포함한다. 본 출원은 2018년 05월 02일자 미국 특허 출원 번호 15/969,767 발명의 명칭 "SYSTEM 및 A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE", 및 2018년 09월 19일자 미국 특허 출원 번호 16/136,211, 발명의 명칭 "METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING"의 전체 내용도 참조로서 더 포함한다.
1. 발명의 기술분야
본 발명은 헤드폰을 통해 렌더링되기 위한 오디오를 생성하기 위한 방법 및 시스템과 관련된다. 더 구체적으로, 본 발명은 오디오 스트림과 함께 공간 오디오 위치와 연관된 룸 임펄스 응답 정보(room impulse response)를 갖는 개인화된 공간 오디오 전달 함수의 데이터베이스를 이용하고 개인화된 공간 오디오 전달 함수를 이용해 공간 오디오 위치를 생성하여, 헤드폰을 통한 더 실감나는 오디오 렌더링을 만드는 것과 관련된다.
2. 관련 분야에 대한 설명
사용자는 종종 콜이 착신될 때 자신의 전화기에서 음악을 청취하는 중이고 음악이 중단되지 않고 계속되기를 원할 수 있다. 불행히도, 대부분의 전화기는 콜이 수락될 때 음악을 음소거(mute)하도록 설정되어 있다. 콜이 수락될 때 음악 또는 그 밖의 다른 오디오가 중단되지 않은 채 계속되게 하고 도한 사용자가 두 개의 상이한 오디오 소스를 구별할 수 있게 하는 개선된 시스템이 필요하다.
이를 위해, 본 발명은 다양한 실시예에서 바이노럴 신호(binaural signal)를 헤드폰으로 제공하도록 구성된 프로세서 및 시스템을 제공하며, 시스템은 제1 위치, 가령, 전경 위치에서 제1 입력 오디오 채널에 오디오를 배치하기 위한 수단, 및 제2 위치, 가령, 배경 위치에서 제2 입력 오디오 채널에 오디오를 배치하기 위한 수단을 포함한다.
본 발명의 실시예들 중 일부에서, 시스템은 적어도 두 개의 오디오 스트림과 함께 공간 오디오 위치와 연관된 룸 임펄스 응답 정보(가령, HRTF 또는 BRIR)를 갖는 개인화된 공간 오디오 전달 함수의 데이터베이스를 포함한다. 적어도 두 개의 위치에 대한 개인화된 BRIR이 두 개의 입력 오디오 스트림과 함께 사용되어 전경 공간 오디오 소스 및 배경 공간 오디오 소스를 확립하여 청자를 위한 헤드폰을 통한 몰입 경험을 제공할 수 있다.
도 1은 본 발명의 일부 실시예에 따라 처리되는 오디오에 대한 공간 오디오 위치를 도시하는 다이어그램이다.
도 2는 본 발명의 일부 실시예에 따라 상이한 공간 오디오 위치에서 오디오 소스, 가령, 복수의 상이한 유형의 미디어 및 음성 통신 중 임의의 것을 제공하기 위한 시스템을 도시하는 다이어그램이다.
도 3은 본 발명의 실시예에 따라 커스텀화하고, 커스터화하기 위한 청자 속성을 획득하며, 청자에 ㄷ대한 커스텀화된 BRIR을 선택하고, BRIR에 의해 수정된 오디오를 렌더링하기 위해 BRIR를 생성하기 위한 시스템을 나타내는 다이어그램이다.
본 발명의 바람직한 실시예가 상세히 언급될 것이다. 바람직한 실시예가 도면에 도시되어 있다. 본 발명이 이들 바람직한 실시예와 함께 기재될 것이지만, 본 발명을 이러한 바람직한 실시예에 한정하려는 의도는 없음이 이해될 것이다. 반대로, 청구범위에 의해 정의되는 본 발명의 사상 및 범위 내에 포함될 수 있는 대안예, 수정예, 및 균등예를 포함하는 것이 의도이다. 이하의 기재에서, 많은 특정한 세부사항이 제공되어 본 발명의 완전한 이해를 제공할 수 있다. 본 발명은 이들 특정한 세부사항 중 일부 또는 전부 없이 실시될 수 있다. 한편, 본 발명을 불필요하게 모호하게 하지 않기 위해 잘 알려진 수단은 상세히 기재되어 있지 않다.
도면 전체에서 유사한 번호가 유사한 부분을 지칭한다. 본 명세서에 도시되고 기재된 다양한 도면이 본 발명의 다양한 특징을 도시하기 위해 사용된다. 특정 특징이 하나의 도면에는 도시되어 있고 다른 도면에 도시되어 있지 않는 경우, 달리 지시되거나 구조적으로 상기 특징을 포함하지 못하는 경우를 제외하고, 이들 특징은 마치 상기 도면에 완전히 도시되어 있는 것처럼 상기 다른 도면으로 나타내어지는 실시예에 포함되도록 적응될 수 있음이 자명할 것이다. 달리 지시되지 않는 한, 도면은 반드시 실제 비율로 그려진 것은 아니다. 도면에 제공되는 어떠한 치수도 본 발명의 범위로 한정되지 않으며 예시에 불과하다.
일반적으로 양 귀와 관련된 또는 양 귀와 함께 사용되는 기법을 지칭하는 바이노럴(binaural) 기법이 사용자가 오디오를 3차원장으로 지각할 수 있게 한다. 이는 일부 실시예에서, BRIR(Binaural Room Impulse Response) 및 이의 관련 BRTF(Binaural Room Transfer Function)의 결정 및 이용을 통해 이뤄진다. BRIR은 확성기로부터의 음파와 청자의 귀, 머리 및 몸통뿐 아니라 방 안의 벽 및 그 밖의 다른 물체의 상호작용을 시뮬레이션한다. 대안으로, 일부 실시예에서, HRTF(Head Related Transfer Function)가 사용된다. HRTF는 무향 환경에서의 상호작용을 나타내는 임펄스 응답에 대응하는 주파수 영역에서의 전달 함수이다. 즉, 여기서 임펄스 응답은 청자 귀, 머리 및 몸통과의 소리 상호작용을 나타낸다.
HRTF 또는 BRTF를 결정하기 위한 알려진 방법에 따르면, 실제 또는 더미 머리 및 바이노럴 마이크로폰이 사용되어 실제 방 안의 복수의 확성기 위치 각각에 대한 스테레오 임펄스 응답(IR)을 기록할 수 있다. 즉, 각각의 귀에 대해 하나씩, 한 쌍의 임펄스 응답이 각각의 위치에 대해 생성된다. 이 쌍은 BRIR이라 지칭된다. 그 후 이들 BRIR을 이용해 음악 트랙 또는 그 밖의 다른 오디오 스트림이 컨볼루션(필터링)될 수 있고, 결과가 함께 혼합되며 헤드폰을 통해 재생될 수 있다. 올바른 이퀄라이제이션(equalization)이 적용되는 경우, 음악의 채널이 BRIR이 기록된 방 안의 스피커 위치에서 재생되는 것처럼 소리날 것이다.
종종 사용자는 전화 콜이 착신될 때 자신의 전화기 상에서 음악을 듣고 있는 중이며 콜이 수락될 때 음악이 중단되지 않고 계속되기를 바랄 수 있다. 음소거 기능을 호출하기보다, 두 개의 개별 오디오 신호, 즉, 전화 콜과 음악이 동일한 채널(들)로 공급될 수 있다. 그러나 일반적으로 인간은 동일한 방향으로부터 오는 음원을 구별하는 데 어려움을 가진다. 이 문제를 해결하기 위해 그리고 하나의 실시예에 따라, 콜이 착신될 때, 음악이 제1 위치로부터 제2 위치의 스피커 또는 채널, 가령, 배경 위치로 전향된다, 즉, 음악과 음성 통신이 상이한 위치에 놓이게 된다. 불행히도, 멀티-스피커 셋업으로 사용될 때, 렌더링된 오디오 스트림을 위치설정하는 이들 방법이 음원의 분리를 가능하게 하지만, 오늘날의 음성 통신의 대부분의 퍼센티지가 모바일 전화기를 통해 착신되고, 이는 일반적으로 멀티채널 스피커 셋업으로 연결되지 않는다. 덧붙여, 멀티채널 셋업과 함께 사용되는 이러한 방법은, 확성기의 물리적 위치에 따라 완전히 정렬되지 않은 위치에 대해 패닝함으로써 오디오 음원이 지정될 때, 때때로 최적화되지 않은 결과를 제공한다. 이는 분분적으로, 지각된 오디오 위치를 멀티채널 스피커 위치들 사이 위치로 이동시키기 위한 전통적인 패닝 방법에 의해 이러한 위치가 근사될 때 청자가 공간 오디오 위치를 정밀하게 찾는 데 어렵기 때문이다.
본 발명은 가령, HRTF를 이용함으로써 오디오에 미치는 적어도 개인의 머리, 몸통, 및 귀의 영향을 적어도 시뮬레이션하는 전달 함수를 이용해 가상화된 위치를 이용해, 음성 콜 및 음악을 상이한 공간 오디오 위치로 자동으로 위치설정함으로써, 헤드폰을 통한 음성 통신의 이러한 문제를 해결한다. 더 바람직하게는, 오디오에 미치는 방의 영향이 BRIR로 오디오 스트림을 처리함으로써 고려된다. 그러나 비-개인화된 상용화된 BRIR 데이터세트가 지각되는 음원의 대부분의 사용자에게 형편없는 방향감과 심지어 형편없는 거리감을 준다. 이는 음원들을 구별하는 데 어려움을 초래할 수 있다.
이들 추가 문제를 해결하기 위해, 일부 실시예에서 본 발명은 개인화된 BRIR(개인화된 BRIR)을 이용한다. 하나의 실시예에서, 마이크로폰을 청자의 귀에 삽입하고 하나의 레코딩 세션으로 임펄스 응답을 기록함으로써, 개인화된 HRTF 또는 BRIR가 생성된다. 이는 모바일 전화기 또는 그 밖의 다른 오디오 유닛의 판매 시 포함되기에 불편할 수 있고 시간 소모적인 프로세스이다. 다른 실시예에서, 각각의 개별 청자에 대한 이미지-기반 속성의 추출로부터 얻어진 개인화된 BRIR(또는 연관된 BRTF)를 이용해 음성 및 음악 음원이 개별적인 제1(가령, 전경(foreground)) 및 제2(가령, 배경(background)) 위치에서 찾아지며, 상기 속성은 복수의 측정된 개인에 대한 개인화된 공간 오디오 전달 함수의 후보 풀을 갖는 데이터베이스로부터 적절한 개인화된 BRIR를 결정하도록 사용된다. 적어도 두 개의 개별 공간 오디오 위치 각각에 대응하는 개인화된 BRIR은 제1 및 제2 오디오 스트림을 두 개의 상이한 공간 오디오 위치로 지향시키는 사용되는 것이 바람직하다.
또한, 청가에 의해 두 음원 중 하나가 더 가까이 있고 또 다른 하나는 더 멀리 있다고 결정될 때 인간은 두 음원을 더 잘 구별할 수 있음이 알려져 있기 때문에, 일부 실시예에서, 추출된 이미지-기반 속성을 이용해 추출된 개인화된 BRIR을 이용해, 음악이 배경 공간 위치에서 먼 곳에 그리고 음성은 더 가까운 거리에 자동으로 위치한다.
하나의 또 다른 실시예에서, 추출된 이미지-기반 속성이 모바일 전화기에 의해 생성된다. 또 다른 실시예에서, 음성 콜이 더 낮은 우선순위를 가진다고 결정되면, 청자로부터의 제어 신호, 가령, 스위치를 활성화함으로써 생성된 제어 신호를 수신하면, 음성 콜이 전경에서 배경으로 전향되고 음악은 전경으로 전향된다. 또 다른 실시예에서, 음성 콜이 더 낮은 우선순위를 가진다고 결정되고 청자로부터의 제어 신호가 수신되면, 동일한 방향에 대한 상이한 거리에 대응하는 개인화된 BRIR를 이용해, 음성 콜의 겉보기 거리가 증가되고 음악의 겉보기 거리가 감소된다.
본 명세서의 실시예 중 대부분이 헤드폰에서 사용되는 개인화된 BRIR을 기재하지만, 기재된 음성 통신과 함께 미디어 스트림을 위치설정하기 위한 기법이, 도 3과 관련하여 기재된 단계에 따라 사용자에게 커스텀화된 임의의 적절한 전달 함수로 확장될 수 있다.
본 발명의 범위가 각각의 제1 오디오 소스 및 음성 통신을 사용자 주위의 임의의 위치에 놓는 것을 포함하도록 의도된다. 또한, 본 명세서에서의 전경 및 배경의 사용이 창자 앞 또는 청자 뒤의 각각의 영역으로 한정되지 않는다. 오히려, 전경은 두 개의 개별 위치 중 더 우세한 또는 중요한 것을 지칭하고, 배경은 개별 위치 중 덜 우세한 것을 지칭하는 것으로 해석될 것이다. 또한, 본 발명의 범위는 본 명세서에 기재된 기법에 따라 HRTF 또는 BRIR을 사용하여 제1 오디오 스트림을 제1 위치로, 제2 오디오 스트림을 제2 공간 오디오 위치로 보내는 매우 일반적인 의미로 발생한다는 점에 유의해야 한다. 또한, 본 발명의 일부 실시예는, 전경 위치에 더 가까운 거리를 할당하고 배경 위치에 더 먼 거리를 할당하는 개신 신호의 감쇠를 동시에 적용하는 전경 또는 배경 위치에 대한 사용자 주위의 임의의 방향 위치의 선택으로 확장될 수 있다. 가장 가까운 형태로, 전경 및 배경 위치를 나타내기 위해 두 쌍의 BRIR을 적용하는 필터링 회로가 먼저 본 발명의 실시예에 따라 도시될 것이다.
도 1은 본 발명의 일부 실시예에 따라 처리되는 오디오를 위한 공간 오디오 위치를 도시하는 다이어그램이다. 우선, 청자(105)가 헤드폰(103)을 통해 제1 오디오 신호, 가령, 음악을 청취하는 중일 수 있다. 제1 오디오 스트림에 적용되는 BRIR을 이용해, 청자는 제1 오디오 스트림이 제1 오디오 위치(102)로부터 오는 중임을 감지한다. 일부 실시예에서, 이는 전경 위치이다. 하나의 실시예에서, 한 기법이 이 전경 위치를 청자(105)에 대한 0도 위치에 놓는다. 트리거링 이벤트가 발생할 때, 가령, 전화 콜이 수신될 때, 제2 스트림(가령, 음성 통신 또는 전화 콜)이 제1 위치(102)로 라우팅되고 제1 오디오 신호가 제2 위치(104)로 라우팅된다. 나타난 실시예에서, 이 제2 위치는 200도 위치에 놓이며, 이 위치는, 일부 실시예에서, 덜 중요한 또는 배경 위치라고 기재된다. 200도 위치는 단지 비제한적 예시로서 선택된다. 이 제2 위치에 오디오 스트림을 배치하는 것이 관심 청자에 ㄷ방위대한 이러한 제2 위에 대한 고도 및 거리에 대응하는 BRIR(또는 BRTF)를 이용해 이뤄지는 것이 바람직하다.
하나의 실시예에서, 제1 오디오 스트림의 제2 위치(가령, 배경)로의 전환이 제1 오디오 스트림이 중간 공간 위치를 거쳐 이동 중이라는 어떠한 감각도 제공하지 않고 갑작스럽게 발생한다. 이는 경로(110)로 그래픽으로 도시되어 있으며, 어떠한 중간 공간 위치도 없음을 보여준다. 또 다른 실시예에서, 오디오는 전경 위치(102)로부터 배경 위치(104)로의 적접 또는 대안으로 호 형태로의 이동감을 제공하기 위한 짧은 과도 시간 주기 동안 중간 포인트(112 및 114)에 위치한다. 바람직한 실시예에서, 중간 위치(112 및 114)에 대한 BRIR가 오디오 스트림을 공간적으로 위치설정하는 데 사용된다. 대안 실시예에서, 전경 및 배경 위치에 대한 BRIR을 이용하고 전경 위치와 배경 위치에 대응하는 이들 가상 확성기들 간에 패닝(panning)함으로써 이동감이 달성된다. 일부 실시예에서, 사용자는 음성 통신 (예를 들어, 전화 콜)이 우선 순위 상태를 가질 자격이 없다는 것을 인식하고 전화 콜을 제2 위치(예를 들어, 배경 위치) 또는 심지어 사용자가 선택한 제3 위치로 전달하고 음악을 다시 제1 위치(예를 들어, 전경)로 되 돌리는 것을 선택할 수 있다. 하나의 실시예에서, 이는 음악에 대응하는 오디오 스트림을 전경(제1) 위치(102)로 뒤 전송하고 음성 통신을 배경 위치(104)로 전송함으로써 수행된다. 또 다른 실시예에서, 음성 콜을 청자의 머리(105)에서 더 멀게 만들고 음악을 더 가까이 둠으로써 이러한 우선순위의 재순위화(rerank)가 수행된다. 이는 상이한 위치에서 캡처된 청자에 대한 새로운 HRTF 또는 BRTF를 할당함으로써 수행되고, 새로운 거리를 나타내기 위해 캡처된 측정치로부터 계산되거나 보간되는 것이 바람직하다. 예를 들어, 배경 위치(104)로부터 음악의 우선순위를 증가시키기 위해, 겉보기 거리가 공간 오디오 위치(118 또는 116)로 감소될 수 있다. 바람직하게는, 새로운 HRTF 또는 BRTF로 음악 오디오 스트림을 처리함으로써 이뤄진 이 감소된 거리가, 음성 통신 신호에 비해, 음악의 볼륨을 증가시킨다. 일부 실시예에서, 음성 신호는 캡처된 HRTF/BRTF 값들의 선택으로부터 또는 보간된 것으로부터 청자 머리(105)로부터의 거리가 동시에 증가될 수 있다. 보간/계산은 셋 이상의 포인트를 사용하여 수행될 수 있다. 예를 들어, 두개의 선(AB 및 CD)의 교차 점을 얻기 위해 보간/계산은 점 A, B, C 및 D를 필요로 할 수 있다.
대안으로, 음성 통신을 생성하는 공간 오디오 위치가 재순위화 단계 동안 정지 위치로 유지되거나 증가될 수 있다. 일부 실시예에서, 2개의 개별 오디오 스트림은 동일한 중요도를 누린다.
또 다른 실시예에서, 사용자는 사용자 인터페이스로부터 스트림 중 적어도 하나에 대해 공간 오디오 위치를 선택할 수 있다, 더 바람직하게는, 모든 스트림에 대한 단일 또는 복수의 위치를 선택할 수 있다.
도 2는 본 발명의 일부 실시예에 따라 상이한 공간 오디오 위치에서의 오디오 소스와 음성 통신을 시뮬레이션하기 위한 시스템을 도시하는 다이어그램이다. 도 2는 제1 공간 오디오 위치에 대해 개별적인 필터 쌍(즉, 필터(207, 208))을 그리고 제2 공간 오디오 위치에 대해 필터(209, 210)를 이용함으로써, 공간 오디오 위치설정 시스템에 들어가는 일반적으로 2개의 상이한 스트림(202 및 204)을 도시한다. 헤드폰(216)의 왼쪽 헤드폰 컵에 대한 신호가 가산기(214)에 더해지고 오른쪽 헤드폰 컵에 대한 필터링된 결과가 마찬가지로 가산기(215)에서 더해지기 전에 이득(222-225)이 모든 필터링된 스트림에 적용될 수 있다. 하드웨어 모듈의 이 모음이 관련된 기본 원리를 보여주지만, 도 3에 도시된 바와 같이, 그 밖의 다른 실시예가 메모리, 가령, 오디오 렌더링 모듈(730)(가령, 모바일 전화기)의 메모리(732)에 저장된 BRRI 또는 HRTF를 이용한다. 일부 실시예에서, 개인에 대한 HRTF에 추가로 룸 응답을 갖는 전달 함수를 선택함으로써 이들 공간 오디오 위치가 생성된다는 사실에 의해, 청자는 제1 공간 오디오 위치와 제2 공간 오디오 위치를 구별하는 데 도움을 받는다. 바람직한 실시예에서, 청자에 대한 커스텀된 BRIR을 이용해 제1 및 제2 위치가 결정된다.
헤드폰을 통해 렌더링하기 위한 시스템 및 방법은 직접적인 인-이어(in-ear) 마이크로폰 측정에 의해 또는 대안으로 인-이어 마이크로폰 측정이 사용되지 않는 경우 개인화된 BRIR/HRIR 데이터세트에 의해 HRTF 또는 BRTF가 청자에 대해 개인화될 때 가장 잘 동작한다. 본 발명의 바람직한 실시예에 따르면, 도 3에 일반적으로 도시된 바와 같이, 사용자로부터 이미지-기반 속성을 추출하는 것 및 BRIR의 후보 풀로부터 적절한 BRIR을 결정하는 것을 포함하는, BRIR을 생성하기 위한 하나의 커스텀 방법이 사용된다. 더 상세히, 도 3은 컴스텀 사용을 위해 HRTF를 생성하고, 커스텀화를 위해 청자 속성을 획득하며, 청자에 대한 커스텀화된 HRTF를 선택하고, 상대적 사용자 머리 움직임에 따라 동작하도록 적응된 회전 필터를 제공하며, 본 발명의 실시예에 따라 BRIR에 의해 수정된 오디오를 렌더링하기 위한 시스템을 도시한다. 추출 디바이스(702)는 청자의 오디오 관련 물리적 속성을 식별하고 추출하도록 구성된 디바이스이다. 블록(702)이 바람직한 실시예에서 이들 속성(가령, 귀의 높이)을 직접 측정하도록 구성될 수 있지만, 적절한 측정치가 사용자의 하나 이상의 귀를 포함하도록 사용자로부터 취해진 이미지로부터 추출된다. 이들 속성을 추출하는 데 필요한 처리는 추출 디바이스(702)에서 발생하는 것이 바람직하지만 그 밖의 다른 곳에서도 발생할 수 있다. 비-제한적 예를 들면, 이미지 센서(704)로부터의 이미지를 수신한 후, 원격 서버(710)에서, 속성이 프로세서에 의해 추출될 수 있다.
바람직한 실시예에서, 이미지 센서(704)는 사용자의 귀의 이미지를 획득하고 프로세서(706)는 사용자에 대한 적절한 속성을 추출하고 이를 원격 서버(710)로 전송하도록 구성된다. 예를 들어, 하나의 실시예에서, 액티브 형태 모델(Active Shape Model)이 귓바퀴 이미지에서 랜드마크를 식별하고 랜드마크 및 이의 기하학적 관계 및 선형 거리를 이용해 저장된 BRIR 데이터세트의 모음, 즉, BRIR 데이터세트의 후보 풀로부터 커스텀화된 BRIR를 생성하기 위해 관련된 사용자에 대한 속성을 식별하는 데 사용될 수 있다. 또 다른 실시예에서, RGT 모델(Regression Tree Model)이 속성을 추출하는 데 사용된다. 또 다른 실시예에서, 기계 학습, 가령, 신경망 및 그 밖의 다른 형태의 인공 지능(AI)이 속성을 추출하는 데 사용된다. 신경망의 하나의 예시가 컨볼루션 신경망(Convolutional neural network)이다. 새로운 청자의 고유 물리 속성을 식별하기 위한 몇 가지 방법의 완전한 설명이 본 명세서에 참조로서 완전히 포함되는, 2016년12월28일자 출원 번호 PCT/SG2016/050621, 발명의 명칭 "A Method for Generating a customized Personalized Head Related Transfer Function"에 기재되어 있다.
바람직하게는, 원격 서버(710)가 네트워크, 가령, 인터넷을 통해 액세스 가능하다. 바람직하게는, 원격 서버는 추출 디바이스(702)에서 추출된 물리적 속성 또는 그 밖의 다른 이미지 관련 속성을 이용해 가장 잘 매칭되는 BRIR 데이터베이스를 결정하기 위해 메모리(714)를 액세스하는 선택 프로세서(710)를 포함한다. 바람직하게는, 선택 프로세서(712)는 복수의 BRIR 데이터세트를 갖는 메모리(714)를 액세스한다. 즉, 후보 풀 내 각각의 데이터세트가 방위각 및 고도, 그리고 아마도 또한 머리 기울임의 적절한 각도에서의 각각의 포인트에 대한 BRIR 쌍을 가질 것이다. 예를 들어, 방위각 및 고도의 3도마다 측정이 이뤄져서 BRIR의 후보 풀을 구성하는 샘플링된 개인에 대한 BRIR 데이터세트를 생성할 수 있다.
앞서 언급된 바와 같이, 이들은 적당한 크기의 모집단(즉, 100명 초과의 개인)에 대해 인 이어 마이크로폰에 의한 측정에 의해 얻어지는 것이 바람직하지만, 각각의 BRIR 세트와 연관된 유사한 이미지 관련 속성와 함께 저장된 더 작은 개인 그룹으로 작업할 수 있다. 이들은 부분적으로 직접 측정에 의해 그리고 부분적으로 보간에 의해 생성되어, BRIR 쌍의 구면 격자(spherical grid)를 형성할 수 있다. 부분적으로 측정/부분적으로 보간된 격자를 이용하더라도, BRIR 데이터세트로부터의 하나의 점에 대한 적절한 BRIR 쌍을 식별하기 위해 적절한 방위각 및 고도 값이 사용되면, 격자 라인에 속하지 않는 추가 점이 보간될 수 있다. 예를 들어, 임의의 적절한 보간 방법이 사용될 수 있는데, 비제한적 예를 들면, 바람직하게는 주파수 영역에서의, 인접 선형 보간, 이중선형 보간 및 구면 삼중 보간이 있다.
하나의 실시예에서 메모리(714)에 저장된 BRIR 데이터세트 각각은 적어도 청자에 대한 전체 구면 격자를 포함한다. 이러한 경우, (청자 주위의 수평면 상의, 즉, 귀 높이에서의) 방위각 또는 고도의 임의의 각도가 음원의 배치를 위해 선택될 수 있다. 또 다른 실시예에서, BRIR 데이터세트가 더 제한되는데, 예를 들어, 기존 스테레오 셋업에 따르는(즉, 직선 0도 위치에 비해 +30도 및 -30도) 또는 완전한 구면 격자의 또 다른 서브셋에서, 멀티채널 셋업, 가령, 5.1 시스템 또는 7.1 시스템을 위한 스피커 배치 방 안 확성기 배치를 생성하기에 필요한 BRIR 쌍으로 제한된다.
HRIR은 머리-관련 임펄스 응답이다. 무향 조건 하에서 시간 영역에서 음원으로부터 수신자로의 소리의 전파를 완전히 기술한다. 포함하는 정보의 대부분이 측정되는 개인의 생리구조 및 인체계측과 관련된다. HRTF는 머리-관련 전달 함수이다. 이는 주파수 영역에서의 설명을 제외하고 HRIR과 동일하다. BRIR은 바이노럴 룸 임펄스 응답(binaural room impulse response)이다. 이는 방 안에서 측정되기 때문에 캡처된 특정 구성에 대한 룸 응답을 더 포함하는 것을 제외하고 HRIR과 동일하다. BRTF는 BRIR의 주파수-영역 버전이다. 본 명세서에서 BRIR가 BRTF와 쉽게 변환 가능하고, 마찬가지로 HRIR은 HRTF와 쉽게 변환 가능하기 때문에, 본 발명의 실시예는 본 명세서에 구체적으로 기재되지 않더라도 쉽게 변환 가능한 단계를 포함하는 것으로 의도된다. 따라서 예를 들어 발명의 설명이 또 다른 BRIR 데이터세트를 액세스하는 것을 언급할 때 또 다른 BRTF를 액세스하는 것이 포함됨을 이해할 것이다.
도 3은 메모리에 저장된 데이터에 대한 샘플 논리적 관계를 더 도시한다. 메모리는 컬럼(716)에서 복수의 개인에 대한 BRIR 데이터세트를 포함하는 것으로 도시된다(가령, HRTF DS1A, HRTF DS2A 등). 이들은 각각의 BRIR 데이터세트와 연관된 속성, 바람직하게는 이미지 관련 속성에 의해 인덱싱되고 액세스된다. 컬럼(715)에 나타난 연관된 속성이 새로운 청자 속성이 측정되고 컬럼(716, 717, 및 718)에 저장된 BRIR과 연관된 속성에 매칭되게 할 수 있다. 즉, 이들은 이들 컬럼에서 보이는 BRIR 데이터세트의 후보 풀로의 인덱스로서 역할 한다. 컬럼(717)은 기준 0점 위치에서의 저장된 BRIR를 지칭하며 BRIR 데이터세트의 나머지와 연관되고 청자 머리 회전이 모니터링되고 수용될 때 효율적인 저장 및 처리를 위한 회전 필터와 조합될 수 있다. 이 옵션의 추가 기재가 본 명세서에 그 전체가 참조로서 포함되는 2018년09월19일에 함께 출원된 출원 16/136,211, 발명의 명칭 "METHOD FOR GENERATING CUSTOMIZED SPATIAL AUDIO WITH HEAD TRACKING"에 상세히 기재되어 있다.
일반적으로, BRIR(또는 HRTF) 데이터세트의 후보 풀을 액세스하는 한 가지 목적은 개인에 대한 커스텀화된 오디오 응답 특성(가령, BRIR 데이터세트)을 생성하는 것이다. 일부 실시예에서, 이들이 사용됨으로써, 입력 오디오 신호, 가령, 음성 통신 및 미디어 스트림을 처리하여, 앞서 기재된 바와 같이, 제1 위치 및 제2 위치와 연관된 공간 오디오의 정확한 지각을 위해 이들을 위치설정할 수 있다. 일부 실시예에서, 이 커스텀화된 오디오 응답 특성, 가령, 개인화된 BRIR이 이미지 관련 속성, 가령, 개인에 대한 생체측정 데이터를 추출하는 것을 포함한다. 예를 들어, 이 생체측정 데이터는 귓바퀴, 전체적인 개인의 귀, 머리 및/또는 어깨와 관련된 데이터를 포함할 수 있다. 추가 실시예에서, 처리 전략, 가령, (1) 복수 매칭, (2) 복수 인식기 유형, 및 (3) 클러스터 기반이 사용되어, (복수 적중이 도출되는 경우) 차후 조합되어 개인에 대한 커스텀화된 BRIR 데이터세트를 생성할 수 있는 중간 데이터세트를 생성할 수 있다. 이들은 가중 합 등의 방법을 이용함으로써 조합될 수 있다. 일부 경우, 단 하나의 매칭이 존재하는 경우 중간 결과를 조합할 필요가 없다. 하나의 실시예에서, 중간 데이터세트가 추출된 속성에 대한 (후보 풀로부터) 검색된 BRIR 데이터세트의 매칭의 정확성을 적어도 부분적으로 기초로 한다. 또 다른 실시예에서, 복수 인식기 매칭 단계가 사용되어, 프로세서가 생체측정 데이터에 대응하는 복수의 훈련 파라미터를 기초로 하나 이상의 데이터세트를 검색할 수 있다. 또 다른 실시예에서, 클러스터 기반 처리 전략이 사용되어, 추출된 데이터(가령, 생체측정 데이터)를 기초로 가능한 데이터세트가 클러스터링된다. 클러스터는 이미지로부터 추출된 데이터(가령, 생체측정)와 매칭되는 대응하는 BRIR 데이터세트와 모델을 형성하기 위해 클러스터링되거나 함께 그룹지어 지는 관계를 갖는 복수의 데이터세트를 포함한다.
본 발명의 일부 실시예에서, 2개 이상의 거리 구면이 저장된다. 이는 청자로부터의 2개의 상이한 거리에 대해 생성되는 구면 격자를 지칭한다. 하나의 실시예에서, 둘 이상의 상이한 구면 격자 거리 구에 대해 하나의 기준 위치 BRIR가 저장되고 연관된다. 또 다른 실시예에서 각각의 구면 격자가 적용 가능한 회전 필터와 함께 사용되기 위한 각자의 기준 BRIR을 가질 것이다. 선택 프로세서(712)가 사용되어, 메모리(714) 내 속성을 새로운 청자에 대한 추출 디바이스(702)로부터 수신된 추출된 속성과 매칭시킬 수 있다. 올바른 BRIR 데이터세트가 도출될 수 있도록 연관된 속성을 매칭시키기 위한 다양한 방법이 사용된다. 앞서 기재된 바와 같이, 이들은 복수-매칭 기반 처리 전략, 복수 인식기 처리 전략, 클러스터 기반 처리 전략 및 본 명세서에 참조로서 포함되는 2018년 05월 02일자 미국 특허 출원 번호 15/969,767, 발명의 명칭 "SYSTEM AND A PROCESSING METHOD FOR CUSTOMIZING AUDIO EXPERIENCE"에 기재된 것에 의해 생체측정 데이터를 비교하는 단계를 포함한다. 컬럼(718)은 제2 거리에서 측정된 개인에 대한 BRIR 데이터세트의 세트를 지칭한다. 즉, 이 컬럼은 측정된 개인에 대해 기록된 제2 거리에서의 BRIR 데이터세트를 포스팅한다. 또 다른 예시를 들면, 컬럼(718)에서의 제1 BRIR 데이터세트가 1.0 m 내지 1.5 m에서 취해질 수 있고 반면에 컬럼(718)에서의 BRIR 데이터세트가 청자로부터 5 m에서 측정된 데이터세트를 지칭할 수 있다. 이상적으로, BRIR 데이터세트는 완전한 구면 격자를 형성하지만 본 발명 실시예는 완전 구면 격자의 임의의 그리고 모든 서브세트, 비제한적 예를 들면, 종래의 세트레오 세트의 BRIR 쌍을 포함하는 서브세트, 5.1 멀티채널 셋업, 7.1 멀티채널 셋업, 및 그 밖의 다른 모든 변형 및 방위각 및 고도의 매 3도 이하마다의 BRIR 쌍을 포함하는 구면 격자 및 밀도가 불규칙한 구면 격자의 서브세트에 적용된다. 예를 들어, 이는 청자 앞의 격자 점의 밀도가 청가 뒤보다 훨씬 높은 경우의 구면 격자를 포함할 수 있다. 덧붙여, 컬럼(716 및 718)의 내용의 배열이 측정 및 보간으로부터 도출된 것으로 저장된 BRIR 쌍뿐 아니라 전자를 회전 필터를 포함하는 BRIR로의 변환을 반영하는 BRIR 데이터세트를 생성함으로써 더 정제된 것에도 적용된다.
하나 이상의 매칭 또는 계산된 BRIR 데이터세트의 결정 후, 데이터세트는, 새로운 청자에 대해 매칭 또는 앞서 기재된 그 밖의 다른 기법에 의해 결정된 전체 BRIR 데이터세트 또는 선택된 공간화된 오디오 위치에 대응하는 서브세트의 저장을 위해, 오디오 렌더링 디바이스(730)로 전송된다. 그런 다음 오디오 렌더링 디바이스는 하나의 실시예에서 바람직한 방위각 또는 고도 위치에 대한 BRIR 쌍을 선택하고 이들을 입력 오디오 신호에 적용하여 헤드폰(735)으로 공간화된 오디오를 제공할 수 있다. 또 다른 실시예에서, 선택된 BRIR 데이터세트는 오디오 렌더링 디바이스(730) 및/또는 헤드폰(735)에 연결된 개별 모듈에 저장된다. 또 다른 실시예에서, 렌더링 디바이스 내에 제한적인 저장 공간만 이용 가능한 경우, 렌더링 디바이스는 청자와 가장 잘 매칭되는 연관된 속성 데이터의 식별자 또는 최적 매칭 BRIR 데이터세트의 식별자만 저장하고 (선택된 방위각 및 고도에 대한) 희망 BRIR 쌍을 필요에 따라 원격 서버(710)로부터 실시간으로 다운로드한다. 앞서 언급된 바와 같이, 이들 BRIR 쌍은 적당한 크기의 모집단(즉, 100명 초과의 사람들)에 대한 인 이어 마이크로폰에 의한 측정에 의해 얻어지고 각각의 BRIR 데이터 세트와 연관된 유사한 이미지 관련 속성과 함께 저장되는 것이 바람직하다. 모든 7200개의 점을 취하는 대신, 이들은 부분적으로 직접 측정에 의해 그리고 부분적으로 보간에 의한 BRIR 쌍의 구면 격자의 형성에 의해, 생성될 수 있다. 부분적 측정/부분적 보간된 격자를 이용하는 경우라도, 적절한 방위각 및 고도 값이 사용되어 BRIR 데이터세트로부터의 한 점에 대해 적절한 BRIR 쌍을 식별되면, 격자 라인 상에 없는 추가 점들이 보간될 수 있다.
개인에 대해 커스텀 선택된 HRTF 또는 BRIR 데이터세트가 선택되면, 이들 개인화된 전달 함수가 사용되어 사용자 또는 시스템이 각자의 미디어 스트림 및 음성 통신을 위치설정하기 위한 적어도 제1 및 제2 공간 오디오 위치를 제공할 수 있다. 다시 말하면, 제1 및 제2 공간 오디오 위치 각각에 대한 전달 함수의 쌍이 사용되어, 이들 스트림을 가상으로 배치시키고 이에 따라 개별 공간 오디오 위치로 인해 청자는 자신의 선호되는 오디오 스트림(가령, 전화 콜 또는 미디어 스트림)에 집중할 수 있다. 본 발명의 범위는 모든 미디어 스트림, 비제한적 예를 들면 비디오 및 음악과 연관된 오디오를 포함하는 것으로 의도된다.
지금까지 본 발명이 이해의 명확성을 이유로 일부 상세히 기재되었지만, 이하의 특허청구범위 내에서 특정 변형 및 수정이 실시될 수 있음이 자명할 것이다. 따라서 본 실시예는 설명으로 간주되며 제한으로 간주되지 않고, 본 발명은 본 명세서에서 제공되는 세부사항에 한장되지 않고, 이하의 청구항의 범위 및 균등예 내에서 수정될 수 있다.

Claims (20)

  1. 공간 오디오 위치 전달 함수 데이터세트를 이용함으로써 이벤트를 처리하기 위한 오디오 처리 디바이스로서, 상기 디바이스는
    적어도 음성 통신 스트림 및 미디어 스트림을 제1 공간 오디오 위치 및 제2 공간 오디오 위치 중 선택된 곳에 각각 포함하는 제1 오디오 신호 및 제2 오디오 신호를 위치설정하도록 구성된 오디오 렌더링 모듈 - 제1 공간 오디오 위치 및 제2 공간 오디오 위치 각각은, 공간 오디오 위치 전달 함수 데이터세트로부터의 각자의 제1 전달 함수 및 제2 전달 함수를 이용해 렌더링됨 - ,
    음성 통신 이벤트의 개시를 모니터링하기 위한 모니터링 모듈 - 상기 이벤트는 전화 콜의 수신을 포함하고, 전화 콜의 개시되면, 음성 통신을 제1 공간 오디오 위치로 위치설정하고 미디어 스트림을 제2 공간 위치로 위치설정함으로써 제1 오디오 신호 및 제2 오디오 신호를 처리함 - , 및
    두 개의 출력 채널을 통해 최종 오디오를 연결된 헤드폰 쌍으로 렌더링하도록 구성된 출력 모듈
    을 포함하는, 오디오 처리 디바이스.
  2. 제1항에 있어서, 공간 오디오 위치 전달 함수 데이터세트는 개인화된 HRIR(Head Related Impulse Response) 데이터세트 및 개인화된 BRIR(Binaural Room Impulse Response) 데이터세트 중 하나이며, 개인에 대해 커스텀화된 데이터세트인, 오디오 처리 디바이스.
  3. 제2항에 있어서, 입력 이미지로부터 개인에 대한 이미지 기반 속성을 추출하고 상기 이미지 기반 속성을, 개인들의 모집단에 대해 제공됐던 복수의 HRIR 또는 BRIR 데이터세트의 후보 풀을 갖는 메모리로부터 개인화된 HRIR 또는 BRIR 데이터세트를 결정하도록 구성된 선택 프로세서로 전송하도록 구성된 제2 프로세서를 더 포함하고, HRIR 또는 BRIR 데이터세트 각각은 각자의 대응하는 이미지 기반 속성과 연관되는, 오디오 처리 디바이스.
  4. 제3항에 있어서, 선택 프로세서는 후보 풀을 액세스하여, 개인에 대한 추출된 이미지 기반 속성을 후보 풀에 대한 추출된 속성에 비교함으로써 개인화된 BRIR 데이터세트를 결정하여, 정확도 메트릭(closeness metric)를 기초로 하나 이상의 BRIR 데이터세트를 식별하고, 사용되는 처리 전략은 복수 매치(multiple match), 복수-인식자 유형(multiple-recognizer type), 및 클러스터 기반(cluster based) 중 하나인, 오디오 처리 디바이스.
  5. 제2항에 있어서, 결정된 개인화된 BRIR 데이터세트로부터의 제1 공간 오디오 위치 및 제2 공간 오디오 위치가, 메모리 내 캡처된 데이터세트로부터 보간 또는 그 밖의 다른 계산 방법에 의해 도출되며, 제1 공간 오디오 위치 및 제2 공간 오디오 위치는 각각 전경 위치 및 배경 위치인, 오디오 처리 디바이스.
  6. 제5항에 있어서, 개인 청자에 의해 음성 콜이 더 낮은 우선순위를 가진다고 결정되고 대응하는 제어 신호가 생성되면, 음성 콜이 배경 위치로 전향되고 음악이 전경 위치로 전향되는, 오디오 처리 디바이스.
  7. 제2항에 있어서, 개인 청자에 의해 음성 콜이 더 낮은 우선순위를 가진다고 결정되고 대응하는 제어 신호가 생성되면, 동일 방향에 대해 상이한 거리에 대응하는 개인화된 BRIR를 이용해, 음성 콜의 겉보기 거리가 증가되고 음악의 겉보기 거리가 감소되는, 오디오 처리 디바이스.
  8. 제2항에 있어서, 제1 공간 오디오 위치로의 음성 통신의 위치설정 및 제 공간 오디오 위치로의 미디어 스트림의 위치설정이 각자의 초기 위치로부터 갑작스러운 방식으로 수행되는, 오디오 처리 디바이스.
  9. 제2항에 있어서, 입력 이미지를 획득하도록 구성된 휴대용 이미지 캡처 디바이스를 더 포함하며, 오디오 처리 디바이스는 이미지를 캡처 및 획득하고 이미지-기반 속성을 추출하는 모바일 전화기, 통신 디바이스, 및 태블릿 중 하나인, 오디오 처리 디바이스.
  10. 제1항에 있어서, 오디오 처리 디바이스는 음성 통신 스트림이 종료되면 미디어 스트림을 제1 가상 공간 오디오 위치로 재위치설정하도록 구성되는, 오디오 처리 디바이스.
  11. 제1항에 있어서, 미디어 스트림은 음악을 포함하는, 오디오 처리 디바이스.
  12. 제1항에 있어서, 동일한 방향에 대한 상이한 거리에 대응하는 개인화된 BRIR로부터의 각자의 제1 공간 오디오 위치 소리 전달 함수 및 제2 공간 오디오 위치 소리 전달 함수를 이용해 음성 콜의 겉보기 거리가 증가되고 음악의 겉보기 거리가 감소되는, 오디오 처리 디바이스.
  13. 제1항에 있어서, 출력 모듈은 무선 연결 및 유선 연결 중 하나를 통해 헤드폰으로 연결되는, 오디오 처리 디바이스.
  14. 제1항에 있어서, 출력 모듈은 디지털-아날로그 변환기를 포함하며, 헤드폰으로의 연결이 아날로그 포트를 통해 이뤄지는, 오디오 처리 디바이스.
  15. 제1항에 있어서, 출력 모듈은 디지털 신호를 헤드폰으로 전달하도록 구성되고 헤드폰은 디지털-아날로그 변환기를 포함하는, 오디오 처리 디바이스.
  16. 제1항에 있어서, 제1 공간 오디오 위치 및 제2 공간 오디오 위치 중 적어도 하나에 대한 위치를 선택하도록 구성된 사용자 인터페이스를 더 포함하는, 오디오 처리 디바이스.
  17. 헤드폰의 세트로의 오디오 스트림을 처리하기 위한 방법으로서, 상기 방법은
    적어도 음성 통신 스트림 및 미디어 스트림을 적어도 제1 공간 오디오 위치 및 제2 공간 오디오 위치 중 선택된 곳에 포함하는 제1 오디오 신호 및 제2 오디오 신호를 위치설정하는 단계 - 제1 공간 오디오 위치 및 제2 공간 오디오 위치 각각은 공간 오디오 위치 전달 함수 데이터세트로부터 각자의 제1 전달 함수 및 제2 전달 함수를 이용함으로써 렌더링됨 - ,
    음성 통신 이벤트의 개시를 모니터링하는 단계 - 이벤트는 전화 콜의 수신을 포함하고, 전화 콜이 개시되면, 음성 통신을 제1 공간 오디오 위치로 위치설정하고 미디어 스트림을 제2 공간 오디오 위치로 위치설정함으로써, 제1 오디오 신호 및 제2 오디오 신호를 처리하며, 적어도 연관된 룸 임펄스 응답(room impulse response)이 제2 공간 오디오 위치에 대해 제공됨 - , 및
    두 개의 출력 채널을 통해 연결된 헤드폰 쌍으로 최종 오디오를 렌더링하는 단계를 포함하는, 오디오 스트림을 처리하기 위한 방법.
  18. 제17항에 있어서, 공간 오디오 위치 전달 함수 데이터세트는 개인에 대해 커스텀화된 HRIR 데이터세트 및 BRIR 데이터세트 중 하나인, 오디오 스트림을 처리하기 위한 방법.
  19. 제18항에 있어서, 커스텀화는 입력 이미지로부터 개인에 대한 이미지-기반 속성을 추출하는 것 및 상기 이미지 기반 속성을, 개인들의 모집단에 대해 제공됐던 복수의 HRIR 또는 BRIR 데이터세트의 후보 풀을 갖는 메모리로부터 개인화된 HRIR 또는 BRIR 데이터세트를 결정하도록 구성된 선택 프로세서로 전송하는 것을 포함하며, 각각의 HRIR 또는 BRIR 데이터세트가 각자의 대응하는 이미지 기반 속성과 연관되는, 오디오 스트림을 처리하기 위한 방법.
  20. 제19항에 있어서, 개인화된 BRIR 데이터세트를 결정하는 것은 후보 풀 내 기존 BRIR 데이터세트들 간 보간하는 것을 포함하는, 오디오 스트림을 처리하기 위한 방법.

KR1020190158930A 2018-12-07 2019-12-03 복수 오디오 스트림의 공간 위치 변경 Active KR102792863B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/213,979 2018-12-07
US16/213,979 US10966046B2 (en) 2018-12-07 2018-12-07 Spatial repositioning of multiple audio streams

Publications (2)

Publication Number Publication Date
KR20200070110A true KR20200070110A (ko) 2020-06-17
KR102792863B1 KR102792863B1 (ko) 2025-04-07

Family

ID=68732857

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190158930A Active KR102792863B1 (ko) 2018-12-07 2019-12-03 복수 오디오 스트림의 공간 위치 변경

Country Status (7)

Country Link
US (1) US10966046B2 (ko)
EP (1) EP3664477B1 (ko)
JP (1) JP7705647B2 (ko)
KR (1) KR102792863B1 (ko)
CN (1) CN111294724B (ko)
SG (1) SG10201911051PA (ko)
TW (1) TWI808277B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024136091A1 (ko) * 2022-12-20 2024-06-27 한국전자통신연구원 임펄스 응답 결정 방법 및 상기 방법을 수행하는 전자 장치

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG10201800147XA (en) 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
US10390171B2 (en) 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking
US11418903B2 (en) 2018-12-07 2022-08-16 Creative Technology Ltd Spatial repositioning of multiple audio streams
WO2022108494A1 (en) * 2020-11-17 2022-05-27 Dirac Research Ab Improved modeling and/or determination of binaural room impulse responses for audio applications
US11653166B2 (en) * 2021-05-27 2023-05-16 Qualcomm Incorporated Directional audio generation with multiple arrangements of sound sources
GB2610605A (en) * 2021-09-10 2023-03-15 Nokia Technologies Oy Apparatus, methods and computer programs for repositioning spatial audio streams
US20250063321A1 (en) * 2021-10-06 2025-02-20 Sony Group Corporation Information processing device and data structure
US11871208B2 (en) * 2022-01-14 2024-01-09 Verizon Patent And Licensing Inc. Methods and systems for spatial rendering of multi-user voice communication
CN114696961B (zh) * 2022-05-23 2022-11-15 荣耀终端有限公司 一种多媒体数据传输方法和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170257723A1 (en) * 2016-03-03 2017-09-07 Google Inc. Systems and methods for spatial audio adjustment
KR20180100180A (ko) * 2015-12-31 2018-09-07 크리에이티브 테크놀로지 엘티디 맞춤화/개인별화된 머리 전달 함수 생성 방법

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US984946A (en) * 1909-06-16 1911-02-21 Watson Simpson Lennon Car-coupling.
US6996244B1 (en) 1998-08-06 2006-02-07 Vulcan Patents Llc Estimation of head-related transfer functions for spatial sound representative
JP4364024B2 (ja) 2004-03-18 2009-11-11 株式会社日立製作所 携帯端末
GB0419346D0 (en) 2004-09-01 2004-09-29 Smyth Stephen M F Method and apparatus for improved headphone virtualisation
US7756281B2 (en) 2006-05-20 2010-07-13 Personics Holdings Inc. Method of modifying audio content
US8041057B2 (en) 2006-06-07 2011-10-18 Qualcomm Incorporated Mixing techniques for mixing audio
US7555354B2 (en) 2006-10-20 2009-06-30 Creative Technology Ltd Method and apparatus for spatial reformatting of multi-channel audio content
US8078188B2 (en) * 2007-01-16 2011-12-13 Qualcomm Incorporated User selectable audio mixing
EP2405670B1 (en) * 2010-07-08 2012-09-12 Harman Becker Automotive Systems GmbH Vehicle audio system with headrest incorporated loudspeakers
WO2012028906A1 (en) 2010-09-03 2012-03-08 Sony Ericsson Mobile Communications Ab Determining individualized head-related transfer functions
CN103649706B (zh) * 2011-03-16 2015-11-25 Dts(英属维尔京群岛)有限公司 三维音频音轨的编码及再现
US9030545B2 (en) 2011-12-30 2015-05-12 GNR Resound A/S Systems and methods for determining head related transfer functions
WO2013149645A1 (en) 2012-04-02 2013-10-10 Phonak Ag Method for estimating the shape of an individual ear
CN104010265A (zh) * 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
DK2869599T3 (da) * 2013-11-05 2020-12-14 Oticon As Binauralt høreassistancesystem, der omfatter en database med hovedrelaterede overføringsfunktioner
EP3090576B1 (en) * 2014-01-03 2017-10-18 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
DE102014214143B4 (de) * 2014-03-14 2015-12-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals im Frequenzbereich
US9900722B2 (en) 2014-04-29 2018-02-20 Microsoft Technology Licensing, Llc HRTF personalization based on anthropometric features
DE102014210215A1 (de) * 2014-05-28 2015-12-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Ermittlung und Nutzung hörraumoptimierter Übertragungsfunktionen
US9226090B1 (en) * 2014-06-23 2015-12-29 Glen A. Norris Sound localization for an electronic call
KR101627652B1 (ko) 2015-01-30 2016-06-07 가우디오디오랩 주식회사 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법
US9544706B1 (en) 2015-03-23 2017-01-10 Amazon Technologies, Inc. Customized head-related transfer functions
JP6754619B2 (ja) 2015-06-24 2020-09-16 三星電子株式会社Samsung Electronics Co.,Ltd. 顔認識方法及び装置
WO2017028961A1 (en) 2015-08-14 2017-02-23 Thomson Licensing 3d reconstruction of a human ear from a point cloud
FR3040807B1 (fr) 2015-09-07 2022-10-14 3D Sound Labs Procede et systeme d'elaboration d'une fonction de transfert relative a la tete adaptee a un individu
RU2717895C2 (ru) 2015-10-26 2020-03-27 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для формирования отфильтрованного звукового сигнала, реализующего рендеризацию угла места
SG10201800147XA (en) 2018-01-05 2019-08-27 Creative Tech Ltd A system and a processing method for customizing audio experience
FR3051951B1 (fr) 2016-05-27 2018-06-15 Mimi Hearing Technologies GmbH Procede d'elaboration d'un modele deformable en trois dimensions d'un element, et systeme associe
US9584946B1 (en) * 2016-06-10 2017-02-28 Philip Scott Lyren Audio diarization system that segments audio input
US10187740B2 (en) 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10219095B2 (en) * 2017-05-24 2019-02-26 Glen A. Norris User experience localizing binaural sound during a telephone call
US10390171B2 (en) 2018-01-07 2019-08-20 Creative Technology Ltd Method for generating customized spatial audio with head tracking

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180100180A (ko) * 2015-12-31 2018-09-07 크리에이티브 테크놀로지 엘티디 맞춤화/개인별화된 머리 전달 함수 생성 방법
US20170257723A1 (en) * 2016-03-03 2017-09-07 Google Inc. Systems and methods for spatial audio adjustment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024136091A1 (ko) * 2022-12-20 2024-06-27 한국전자통신연구원 임펄스 응답 결정 방법 및 상기 방법을 수행하는 전자 장치

Also Published As

Publication number Publication date
US10966046B2 (en) 2021-03-30
JP2020108143A (ja) 2020-07-09
KR102792863B1 (ko) 2025-04-07
JP7705647B2 (ja) 2025-07-10
TWI808277B (zh) 2023-07-11
US20200186954A1 (en) 2020-06-11
TW202028929A (zh) 2020-08-01
CN111294724B (zh) 2023-08-15
CN111294724A (zh) 2020-06-16
EP3664477A1 (en) 2020-06-10
SG10201911051PA (en) 2020-07-29
EP3664477B1 (en) 2024-07-03

Similar Documents

Publication Publication Date Title
KR102792863B1 (ko) 복수 오디오 스트림의 공간 위치 변경
US11849303B2 (en) Spatial repositioning of multiple audio streams
US11653168B2 (en) Music collection navigation device and method
KR102574082B1 (ko) 머리 추적 기능이 있는 맞춤형 공간 오디오 생성 방법
US8073125B2 (en) Spatial audio conferencing
US9131305B2 (en) Configurable three-dimensional sound system
US10652686B2 (en) Method of improving localization of surround sound
US9769585B1 (en) Positioning surround sound for virtual acoustic presence
US20150189455A1 (en) Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
CN107852563A (zh) 双耳音频再现
US20230247384A1 (en) Information processing device, output control method, and program
US20190394596A1 (en) Transaural synthesis method for sound spatialization
US10142760B1 (en) Audio processing mechanism with personalized frequency response filter and personalized head-related transfer function (HRTF)
US20230370801A1 (en) Information processing device, information processing terminal, information processing method, and program
CN116438812A (zh) 再现装置、再现方法、信息处理装置、信息处理方法及程序
CN108574925A (zh) 虚拟听觉环境中控制音频信号输出的方法和装置
US10419870B1 (en) Applying audio technologies for the interactive gaming environment
EP4677864A1 (en) Systems and methods for hybrid spatial audio
WO2025036422A1 (zh) 音频处理方法及电子设备
HK1236308A1 (en) Determination and use of auditory-space-optimized transfer functions
HK1236308B (en) Determination and use of auditory-space-optimized transfer functions

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20191203

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20221202

Comment text: Request for Examination of Application

Patent event code: PA02011R01I

Patent event date: 20191203

Comment text: Patent Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20240115

Patent event code: PE09021S01D

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20241126

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20250224

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20250403

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20250403

End annual number: 3

Start annual number: 1

PG1601 Publication of registration