WO2017119318A1 - 音声処理装置および方法、並びにプログラム - Google Patents

音声処理装置および方法、並びにプログラム Download PDF

Info

Publication number
WO2017119318A1
WO2017119318A1 PCT/JP2016/088379 JP2016088379W WO2017119318A1 WO 2017119318 A1 WO2017119318 A1 WO 2017119318A1 JP 2016088379 W JP2016088379 W JP 2016088379W WO 2017119318 A1 WO2017119318 A1 WO 2017119318A1
Authority
WO
WIPO (PCT)
Prior art keywords
head
related transfer
transfer function
harmonic
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2016/088379
Other languages
English (en)
French (fr)
Inventor
哲 曲谷地
祐基 光藤
悠 前野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2017560106A priority Critical patent/JP6834985B2/ja
Priority to BR112018013526-7A priority patent/BR112018013526A2/ja
Priority to US16/066,772 priority patent/US10412531B2/en
Priority to EP16883817.5A priority patent/EP3402221B1/en
Publication of WO2017119318A1 publication Critical patent/WO2017119318A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Definitions

  • the present technology relates to an audio processing device, method, and program, and more particularly, to an audio processing device, method, and program that can reproduce audio more efficiently.
  • Ambisonics there is a method of expressing 3D audio information that can be flexibly adapted to any recording / playback system, called Ambisonics, and is attracting attention.
  • Ambisonics having an order of 2 or more are called higher-order ambisonics (HOA (Higher Order Ambisonics)) (for example, see Non-Patent Document 1).
  • An advantage of this method is that information can be encoded and decoded from an arbitrary microphone array to an arbitrary speaker array without limiting the number of microphones and the number of speakers.
  • the binaural reproduction technique is generally called an auditory display (VAD (Virtual Auditory Display)), and is realized using a head-related transfer function (HRTF (Head-Related Transfer Function)).
  • VAD Visual Auditory Display
  • HRTF Head-Related Transfer Function
  • the head-related transfer function expresses information on how sound is transmitted from all directions surrounding the human head to the binaural eardrum as a function of frequency and direction of arrival.
  • VAD is a system that uses this principle.
  • the present technology has been made in view of such a situation, and is capable of reproducing audio more efficiently.
  • a speech processing apparatus synthesizes a portion corresponding to an annular harmonic region of an input signal of an annular harmonic region or an input signal of a spherical harmonic region and a diagonalized head related transfer function.
  • the head related transfer function synthesizer includes a diagonal matrix obtained by diagonalizing a matrix composed of a plurality of head related transfer functions by circular harmonic function conversion, and the input signal corresponding to each order of the circular harmonic function. By calculating a product with a vector, the input signal and the diagonalized head-related transfer function can be synthesized.
  • the head-related transfer function synthesizer uses only the elements of the predetermined order that can be set for each time frequency among the diagonal components of the diagonal matrix, and uses the input signal and the diagonalized head. Synthesis with the partial transfer function can be performed.
  • the diagonal matrix may include the diagonalized head-related transfer function that is commonly used by each user as an element.
  • the diagonal matrix may include the diagonalized head-related transfer function depending on the individual user as an element.
  • the diagonalized head-related transfer functions depending on the individual of the user are stored in advance and the diagonalized head-related transfer functions that are common to each user and constitute the diagonal matrix.
  • a matrix generation unit that generates the diagonal matrix from the acquired diagonalized head-related transfer function and the diagonalized head-related transfer function held in advance. Can do.
  • the circular harmonic inverse transform unit holds a circular harmonic function matrix composed of circular harmonic functions in each direction, and performs the circular harmonic inverse transformation based on a row corresponding to a predetermined direction of the circular harmonic function matrix. Can do.
  • the audio processing device further includes a head direction acquisition unit that acquires a direction of the head of a user who listens to the sound based on the headphone drive signal, and the circular harmonic inverse transformation unit includes the circular harmonic function matrix in the circular harmonic function matrix The circular harmonic inverse transformation can be performed based on a row corresponding to the direction of the user's head.
  • the voice processing device further includes a head direction sensor unit that detects rotation of the user's head, and the head direction acquisition unit acquires the detection result by the head direction sensor unit, The direction of the user's head can be acquired.
  • the audio processing device may further include a time-frequency reverse conversion unit that performs time-frequency reverse conversion of the headphone drive signal.
  • An audio processing method or program includes an input signal of an annular harmonic region or a portion corresponding to an annular harmonic region of an input signal of a spherical harmonic region and a diagonalized head related transfer function. And a step of generating a headphone drive signal in the time-frequency domain by performing synthesis and inversely transforming the signal obtained by the synthesis based on a circular harmonic function.
  • an input signal of the annular harmonic region or a portion corresponding to the annular harmonic region of the input signal of the spherical harmonic region and a diagonalized head-related transfer function are synthesized, and the synthesis is performed.
  • the headphone drive signal in the time-frequency domain is generated by inversely transforming the ring-shaped harmonic based on the ring-shaped harmonic function.
  • audio can be reproduced more efficiently.
  • the head-related transfer function in a certain plane is regarded as a function of a two-dimensional polar coordinate, and similarly, a circular harmonic function conversion is performed to obtain a speaker array signal of an input signal which is an audio signal in the spherical harmonic region or the circular harmonic region.
  • the spherical harmonic conversion for the function f ( ⁇ , ⁇ ) on the spherical coordinate is expressed by the following equation (1).
  • the circular harmonic function transformation for the function f ( ⁇ ) on the two-dimensional polar coordinates is expressed by the following equation (2).
  • Equation (1) ⁇ and ⁇ indicate the elevation angle and horizontal angle in spherical coordinates, respectively, and Y n m ( ⁇ , ⁇ ) indicates a spherical harmonic function. Further, spherical harmonics Y n m ( ⁇ , ⁇ ) at the top "-" is what is written represents the complex conjugate of the spherical harmonic Y n m ( ⁇ , ⁇ ) .
  • indicates a horizontal angle in two-dimensional polar coordinates
  • Y m ( ⁇ ) indicates a circular harmonic function.
  • the annular harmonics Y m (phi) upper "-" is what is written represents the complex conjugate of the annular harmonics Y m ( ⁇ ).
  • the spherical harmonic function Y n m ( ⁇ , ⁇ ) is expressed by the following equation (3).
  • the circular harmonic function Y m ( ⁇ ) is expressed by the following equation (4).
  • n and m indicate the order of the spherical harmonic function Y n m ( ⁇ , ⁇ ), and ⁇ n ⁇ m ⁇ n.
  • J represents a pure imaginary number
  • P n m (x) is a Legendre power function represented by the following equation (5).
  • m represents the order of the circular harmonic function Y m ( ⁇ )
  • j represents a pure imaginary number.
  • x i represents the position of the speaker
  • represents the time frequency of the sound signal.
  • the input signal D ′ n m ( ⁇ ) is a speech signal corresponding to each order n and order m of the spherical harmonic function with respect to a predetermined time frequency ⁇ .
  • the input signal D ′ n m Only elements of ( ⁇ ) where
  • n are used. That is, only the input signal D ′ n m ( ⁇ ) corresponding to the annular harmonic region is used.
  • the speaker drive signal S of each of the L speakers arranged on the circle with the radius R Conversion to (x i , ⁇ ) is as shown in the following equation (9).
  • Equation (9) x i represents the position of the speaker, and ⁇ represents the time frequency of the sound signal.
  • the input signal D ′ m ( ⁇ ) is an audio signal corresponding to each order m of the circular harmonic function with respect to a predetermined time frequency ⁇ .
  • x i (Rcos ⁇ i , Rsin ⁇ i ) t
  • i indicates a speaker index that identifies the speaker.
  • i 1, 2,..., L
  • ⁇ i represents a horizontal angle indicating the position of the i-th speaker.
  • the transformation represented by the equations (8) and (9) is a circular harmonic inverse transformation corresponding to the equations (6) and (7). Further, when the speaker driving signal S (x i , ⁇ ) is obtained by the equations (8) and (9), the number L of speakers, which is the number of reproduction speakers, and the order N of the ring harmonic function, that is, the maximum value of the order m. N must satisfy the relationship represented by the following formula (10). In the following, the case where the input signal is a signal in the annular harmonic region will be described.
  • a general method for simulating stereophonic sound at the ear by presenting headphones is a method using a head-related transfer function as shown in FIG. 1, for example.
  • the input ambisonics signal is decoded, and the speaker drive signals of the virtual speakers SP11-1 to SP11-8, which are a plurality of virtual speakers, are generated.
  • the signal decoded at this time corresponds to, for example, the input signal D ′ n m ( ⁇ ) and the input signal D ′ m ( ⁇ ) described above.
  • each of the virtual speakers SP11-1 to SP11-8 is virtually arranged in a ring shape, and the speaker drive signal of each virtual speaker is expressed by the above equation (8) or (9). It is obtained by calculation.
  • the virtual speakers SP11-1 to SP11-8 are also simply referred to as virtual speakers SP11 when it is not necessary to distinguish them.
  • the left and right drive signals (binaural signals) of the headphone HD11 that actually reproduces sound use the head-related transfer function for each virtual speaker SP11. Generated by a convolution operation. The sum of the drive signals of the headphones HD11 obtained for each virtual speaker SP11 is the final drive signal.
  • the head-related transfer function H (x, ⁇ ) used to generate the left and right drive signals of the headphone HD11 is derived from the sound source position x in the state where the head of the user who is the listener exists in free space, and the user's eardrum
  • the transfer characteristic H 1 (x, ⁇ ) up to the position is normalized by the transfer characteristic H 0 (x, ⁇ ) from the sound source position x to the head center O in the state where the head is not present. That is, the head-related transfer function H (x, ⁇ ) for the sound source position x is obtained by the following equation (11).
  • such a principle is used to generate the left and right drive signals of the headphones HD11.
  • each virtual speaker SP11 is defined as a position x i
  • the speaker driving signal of these virtual speakers SP11 is defined as S (x i , ⁇ ).
  • the speaker drive signal S (x i, omega) a to simulate headphones HD11 presented, the drive signal P l and the drive signal P r of the left and right headphone HD11 shall be determined by calculating the following equation (12) Can do.
  • H l (x i , ⁇ ) and H r (x i , ⁇ ) are normalized heads from the position x i of the virtual speaker SP11 to the left and right eardrum positions of the listener, respectively.
  • the part transfer function is shown.
  • FIG. It is supposed to be configured.
  • the speech processing apparatus 11 shown in FIG. 2 includes an annular harmonic inverse transform unit 21, a head-related transfer function synthesis unit 22, and a time-frequency inverse transform unit 23.
  • the ring-shaped harmonic inverse transform unit 21 performs ring-shaped harmonic inverse transform on the inputted input signal D ′ m ( ⁇ ) by calculating Expression (9), and the speaker drive of the virtual speaker SP11 obtained as a result thereof
  • the signal S (x i , ⁇ ) is supplied to the head related transfer function synthesis unit 22.
  • the head-related transfer function synthesizer 22 receives the speaker drive signal S (x i , ⁇ ) from the circular harmonic inverse transform unit 21, the head-related transfer function H l (x i , ⁇ ) prepared in advance, and the head-related transfer function. From H r (x i , ⁇ ), the left and right drive signals P 1 and P r of the headphone HD11 are generated and output by Expression (12).
  • time-frequency inverse conversion unit 23 the drive signal P l and the drive signal P r is a signal output time-frequency domain from the head transfer function combining unit 22 performs time-frequency inverse conversion, the result
  • the drive signal p l (t) and the drive signal p r (t), which are obtained time domain signals, are supplied to the headphones HD11 to reproduce sound.
  • the driving signal p l (t) and the drive signal p r when it is not necessary to distinguish (t), it is also simply referred to as drive signal p (t).
  • drive signal p (t) when there is no need to particularly distinguish the head-related transfer function H l (x i , ⁇ ) and the head-related transfer function H r (x i , ⁇ ), they are also simply referred to as the head-related transfer function H (x i , ⁇ ).
  • the voice processing device 11 in order to obtain the drive signal P ( ⁇ ) of 1 ⁇ 1, that is, 1 row and 1 column, for example, the calculation shown in FIG. 3 is performed.
  • H ( ⁇ ) represents a 1 ⁇ L vector (matrix) composed of L head-related transfer functions H (x i , ⁇ ).
  • D '(omega) is the input signal D' represents a vector of m (omega), the input signal D bin of the time-frequency omega 'the number of m (omega)
  • vector D' (omega ) Is K ⁇ 1.
  • Y ⁇ represents a matrix composed of circular harmonic functions Y m ( ⁇ i ) of each order, and the matrix Y ⁇ is an L ⁇ K matrix.
  • the speech processing apparatus 11 obtains the matrix S obtained from the matrix operation of the L ⁇ K matrix Y ⁇ and the K ⁇ 1 vector D ′ ( ⁇ ), and further obtains the matrix S and the 1 ⁇ L vector (matrix). ) A matrix operation with H ( ⁇ ) is performed to obtain one drive signal P ( ⁇ ).
  • the left headphone drive signal P l ( ⁇ j , ⁇ ) is expressed by the following equation (13).
  • the drive signal P 1 ( ⁇ j , ⁇ ) represents the drive signal P 1 described above.
  • the drive signal is used to clarify the position, that is, the direction ⁇ j and the time frequency ⁇ . Indicated as P l ( ⁇ j , ⁇ ).
  • a configuration for specifying the direction of rotation of the listener's head that is, a configuration of a head tracking function
  • the position can be fixed in the space.
  • portions corresponding to those in FIG. 2 are denoted with the same reference numerals, and description thereof will be omitted as appropriate.
  • FIG. 4 further includes a head direction sensor unit 51 and a head direction selection unit 52 in the configuration shown in FIG.
  • the head direction sensor unit 51 detects the rotation of the head of the user who is a listener, and supplies the detection result to the head direction selection unit 52. Based on the detection result from the head direction sensor unit 51, the head direction selection unit 52 obtains the rotation direction of the listener's head, that is, the direction of the listener's head after rotation as the direction ⁇ j , This is supplied to the partial transfer function synthesis unit 22.
  • the head-related transfer function combining unit 22 is viewed from the listener's head among the plurality of head-related transfer functions prepared in advance based on the direction ⁇ j supplied from the head direction selecting unit 52.
  • the left and right drive signals of the headphone HD11 are calculated using the head-related transfer function of the relative coordinates u ( ⁇ j ) ⁇ 1 x i of each virtual speaker SP11.
  • the sound image position viewed from the listener can be fixed in the space even when the sound is reproduced by the headphones HD11.
  • a headphone drive signal is generated by the general method described above or a method in which a head tracking function is further added to the general method, the range in which the sound space can be reproduced is not limited without using a speaker array.
  • the same effect as the ambisonics arranged in a ring can be obtained.
  • these methods not only increase the amount of computation such as convolution of the head related transfer function, but also increase the amount of memory used for the computation.
  • the convolution of the head-related transfer function which was performed in the time-frequency domain in the general method, is performed in the annular harmonic domain.
  • the vector P l ( ⁇ ) composed of the drive signals P l ( ⁇ j , ⁇ ) of the left headphone with respect to the rotation direction of the head of the listener (listener) is given by the following formula ( 15).
  • Y ⁇ represents a matrix composed of the circular harmonic function Y m ( ⁇ i ) of each order and the angle ⁇ i of each virtual speaker, which is represented by the following Expression (16).
  • i 1, 2,..., L
  • the maximum value (maximum order) of the order m is N.
  • D ′ ( ⁇ ) represents a vector (matrix) composed of the audio input signal D ′ m ( ⁇ ) corresponding to each order represented by the following equation (17).
  • Each input signal D ′ m ( ⁇ ) is a signal in the annular harmonic region.
  • H ( ⁇ ) is each virtual speaker as viewed from the listener's head when the direction of the listener's head is the direction ⁇ j, which is expressed by Expression (18) below.
  • the head-related transfer function H (u ( ⁇ j ) ⁇ 1 x i , ⁇ ) of each virtual speaker is prepared for a total of M directions from the direction ⁇ 1 to the direction ⁇ M.
  • the head of the listener is selected from the head transfer function matrix H ( ⁇ ).
  • the line corresponding to the direction ⁇ j which is the direction of the part, that is, the line of the head-related transfer function H (u ( ⁇ j ) ⁇ 1 x i , ⁇ ) is selected to calculate the equation (15).
  • the vector D ′ ( ⁇ ) is a matrix of K ⁇ 1, that is, K rows and 1 column. Further, the matrix Y ⁇ of the circular harmonic function is L ⁇ K, and the matrix H ( ⁇ ) is M ⁇ L. Therefore, in the calculation of Expression (15), the vector P l ( ⁇ ) is M ⁇ 1.
  • an M ⁇ K matrix composed of a circular harmonic function corresponding to the input signal D ′ m ( ⁇ ) in each of M directions in total from the directions ⁇ 1 to ⁇ M is Y ⁇ . That is, a matrix composed of the circular harmonic functions Y m ( ⁇ 1 ) to the circular harmonic functions Y m ( ⁇ M ) for the directions ⁇ 1 to ⁇ M is defined as Y ⁇ . Further, the Hermitian transposed matrix of the matrix Y phi and Y phi H.
  • equation (19) calculation is performed to diagonalize the head-related transfer function, more specifically, the matrix H ( ⁇ ) composed of the time-frequency domain head-related transfer function, by circular harmonic function transformation. Further, in the calculation of Expression (20), it can be seen that the speaker drive signal and the head-related transfer function are convolved in the annular harmonic region.
  • the matrix H ′ ( ⁇ ) can be calculated and held in advance.
  • the listener of the circular harmonic function matrix Y ⁇ is calculated.
  • the line corresponding to the head direction ⁇ j that is, the line composed of the circular harmonic function Y m ( ⁇ j ) is selected to calculate the equation (20).
  • the matrix H ( ⁇ ) can be diagonalized, that is, if the matrix H ( ⁇ ) is sufficiently diagonalized by the above-described equation (19), the left headphone drive signal P l ( ⁇ ).
  • the calculation for calculating j , ⁇ ) is only the calculation shown in the following equation (21). As a result, the calculation amount and the required memory amount can be greatly reduced.
  • the description will be continued assuming that the matrix H ( ⁇ ) can be diagonalized and the matrix H ′ ( ⁇ ) is a diagonal matrix.
  • H ′ m ( ⁇ ) is one element of the matrix H ′ ( ⁇ ) that is a diagonal matrix, that is, a component (element) corresponding to the head direction ⁇ j in the matrix H ′ ( ⁇ ).
  • the head related transfer function of the annular harmonic region is shown.
  • M in the head-related transfer function H ′ m ( ⁇ ) indicates the order m of the circular harmonic function.
  • Y m ( ⁇ j ) indicates a circular harmonic function that is one element of a row corresponding to the head direction ⁇ j in the matrix Y ⁇ .
  • the calculation amount is reduced as shown in FIG. That is, the calculation shown in the equation (20) is performed by using an M ⁇ K matrix Y ⁇ , a K ⁇ M matrix Y ⁇ H , an M ⁇ L matrix H ( ⁇ ), and an L ⁇
  • the matrix operation is a matrix Y ⁇ of K and a vector D ′ ( ⁇ ) of K ⁇ 1.
  • the matrix H ( ⁇ ) is diagonalized.
  • the matrix H ′ ( ⁇ ) is a K ⁇ K matrix as indicated by the arrow A22.
  • the matrix H ′ ( ⁇ ) is substantially only a diagonal component represented by the hatched portion. That is, in the matrix H ′ ( ⁇ ), the values of the elements other than the diagonal component are 0, and the subsequent calculation amount can be greatly reduced.
  • a row corresponding to the listener's head direction ⁇ j is selected from the matrix Y ⁇ , and a matrix operation of the selected row and the vector B ′ ( ⁇ ) is performed.
  • the left headphone drive signal P l ( ⁇ j , ⁇ ) is calculated.
  • the hatched portion in the matrix Y ⁇ represents a row corresponding to the direction ⁇ j , and the elements constituting this row are the circular harmonic functions Y m ( ⁇ j shown in the equation (21). ).
  • the length of the vector D ′ ( ⁇ ) is K and the head-related transfer function matrix H ( ⁇ ) is M ⁇ L
  • the circular harmonic function matrix Y ⁇ is L ⁇ K
  • the matrix Y ⁇ is M ⁇ L. K
  • the matrix H ′ ( ⁇ ) is K ⁇ K.
  • the vector D ′ ( ⁇ ) is converted into the time frequency domain for each time frequency ⁇ bin (hereinafter also referred to as time frequency bin ⁇ ).
  • An L ⁇ K multiply-accumulate operation is generated in the process, and a product-sum operation is generated by 2 L by convolution with the left and right head related transfer functions.
  • each coefficient of product-sum operation is 1 byte
  • the amount of memory required for the calculation by the extended method is (number of head transfer function directions to be held) x 2 for each time frequency bin ⁇ .
  • the number of directions of the head-related transfer function to be held is M ⁇ L as indicated by an arrow A31 in FIG.
  • a memory of L ⁇ K bytes is required for the matrix Y ⁇ of the circular harmonic function common to all the time frequency bins ⁇ .
  • the required memory amount in the expansion method is (2 ⁇ M ⁇ L ⁇ W + L ⁇ K) bytes in total.
  • K ⁇ K product-sum is obtained by convolution of the vector D ′ ( ⁇ ) in the annular harmonic region per head and the matrix H ′ ( ⁇ ) of the head-related transfer function. An operation occurs, and a product-sum operation is generated by K for conversion to the time-frequency domain.
  • the amount of memory required for the calculation by the proposed method is 2 K bytes because only the diagonal component of the head-related transfer function matrix H ′ ( ⁇ ) is required for each time frequency bin ⁇ . Further, a memory of M ⁇ K bytes is required for the matrix Y ⁇ of the circular harmonic function common to all time frequency bins ⁇ .
  • the required memory amount in the proposed method is (2 ⁇ K ⁇ W + M ⁇ K) bytes in total.
  • FIG. 8 is a diagram illustrating a configuration example of an embodiment of a speech processing device to which the present technology is applied.
  • the audio processing device 81 includes a head direction sensor unit 91, a head direction selection unit 92, a head-related transfer function synthesis unit 93, an annular harmonic inverse transformation unit 94, and a time-frequency inverse transformation unit 95.
  • the audio processing device 81 may be built in the headphones, or may be a device different from the headphones.
  • the head direction sensor unit 91 includes, for example, an acceleration sensor or an image sensor attached to the user's head as necessary.
  • the head direction sensor unit 91 detects the rotation (movement) of the head of the user who is the listener, and detects the detection.
  • the result is supplied to the head direction selection unit 92.
  • the user is a user who wears headphones, that is, a user who listens to the sound reproduced by the headphones based on the left and right headphone drive signals obtained by the time-frequency inverse transform unit 95.
  • the head direction selection unit 92 Based on the detection result from the head direction sensor unit 91, the head direction selection unit 92 obtains the rotation direction of the listener's head, that is, the direction ⁇ j of the listener's head after rotation, This is supplied to the inverse conversion unit 94. In other words, the head direction selecting unit 92 acquires the direction ⁇ j of the user's head by acquiring the detection result from the head direction sensor unit 91.
  • the head-related transfer function synthesis unit 93 is supplied with an input signal D ′ m ( ⁇ ) of each order of the circular harmonic function for each time frequency bin ⁇ , which is an audio signal in the circular harmonic region, from the outside.
  • the head-related transfer function synthesis unit 93 holds a matrix H ′ ( ⁇ ) composed of head-related transfer functions obtained in advance by calculation.
  • the head-related transfer function synthesizer 93 includes the supplied input signal D ′ m ( ⁇ ) and the held matrix H ′ ( ⁇ ), that is, the head-related transfer function diagonalized by the above-described equation (19).
  • the input signal D ' m ( ⁇ ) and the head-related transfer function are synthesized in the circular harmonic region by performing a convolution operation with the matrix of, and the resulting vector B' ( ⁇ ) is converted into the circular harmonic inverse transform unit 94.
  • the element of the vector B ′ ( ⁇ ) is also referred to as B ′ m ( ⁇ ).
  • the circular harmonic inverse transformation unit 94 holds a matrix Y ⁇ composed of circular harmonic functions in each direction in advance, and the direction ⁇ j supplied from the head direction selection unit 92 among the rows constituting the matrix Y ⁇ . , That is, a row composed of the circular harmonic function Y m ( ⁇ j ) of the above-described equation (21).
  • the circular harmonic inverse transform unit 94 includes a circular harmonic function Y m ( ⁇ j ) constituting a row of the matrix Y ⁇ selected based on the direction ⁇ j and the vector B ′ ( By calculating the sum of the products of ⁇ ) with the element B ′ m ( ⁇ ), the input signal combined with the head-related transfer function is subjected to inverse circular harmonic transformation.
  • the convolution calculation of the head-related transfer function in the head-related transfer function synthesis unit 93 and the ring-shaped harmonic inverse transform in the ring-shaped harmonic inverse transform unit 94 are performed for each of the left and right headphones.
  • the drive signal P l ( ⁇ j , ⁇ ) of the left headphone in the time frequency domain and the drive signal P r ( ⁇ j , ⁇ ) of the right headphone in the time frequency domain are timed. Obtained for each frequency bin ⁇ .
  • the annular harmonic inverse transformation unit 94 supplies the left and right headphone drive signals P l ( ⁇ j , ⁇ ) and the drive signal P r ( ⁇ j , ⁇ ) obtained by the annular harmonic inverse transformation to the time-frequency inverse transformation unit 95. To do.
  • the time-frequency inverse transform unit 95 performs time-frequency inverse transform on the drive signal in the time-frequency domain supplied from the annular harmonic inverse transform unit 94 for each of the left and right headphones, thereby driving the left headphone drive signal in the time domain.
  • a playback device that plays back sound with two channels, such as a headphone at a later stage, more specifically, a headphone including an earphone, the sound is played back based on the drive signal output from the time-frequency inverse transform unit 95.
  • step S ⁇ b> 11 the head direction sensor unit 91 detects the rotation of the head of the user who is a listener, and supplies the detection result to the head direction selection unit 92.
  • step S ⁇ b> 12 the head direction selecting unit 92 obtains the listener's head direction ⁇ j based on the detection result from the head direction sensor unit 91, and supplies it to the annular harmonic inverse transform unit 94.
  • step S ⁇ b> 13 the head related transfer function synthesizer 93 performs the head related transfer function H ′ m () constituting the matrix H ′ ( ⁇ ) held in advance for the supplied input signal D ′ m ( ⁇ ). ⁇ ) is convolved, and the vector B ′ ( ⁇ ) obtained as a result is supplied to the circular harmonic inverse transform unit 94.
  • step S13 the product of the matrix H ′ ( ⁇ ) composed of the head related transfer function H ′ m ( ⁇ ) and the vector D ′ ( ⁇ ) composed of the input signal D ′ m ( ⁇ ) is calculated in the annular harmonic region. That is, the calculation for obtaining H ′ m ( ⁇ ) D ′ m ( ⁇ ) of the above-described equation (21) is performed.
  • step S ⁇ b> 14 the circular harmonic inverse transformation unit 94 is supplied from the head-related transfer function synthesis unit 93 based on the matrix Y ⁇ held in advance and the direction ⁇ j supplied from the head direction selection unit 92.
  • the vector B ′ ( ⁇ ) is subjected to circular harmonic inverse transformation to generate drive signals for the left and right headphones.
  • the circular harmonic inverse transformation unit 94 selects a row corresponding to the direction ⁇ j from the matrix Y ⁇ , and obtains the circular harmonic function Y m ( ⁇ j ) and the vector B ′ ( ⁇ ) constituting the selected row.
  • the left headphone drive signal P l ( ⁇ j , ⁇ ) is calculated by calculating Expression (21) from the constituent element B ′ m ( ⁇ ).
  • the annular harmonic inverse transformation unit 94 performs the same calculation for the right headphones as for the left headphones, and calculates the drive signal P r ( ⁇ j , ⁇ ) for the right headphones.
  • the annular harmonic inverse transform unit 94 supplies the left and right headphone drive signals P l ( ⁇ j , ⁇ ) and the drive signals P r ( ⁇ j , ⁇ ) thus obtained to the time-frequency inverse transform unit 95. .
  • step S15 the time-frequency inverse transform unit 95 performs time-frequency inverse transform on the drive signal in the time-frequency domain supplied from the annular harmonic inverse transform unit 94 for each of the left and right headphones, and drives the left headphone drive signal p. l ( ⁇ j , t) and right headphone drive signal p r ( ⁇ j , t) are calculated. For example, inverse discrete Fourier transform is performed as time frequency inverse transform.
  • the time-frequency inverse transform unit 95 outputs the drive signal p l ( ⁇ j , t) and the drive signal p r ( ⁇ j , t) in the time domain thus obtained to the left and right headphones, and performs drive signal generation processing. Ends.
  • the sound processing device 81 convolves the head-related transfer function with the input signal in the annular harmonic region, performs inverse harmonic transformation on the convolution result, and calculates drive signals for the left and right headphones.
  • the required order m N ( ⁇ ) is known in each time frequency bin ⁇ among the diagonal components of the head-related transfer function matrix H ′ ( ⁇ ), for example, the following equation (22) is calculated.
  • the amount of calculation can be reduced by, for example, obtaining the left headphone drive signal P l ( ⁇ j , ⁇ ). The same applies to the right headphones.
  • a rectangle with the letter “H ′ ( ⁇ )” represents a diagonal component of the matrix H ′ ( ⁇ ) of each time frequency bin ⁇ held in the head-related transfer function synthesis unit 93.
  • the diagonal portions of the diagonal components represent the required order m, that is, the element parts of the order ⁇ N ( ⁇ ) to the order N ( ⁇ ).
  • step S13 and step S14 of FIG. 9 the convolution of the head-related transfer function and the circular harmonic inverse transformation are performed by the calculation of equation (22) instead of equation (21).
  • the required order of the matrix H ′ ( ⁇ ) can be set for each time frequency bin ⁇ , that is, for each time frequency bin ⁇ , or for all time frequency bins ⁇ , A common order may be set as a necessary order.
  • FIG. 11 shows the calculation amount and the required memory amount in the general method, the above-described proposed method, and the case where only the order m necessary for the proposed method is calculated.
  • the column of “order of the circular harmonic function” indicates the value of the maximum order
  • N of the circular harmonic function
  • the column of “necessary virtual speakers” is used to correctly reproduce the sound field. The minimum number of virtual speakers required is shown.
  • the “Computation amount (general method)” column indicates the number of product-sum operations required to generate the headphone drive signal by the general method
  • the “Computation amount (proposed method)” column It shows the number of product-sum operations required to generate the headphone drive signal using the proposed method.
  • the column “Calculation amount (proposed method / order-2)” shows the number of product-sum operations required to generate the headphone drive signal using the proposed method and calculations up to order N ( ⁇ ). Is shown. In this example, the upper secondary part of the order m is truncated and is not calculated.
  • the “Memory (general method)” column indicates the amount of memory required to generate the headphone drive signal by the general method, and the “Memory (proposed method)” column indicates the headphone by the proposed method. It shows the amount of memory required to generate a drive signal.
  • the column of “memory (proposed method / order-2)” shows the amount of memory required for generating the headphone drive signal by the calculation using the proposed method and up to the order N ( ⁇ ).
  • is rounded down and is not calculated.
  • the calculation amount in the proposed method is 36.
  • the proposed method and the order up to the order N ( ⁇ ) are used for the calculation.
  • the head-related transfer function is a filter formed by diffraction and reflection of the listener's head and auricle, the head-related transfer function varies depending on the individual listener. Therefore, optimizing the head-related transfer function for individuals is important for binaural reproduction.
  • a head-related transfer function optimized for an individual is used in a reproduction system to which the proposed method is applied, for each time frequency bin ⁇ or for all time frequency bins ⁇ , the order that does not depend on the individual and the order that depends on the order are set. If specified in advance, the necessary individual dependent parameters can be reduced. Further, when estimating the listener's individual head-related transfer function from the body shape or the like, an individual-dependent coefficient (head-related transfer function) in the annular harmonic region may be used as an objective variable.
  • the order depending on the individual is an order m in which the transfer characteristic is greatly different for each user, that is, the head-related transfer function H ′ m ( ⁇ ) is different for each user.
  • the order not depending on the individual is the order m of the head-related transfer function H ′ m ( ⁇ ) in which the difference in transfer characteristics of each individual is sufficiently small.
  • the matrix H ′ ( ⁇ ) is generated from the head-related transfer function of the order that does not depend on the individual and the head-related transfer function of the order that depends on the individual as described above, for example, an example of the speech processing device 81 illustrated in FIG. Then, as shown in FIG. 12, the head-related transfer function of the order depending on the individual is acquired by some method.
  • FIG. 12 parts corresponding to those in FIG. 8 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • the rectangle with the character “H ′ ( ⁇ )” represents the diagonal component of the matrix H ′ ( ⁇ ) of the time frequency bin ⁇ , and the diagonally shaded portion of the diagonal component This represents a portion held in the speech processing device 81, that is, a portion of the head-related transfer function H ′ m ( ⁇ ) of an order that does not depend on an individual.
  • the part indicated by arrow A91 in the diagonal component represents the part of the head-related transfer function H ′ m ( ⁇ ) of the order depending on the individual.
  • the head-related transfer function H ′ m ( ⁇ ) of the degree independent of the individual which is represented by the hatched portion in the diagonal component, is a head-related transfer function that is commonly used by all users.
  • the head-related transfer function H ′ m ( ⁇ ) of the order depending on the individual indicated by the arrow A91 is different for each user, such as one optimized for each user. Part transfer function.
  • the speech processing device 81 obtains a head-related transfer function H ′ m ( ⁇ ) of an order depending on an individual, which is represented by a rectangle in which the character “individual coefficient” is written, and the obtained head-related transmission function H generates the diagonal component of the matrix H '(omega) from a' and m (omega), and not the order of the head related transfer function H depends on the individual stored in advance 'm (omega), HRTF synthesis To the unit 93.
  • the matrix H ′ ( ⁇ ) is composed of a head-related transfer function that is commonly used by all users and a head-related transfer function that is different for each user will be described. All non-zero elements of ( ⁇ ) may be different for each user. Further, the same matrix H ′ ( ⁇ ) may be commonly used by all users.
  • the generated matrix H ′ ( ⁇ ) is composed of different elements for each time frequency bin ⁇ as shown in FIG. 13, and the elements on which the calculation is performed differ for each time frequency bin ⁇ as shown in FIG. May be.
  • FIG. 14 parts corresponding to those in FIG. 8 are denoted by the same reference numerals, and description thereof is omitted.
  • the rectangles with the characters “H ′ ( ⁇ )” indicated by the arrows A101 to A106 represent the diagonal components of the matrix H ′ ( ⁇ ) of the predetermined time frequency bin ⁇ . .
  • the hatched portion of the diagonal components represents the required order m element portion.
  • the speech processing device 81 has a temporal frequency in addition to a database of head related transfer functions diagonalized by circular harmonic function transformation, that is, a matrix H ′ ( ⁇ ) of each temporal frequency bin ⁇ .
  • Information indicating the required order m for each bin ⁇ is simultaneously held as a database.
  • a rectangle with the letter “H ′ ( ⁇ )” represents a diagonal component of the matrix H ′ ( ⁇ ) of each time frequency bin ⁇ held in the head-related transfer function synthesis unit 93.
  • the hatched portions of the diagonal components represent the required order m element portions.
  • the product with D ' m ( ⁇ ) is obtained. That is, the calculation of H ′ m ( ⁇ ) D ′ m ( ⁇ ) in the above equation (22) is performed. This makes it possible to reduce unnecessary order calculations in the head-related transfer function synthesis unit 93.
  • the sound processing device 81 When generating the matrix H ′ ( ⁇ ), the sound processing device 81 is configured as shown in FIG. 15, for example.
  • FIG. 15 parts corresponding to those in FIG. 8 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • a voice processing device 81 shown in FIG. 15 includes a head direction sensor unit 91, a head direction selection unit 92, a matrix generation unit 201, a head transfer function synthesis unit 93, an annular harmonic inverse transformation unit 94, and a time-frequency inverse transformation unit. 95.
  • the configuration of the speech processing device 81 shown in FIG. 15 is a configuration in which a matrix generation unit 201 is further provided in the speech processing device 81 shown in FIG.
  • the matrix generation unit 201 holds in advance a head-related transfer function of an order that does not depend on an individual, acquires the head-related transfer function of an order that depends on an individual from the outside, and holds the acquired head-related transfer function in advance.
  • a matrix H ′ ( ⁇ ) is generated from the head-related transfer function of the order that does not depend on the individual, and is supplied to the head-related transfer function synthesis unit 93.
  • step S71 the matrix generation unit 201 performs user setting.
  • the matrix generation unit 201 performs user setting for specifying information related to a listener who listens to the sound reproduced this time in response to an input operation or the like by a user or the like.
  • the matrix generation unit 201 acquires, from an external device or the like, a user-related order of the head-related transfer function for the listener who listens to the sound reproduced this time, that is, the user, according to the user setting.
  • the user's head-related transfer function may be specified by an input operation by the user or the like at the time of user setting, for example, or may be determined based on information determined by the user setting.
  • step S ⁇ b> 72 the matrix generation unit 201 generates a head-related transfer function matrix H ′ ( ⁇ ) and supplies it to the head-related transfer function synthesis unit 93.
  • the matrix generation unit 201 acquires the head-related transfer function of the order depending on the individual, the matrix H is derived from the acquired head-related transfer function and the head-related transfer function of the order that does not depend on the individual held in advance. '( ⁇ ) is generated and supplied to the head-related transfer function synthesis unit 93. At this time, the matrix generation unit 201 converts the matrix H ′ ( ⁇ ) including only the elements of the required order into the time frequency bin based on the information indicating the required order m of each time frequency bin ⁇ held in advance. Generate for each ⁇ .
  • step S73 to step S77 the processing from step S73 to step S77 is performed and the drive signal generation processing ends.
  • the head-related transfer function is convoluted with the input signal in the annular harmonic region, and a headphone drive signal is generated. Note that the generation of the matrix H ′ ( ⁇ ) may be performed in advance, or may be performed after the input signal is supplied.
  • the sound processing device 81 convolves the head-related transfer function with the input signal in the annular harmonic region, performs inverse harmonic transformation on the convolution result, and calculates drive signals for the left and right headphones.
  • the speech processing device 81 since the speech processing device 81 generates the matrix H ′ ( ⁇ ) by acquiring the head-related transfer function of the order depending on the person from the outside, not only can the memory amount be further reduced, The sound field can be appropriately reproduced using a head-related transfer function suitable for the individual user.
  • the position of the virtual speaker relative to the head-related transfer function to be held and the initial head position may be on the horizontal plane as indicated by arrow A111 in FIG. 17, or on the median plane as indicated by arrow A112. It may also be on the coronal plane as indicated by arrow A113. That is, a virtual speaker may be arranged on any ring (hereinafter referred to as ring A) centering on the center of the listener's head.
  • ring A any ring
  • a virtual speaker is annularly arranged on the ring RG11 on the horizontal plane centering on the head of the user U11. Further, in the example shown by the arrow A112, a virtual speaker is annularly arranged on the ring RG12 on the median plane centering on the head of the user U11, and in the example shown by the arrow A113, a crown shape centering on the head of the user U11 A virtual speaker is annularly arranged on the ring RG13 on the surface.
  • the position of the virtual speaker with respect to the head transfer function to be held and the initial head direction is determined by moving the ring A in a direction perpendicular to the plane including the ring A, for example, as shown in FIG. It may be a different position.
  • a ring A moved is referred to as a ring B.
  • FIG. 18 portions corresponding to those in FIG. 17 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • virtual speakers are annularly arranged on the ring RG21 and the ring RG22 in which the ring RG11 on the horizontal plane centering on the head of the user U11 is moved in the vertical direction in the figure.
  • ring RG21 and ring RG22 become ring B.
  • virtual speakers are arranged in a ring shape on the ring RG23 and the ring RG24 in which the ring RG12 on the median plane centering on the head of the user U11 is moved in the depth direction in the drawing.
  • virtual speakers are annularly arranged on the ring RG25 and the ring RG26 in which the ring RG13 on the coronal surface centering on the head of the user U11 is moved in the left-right direction in the drawing.
  • FIG. 19 regarding the head transfer function to be held and the virtual speaker arrangement with respect to the initial head direction, when there is an input for each of a plurality of rings arranged in a predetermined direction,
  • the aforementioned system can be assembled. However, what can be shared, such as sensors and headphones, may be shared as appropriate.
  • FIG. 19 the same reference numerals are given to the portions corresponding to those in FIG. 18, and the description thereof will be omitted as appropriate.
  • the above-described system can be assembled for each of the rings RG11, RG21, and RG22 arranged in the vertical direction in the figure.
  • the above-described system can be assembled for each of the ring RG12, the ring RG23, and the ring RG24 arranged in the depth direction in the figure, and in the example shown by the arrow A133, The above-described system can be assembled for each of the ring RG13, ring RG25, and ring RG26.
  • a diagonalized head for a group of rings A (hereinafter referred to as ring Adi) having a plane including a certain straight line passing through the head center of the user U11 who is a listener.
  • a plurality of transfer function matrices H′i ( ⁇ ) may be prepared.
  • FIG. 20 portions corresponding to those in FIG. 19 are denoted by the same reference numerals, and description thereof will be omitted as appropriate.
  • each of a plurality of circles around the head of the user U11 represents each ring Adi.
  • the input is a matrix H'i ( ⁇ ) of the head related transfer function for any of the rings Adi with respect to the initial head direction.
  • the process of choosing ( ⁇ ) will be added to the aforementioned system.
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software is installed in the computer.
  • the computer includes, for example, a general-purpose computer capable of executing various functions by installing a computer incorporated in dedicated hardware and various programs.
  • FIG. 21 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processes by a program.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • An input / output interface 505 is further connected to the bus 504.
  • An input unit 506, an output unit 507, a recording unit 508, a communication unit 509, and a drive 510 are connected to the input / output interface 505.
  • the input unit 506 includes a keyboard, a mouse, a microphone, an image sensor, and the like.
  • the output unit 507 includes a display, a speaker, and the like.
  • the recording unit 508 includes a hard disk, a nonvolatile memory, and the like.
  • the communication unit 509 includes a network interface or the like.
  • the drive 510 drives a removable recording medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 501 loads the program recorded in the recording unit 508 to the RAM 503 via the input / output interface 505 and the bus 504 and executes the program, for example. Is performed.
  • the program executed by the computer (CPU 501) can be provided by being recorded in a removable recording medium 511 as a package medium or the like, for example.
  • the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
  • the program can be installed in the recording unit 508 via the input / output interface 505 by attaching the removable recording medium 511 to the drive 510. Further, the program can be received by the communication unit 509 via a wired or wireless transmission medium and installed in the recording unit 508. In addition, the program can be installed in advance in the ROM 502 or the recording unit 508.
  • the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
  • the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
  • each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
  • the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
  • the present technology can be configured as follows.
  • a head-related transfer function synthesizer that synthesizes an input signal of the circular harmonic region or a portion corresponding to the circular harmonic region of the input signal of the spherical harmonic region and a diagonalized head-related transfer function;
  • An audio processing device comprising: an annular harmonic inverse transform unit that generates a headphone drive signal in a time-frequency domain by subjecting a signal obtained by the synthesis to an annular harmonic inverse transform based on an annular harmonic function.
  • the head-related transfer function synthesis unit includes a diagonal matrix obtained by diagonalizing a matrix composed of a plurality of head-related transfer functions by circular harmonic function transformation, and the input signal corresponding to each order of the circular harmonic function.
  • the speech processing device wherein the input signal and the diagonalized head related transfer function are synthesized by obtaining a product with a vector.
  • the head-related transfer function synthesizer uses only the elements of the predetermined order that can be set for each time frequency among the diagonal components of the diagonal matrix, and uses the input signal and the diagonalized head.
  • the speech processing apparatus which performs synthesis with a transfer function.
  • the speech processing apparatus which performs synthesis with a transfer function.
  • the speech processing apparatus includes the diagonalized head-related transfer function used in common by each user as an element.
  • the speech processing apparatus according to any one of (2) to (4), wherein the diagonal matrix includes the diagonalized head-related transfer function depending on a user as an element.
  • the voice processing apparatus Pre-holding the diagonalized head-related transfer functions that are common to each user and constituting the diagonal matrix, and acquiring and acquiring the diagonalized head-related transfer functions depending on the individual user
  • a matrix generation unit that generates the diagonal matrix from the diagonalized head-related transfer function and the diagonalized head-related transfer function held in advance (2) or (3)
  • the voice processing apparatus according to 1.
  • the circular harmonic inverse transform unit holds a circular harmonic function matrix composed of circular harmonic functions in each direction, and performs the circular harmonic inverse transformation based on a row corresponding to a predetermined direction of the spherical harmonic function matrix.
  • the speech processing apparatus according to any one of 1) to (6).
  • a head direction acquisition unit that acquires the direction of the head of the user who listens to the sound based on the headphone drive signal;
  • the speech processing apparatus according to (7), wherein the annular harmonic inverse transformation unit performs the annular harmonic inverse transformation based on a row corresponding to a direction of the user's head in the annular harmonic function matrix.
  • a head direction sensor for detecting rotation of the user's head;
  • the voice processing device according to (8), wherein the head direction acquisition unit acquires a direction of the user's head by acquiring a detection result by the head direction sensor unit.
  • the audio processing device according to any one of (1) to (9), further including a time-frequency reverse conversion unit that performs time-frequency reverse conversion on the headphone drive signal.
  • An audio processing method including a step of generating a headphone drive signal in a time-frequency domain by performing inverse circular harmonic transformation on a signal obtained by the synthesis based on a circular harmonic function.
  • a portion corresponding to the annular harmonic region of the input signal of the annular harmonic region or the spherical harmonic region and the diagonalized head related transfer function are synthesized,
  • a program for causing a computer to execute a process including a step of generating a headphone drive signal in a time-frequency domain by performing an inverse circular harmonic transformation on a signal obtained by the synthesis based on a circular harmonic function.
  • 81 voice processing device 91 head direction sensor unit, 92 head direction selection unit, 93 head transfer function synthesis unit, 94 circular harmonic inverse transform unit, 95 time frequency inverse transform unit, 201 matrix generation unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、より効率よく音声を再生することができるようにする音声処理装置および方法、並びにプログラムに関する。 頭部伝達関数合成部は、対角化された頭部伝達関数の行列を予め保持している。頭部伝達関数合成部は、音声を再生するための環状調和領域の入力信号と、予め保持している、対角化された頭部伝達関数とを合成する。環状調和逆変換部は、頭部伝達関数合成部による合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する。本技術は音声処理装置に適用することができる。

Description

音声処理装置および方法、並びにプログラム
 本技術は音声処理装置および方法、並びにプログラムに関し、特に、より効率よく音声を再生することができるようにした音声処理装置および方法、並びにプログラムに関する。
 近年、音声の分野において全周囲からの空間情報を収録、伝送、および再生する系の開発や普及が進んできている。例えばスーパーハイビジョンにおいては22.2チャネルの3次元マルチチャネル音響での放送が計画されている。
 また、バーチャルリアリティの分野においても全周囲を取り囲む映像に加え、音声においても全周囲を取り囲む信号を再生するものが世の中に出回りつつある。
 その中でアンビソニックスと呼ばれる、任意の収録再生系に柔軟に対応可能な3次元音声情報の表現手法が存在し、注目されている。特に次数が2次以上となるアンビソニックスは高次アンビソニックス(HOA(Higher Order Ambisonics))と呼ばれている(例えば、非特許文献1参照)。
 3次元のマルチチャネル音響においては、音の情報は時間軸に加えて空間軸に広がっており、アンビソニックスでは3次元極座標の角度方向に関して周波数変換、すなわち球面調和関数変換を行って情報を保持している。また、水平面のみを考えれば、環状調和関数変換が行われている。球面調和関数変換や環状調和関数変換は、音声信号の時間軸に対する時間周波数変換に相当するものと考えることができる。
 この方法の利点としては、マイクロホンの数やスピーカの数を限定せずに任意のマイクロホンアレイから任意のスピーカアレイに対して情報をエンコードおよびデコードすることができることにある。
 一方で、アンビソニックスの普及を妨げる要因としては、再生環境に大量のスピーカからなるスピーカアレイが必要とされることや、音空間が再現できる範囲(スイートスポット)が狭いことが挙げられる。
 例えば音の空間解像度を上げようとすると、より多くのスピーカからなるスピーカアレイが必要となるが、家庭などでそのようなシステムを作ることは非現実的である。また、映画館のような空間では音空間を再現できるエリアが狭く、全ての観客に対して所望の効果を与えることは困難である。
Jerome Daniel, Rozenn Nicol, Sebastien Moreau, "Further Investigations of High Order Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging," AES 114th Convention, Amsterdam, Netherlands, 2003.
 そこで、アンビソニックスとバイノーラル再生技術とを組み合わせることが考えられる。バイノーラル再生技術は、一般に聴覚ディスプレイ(VAD(Virtual Auditory Display))と呼ばれており、頭部伝達関数(HRTF(Head-Related Transfer Function))が用いられて実現される。
 ここで、頭部伝達関数とは、人間の頭部を取り囲むあらゆる方向から両耳鼓膜までの音の伝わり方に関する情報を周波数と到来方向の関数として表現したものである。
 目的となる音声に対してある方向からの頭部伝達関数を合成したものをヘッドホンで提示した場合、聴取者にとってはヘッドホンからではなく、その用いた頭部伝達関数の方向から音が到来しているかのように知覚される。VADは、このような原理を利用したシステムである。
 VADを用いて仮想的なスピーカを複数再現すれば、現実には困難な多数のスピーカからなるスピーカアレイシステムでのアンビソニックスと同じ効果を、ヘッドホン提示で実現することが可能となる。
 しかしながら、このようなシステムでは、十分効率的に音声を再生することができなかった。例えば、アンビソニックスとバイノーラル再生技術とを組み合わせた場合、頭部伝達関数の畳み込み演算等の演算量が多くなるだけでなく、演算等に用いるメモリの使用量も多くなってしまう。
 本技術は、このような状況に鑑みてなされたものであり、より効率よく音声を再生することができるようにするものである。
 本技術の一側面の音声処理装置は、環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成する頭部伝達関数合成部と、前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する環状調和逆変換部とを備える。
 前記頭部伝達関数合成部には、複数の頭部伝達関数からなる行列を環状調和関数変換により対角化して得られた対角行列と、環状調和関数の各次数に対応する前記入力信号からなるベクトルとの積を求めさせることで、前記入力信号と前記対角化された頭部伝達関数とを合成させることができる。
 前記頭部伝達関数合成部には、前記対角行列の対角成分のうちの時間周波数ごとに設定可能な所定の前記次数の要素のみを用いて、前記入力信号と前記対角化された頭部伝達関数との合成を行わせることができる。
 前記対角行列には、各ユーザで共通して用いられる前記対角化された頭部伝達関数が要素として含まれているようにすることができる。
 前記対角行列には、ユーザ個人に依存する前記対角化された頭部伝達関数が要素として含まれているようにすることができる。
 音声処理装置には、前記対角行列を構成する、各ユーザで共通する前記対角化された頭部伝達関数を予め保持するとともに、ユーザ個人に依存する前記対角化された頭部伝達関数を取得して、取得した前記対角化された頭部伝達関数と、予め保持している前記対角化された頭部伝達関数とから前記対角行列を生成する行列生成部をさらに設けることができる。
 前記環状調和逆変換部には、各方向の環状調和関数からなる環状調和関数行列を保持させ、前記環状調和関数行列の所定方向に対応する行に基づいて、前記環状調和逆変換を行わせることができる。
 音声処理装置には、前記ヘッドホン駆動信号に基づく音声を聴取するユーザの頭部の方向を取得する頭部方向取得部をさらに設け、前記環状調和逆変換部には、前記環状調和関数行列における前記ユーザの頭部の方向に対応する行に基づいて、前記環状調和逆変換を行わせることができる。
 音声処理装置には、前記ユーザの頭部の回転を検出する頭部方向センサ部をさらに設け、前記頭部方向取得部には、前記頭部方向センサ部による検出結果を取得させることで、前記ユーザの頭部の方向を取得させることができる。
 音声処理装置には、前記ヘッドホン駆動信号を時間周波数逆変換する時間周波数逆変換部をさらに設けることができる。
 本技術の一側面の音声処理方法またはプログラムは、環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成するステップを含む。
 本技術の一側面においては、環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とが合成され、前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号が生成される。
 本技術の一側面によれば、より効率よく音声を再生することができる。
 なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
頭部伝達関数を用いた立体音響のシミュレートについて説明する図である。 一般的な音声処理装置の構成を示す図である。 一般手法による駆動信号の算出について説明する図である。 ヘッドトラッキング機能を追加した音声処理装置の構成を示す図である。 ヘッドトラッキング機能を追加した場合の駆動信号の算出について説明する図である。 提案手法による駆動信号の算出について説明する図である。 提案手法と拡張手法の駆動信号算出時の演算について説明する図である。 本技術を適用した音声処理装置の構成例を示す図である。 駆動信号生成処理を説明するフローチャートである。 次数切り捨てによる演算量削減について説明する図である。 提案手法と一般手法の演算量と必要メモリ量について説明する図である。 頭部伝達関数の行列の生成について説明する図である。 次数切り捨てによる演算量削減について説明する図である。 次数切り捨てによる演算量削減について説明する図である。 本技術を適用した音声処理装置の構成例を示す図である。 駆動信号生成処理を説明するフローチャートである。 仮想的なスピーカの配置について説明する図である。 仮想的なスピーカの配置について説明する図である。 仮想的なスピーカの配置について説明する図である。 仮想的なスピーカの配置について説明する図である。 コンピュータの構成例を示す図である。
 以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
 本技術は、ある平面における頭部伝達関数自体を2次元極座標の関数ととらえ、同様に環状調和関数変換を行って、球面調和領域または環状調和領域の音声信号である入力信号のスピーカアレイ信号へのデコードを介さずに環状調和領域において入力信号と頭部伝達関数との合成を行うことで、演算量やメモリ使用量においてより効率のよい再生系を実現するものである。
 例えば、球座標上での関数f(θ,φ)に対しての球面調和関数変換は、次式(1)で表される。また、2次元極座標上での関数f(φ)に対しての環状調和関数変換は、次式(2)で表される。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
 式(1)においてθおよびφは、それぞれ球座標における仰角および水平角を示しており、Yn m(θ,φ)は球面調和関数を示している。また、球面調和関数Yn m(θ,φ)上部に「-」が記されているものは、球面調和関数Yn m(θ,φ)の複素共役を表している。
 また、式(2)においてφは、2次元極座標における水平角を示しており、Ym(φ)は環状調和関数を示している。環状調和関数Ym(φ)上部に「-」が記されているものは、環状調和関数Ym(φ)の複素共役を表している。
 ここで球面調和関数Yn m(θ,φ)は、以下の式(3)により表される。また、環状調和関数Ym(φ)は、以下の式(4)により表される。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 式(3)においてnおよびmは球面調和関数Yn m(θ,φ)の次数を示しており、-n≦m≦nである。また、jは純虚数を示しており、Pn m(x)は次式(5)で表されるルジャンドル陪関数である。同様に、式(4)においてmは環状調和関数Ym(φ)の次数を示しており、jは純虚数を示している。
Figure JPOXMLDOC01-appb-M000005
 また、球面調和関数変換された関数Fn mから2次元極座標上の関数f(φ)への逆変換は次式(6)に示すようになる。さらに環状調和関数変換された関数Fmから2次元極座標上の関数f(φ)への逆変換は次式(7)に示すようになる。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 以上のことから球面調和領域で保持される、半径方向の補正を行った後の音声の入力信号D’n m(ω)から、半径Rの円上に配置されたL個の各スピーカのスピーカ駆動信号S(xi,ω)への変換は、次式(8)に示すようになる。
Figure JPOXMLDOC01-appb-M000008
 なお、式(8)においてxiはスピーカの位置を示しており、ωは音信号の時間周波数を示している。入力信号D’n m(ω)は、所定の時間周波数ωについての球面調和関数の各次数nおよび次数mに対応する音声信号であり、式(8)の計算では、入力信号D’n m(ω)のうちの|m|=nとなる要素のみが用いられている。すなわち、入力信号D’n m(ω)のうちの環状調和領域に対応するもののみが用いられている。
 また、環状調和領域で保持される、半径方向の補正を行った後の音声の入力信号D’m(ω)から、半径Rの円上に配置されたL個の各スピーカのスピーカ駆動信号S(xi,ω)への変換は、次式(9)に示すようになる。
Figure JPOXMLDOC01-appb-M000009
 なお、式(9)においてxiはスピーカの位置を示しており、ωは音信号の時間周波数を示している。入力信号D’m(ω)は、所定の時間周波数ωについての環状調和関数の各次数mに対応する音声信号である。
 また、式(8)および式(9)における位置xiは、xi=(Rcosαi,Rsinαitであり、iはスピーカを特定するスピーカインデックスを示している。ここで、i=1,2,…,Lであり、αiはi番目のスピーカの位置を示す水平角を表している。
 このような式(8)および式(9)により示される変換は、式(6)および式(7)に対応する環状調和逆変換である。また、式(8)や式(9)によりスピーカ駆動信号S(xi,ω)を求める場合、再現スピーカの数であるスピーカ数Lと、環状調和関数の次数N、つまり次数mの最大値Nとは次式(10)に示す関係を満たす必要がある。なお、以降においては、入力信号が環状調和領域の信号である場合について説明するが、入力信号が球面調和領域の信号であっても、その入力信号D’n m(ω)のうちの|m|=nとなる要素のみを用いることにより、同様の処理で同じ効果を得ることができる。すなわち、球面調和領域の入力信号についても環状調和領域の入力信号における場合と同じ議論が成立する。
Figure JPOXMLDOC01-appb-M000010
 ところで、ヘッドホン提示により耳元で立体音響をシミュレートする手法として一般的なものは、例えば図1に示すように頭部伝達関数を用いた方法である。
 図1に示す例では、入力されたアンビソニックス信号がデコードされて、複数の仮想的なスピーカである仮想スピーカSP11-1乃至仮想スピーカSP11-8のそれぞれのスピーカ駆動信号が生成される。このときデコードされる信号は、例えば上述した入力信号D’n m(ω)や入力信号D’m(ω)に対応する。
 ここでは、各仮想スピーカSP11-1乃至仮想スピーカSP11-8が環状に並べられて仮想的に配置されており、各仮想スピーカのスピーカ駆動信号は、上述した式(8)または式(9)の計算により求められる。なお、以下、仮想スピーカSP11-1乃至仮想スピーカSP11-8を特に区別する必要のない場合、単に仮想スピーカSP11とも称することとする。
 このようにして各仮想スピーカSP11のスピーカ駆動信号が得られると、それらの仮想スピーカSP11ごとに、実際に音声を再生するヘッドホンHD11の左右の駆動信号(バイノーラル信号)が頭部伝達関数を用いた畳み込み演算により生成される。そして、仮想スピーカSP11ごとに得られたヘッドホンHD11の各駆動信号の和が最終的な駆動信号とされる。
 なお、このような手法は、例えば「ADVANCED SYSTEM OPTIONS FOR BINAURAL RENDERING OF AMBISONIC FORMAT(Gerald Enzner et. al. ICASSP 2013)」などに詳細に記載されている。
 ヘッドホンHD11の左右の駆動信号の生成に用いられる頭部伝達関数H(x,ω)は、自由空間内において聴取者であるユーザの頭部が存在する状態での音源位置xから、ユーザの鼓膜位置までの伝達特性H1(x,ω)を、頭部が存在しない状態での音源位置xから頭部中心Oまでの伝達特性H0(x,ω)で正規化したものである。すなわち、音源位置xについての頭部伝達関数H(x,ω)は、次式(11)により得られるものである。
Figure JPOXMLDOC01-appb-M000011
 ここで、頭部伝達関数H(x,ω)を任意の音声信号に畳み込み、ヘッドホンなどにより提示することで、聴取者に対してあたかも畳み込んだ頭部伝達関数H(x,ω)の方向、つまり音源位置xの方向から音が聞こえてくるかのような錯覚を与えることができる。
 図1に示した例では、このような原理が用いられてヘッドホンHD11の左右の駆動信号が生成される。
 具体的には各仮想スピーカSP11の位置を位置xiとし、それらの仮想スピーカSP11のスピーカ駆動信号をS(xi,ω)とする。
 また、仮想スピーカSP11の数をL(ここではL=8)とし、ヘッドホンHD11の最終的な左右の駆動信号を、それぞれPlおよびPrとする。
 この場合、スピーカ駆動信号S(xi,ω)をヘッドホンHD11提示でシミュレートすると、ヘッドホンHD11の左右の駆動信号Plおよび駆動信号Prは、次式(12)を計算することにより求めることができる。
Figure JPOXMLDOC01-appb-M000012
 なお、式(12)において、Hl(xi,ω)およびHr(xi,ω)は、それぞれ仮想スピーカSP11の位置xiから聴取者の左右の鼓膜位置までの正規化された頭部伝達関数を示している。
 このような演算により、環状調和領域の入力信号D’m(ω)を、最終的にヘッドホン提示で再生することが可能となる。すなわち、アンビソニックスと同じ効果をヘッドホン提示で実現することが可能となる。
 以上のようにして、アンビソニックスとバイノーラル再生技術とを組み合わせる一般的な手法(以下、一般手法とも称する)によって、入力信号からヘッドホンの左右の駆動信号を生成する音声処理装置は、図2に示す構成とされる。
 すなわち、図2に示す音声処理装置11は、環状調和逆変換部21、頭部伝達関数合成部22、および時間周波数逆変換部23からなる。
 環状調和逆変換部21は、入力された入力信号D’m(ω)に対して、式(9)を計算することで環状調和逆変換を行い、その結果得られた仮想スピーカSP11のスピーカ駆動信号S(xi,ω)を頭部伝達関数合成部22に供給する。
 頭部伝達関数合成部22は、環状調和逆変換部21からのスピーカ駆動信号S(xi,ω)と、予め用意された頭部伝達関数Hl(xi,ω)および頭部伝達関数Hr(xi,ω)とから、式(12)によりヘッドホンHD11の左右の駆動信号Plおよび駆動信号Prを生成し、出力する。
 さらに、時間周波数逆変換部23は、頭部伝達関数合成部22から出力された時間周波数領域の信号である駆動信号Plおよび駆動信号Prに対して、時間周波数逆変換を行い、その結果得られた時間領域の信号である駆動信号pl(t)および駆動信号pr(t)を、ヘッドホンHD11に供給して音声を再生させる。
 なお、以下では、時間周波数ωについての駆動信号Plおよび駆動信号Prを特に区別する必要のない場合、単に駆動信号P(ω)とも称し、駆動信号pl(t)および駆動信号pr(t)を特に区別する必要のない場合、単に駆動信号p(t)とも称する。また、頭部伝達関数Hl(xi,ω)および頭部伝達関数Hr(xi,ω)を特に区別する必要のない場合、単に頭部伝達関数H(xi,ω)とも称する。
 音声処理装置11では、1×1、つまり1行1列の駆動信号P(ω)を得るために、例えば図3に示す演算が行われる。
 図3では、H(ω)は、L個の頭部伝達関数H(xi,ω)からなる1×Lのベクトル(行列)を表している。また、D’(ω)は入力信号D’m(ω)からなるベクトルを表しており、時間周波数ωのビンの入力信号D’m(ω)の数をKとすると、ベクトルD’(ω)はK×1となる。さらにYαは、各次数の環状調和関数Ymi)からなる行列を表しており、行列YαはL×Kの行列となる。
 したがって、音声処理装置11では、L×Kの行列YαとK×1のベクトルD’(ω)との行列演算から得られる行列Sが求められ、さらに行列Sと1×Lのベクトル(行列)H(ω)との行列演算が行われて、1つの駆動信号P(ω)が得られることになる。
 また、ヘッドホンHD11を装着した聴取者の頭部が、2次元極座標の水平角により表される所定方向φjの方向に回転した場合、例えばヘッドホンHD11の左ヘッドホンの駆動信号Plj,ω)は、次式(13)に示すようになる。
Figure JPOXMLDOC01-appb-M000013
 なお、式(13)において、駆動信号Plj,ω)は上述した駆動信号Plを示しており、ここでは位置、つまり方向φjと時間周波数ωを明確にするために駆動信号Plj,ω)と記されている。また、式(13)における行列u(φj)は、角度φjだけ回転を行う回転行列である。したがって、例えば所定の角度をφj=θとすると、行列u(φj)、つまり行列u(θ)は角度θだけ回転を行う回転行列であり、次式(14)で表される。
Figure JPOXMLDOC01-appb-M000014
 一般的な音声処理装置11に対して、さらに例えば図4に示すように聴取者の頭部の回転方向を特定するための構成、すなわちヘッドトラッキング機能の構成を追加すれば、聴取者からみた音像位置を空間内に固定させることができる。なお、図4において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図4に示す音声処理装置11では、図2に示した構成に、さらに頭部方向センサ部51および頭部方向選択部52が設けられている。
 頭部方向センサ部51は、聴取者であるユーザの頭部の回転を検出し、その検出結果を頭部方向選択部52に供給する。頭部方向選択部52は、頭部方向センサ部51からの検出結果に基づいて、聴取者の頭部の回転方向、つまり回転後の聴取者の頭部の方向を方向φjとして求め、頭部伝達関数合成部22に供給する。
 この場合、頭部伝達関数合成部22は、頭部方向選択部52から供給された方向φjに基づいて、予め用意している複数の頭部伝達関数のうち、聴取者の頭部からみた各仮想スピーカSP11の相対的な座標u(φj)-1xiの頭部伝達関数を用いてヘッドホンHD11の左右の駆動信号を算出する。これにより、実スピーカを用いた場合と同様に、ヘッドホンHD11により音声を再生する場合においても、聴取者から見た音像位置を空間内で固定することができる。
 以上において説明した一般手法や、一般手法にさらにヘッドトラッキング機能を追加した手法によりヘッドホンの駆動信号を生成すれば、スピーカアレイを用いることなく、また音空間が再現できる範囲が限定されてしまうことなく環状配置されたアンビソニックスと同じ効果を得ることができる。しかしながら、これらの手法では、頭部伝達関数の畳み込み演算等の演算量が多くなるだけでなく、演算等に用いるメモリの使用量も多くなってしまう。
 そこで、本技術では、一般手法では時間周波数領域にて行われていた頭部伝達関数の畳み込みを、環状調和領域において行うようにした。これにより、畳み込みの演算量や必要メモリ量を低減させ、より効率よく音声を再生することができる。
 それでは、以下、本技術による手法について説明する。
 例えば左ヘッドホンに注目すると、聴取者であるユーザ(リスナ)の頭部の全回転方向に対する左ヘッドホンの各駆動信号Plj,ω)からなるベクトルPl(ω)は、次式(15)に示すように表される。
Figure JPOXMLDOC01-appb-M000015
 なお、式(15)において、S(ω)はスピーカ駆動信号S(xi,ω)からなるベクトルであり、S(ω)=YαD’(ω)である。また、式(15)においてYαは以下の式(16)により示される、各次数および各仮想スピーカの角度αiの環状調和関数Ymi)からなる行列を表している。ここで、i=1,2,…,Lであり、次数mの最大値(最大次数)はNである。
 D’(ω)は以下の式(17)により示される、各次数に対応する音声の入力信号D’m(ω)からなるベクトル(行列)を表している。各入力信号D’m(ω)は環状調和領域の信号である。
 さらに、式(15)において、H(ω)は、以下の式(18)により示される、聴取者の頭部の方向が方向φjである場合における、聴取者の頭部からみた各仮想スピーカの相対的な座標u(φj)-1xiの頭部伝達関数H(u(φj)-1xi,ω)からなる行列を表している。この例では、方向φ1乃至方向φMの合計M個の方向について、各仮想スピーカの頭部伝達関数H(u(φj)-1xi,ω)が用意されている。
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-M000017
Figure JPOXMLDOC01-appb-M000018
 聴取者の頭部が方向φjを向いているときの左ヘッドホンの駆動信号Plj,ω)の算出にあたっては、頭部伝達関数の行列H(ω)のうち、聴取者の頭部の向きである方向φjに対応する行、つまり頭部伝達関数H(u(φj)-1xi,ω)の行を選択して式(15)の計算を行なえばよい。
 この場合、例えば図5に示すように必要な行のみ計算が行われる。
 この例では、M個の各方向について頭部伝達関数が用意されているので、式(15)に示した行列計算は、矢印A11に示すようになる。
 すなわち、時間周波数ωの入力信号D’m(ω)の数をKとすると、ベクトルD’(ω)はK×1、つまりK行1列の行列となる。また、環状調和関数の行列YαはL×Kとなり、行列H(ω)はM×Lとなる。したがって、式(15)の計算では、ベクトルPl(ω)はM×1となる。
 ここで、行列YαとベクトルD’(ω)との行列演算(積和演算)を行ってベクトルS(ω)を求めると、駆動信号Plj,ω)の算出時には、矢印A12に示すように行列H(ω)のうち、聴取者の頭部の方向φjに対応する行を選択し、演算量を削減することができる。図5では、行列H(ω)における斜線の施された部分が、方向φjに対応する行を表しており、この行とベクトルS(ω)との演算が行われ、左ヘッドホンの所望の駆動信号Plj,ω)が算出される。
 ここで、方向φ1乃至方向φMの合計M個の各方向についての入力信号D’m(ω)に対応する環状調和関数からなるM×Kの行列をYφとするものとする。つまり、各方向φ1乃至方向φMについての環状調和関数Ym1)乃至環状調和関数YmM)からなる行列をYφとする。また、その行列Yφのエルミート転置行列をYφ Hとする。
 このとき、次式(19)に示すように行列H’(ω)を定義すると、式(15)に示したベクトルPl(ω)は以下の式(20)で表すことができる。
Figure JPOXMLDOC01-appb-M000019
Figure JPOXMLDOC01-appb-M000020
 なお、式(20)において、ベクトルB’(ω)=H’(ω)D’(ω)である。
 式(19)では、環状調和関数変換によって、頭部伝達関数、より詳細には時間周波数領域の頭部伝達関数からなる行列H(ω)を対角化する計算が行われている。また、式(20)の計算では、環状調和領域においてスピーカ駆動信号と頭部伝達関数の畳み込みが行われていることが分かる。なお、行列H’(ω)は事前に計算して保持しておくことが可能である。
 この場合においても、聴取者の頭部が方向φjを向いているときの左ヘッドホンの駆動信号Plj,ω)の算出にあたっては、環状調和関数の行列Yφのうち、聴取者の頭部の方向φjに対応する行、つまり環状調和関数Ymj)からなる行を選択して式(20)の計算を行なえばよいことになる。
 ここで、行列H(ω)の対角化が可能であれば、すなわち上述した式(19)により十分に行列H(ω)が対角化されれば、左ヘッドホンの駆動信号Plj,ω)を算出する際の計算は、次式(21)に示す計算のみとなる。これにより、大幅に演算量および必要メモリ量を削減することができる。なお、以下では、行列H(ω)の対角化が可能であり、行列H’(ω)が対角行列であるものとして説明を続ける。
Figure JPOXMLDOC01-appb-M000021
 式(21)において、H’m(ω)は対角行列である行列H’(ω)の1つの要素、つまり行列H’(ω)における頭部の方向φjに対応する成分(要素)となる環状調和領域の頭部伝達関数を示している。頭部伝達関数H’m(ω)におけるmは、環状調和関数の次数mを示している。
 同様にYmj)は、行列Yφのうちの頭部の方向φjに対応する行の1つの要素となる環状調和関数を示している。
 このような式(21)に示す演算では、図6に示すように演算量が削減されている。すなわち、式(20)に示した計算は、図6の矢印A21に示すようにM×Kの行列Yφ、K×Mの行列Yφ H、M×Lの行列H(ω)、L×Kの行列Yα、およびK×1のベクトルD’(ω)の行列演算となっている。
 ここで、式(19)で定義したようにYφ HH(ω)Yαが行列H’(ω)であるから、矢印A21に示した計算は、結局、矢印A22に示すようになる。特に、行列H’(ω)を求める計算は、オフラインで、つまり事前に行うことが可能であるので、行列H’(ω)を予め求めて保持しておけば、その分だけオンラインでヘッドホンの駆動信号を求めるときの演算量を削減することが可能である。
 また、式(19)の計算、つまり行列H’(ω)を求める計算では、行列H(ω)の対角化が行われる。そのため、矢印A22に示すように行列H’(ω)はK×Kの行列であるが、対角化によって、実質的には斜線部分で表される対角成分のみの行列となる。つまり、行列H’(ω)では、対角成分以外の要素の値は0となり、その後の演算量を大幅に削減することができる。
 このように予め行列H’(ω)が求められると、実際にヘッドホンの駆動信号を求めるときには、矢印A22および矢印A23に示す計算、つまり上述した式(21)の計算が行われることになる。
 すなわち、矢印A22に示すように行列H’(ω)と、入力された入力信号D’m(ω)からなるベクトルD’(ω)とに基づいて、オンラインでK×1のベクトルB’(ω)が算出される。
 そして、矢印A23に示すように行列Yφのうち、聴取者の頭部の方向φjに対応する行が選択されて、その選択された行と、ベクトルB’(ω)との行列演算により、左ヘッドホンの駆動信号Plj,ω)が算出される。図6では、行列Yφにおける斜線の施された部分が、方向φjに対応する行を表しており、この行を構成する要素が式(21)に示した環状調和関数Ymj)となる。
〈本技術による演算量等の削減について〉
 ここで、図7を参照して、以上において説明した本技術による手法(以下、提案手法とも称する)と、一般手法にヘッドトラッキング機能を追加した手法(以下、拡張手法とも称する)との積和演算量および必要メモリ量の比較を行う。
 例えばベクトルD’(ω)の長さをKとし、頭部伝達関数の行列H(ω)をM×Lとすると、環状調和関数の行列YαはL×Kとなり、行列YφはM×Kとなり、行列H’(ω)はK×Kとなる。
 ここで、拡張手法では、図7の矢印A31に示すように、各時間周波数ωのビン(以下、時間周波数ビンωとも称する)に対して、ベクトルD’(ω)を時間周波数領域に変換する過程でL×Kの積和演算が発生し、左右の頭部伝達関数との畳み込みで2Lだけ積和演算が発生する。
 したがって、拡張手法における場合の積和演算回数の合計は、(L×K+2L)となる。
 また、積和演算の各係数が1バイトであるとすると、拡張手法による演算時に必要となるメモリ量は、各時間周波数ビンωに対して、(保持する頭部伝達関数の方向数)×2バイトであるが、保持する頭部伝達関数の方向の数は、図7の矢印A31に示すようにM×Lとなる。さらに、全ての時間周波数ビンωに共通の環状調和関数の行列YαについてL×Kバイトだけメモリが必要となる。
 したがって、時間周波数ビンωの数をWとすると、拡張手法における必要メモリ量は、合計で(2×M×L×W+L×K)バイトとなる。
 これに対して、提案手法では、図7の矢印A32に示す演算が時間周波数ビンωごとに行われる。
 すなわち、提案手法では、各時間周波数ビンωに対して、片耳につき環状調和領域でのベクトルD’(ω)と頭部伝達関数の行列H’(ω)との畳み込みでK×Kの積和演算が発生し、さらに時間周波数領域への変換にKだけ積和演算が発生する。
 したがって、提案手法における場合の積和演算回数の合計は、(K×K+K)×2となる。
 しかし、上述したように頭部伝達関数の行列H(ω)に対して対角化が行われると、ベクトルD’(ω)と頭部伝達関数の行列H’(ω)との畳み込みによる積和演算は片耳につきKのみとなるため、合計の積和演算回数は4Kとなる。
 また、提案手法による演算時に必要となるメモリ量は、各時間周波数ビンωに対して、頭部伝達関数の行列H’(ω)の対角成分のみでよいので2Kバイトとなる。さらに全ての時間周波数ビンωに共通の環状調和関数の行列YφについてM×Kバイトだけメモリが必要となる。
 したがって、時間周波数ビンωの数をWとすると、提案手法における必要メモリ量は、合計で(2×K×W+M×K)バイトとなる。
 いま、仮に環状調和関数の最大次数を12とすると、K=2×12+1=25となる。また、仮想スピーカの数Lは、Kより大きいことが必要であるためL=32であるとする。
 このような場合、拡張手法の積和演算量は(L×K+2L)=32×25+2×32=864であるのに対して、提案手法の積和演算量は4K=25×4=100で済むので、大幅に演算量が低減されていることが分かる。
 また、演算時に必要なメモリ量は、例えばW=100およびM=100とすると、拡張手法では(2×M×L×W+L×K)=2×100×32×100+32×25=640800である。これに対して、提案手法の演算時に必要なメモリ量は、(2×K×W+M×K)=2×25×100+100×25=7500となり、大幅に必要メモリ量が低減されることが分かる。
〈音声処理装置の構成例〉
 次に、以上において説明した本技術を適用した音声処理装置について説明する。図8は、本技術を適用した音声処理装置の一実施の形態の構成例を示す図である。
 図8に示す音声処理装置81は、頭部方向センサ部91、頭部方向選択部92、頭部伝達関数合成部93、環状調和逆変換部94、および時間周波数逆変換部95を有している。なお、音声処理装置81はヘッドホンに内蔵されていてもよいし、ヘッドホンとは異なる装置であってもよい。
 頭部方向センサ部91は、例えば必要に応じてユーザの頭部に取り付けられた加速度センサや画像センサなどからなり、聴取者であるユーザの頭部の回転(動き)を検出して、その検出結果を頭部方向選択部92に供給する。なお、ここでいうユーザとは、ヘッドホンを装着したユーザ、つまり時間周波数逆変換部95で得られる左右のヘッドホンの駆動信号に基づいてヘッドホンにより再生された音声を聴取するユーザである。
 頭部方向選択部92は、頭部方向センサ部91からの検出結果に基づいて、聴取者の頭部の回転方向、つまり回転後の聴取者の頭部の方向φjを求めて、環状調和逆変換部94に供給する。換言すれば、頭部方向選択部92は、頭部方向センサ部91からの検出結果を取得することで、ユーザの頭部の方向φjを取得する。
 頭部伝達関数合成部93には、外部から環状調和領域の音声信号である各時間周波数ビンωについての環状調和関数の各次数の入力信号D’m(ω)が供給される。また、頭部伝達関数合成部93は、予め計算により求められた頭部伝達関数からなる行列H’(ω)を保持している。
 頭部伝達関数合成部93は、供給された入力信号D’m(ω)と、保持している行列H’(ω)、つまり上述した式(19)により対角化された頭部伝達関数の行列との畳み込み演算を行うことで、環状調和領域で入力信号D’m(ω)と頭部伝達関数とを合成し、その結果得られたベクトルB’(ω)を環状調和逆変換部94に供給する。なお、以下では、ベクトルB’(ω)の要素をB’m(ω)とも記すこととする。
 環状調和逆変換部94は、予め各方向の環状調和関数からなる行列Yφを保持しており、その行列Yφを構成する行のうち、頭部方向選択部92から供給された方向φjに対応する行、すなわち上述した式(21)の環状調和関数Ymj)からなる行を選択する。
 環状調和逆変換部94は、方向φjに基づいて選択した行列Yφの行を構成する環状調和関数Ymj)と、頭部伝達関数合成部93から供給されたベクトルB’(ω)の要素B’m(ω)との積の和を計算することで、頭部伝達関数が合成された入力信号を環状調和逆変換する。
 なお、頭部伝達関数合成部93における頭部伝達関数の畳み込み演算と、環状調和逆変換部94における環状調和逆変換は、左右のヘッドホンごとに行われる。これにより、環状調和逆変換部94では、時間周波数領域の左ヘッドホンの駆動信号Plj,ω)と、時間周波数領域の右ヘッドホンの駆動信号Prj,ω)とが時間周波数ビンωごとに得られる。
 環状調和逆変換部94は、環状調和逆変換により得られた左右のヘッドホンの駆動信号Plj,ω)および駆動信号Prj,ω)を時間周波数逆変換部95に供給する。
 時間周波数逆変換部95は、左右のヘッドホンごとに、環状調和逆変換部94から供給された時間周波数領域の駆動信号に対して時間周波数逆変換を行うことで、時間領域の左ヘッドホンの駆動信号plj,t)と、時間領域の右ヘッドホンの駆動信号prj,t)とを求め、それらの駆動信号を後段に出力する。後段のヘッドホン、より詳細にはイヤホンを含むヘッドホンなど、2チャネルで音声を再生する再生装置では、時間周波数逆変換部95から出力された駆動信号に基づいて音声が再生される。
〈駆動信号生成処理の説明〉
 続いて、図9のフローチャートを参照して、音声処理装置81により行われる駆動信号生成処理について説明する。この駆動信号生成処理は、外部から入力信号D’m(ω)が供給されると開始される。
 ステップS11において、頭部方向センサ部91は、聴取者であるユーザの頭部の回転を検出し、その検出結果を頭部方向選択部92に供給する。
 ステップS12において、頭部方向選択部92は、頭部方向センサ部91からの検出結果に基づいて、聴取者の頭部の方向φjを求めて、環状調和逆変換部94に供給する。
 ステップS13において、頭部伝達関数合成部93は、供給された入力信号D’m(ω)に対して、予め保持している行列H’(ω)を構成する頭部伝達関数H’m(ω)を畳み込み、その結果得られたベクトルB’(ω)を環状調和逆変換部94に供給する。
 ステップS13では、環状調和領域において、頭部伝達関数H’m(ω)からなる行列H’(ω)と、入力信号D’m(ω)からなるベクトルD’(ω)との積の計算、つまり上述した式(21)のH’m(ω)D’m(ω)を求める計算が行われる。
 ステップS14において、環状調和逆変換部94は、予め保持している行列Yφと、頭部方向選択部92から供給された方向φjとに基づいて、頭部伝達関数合成部93から供給されたベクトルB’(ω)に対して環状調和逆変換を行い、左右のヘッドホンの駆動信号を生成する。
 すなわち、環状調和逆変換部94は、行列Yφから方向φjに対応する行を選択し、その選択した行を構成する環状調和関数Ymj)と、ベクトルB’(ω)を構成する要素B’m(ω)とから式(21)を計算することで、左ヘッドホンの駆動信号Plj,ω)を算出する。また、環状調和逆変換部94は、右ヘッドホンについても左ヘッドホンにおける場合と同様の演算を行って、右ヘッドホンの駆動信号Prj,ω)を算出する。
 環状調和逆変換部94は、このようにして得られた左右のヘッドホンの駆動信号Plj,ω)および駆動信号Prj,ω)を時間周波数逆変換部95に供給する。
 ステップS15において、時間周波数逆変換部95は、左右のヘッドホンごとに、環状調和逆変換部94から供給された時間周波数領域の駆動信号に対して時間周波数逆変換を行い、左ヘッドホンの駆動信号plj,t)、および右ヘッドホンの駆動信号prj,t)を算出する。例えば時間周波数逆変換として逆離散フーリエ変換が行われる。
 時間周波数逆変換部95は、このようにして求めた時間領域の駆動信号plj,t)および駆動信号prj,t)を左右のヘッドホンに出力し、駆動信号生成処理は終了する。
 以上のようにして音声処理装置81は、環状調和領域において入力信号に頭部伝達関数を畳み込み、その畳み込み結果に対して環状調和逆変換を行って、左右のヘッドホンの駆動信号を算出する。
 このように、環状調和領域において頭部伝達関数の畳み込みを行うことで、ヘッドホンの駆動信号を生成する際の演算量を大幅に低減させることができるとともに、演算時に必要となるメモリ量も大幅に低減させることができる。換言すれば、より効率よく音声を再生することができる。
〈第1の実施の形態の変形例1〉
〈時間周波数ごとの次数の切捨てについて〉
 ところで、行列H(ω)を構成する頭部伝達関数H(u(φj)-1xi,ω)は、環状調和領域において必要な次数が異なることが分かっており、このことは、例えば「Efficient Real Spherical Harmonic Representation of Head-Related Transfer Functions (Griffin D. Romigh et. al. , 2015)」などに記載されている。
 例えば頭部伝達関数の行列H’(ω)の対角成分のうち、各時間周波数ビンωにおいて必要な次数m=N(ω)が分かっていれば、例えば以下の式(22)の計算により左ヘッドホンの駆動信号Plj,ω)を求めるようにするなどして、演算量を削減することが可能となる。これは右ヘッドホンについても同様である。
Figure JPOXMLDOC01-appb-M000022
 式(22)の計算は、基本的には式(21)の計算と同じであるが、Σによる加算対象の範囲が、式(21)では次数m=-N乃至Nまでであったところを式(22)では次数m=-N(ω)乃至N(ω)(但し、N≧N(ω))までとする点で異なっている。
 この場合、例えば図10に示すように頭部伝達関数合成部93において、行列H’(ω)の対角成分の一部分のみ、つまり次数m=-N(ω)乃至N(ω)の各要素のみが畳み込み演算に用いられることになる。なお、図10において図8における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
 図10では、文字「H’(ω)」が記された長方形が、頭部伝達関数合成部93に保持されている各時間周波数ビンωの行列H’(ω)の対角成分を表しており、それらの対角成分の斜線部分が必要な次数m、つまり次数-N(ω)乃至次数N(ω)の要素部分を表している。
 このような場合、図9のステップS13およびステップS14では、式(21)ではなく式(22)の計算により頭部伝達関数の畳み込みと環状調和逆変換が行われる。
 このように行列H’(ω)の必要な次数の成分(要素)のみを用いて畳み込み演算を行い、他の次数については演算を行わないようにすることで、演算量と必要メモリ量をさらに削減することが可能となる。なお、行列H’(ω)の必要な次数は、時間周波数ビンωごとに設定可能とされる、つまり時間周波数ビンωごとに設定されるようにしてもよいし、全時間周波数ビンωで、必要な次数として共通の次数が設定されるようにしてもよい。
 ここで、一般手法と、上述した提案手法と、提案手法でさらに必要な次数mのみ演算を行う場合とでの演算量および必要メモリ量を図11に示す。
 図11において「環状調和関数の次数」の欄は、環状調和関数の最大次数|m|=Nの値を示しており、「必要仮想スピーカ数」の欄は、正しく音場を再現するのに最低限必要となる仮想スピーカの数を示している。
 また、「演算量(一般手法)」の欄は、一般手法によりヘッドホンの駆動信号を生成するのに必要な積和演算の回数を示しており、「演算量(提案手法)」の欄は、提案手法によりヘッドホンの駆動信号を生成するのに必要な積和演算の回数を示している。
 さらに、「演算量(提案手法・次数-2)」の欄は、提案手法で、かつ次数N(ω)までを用いた演算によりヘッドホンの駆動信号を生成するのに必要な積和演算の回数を示している。この例では、特に次数mの上位2次分が切り捨てられて演算されない例となっている。
 ここで、これらの一般手法、提案手法、提案手法で次数N(ω)までを用いた演算を行う場合の各演算量の欄では、各時間周波数ビンωでの積和演算回数が記されている。
 また、「メモリ(一般手法)」の欄は、一般手法によりヘッドホンの駆動信号を生成するのに必要なメモリ量を示しており、「メモリ(提案手法)」の欄は、提案手法によりヘッドホンの駆動信号を生成するのに必要なメモリ量を示している。
 さらに「メモリ(提案手法・次数-2)」の欄は、提案手法で、かつ次数N(ω)までを用いた演算によりヘッドホンの駆動信号を生成するのに必要なメモリ量を示している。この例では、特に次数|m|の上位2次分が切り捨てられて演算されない例となっている。
 なお、図11において記号「**」が記されている欄では、次数-2が負となるので次数N=0として計算が行われたことを示している。
 例えば図11に示す例において、次数N=4における演算量の欄に注目すると、提案手法での演算量は36となっている。これに対して、次数N=4で、ある時間周波数ビンωに対して必要な次数がN(ω)=2であった場合に、提案手法で、かつ次数N(ω)までを計算に用いる場合の演算量は4K=4(2×2+1)=20となっている。したがって、もともとの次数Nが4であった場合と比べて演算量を55%まで削減できていることが分かる。
〈第2の実施の形態〉
〈頭部伝達関数に関する必要メモリ量削減について〉
 ところで、頭部伝達関数は、聴取者の頭部や耳介などの回折、反射により形成されるフィルタであるため、聴取者個人によって頭部伝達関数は異なる。そのため、頭部伝達関数を個人に最適化することはバイノーラル再生にとって重要なことである。
 しかしながら、個人の頭部伝達関数を想定される聴取者分だけ保持することはメモリ量の観点からふさわしくない。これは、頭部伝達関数を環状調和領域で保持している場合にもあてはまる。
 仮に個人に最適化された頭部伝達関数を提案手法を適用した再生系で用いる場合には、時間周波数ビンωごと、または全ての時間周波数ビンωにおいて、個人に依存しない次数と依存する次数を予め指定しておけば、必要な個人依存パラメータを削減することができる。また、身体形状などからの聴取者個人の頭部伝達関数の推定の際には、この環状調和領域での個人依存の係数(頭部伝達関数)を目的変数とすることも考えられる。
 ここで、個人に依存する次数とは、伝達特性がユーザ個人ごとに大きく異なる、つまり頭部伝達関数H’m(ω)がユーザごとに異なる次数mである。逆に、個人に依存しない次数とは、各個人の伝達特性の差が十分に小さい頭部伝達関数H’m(ω)の次数mである。
 このように個人に依存しない次数の頭部伝達関数と、個人に依存する次数の頭部伝達関数とから行列H’(ω)を生成する場合、例えば図8に示した音声処理装置81の例では、図12に示すように個人に依存する次数の頭部伝達関数が何らかの方法により取得される。なお、図12において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図12の例では、文字「H’(ω)」が記された長方形が時間周波数ビンωの行列H’(ω)の対角成分を表しており、その対角成分の斜線部分が、予め音声処理装置81に保持されている部分、つまり個人に依存しない次数の頭部伝達関数H’m(ω)の部分を表している。これに対して、対角成分のうちの矢印A91に示す部分は、個人に依存する次数の頭部伝達関数H’m(ω)の部分を表している。
 この例では、対角成分における斜線部分で表されている、個人に依存しない次数の頭部伝達関数H’m(ω)が、全ユーザで共通して用いられる頭部伝達関数である。これに対して、矢印A91により示される、個人に依存する次数の頭部伝達関数H’m(ω)が、ユーザ個人ごとに最適化されたもの等、ユーザ個人ごとに異なるものが用いられる頭部伝達関数である。
 音声処理装置81は、文字「個人別係数」が記された四角形により表される、個人に依存する次数の頭部伝達関数H’m(ω)を外部から取得し、その取得した頭部伝達関数H’m(ω)と、予め保持している個人に依存しない次数の頭部伝達関数H’m(ω)とから行列H’(ω)の対角線分を生成し、頭部伝達関数合成部93に供給する。
 なお、ここでは、行列H’(ω)が全ユーザ共通で用いられる頭部伝達関数と、ユーザごとに用いられるものが異なる頭部伝達関数とから構成される例について説明するが、行列H’(ω)の0でない全要素がユーザごとに異なるものであるようにしてもよい。また、同じ行列H’(ω)が全ユーザで共通して用いられてもよい。
 また、生成された行列H’(ω)が図13に示されるように時間周波数ビンωごとに異なる要素で構成され、図14に示すように演算が行われる要素が時間周波数ビンωごとに異なってもよい。なお、図14において図8における場合と対応する部分には同一の符号を付してあり、その説明は省略する。
 図13では、矢印A101乃至矢印A106のそれぞれにより示される、文字「H’(ω)」が記された長方形が所定の時間周波数ビンωの行列H’(ω)の対角成分を表している。また、それらの対角成分の斜線部分が必要な次数mの要素部分を表している。
 例えば矢印A101乃至矢印A103のそれぞれにより示される例では、行列H’(ω)の対角成分のうち、互いに隣接する要素からなる部分が必要な次数の要素部分となっており、対角成分におけるそれらの要素部分の位置(領域)は各例で異なる位置となっている。
 これに対して、矢印A104乃至矢印A106のそれぞれにより示される例では、行列H’(ω)の対角成分のうち、互いに隣接する要素からなる複数の部分が必要な次数の要素部分となっている。これらの例では対角成分における必要な要素からなる部分の個数や位置、大きさは各例によって異なっている。
 また、図14に示すように音声処理装置81は、環状調和関数変換により対角化された頭部伝達関数のデータベース、つまり各時間周波数ビンωの行列H’(ω)に加えて、時間周波数ビンωごとに必要な次数mを示す情報を同時にデータベースとして持つことになる。
 図14では、文字「H’(ω)」が記された長方形が、頭部伝達関数合成部93に保持されている各時間周波数ビンωの行列H’(ω)の対角成分を表しており、それらの対角成分の斜線部分が必要な次数mの要素部分を表している。
 この場合、頭部伝達関数合成部93において、例えば時間周波数ビンωごとに-N(ω)次からその時間周波数ビンωで必要な次数m=N(ω)まで、頭部伝達関数と入力信号D’m(ω)との積が求められる。つまり、上述した式(22)におけるH’m(ω)D’m(ω)の計算が行われる。これにより、頭部伝達関数合成部93において、不必要な次数の計算を削減することが可能となる。
〈音声処理装置の構成例〉
 行列H’(ω)を生成する場合、音声処理装置81は、例えば図15に示すように構成される。なお、図15において図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図15に示す音声処理装置81は、頭部方向センサ部91、頭部方向選択部92、行列生成部201、頭部伝達関数合成部93、環状調和逆変換部94、および時間周波数逆変換部95を有している。
 図15に示す音声処理装置81の構成は、図8に示した音声処理装置81にさらに行列生成部201を設けた構成となっている。
 行列生成部201は、個人に依存しない次数の頭部伝達関数を予め保持しており、外部から個人に依存する次数の頭部伝達関数を取得し、取得した頭部伝達関数と、予め保持している個人に依存しない次数の頭部伝達関数とから行列H’(ω)を生成し、頭部伝達関数合成部93に供給する。
〈駆動信号生成処理の説明〉
 続いて、図16のフローチャートを参照して、図15に示した構成の音声処理装置81により行われる駆動信号生成処理について説明する。
 ステップS71において、行列生成部201はユーザ設定を行う。例えば行列生成部201は、ユーザ等による入力操作等に応じて、今回再生される音声を聴取する聴取者に関する情報を特定するユーザ設定を行う。
 そして、行列生成部201はユーザ設定に応じて、今回再生される音声を聴取する聴取者、つまりユーザについて、個人に依存する次数のユーザの頭部伝達関数を外部の装置等から取得する。なお、ユーザの頭部伝達関数は、例えばユーザ設定時にユーザ等による入力操作により指定されたものでもよいし、ユーザ設定で定められた情報に基づいて決定されるものでもよい。
 ステップS72において、行列生成部201は、頭部伝達関数の行列H’(ω)を生成し、頭部伝達関数合成部93に供給する。
 すなわち、行列生成部201は、個人に依存する次数の頭部伝達関数を取得すると、その取得した頭部伝達関数と、予め保持している個人に依存しない次数の頭部伝達関数とから行列H’(ω)を生成し、頭部伝達関数合成部93に供給する。このとき、行列生成部201は、予め保持している各時間周波数ビンωの必要な次数mを示す情報に基づいて、必要な次数の要素のみからなる行列H’(ω)を、時間周波数ビンωごとに生成する。
 すると、その後、ステップS73乃至ステップS77の処理が行われて駆動信号生成処理は終了するが、これらの処理は図9のステップS11乃至ステップS15の処理と同様であるので、その説明は省略する。これらのステップS73乃至ステップS77では、環状調和領域において入力信号に頭部伝達関数が畳み込まれ、ヘッドホンの駆動信号が生成される。なお、行列H’(ω)の生成は、予め行われてもよいし、入力信号が供給されてから行われるようにしてもよい。
 以上のようにして音声処理装置81は、環状調和領域において入力信号に頭部伝達関数を畳み込み、その畳み込み結果に対して環状調和逆変換を行って、左右のヘッドホンの駆動信号を算出する。
 このように、環状調和領域において頭部伝達関数の畳み込みを行うことで、ヘッドホンの駆動信号を生成する際の演算量を大幅に低減させることができるとともに、演算時に必要となるメモリ量も大幅に低減させることができる。換言すれば、より効率よく音声を再生することができる。
 特に、音声処理装置81では、個人に依存する次数の頭部伝達関数を外部から取得して行列H’(ω)を生成するようにしたので、メモリ量をさらに削減することができるだけでなく、ユーザ個人に適した頭部伝達関数を用いて適切に音場を再現することができる。
 なお、ここでは音声処理装置81に対して、個人に依存する次数の頭部伝達関数を外部から取得して必要な次数の要素のみからなる行列H’(ω)を生成する技術を適用する例について説明した。しかし、そのような例に限らず、不要な次数の削減を行わないようにしてもよい。
〈対象となる入力と頭部伝達関数群について〉
 ところで、以上で行ってきた議論では、保持する頭部伝達関数および初期頭部方向に対する仮想的なスピーカ配置がどのような平面に対して環状に置かれているかは問われない。
 例えば、保持する頭部伝達関数および初期頭部位置に対する仮想的なスピーカの配置位置は、図17の矢印A111に示すように水平面上であってもよいし、矢印A112に示すように正中面上であってもよいし、また矢印A113に示すように冠状面上であってもよい。つまり、聴取者の頭部中心を中心とするどのような環(以下、環Aと称する)上に仮想的なスピーカが配置されてもよい。
 矢印A111に示す例では、ユーザU11の頭部を中心とする水平面上の環RG11に仮想スピーカが環状に配置される。また、矢印A112に示す例では、ユーザU11の頭部を中心とする正中面上の環RG12に仮想スピーカが環状に配置され、矢印A113に示す例では、ユーザU11の頭部を中心とする冠状面上の環RG13に仮想スピーカが環状に配置される。
 また、保持する頭部伝達関数および初期頭部方向に対する仮想的なスピーカの配置位置は、例えば図18に示すように、ある環Aが含まれる面と垂直な方向に、その環Aを移動させた位置とされてもよい。以下では、このような環Aを移動させたものを環Bと称することとする。なお、図18において図17における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図18の矢印A121に示す例では、ユーザU11の頭部を中心とする水平面上の環RG11を図中、上下方向に移動させた環RG21や環RG22に仮想スピーカが環状に配置される。この例では、環RG21や環RG22が環Bとなる。
 また、矢印A122に示す例では、ユーザU11の頭部を中心とする正中面上の環RG12を図中、奥行き方向に移動させた環RG23や環RG24に仮想スピーカが環状に配置される。矢印A123に示す例では、ユーザU11の頭部を中心とする冠状面上の環RG13を図中、左右方向に移動させた環RG25や環RG26に仮想スピーカが環状に配置される。
 さらに、保持する頭部伝達関数および初期頭部方向に対する仮想的なスピーカの配置について、図19に示すように、所定方向に並ぶ複数の環のそれぞれについて入力がある場合、それぞれの環に対して前述のシステムを組むことができる。但し、センサやヘッドホンなど共通化可能なものは適宜共通化してもよい。なお、図19において図18における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 例えば図19の矢印A131に示す例では、図中、上下方向に並ぶ環RG11、環RG21、および環RG22ごとに上述のシステムを組むことができる。同様に、矢印A132に示す例では、図中、奥行き方向に並ぶ環RG12、環RG23、および環RG24ごとに上述のシステムを組むことができ、矢印A133に示す例では、図中、左右方向に並ぶ環RG13、環RG25、および環RG26ごとに上述のシステムを組むことができる。
 さらに、図20に示すように、聴取者であるユーザU11の頭部中心を通るある直線が含まれる面を持つ環Aの群(以下、環Adiと称する)について、対角化された頭部伝達関数の行列H’i(ω)を複数用意することもできる。なお、図20において図19における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
 図20に示す例では、例えば矢印A141乃至矢印A143のそれぞれに示される例では、ユーザU11の頭部の周囲にある複数の円のそれぞれが各環Adiを表している。
 この場合、入力は初期頭部方向に対する環Adiの何れかについての頭部伝達関数の行列H’i(ω)とされ、ユーザの頭部方向の変化によって、最適な環Adiの行列H’i(ω)を選ぶプロセスが前述のシステムに対して加わえられることとなる。
〈コンピュータの構成例〉
 ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
 図21は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
 コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
 バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
 入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
 以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
 コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
 コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
 なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
 また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
 例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
 また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
 さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
 また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
 さらに、本技術は、以下の構成とすることも可能である。
(1)
 環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成する頭部伝達関数合成部と、
 前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する環状調和逆変換部と
 を備える音声処理装置。
(2)
 前記頭部伝達関数合成部は、複数の頭部伝達関数からなる行列を環状調和関数変換により対角化して得られた対角行列と、環状調和関数の各次数に対応する前記入力信号からなるベクトルとの積を求めることで、前記入力信号と前記対角化された頭部伝達関数とを合成する
 (1)に記載の音声処理装置。
(3)
 前記頭部伝達関数合成部は、前記対角行列の対角成分のうちの時間周波数ごとに設定可能な所定の前記次数の要素のみを用いて、前記入力信号と前記対角化された頭部伝達関数との合成を行う
 (2)に記載の音声処理装置。
(4)
 前記対角行列には、各ユーザで共通して用いられる前記対角化された頭部伝達関数が要素として含まれている
 (2)または(3)に記載の音声処理装置。
(5)
 前記対角行列には、ユーザ個人に依存する前記対角化された頭部伝達関数が要素として含まれている
 (2)乃至(4)の何れか一項に記載の音声処理装置。
(6)
 前記対角行列を構成する、各ユーザで共通する前記対角化された頭部伝達関数を予め保持するとともに、ユーザ個人に依存する前記対角化された頭部伝達関数を取得して、取得した前記対角化された頭部伝達関数と、予め保持している前記対角化された頭部伝達関数とから前記対角行列を生成する行列生成部をさらに備える
 (2)または(3)に記載の音声処理装置。
(7)
 前記環状調和逆変換部は、各方向の環状調和関数からなる環状調和関数行列を保持しており、前記球面調和関数行列の所定方向に対応する行に基づいて、前記環状調和逆変換を行う
 (1)乃至(6)の何れか一項に記載の音声処理装置。
(8)
 前記ヘッドホン駆動信号に基づく音声を聴取するユーザの頭部の方向を取得する頭部方向取得部をさらに備え、
 前記環状調和逆変換部は、前記環状調和関数行列における前記ユーザの頭部の方向に対応する行に基づいて、前記環状調和逆変換を行う
 (7)に記載の音声処理装置。
(9)
 前記ユーザの頭部の回転を検出する頭部方向センサ部をさらに備え、
 前記頭部方向取得部は、前記頭部方向センサ部による検出結果を取得することで、前記ユーザの頭部の方向を取得する
 (8)に記載の音声処理装置。
(10)
 前記ヘッドホン駆動信号を時間周波数逆変換する時間周波数逆変換部をさらに備える
 (1)乃至(9)の何れか一項に記載の音声処理装置。
(11)
 環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、
 前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する
 ステップを含む音声処理方法。
(12)
 環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、
 前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する
 ステップを含む処理をコンピュータに実行させるプログラム。
 81 音声処理装置, 91 頭部方向センサ部, 92 頭部方向選択部, 93 頭部伝達関数合成部, 94 環状調和逆変換部, 95 時間周波数逆変換部, 201 行列生成部

Claims (12)

  1.  環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成する頭部伝達関数合成部と、
     前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する環状調和逆変換部と
     を備える音声処理装置。
  2.  前記頭部伝達関数合成部は、複数の頭部伝達関数からなる行列を環状調和関数変換により対角化して得られた対角行列と、環状調和関数の各次数に対応する前記入力信号からなるベクトルとの積を求めることで、前記入力信号と前記対角化された頭部伝達関数とを合成する
     請求項1に記載の音声処理装置。
  3.  前記頭部伝達関数合成部は、前記対角行列の対角成分のうちの時間周波数ごとに設定可能な所定の前記次数の要素のみを用いて、前記入力信号と前記対角化された頭部伝達関数との合成を行う
     請求項2に記載の音声処理装置。
  4.  前記対角行列には、各ユーザで共通して用いられる前記対角化された頭部伝達関数が要素として含まれている
     請求項2に記載の音声処理装置。
  5.  前記対角行列には、ユーザ個人に依存する前記対角化された頭部伝達関数が要素として含まれている
     請求項2に記載の音声処理装置。
  6.  前記対角行列を構成する、各ユーザで共通する前記対角化された頭部伝達関数を予め保持するとともに、ユーザ個人に依存する前記対角化された頭部伝達関数を取得して、取得した前記対角化された頭部伝達関数と、予め保持している前記対角化された頭部伝達関数とから前記対角行列を生成する行列生成部をさらに備える
     請求項2に記載の音声処理装置。
  7.  前記環状調和逆変換部は、各方向の環状調和関数からなる環状調和関数行列を保持しており、前記環状調和関数行列の所定方向に対応する行に基づいて、前記環状調和逆変換を行う
     請求項1に記載の音声処理装置。
  8.  前記ヘッドホン駆動信号に基づく音声を聴取するユーザの頭部の方向を取得する頭部方向取得部をさらに備え、
     前記環状調和逆変換部は、前記環状調和関数行列における前記ユーザの頭部の方向に対応する行に基づいて、前記環状調和逆変換を行う
     請求項7に記載の音声処理装置。
  9.  前記ユーザの頭部の回転を検出する頭部方向センサ部をさらに備え、
     前記頭部方向取得部は、前記頭部方向センサ部による検出結果を取得することで、前記ユーザの頭部の方向を取得する
     請求項8に記載の音声処理装置。
  10.  前記ヘッドホン駆動信号を時間周波数逆変換する時間周波数逆変換部をさらに備える
     請求項1に記載の音声処理装置。
  11.  環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、
     前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する
     ステップを含む音声処理方法。
  12.  環状調和領域の入力信号、または球面調和領域の入力信号のうちの環状調和領域に対応する部分と、対角化された頭部伝達関数とを合成し、
     前記合成により得られた信号を環状調和関数に基づいて環状調和逆変換することで、時間周波数領域のヘッドホン駆動信号を生成する
     ステップを含む処理をコンピュータに実行させるプログラム。
PCT/JP2016/088379 2016-01-08 2016-12-22 音声処理装置および方法、並びにプログラム Ceased WO2017119318A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2017560106A JP6834985B2 (ja) 2016-01-08 2016-12-22 音声処理装置および方法、並びにプログラム
BR112018013526-7A BR112018013526A2 (ja) 2016-01-08 2016-12-22 A speech processing unit, a method, and a program
US16/066,772 US10412531B2 (en) 2016-01-08 2016-12-22 Audio processing apparatus, method, and program
EP16883817.5A EP3402221B1 (en) 2016-01-08 2016-12-22 Audio processing device and method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016-002167 2016-01-08
JP2016002167 2016-01-08

Publications (1)

Publication Number Publication Date
WO2017119318A1 true WO2017119318A1 (ja) 2017-07-13

Family

ID=59273911

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/088379 Ceased WO2017119318A1 (ja) 2016-01-08 2016-12-22 音声処理装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US10412531B2 (ja)
EP (1) EP3402221B1 (ja)
JP (1) JP6834985B2 (ja)
BR (1) BR112018013526A2 (ja)
WO (1) WO2017119318A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020196004A1 (ja) * 2019-03-28 2020-10-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2026018859A1 (ja) * 2024-07-19 2026-01-22 公立大学法人秋田県立大学 情報処理方法、情報処理システム、及び、プログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017119321A1 (ja) 2016-01-08 2017-07-13 ソニー株式会社 音声処理装置および方法、並びにプログラム
US10133544B2 (en) 2017-03-02 2018-11-20 Starkey Hearing Technologies Hearing device incorporating user interactive auditory display
EP3627850A4 (en) * 2017-05-16 2020-05-06 Sony Corporation SPEAKER ARRAY AND SIGNAL PROCESSOR
CN115604630B (zh) * 2022-09-29 2025-09-23 歌尔科技有限公司 声场扩展方法、音频设备及计算机可读存储介质
JP2025043937A (ja) * 2023-09-19 2025-04-01 株式会社東芝 音響制御装置、音響制御方法及び音響制御プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006506918A (ja) * 2002-11-19 2006-02-23 フランス テレコム ソシエテ アノニム オーディオデータ処理方法及びこの方法を実現する集音装置
US20100329466A1 (en) * 2009-06-25 2010-12-30 Berges Allmenndigitale Radgivningstjeneste Device and method for converting spatial audio signal
JP2015159598A (ja) * 2010-03-26 2015-09-03 トムソン ライセンシングThomson Licensing オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6215879B1 (en) * 1997-11-19 2001-04-10 Philips Semiconductors, Inc. Method for introducing harmonics into an audio stream for improving three dimensional audio positioning
US7231054B1 (en) * 1999-09-24 2007-06-12 Creative Technology Ltd Method and apparatus for three-dimensional audio display
US20050147261A1 (en) * 2003-12-30 2005-07-07 Chiang Yeh Head relational transfer function virtualizer
GB0815362D0 (en) * 2008-08-22 2008-10-01 Queen Mary & Westfield College Music collection navigation
EP2268064A1 (en) 2009-06-25 2010-12-29 Berges Allmenndigitale Rädgivningstjeneste Device and method for converting spatial audio signal
WO2014189550A1 (en) * 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions
US20140355769A1 (en) * 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
US9674632B2 (en) * 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses
DE102013223201B3 (de) * 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US10009704B1 (en) * 2017-01-30 2018-06-26 Google Llc Symmetric spherical harmonic HRTF rendering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006506918A (ja) * 2002-11-19 2006-02-23 フランス テレコム ソシエテ アノニム オーディオデータ処理方法及びこの方法を実現する集音装置
US20100329466A1 (en) * 2009-06-25 2010-12-30 Berges Allmenndigitale Radgivningstjeneste Device and method for converting spatial audio signal
JP2015159598A (ja) * 2010-03-26 2015-09-03 トムソン ライセンシングThomson Licensing オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GERALD ENZNER: "ADVANCED SYSTEM OPTIONS FOR BINAURAL RENDERING OF AMBISONIC FORMAT", ICASSP, 2013
GRIFFIN D. ROMIGH, EFFICIENT REAL SPHERICAL HARMONIC REPRESENTATION OF HEAD-RELATED TRANSFER FUNCTIONS, 2015
JEROME DANIEL; ROZENN NICOL; SEBASTIEN MOREAU: "Further Investigations of High Order Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging", AES 114TH CONVENTION, 2003

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020196004A1 (ja) * 2019-03-28 2020-10-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
WO2026018859A1 (ja) * 2024-07-19 2026-01-22 公立大学法人秋田県立大学 情報処理方法、情報処理システム、及び、プログラム

Also Published As

Publication number Publication date
JPWO2017119318A1 (ja) 2018-10-25
JP6834985B2 (ja) 2021-02-24
EP3402221A4 (en) 2018-12-26
US10412531B2 (en) 2019-09-10
US20190014433A1 (en) 2019-01-10
EP3402221A1 (en) 2018-11-14
BR112018013526A2 (ja) 2018-12-04
EP3402221B1 (en) 2020-04-08

Similar Documents

Publication Publication Date Title
JP6834985B2 (ja) 音声処理装置および方法、並びにプログラム
CN108370487B (zh) 声音处理设备、方法和程序
EP2868119B1 (en) Method and apparatus for generating an audio output comprising spatial information
US10582329B2 (en) Audio processing device and method
CN101874414B (zh) 改善最佳收听区域内的声场渲染精度的方法和设备
TWI897339B (zh) 用於將保真立體音響格式聲訊訊號描繪至二維度(2d)揚聲器設置之方法和裝置以及電腦可讀式儲存媒體
US10595148B2 (en) Sound processing apparatus and method, and program
CN110089135A (zh) 用于生成音频映象的系统和方法
Villegas Locating virtual sound sources at arbitrary distances in real-time binaural reproduction
Cuevas-Rodriguez et al. An open-source audio renderer for 3D audio with hearing loss and hearing aid simulations
US11252524B2 (en) Synthesizing a headphone signal using a rotating head-related transfer function
US20220159402A1 (en) Signal processing device and method, and program
EP4295587B1 (en) Clustering audio objects
JP6955186B2 (ja) 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
WO2023085186A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JPWO2020100670A1 (ja) 信号処理装置および方法、並びにプログラム
WO2018211984A1 (ja) スピーカアレイ、および信号処理装置
US20250193624A1 (en) System for determining customized audio
JP7440174B2 (ja) 音響装置、音響処理方法及びプログラム
WO2022034805A1 (ja) 信号処理装置および方法、並びにオーディオ再生システム
JP2025117508A (ja) 音響信号処理方法、音響信号処理装置、及び音響信号処理プログラム
WO2023047647A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
KR20150005438A (ko) 오디오 신호 처리 방법 및 장치
Iwaya et al. Measurement and reproduction of high-definition sound space information using numerous microphones and loudspeakers

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16883817

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2017560106

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112018013526

Country of ref document: BR

WWE Wipo information: entry into national phase

Ref document number: 2016883817

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2016883817

Country of ref document: EP

Effective date: 20180808

ENP Entry into the national phase

Ref document number: 112018013526

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20180629