WO2022097919A1 - 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템 - Google Patents

뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템 Download PDF

Info

Publication number
WO2022097919A1
WO2022097919A1 PCT/KR2021/013328 KR2021013328W WO2022097919A1 WO 2022097919 A1 WO2022097919 A1 WO 2022097919A1 KR 2021013328 W KR2021013328 W KR 2021013328W WO 2022097919 A1 WO2022097919 A1 WO 2022097919A1
Authority
WO
WIPO (PCT)
Prior art keywords
beamforming
sound signal
microphone
phase difference
fourier transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2021/013328
Other languages
English (en)
French (fr)
Inventor
안강헌
박상현
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deephearing Inc
Original Assignee
Deephearing Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deephearing Inc filed Critical Deephearing Inc
Priority to JP2023551942A priority Critical patent/JP7591848B2/ja
Priority to US18/035,297 priority patent/US12477273B2/en
Priority to EP21889384.0A priority patent/EP4258567A4/en
Publication of WO2022097919A1 publication Critical patent/WO2022097919A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0615Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal
    • H04B7/0617Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission of weighted versions of same signal for beam forming
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/02Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
    • H04B7/04Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
    • H04B7/06Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
    • H04B7/0613Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission
    • H04B7/0682Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station using simultaneous transmission using phase diversity (e.g. phase sweeping)
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers
    • H04R3/005Circuits for transducers for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/23Direction finding using a sum-delay beam-former

Definitions

  • the present invention relates to a beamforming method and a beamforming system using a neural network.
  • the cocktail party effect refers to a phenomenon in which party attendees selectively focus and accept a conversation with an interlocutor despite being in a room with loud ambient noise.
  • a machine namely beamforming
  • attempts have been made to use neural networks to solve the cocktail party problem. Improving the performance of the beamforming technique is closely related to the performance of audio-related electronic products, and in particular, since it is related to hearing aids, it can also have the meaning of a very important social issue.
  • Beamforming may refer to a process of reconstructing a target signal by analyzing a sound acquired using two or more microphones. For this, a technique of minimizing the volume of incoming sound while satisfying a given constraint, such as creating and combining artificial delay times for signals from each microphone, has been used for a long time. Recently, studies on performance improvement of a minimum variance distortionless response (MVDR) beamformer using a neural network or a training method of a neural network model implementing the beamformer are being actively studied.
  • MVDR minimum variance distortionless response
  • the problem to be solved by the present invention is to use a neural network to overcome the limitation that a large amount of computation is required to obtain spatial information in rule-based beamforming, but to design a neural network structure to be optimized for beamforming. and to provide a beamforming method and a beamforming system using a neural network capable of minimizing the amount of computation.
  • a beamforming method includes receiving a first sound signal and a second sound signal using a first microphone and a second microphone spaced apart from the first microphone by a predetermined distance, respectively. step; obtaining a Fourier transform result for each of the first sound signal and the second sound signal; obtaining a phase difference between the first sound signal and the second sound signal from the Fourier transform result; calculating the phase difference by inputting the phase difference into a beamforming model using a neural processor; performing elemental multiplication on the operation result of the neural processor and the Fourier transform result of the first sound signal; and outputting the elemental product result.
  • the performing of the elemental product may further include applying a mask to the operation result before performing the elemental product.
  • the performing of the elemental product may further include performing gain control after performing the elemental product.
  • the predetermined distance may be 10 cm to 14 cm.
  • the beamforming method may further include learning the beamforming model by using the phase difference.
  • a beamforming system includes: a first microphone for receiving a first sound signal; a second microphone spaced apart from the first microphone by a predetermined distance to receive a second sound signal; a first STFT module for obtaining a Fourier transform result for the first sound signal; a second STFT module for obtaining a Fourier transform result for the second sound signal; a phase difference obtaining module for obtaining a phase difference between the first sound signal and the second sound signal from the Fourier transform result; a neural processor that receives the phase difference and performs a neural network operation using a beamforming model; an elemental product module for performing elemental product on the operation result of the neural processor and the Fourier transform result of the first sound signal; and an output module for outputting the result of the element product.
  • the beamforming system may further include a masking module for applying a mask to the operation result before performing the elemental product.
  • the beamforming system may further include a gain control module that performs gain control after performing the elemental product.
  • the predetermined distance may be 10 cm to 14 cm.
  • the beamforming system may further include a learning model for learning the beamforming model by using the phase difference.
  • the present invention it is possible to restore the voice received from the microphone using only the phase difference without the need to calculate the steering vector and spatial correlation matrix for various noise environments, so that beamforming can be efficiently implemented.
  • FIG. 1 is a view for explaining a beamforming system according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining a computing device for implementing a beamforming apparatus according to embodiments of the present invention.
  • FIG. 3 is a diagram for explaining a beamforming method according to an embodiment of the present invention.
  • FIG. 4 is a view for explaining a beamforming method according to an embodiment of the present invention.
  • FIG. 5 is a diagram for explaining an example of an implementation of a beamforming method according to an embodiment of the present invention.
  • FIG. 6 is a diagram for explaining a beamforming system according to an embodiment of the present invention.
  • FIG. 7 is a view for explaining a beamforming system according to an embodiment of the present invention.
  • FIG. 8 is a diagram for explaining a beamforming system according to an embodiment of the present invention.
  • 9 and 10 are diagrams for explaining advantageous effects of a beamforming method and a beamforming system according to embodiments of the present invention.
  • FIG. 1 is a view for explaining a beamforming system according to an embodiment of the present invention.
  • a beamforming system 1 includes a beamforming device 10 including a first microphone M1 , a second microphone M2 and a connection terminal T, and A monitor 20 may be included.
  • the beamforming apparatus 10 may be attached to the monitor 20 to receive sound using the microphones M1 and M2.
  • the beamforming apparatus 10 may receive a voice of a person participating in a video conference in front of the monitor 20 using the microphones M1 and M2 .
  • the beamforming apparatus 10 may receive a voice of a person participating in a video conference in an environment with a lot of ambient noise.
  • the beamforming apparatus 10 may perform beamforming on a sound signal received using the microphones M1 and M2 and then output a beamformed sound signal obtained as a result.
  • the beamforming apparatus 10 may discriminate the voice of a person participating in a video conference in an environment with a lot of ambient noise and provide it to another computing device (eg, a personal computer to which the monitor 20 is connected). The computer device can then provide the discerned human voice, for example to other video conference participants.
  • a connection terminal T may be used in order for the beamforming device 10 to provide an output signal that identifies a human voice to another computing device, and in this embodiment, the connection terminal T is a Universal Serial Bus (USB) terminal may be, but the scope of the present invention is not limited thereto.
  • USB Universal Serial Bus
  • the first microphone M1 and the second microphone M2 may be disposed to be spaced apart by a predetermined distance D.
  • the first microphone M1 may receive the voice of a person participating in the video conference on the first side (eg, the left side) and ambient noise (ie, the first sound signal), and the second microphone M1 M2) receives the voice of a person participating in the video conference and ambient noise (ie, the second sound signal) on the second side (eg the right side) away from the first microphone M1 by a predetermined distance D can do.
  • the predetermined distance D between the first microphone M1 and the second microphone M2 may be 10 cm to 14 cm, preferably 12 cm, but the scope of the present invention is limited thereto. it is not
  • FIG. 2 is a diagram for explaining a computing device for implementing a beamforming apparatus according to embodiments of the present invention.
  • a computing device for implementing the beamforming apparatus 10 includes a processor 100 , a neural processor 110 , a memory 120 , an output module 130 , and a first It may include a microphone M1 and a second microphone M2, and the corresponding computing device may operate to perform the beamforming method according to embodiments of the present invention.
  • the processor 100 , the neural processor 110 , the memory 120 , the output module 130 , the first microphone M1 , and the second microphone M2 may exchange data with each other through the bus 190 .
  • the processor 100 performs overall control of the beamforming apparatus 10 , and may perform the functions and methods described herein together with the neural processor 110 or independently of the neural processor 110 .
  • the processor 100 may be implemented by various types of processors such as an application processor (AP), a central processing unit (CPU), a graphic processing unit (GPU), and the like, and the scope of the present invention is not limited to a specific processor.
  • AP application processor
  • CPU central processing unit
  • GPU graphic processing unit
  • the neural processor 110 may perform a neural network operation in particular among the functions and methods described herein.
  • the neural processor 110 may perform an operation using the beamforming model described herein.
  • the neural network may include a convolutional neural network (CNN), but the scope of the present invention is not limited thereto.
  • CNN convolutional neural network
  • SRAM static random access memory
  • non-volatile memory such as flash memory, or a combination of volatile memory and non-volatile memory.
  • the output module 130 performs beamforming on the sound signal received by the beamforming device 10 using the microphones M1 and M2, and then outputs a beamformed sound signal obtained as a result. of the input/output interface device.
  • the beamforming method, the beamforming apparatus, and the beamforming system according to the embodiments of the present invention may be implemented as a program or software executed in a computing device at least some of the key control method, the key control device, and the user equipment. and the program or software may be stored in a computer-readable medium.
  • the beamforming method, the beamforming apparatus, and the beamforming system according to embodiments of the present invention may be implemented as hardware capable of being electrically connected to the computing device.
  • the beamforming device 10 as described in FIG. 1 is implemented to be attached to the monitor 20 and may be connected to another computing device to provide an output signal that distinguishes a human voice. It is particularly noteworthy here that the beamforming device 10 has its own neural processor 110 , so it uses its own neural processor 110 without using the computational resources of other computing devices to generate a lot of ambient noise. The advantage is that neural network computations can be performed to discern the voices of people participating in videoconferencing in the environment.
  • FIGS. 3 to 5 a beamforming method according to embodiments of the present invention will be described with reference to FIG. 3 .
  • FIG. 3 is a diagram for explaining a beamforming method according to an embodiment of the present invention.
  • the first microphone M1 may receive the first sound signal S1 from the first side.
  • the first microphone M1 receives the first sound signal S1 including the voice of a person participating in the video conference and ambient noise from the first side, and transmits it to the first STFT module 300 (Fig. In the above, it can be delivered to L_STFT module).
  • the first STFT module 300 performs a Fourier transform operation on the first sound signal S1 received from the first microphone M1, and obtains a Fourier transform result P1 on the first sound signal S1. can be obtained
  • the second microphone M2 disposed to be spaced apart from the first microphone M1 by a predetermined distance D may receive the second sound signal S2 from the second side.
  • the second microphone M2 receives the second sound signal S2 including the voice of a person participating in the video conference and ambient noise from the second side, and transmits it to the second STFT module 301 (Fig. In the above, it can be transmitted to R_STFT module).
  • the second STFT module 301 performs a Fourier transform operation on the second sound signal S2 received from the second microphone M2, and obtains a Fourier transform result P2 on the second sound signal S2. can be obtained
  • the phase difference obtaining module 302 is configured to perform a first sound signal S1 from a Fourier transform result P1 provided from the first STFT module 300 and a Fourier transform result P2 provided from the second STFT module 301 . and the phase difference dP of the second sound signal S2 may be obtained.
  • the learning module 303 may learn the beamforming model 304 by using the phase difference dP between the first sound signal S1 and the second sound signal S2 . Accordingly, the beamforming model 304 may be learned to perform beamforming only with a phase difference between two sound signals received through the first microphone M1 and the second microphone M2 .
  • the predetermined distance D between the first microphone M1 and the second microphone M2 may be 10 cm to 14 cm, preferably 12 cm, but the scope of the present invention is not limited thereto .
  • the predetermined distance D is 12 cm
  • the performance of the trained beamforming model 304 is improved until the distance between the first microphone M1 and the second microphone M2 is 10 cm to 14 cm in inference. performance can be achieved.
  • FIG. 4 is a view for explaining a beamforming method according to an embodiment of the present invention.
  • the first microphone M1 may receive the first sound signal S1 from the first side.
  • the first microphone M1 receives the first sound signal S1 including the voice of a person participating in the video conference and ambient noise from the first side, and transmits it to the first STFT module 310 (Fig. In the above, it can be delivered to L_STFT module).
  • the first STFT module 310 performs a Fourier transform operation on the first sound signal S1 received from the first microphone M1, and obtains a Fourier transform result P1 on the first sound signal S1. can be obtained
  • the second microphone M2 disposed to be spaced apart from the first microphone M1 by a predetermined distance D may receive the second sound signal S2 from the second side.
  • the second microphone M2 receives the second sound signal S2 including the voice of a person participating in the video conference and ambient noise from the second side, and transmits it to the second STFT module 311 (Fig. In the above, it can be transmitted to R_STFT module).
  • the second STFT module 311 performs a Fourier transform operation on the second sound signal S2 received from the second microphone M2, and obtains a Fourier transform result P2 on the second sound signal S2. can be obtained
  • the phase difference obtaining module 312 is configured to perform a first sound signal S1 from a Fourier transform result P1 provided from the first STFT module 310 and a Fourier transform result P2 provided from the second STFT module 311 . and the phase difference dP of the second sound signal S2 may be obtained.
  • the trained beamforming model 314 receives the phase difference dP between the first sound signal S1 and the second sound signal S2 as an input to perform neural network operation (ie, reasoning operation). can be done
  • the masking module 315 may apply a mask to the speculation operation result, and then, the elemental product module 316 performs the speculation operation result (or the mask applied result) and the second received from the second STFT module 311 .
  • An elemental product may be performed on the Fourier transform result P2 of the sound signal S2.
  • the element product may be an operation of multiplying each component of two matrices of the same size.
  • the output module 317 may output the elemental product result S3 provided from the elemental product module 316 .
  • the output module 317 uses the beamforming model 314 to perform beamforming on a sound signal received using the microphones M1 and M2, and a beamformed sound signal ( S3) can be output.
  • the beam-formed sound signal S3 may be a voice of a person participating in a video conference in an environment with a lot of ambient noise, and is provided to another computing device (eg, a personal computer to which the monitor 20 is connected). and can then be provided to other video conferencing participants.
  • FIG. 5 is a diagram for explaining an example of an implementation of a beamforming method according to an embodiment of the present invention.
  • Two or more microphones are basically required for directional hearing.
  • the geometry of the microphone array has a spatial characteristic in which the signals received by each microphone are aligned.
  • the process of obtaining a mask for beamforming can be formulated as follows. First, suppose that each signal received from a plurality of microphones is subjected to short time Fourier transform (STFT) to obtain a spectrogram. is the desired voice and is expressed as follows.
  • STFT short time Fourier transform
  • the input of the microphone array can be expressed as
  • the superscript is a matrix transposed after taking the complex conjugate number. Therefore, the spectrogram of the speech to be obtained using the obtained filter is can be obtained with When implementing beamforming using this method, the most important part is the steering vector. and spatial correlation matrix is to find exactly
  • a steering vector that mathematically models the path from the sound source to each microphone is required.
  • Mathematical modeling is very difficult when the mouth of the speaker is located at a close distance, for example, around 1 m, and the distance between the microphones is also close, for example, several centimeters or tens of centimeters.
  • the steering vector is set to a fixed value, the user's degree of discomfort is further increased.
  • a neural network rather than a steering vector may be used.
  • the phase difference matrix used as the input of the neural network in this method is simpler than the spatial correlation matrix used to obtain the location information of the sound source in the existing method, so that the location information of the sound source can be obtained more easily.
  • the beamforming method according to an embodiment of the present invention only two microphones train a neural network for spatial information, and through this, a sound can be acquired in a predetermined direction. Therefore, it has the following advantages.
  • the sound movement path is affected only by the angle of the sound source. Because the distance between the microphone and the sound source is the same, the sound coming from the front is the same. That is, the arrival time difference (TDOA) of the forward source approaches zero. By using this point, you can leave the sound you hear in front of you as it is.
  • TDOA arrival time difference
  • embodiments of the present invention provide a method of recognizing a phase difference through a spectrogram pattern of a neural network and a reference microphone.
  • the mask to be designed is a mask between 0 and 1 defined by real numbers, it can perform a function similar to an IBM (ideal binary mask). However, since there is a value between them, it can be SBM (Soft Binary Mask).
  • SBM Soft Binary Mask
  • the noisy phase was used as it is. From this, when reconstructing speech as a spectrogram with noise, speech reconstruction of a signal is possible only by leaving a frequency domain related to the composition of the speech. Therefore, the mask obtained by the SBM type neural network creates a directional auditory mask applied to the magnitude from the phase difference, which functions to leave a signal even for an element having a phase difference.
  • CNNs are more efficient for 2D matrices such as images and require less computational power.
  • the convolution filter is optimized for the reduction width according to the phase difference of the ideal mask.
  • back propagation can be used to prevent the problem that a target speech pattern cannot be learned when only the phase difference is input to the neural network.
  • the mean squared error (MSE) obtained in the time domain is used as a loss function for training a mask with phase information.
  • MSE mean squared error
  • the aforementioned method is similar to this method.
  • ISTFT inverse STFT
  • a loss function can be used to compare it with a clear target sound in the time domain.
  • the gradient value to be updated may include voice pattern information for the reference microphone.
  • a predetermined data set was generated using a simulation method, the subject's voice was reconstructed using a neural network, and a stereo channel sound source was generated through a 10x10x10m spatial simulation.
  • the height of the microphone is 2 m, and the two positions (9, 5.06, 2) and (9, 4.94, 2) are designated with an interval of 6 cm on the left and right.
  • the sound source is located on a semicircle with a diameter of 1 meter, and the center of the semicircle is the same as the center of the microphone.
  • the location of the sound source you want to obtain is the front , located at (7, 5, 2). and 4 segments on a semicircle Divide and place the noise source at random positions for each section.
  • Some of the negative data sets were used for training data, and another part was used for test data.
  • the noise data set two artificial noises (speech shape noise and babble noise) and a DEMAND database were used, which are 13 recorded noises.
  • the training data consists of 2 artificial noises and 8 recorded noises (cafe, car, kitchen, meeting, metro, restaurant, station, traffic).
  • the test data consisted of five recorded noises (bus, cafeteria, living room, office and public plaza). To produce noise, noise was extracted as much as the length of the voice at 4 random points of the same noise signal. After that, the method of accommodating two microphones was adopted by simulating the sound coming from four sound sources.
  • the training data a combination of 40 conditions, that is, 10 noise situations and 4 SNRs (0dB, 5dB, 10dB, 15dB) was used.
  • the test data used a combination of 20 different conditions, 5 noise situations and 4 SNRs (2.5dB, 7.5dB, 12.5dB, 17.5dB). In this case, only energy reduction according to distance was simulated using the room impulse response of the image-source method. In order not to consider reverberation, the reverberation time ( ) is set to 0.
  • STFT uses a 256-point Hamming window for a signal at a 16 kHz sample rate.
  • a window shift uses 128 points (128 points of overlap). The same conditions are used when performing the ISTFT operation after the neural network manipulation is complete.
  • the model structure follows the structure in Table 1.
  • the input value includes only 128 low frequencies among the STFT results.
  • the mask obtained as a result of the neural network is multiplied by the spectrogram of 128 input frequencies, and the 129th frequency is filled with 0 and ISTFT is performed to obtain a reconstructed signal.
  • the input consists of (batch, frequency, time step, channel).
  • the convolutional layer is composed of (filter height, filter width), (stride height, stride width), (padding height, padding width).
  • the output consists of (batch, frequency, time step, channel). All activation functions were PReLU.
  • the activation function of the last layer uses a sigmoid function, and channels 1 and 2 are used as the real and imaginary parts of the mask, respectively.
  • FIG. 6 is a diagram for explaining a beamforming system according to an embodiment of the present invention
  • FIG. 7 is a diagram for explaining a beamforming system according to an embodiment of the present invention
  • FIG. 8 is an embodiment of the present invention It is a diagram for explaining a beamforming system according to an example.
  • the beamforming system 2 may be implemented as a monitor including a first microphone M1 and a second microphone M2.
  • the beamforming system 2 may be implemented to include a cradle-type device 14 that can mount a portable computing device 22 including a smart phone. . And after performing beamforming on the sound signal received using the microphones M1 and M2, the beamformed sound signal obtained as a result may be provided to the portable computing device 22 through any connection means. there is. The computer device 22 may then provide the discerned human voice, eg, to other videoconference participants.
  • the beamforming system 4 may be implemented as an attachable device 16 that can be attached to a portable computing device 22 including a smart phone. And after performing beamforming on the sound signal received using the microphones M1 and M2, the beamformed sound signal obtained as a result may be provided to the portable computing device 22 through any connection means. there is. The computer device 22 may then provide the discerned human voice, eg, to other videoconference participants.
  • 9 and 10 are diagrams for explaining advantageous effects of a beamforming method and a beamforming system according to embodiments of the present invention.
  • FIG. 9 shows the loudness (upper row) and short-time objective intelligibility (STOI) score (lower row) of each angle of beamforming using the classical method (MVDR), and FIG. Loudness (upper row) and STOI score (lower row) for each angle of beamforming using a neural network according to various embodiments are shown.
  • STOI is an index related to the degree of restoration of sound regardless of the loudness of the sound.
  • the STOI is high in a direction other than the desired direction, whereas the aspect of the neural network method according to various embodiments of the present invention appears low, and through this, it can be seen that the neural network method according to various embodiments of the present invention more reliably separates the voice spoken by the speaker in a non-desired direction and receives less interference.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

빔포밍 방법 및 빔포밍 시스템이 제공된다. 빔포밍 방법은, 제1 마이크와, 상기 제1 마이크로부터 미리 정해진 거리만큼 이격되어 배치된 제2 마이크를 이용하여 제1 소리 신호 및 제2 소리 신호를 각각 수신하는 단계; 상기 제1 소리 신호 및 상기 제2 소리 신호 각각에 대한 푸리에 변환 결과를 획득하는 단계; 상기 푸리에 변환 결과로부터 상기 제1 소리 신호와 상기 제2 소리 신호의 위상차를 획득하는 단계; 뉴럴 프로세서를 이용하여 상기 위상차를 빔포밍 모델에 입력하여 연산하는 단계; 상기 뉴럴 프로세서의 연산 결과와 상기 제1 소리 신호에 대한 푸리에 변환 결과에 대해 원소곱을 수행하는 단계; 및 상기 원소곱 결과를 출력하는 단계를 포함할 수 있다.

Description

뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템
본 발명은 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템에 관한 것이다.
칵테일 파티 효과(cocktail party effect)는 파티의 참석자들이 시끄러운 주변 소음이 있는 방에 있음에도 불구하고 대화자와의 이야기를 선택적으로 집중하여 잘 받아들이는 현상을 말한다. 기계에서 이러한 능력, 즉 빔포밍(beamforming)을 구현하는 것은 칵테일 파티 문제로 알려져 왔으며 최근에는 칵테일 파티 문제 해결을 위해 뉴럴 네트워크를 이용하려는 시도가 늘어나고 있다. 빔포밍 기법의 성능을 높이는 것은 오디오 관련 전자 제품의 성능과 밀접한 관계가 있으며, 특히 보청기와도 관련이 있기 때문에 매우 중요한 사회 문제라는 의미도 가질 수 있다.
빔포밍은 2 개 이상의 마이크를 이용하여 획득한 소리를 분석해 대상 신호를 재구성하는 과정을 의미할 수 있다. 이를 위해, 각 마이크에서 오는 신호에 대해 인위적인 지연 시간을 만들어 합치는 것과 같이, 주어진 제한조건을 만족시키면서 들어오는 소리의 크기를 최소화하는 기법이 오래전부터 사용되어 왔다. 최근에는 뉴럴 네트워크를 이용한 MVDR(minimum variance distortionless response) 빔포머의 성능 향상에 관한 연구 또는 빔포머를 구현하는 뉴럴 네트워크 모델의 훈련방법 등이 활발히 연구되고 있다.
본 발명이 해결하고자 하는 과제는, 규칙기반 빔포밍에서 공간정보를 얻기위해 많은 양의 연산이 요구되는 한계를 극복하기 위해 뉴럴 네트워크를 사용하되, 빔포밍에 최적화되도록 뉴럴 네트워크 구조를 설계함으로써 파라미터량 및 연산량을 최소화할 수 있는, 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템을 제공하기 위한 것이다.
본 발명의 일 실시 예에 따른 빔포밍 방법은, 제1 마이크와, 상기 제1 마이크로부터 미리 정해진 거리만큼 이격되어 배치된 제2 마이크를 이용하여 제1 소리 신호 및 제2 소리 신호를 각각 수신하는 단계; 상기 제1 소리 신호 및 상기 제2 소리 신호 각각에 대한 푸리에 변환 결과를 획득하는 단계; 상기 푸리에 변환 결과로부터 상기 제1 소리 신호와 상기 제2 소리 신호의 위상차를 획득하는 단계; 뉴럴 프로세서를 이용하여 상기 위상차를 빔포밍 모델에 입력하여 연산하는 단계; 상기 뉴럴 프로세의 연산 결과와 상기 제1 소리 신호에 대한 푸리에 변환 결과에 대해 원소곱을 수행하는 단계; 및 상기 원소곱 결과를 출력하는 단계를 포함할 수 있다.
상기 원소곱을 수행하는 단계는, 상기 원소곱을 수행하기 전에 상기 연산 결과에 대해 마스크(mask)를 적용하는 단계를 더 포함할 수 있다.
상기 원소곱을 수행하는 단계는, 상기 원소곱을 수행한 후에 이득 제어(gain control)를 수행하는 단계를 더 포함할 수 있다.
상기 미리 정해진 거리는 10 cm 내지 14 cm일 수 있다.
상기 빔포밍 방법은, 상기 위상차를 이용하여 상기 빔포밍 모델을 학습시키는 단계를 더 포함할 수 있다.
본 발명의 일 실시 예에 따른 빔포밍 시스템은, 제1 소리 신호를 수신하는 제1 마이크; 상기 제1 마이크로부터 미리 정해진 거리만큼 이격되어 배치되어 제2 소리 신호를 수신하는 제2 마이크; 상기 제1 소리 신호에 대한 푸리에 변환 결과를 획득하는 제1 STFT 모듈; 상기 제2 소리 신호에 대한 푸리에 변환 결과를 획득하는 제2 STFT 모듈; 상기 푸리에 변환 결과로부터 상기 제1 소리 신호와 상기 제2 소리 신호의 위상차를 획득하는 위상차 획득 모듈; 상기 위상차를 입력받아 빔포밍 모델을 이용하여 뉴럴 네트워크 연산을 수행하는 뉴럴 프로세서; 상기 뉴럴 프로세서의 연산 결과와 상기 제1 소리 신호에 대한 푸리에 변환 결과에 대해 원소곱을 수행하는 원소곱 모듈; 및 상기 원소곱 결과를 출력하는 출력 모듈을 포함할 수 있다.
상기 빔포밍 시스템은, 상기 원소곱을 수행하기 전에 상기 연산 결과에 대해 마스크를 적용하는 마스킹 모듈을 더 포함할 수 있다.
상기 빔포밍 시스템은, 상기 원소곱을 수행한 후에 이득 제어를 수행하는 이득 제어 모듈을 더 포함할 수 있다.
상기 미리 정해진 거리는 10 cm 내지 14 cm일 수 있다.
상기 빔포밍 시스템은, 상기 위상차를 이용하여 상기 빔포밍 모델을 학습시키는 학습 모델을 더 포함할 수 있다.
본 발명의 실시 예들에 따르면, 다양한 소음 환경에 대한 조향 벡터와 공간상관행렬을 연산할 필요없이 위상차만을 이용하여 마이크에서 수신되는 음성을 복원할 수 있어, 빔포밍을 효율적으로 구현할 수 있다. 또한, 경량화된 오토인코더의 적용이 가능하여 경량화 및 소형화를 가능하게 할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 빔포밍 시스템을 설명하기 위한 도면이다.
도 2는 본 발명의 실시 예들에 따른 빔포밍 장치를 구현하기 위한 컴퓨팅 장치를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시 예에 따른 빔포밍 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시 예에 따른 빔포밍 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 빔포밍 방법에 대한 일 구현 예를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 빔포밍 시스템을 설명하기 위한 도면이다.
도 7은 본 발명의 일 실시 예에 따른 빔포밍 시스템을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시 예에 따른 빔포밍 시스템을 설명하기 위한 도면이다.
도 9 및 도 10은 본 발명의 실시 예들에 따른 빔포밍 방법 및 빔포밍 시스템의 유리한 효과를 설명하기 위한 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다. 또한, 아래에서 설명되는 실시 예들에 따른 빔포밍 방법, 빔포밍 장치 및 빔포밍 시스템 중 적어도 일부는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 빔포밍 시스템을 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 빔포밍 시스템(1)은 제1 마이크(M1), 제2 마이크(M2) 및 연결 단자(T)를 포함하는 빔포밍 장치(10)와 모니터(20)를 포함할 수 있다.
빔포밍 장치(10)는 모니터(20)에 부착되어 마이크(M1, M2)를 이용하여 소리를 수신할 수 있다. 예를 들어, 빔포밍 장치(10)는 마이크(M1, M2)를 이용하여 모니터(20) 앞에서 화상 회의에 참여하는 사람의 목소리를 수신할 수 있다. 특히, 빔포밍 장치(10)는 주변 소음이 많은 환경에서 화상 회의를 참여하는 사람의 목소리를 수신할 수 있다.
빔포밍 장치(10)는, 마이크(M1, M2)를 이용하여 수신한 소리 신호에 대해 빔포밍을 수행한 후, 그 결과로서 획득한 빔포밍된 소리 신호를 출력할 수 있다. 예를 들어, 빔포밍 장치(10)는 주변 소음이 많은 환경에서 화상 회의에 참여하는 사람의 목소리를 분별하여 다른 컴퓨팅 장치(예컨대 모니터(20)가 연결된 개인용 컴퓨터)에 제공할 수 있다. 그러면 해당 컴퓨터 장치는 분별된 사람의 목소리를, 예컨대 다른 화상 회의 참여자에게 제공할 수 있다. 빔포밍 장치(10)가 사람의 목소리를 분별한 출력 신호를 다른 컴퓨팅 장치에 제공하기 위해 연결 단자(T)가 사용될 수 있으며, 본 실시 예에서 연결 단자(T)는 USB(Universal Serial Bus) 단자일 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.
본 실시 예에서, 제1 마이크(M1)와 제2 마이크(M2)는 미리 정해진 거리(D)만큼 이격되어 배치될 수 있다. 예를 들어, 제1 마이크(M1)는 제1 측(예를 들어 좌측)에서 화상 회의에 참여하는 사람의 목소리와 주변 소음(즉, 제1 소리 신호)을 수신할 수 있고, 제2 마이크(M2)는, 제1 마이크(M1)로부터 미리 정해진 거리(D)만큼 떨어진 제2 측(예를 들어 우측)에서 화상 회의에 참여하는 사람의 목소리와 주변 소음(즉, 제2 소리 신호)을 수신할 수 있다.
본 실시 예에서, 제1 마이크(M1)와 제2 마이크(M2) 사이의 미리 정해진 거리(D)는 10 cm 내지 14 cm, 바람직하게는 12 cm일 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.
도 2는 본 발명의 실시 예들에 따른 빔포밍 장치를 구현하기 위한 컴퓨팅 장치를 설명하기 위한 도면이다.
도 2를 참조하면, 본 발명의 실시 예들에 따른 빔포밍 장치(10)를 구현하기 위한 컴퓨팅 장치는 프로세서(100), 뉴럴 프로세서(110), 메모리(120), 출력 모듈(130), 제1 마이크(M1) 및 제2 마이크(M2)를 포함할 수 있으며, 해당 컴퓨팅 장치는 본 발명의 실시 예들에 따른 빔포밍 방법을 수행하기 위해 동작할 수도 있다. 프로세서(100), 뉴럴 프로세서(110), 메모리(120), 출력 모듈(130), 제1 마이크(M1) 및 제2 마이크(M2)는 버스(190)를 통해 서로 데이터를 주고 받을 수 있다.
프로세서(100)는 빔포밍 장치(10)에 대한 전반적인 제어를 수행하며, 뉴럴 프로세서(110)와 함께 또는 뉴럴 프로세서(110)와 독립적으로, 본 명세서에서 설명하는 기능들 및 방법들을 수행할 수 있다. 프로세서(100)는, AP(Application Processor), CPU(Central Processing Unit), GPU(Graphic Processing Unit) 등과 같은 다양한 종류의 프로세서로 구현될 수 있으며, 본 발명의 범위는 특정 프로세서로 제한되지 않는다.
뉴럴 프로세서(110)는 본 명세서에서 설명하는 기능들 및 방법들 중 특히 뉴럴 네트워크 연산을 수행할 수 있다. 예를 들어, 뉴럴 프로세서(110)는 본 명세서에서 설명하는 빔포밍 모델을 이용한 연산을 수행할 수 있다. 여기서 뉴럴 네트워크는 CNN(Convolutional Neural Network)를 포함할 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.
메모리(120)는 프로세서(100) 또는 뉴럴 프로세서(110)가 연산을 위해 필요로 하는 데이터 또는 구동되는 애플리케이션을 적재할 수 있다. DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory)를 비롯한 다양한 종류의 휘발성 메모리를 포함할 수 있거나, 플래시 메모리와 같은 비휘발성 메모리를 포함할 수 있거나, 휘발성 메모리와 비휘발성 메모리의 조합을 포함할 수도 있다.
출력 모듈(130)은 빔포밍 장치(10)가 마이크(M1, M2)를 이용하여 수신한 소리 신호에 대해 빔포밍을 수행한 후, 그 결과로서 획득한 빔포밍된 소리 신호를 출력하기 위한 임의의 입출력 인터페이스 장치를 포함할 수 있다.
또한, 본 발명의 실시 예들에 따른 빔포밍 방법, 빔포밍 장치 및 빔포밍 시스템 중 적어도 일부는 키 제어 방법, 키 제어 장치 및 사용자 기기 중 적어도 일부는 컴퓨팅 장치에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다. 또한, 본 발명의 실시 예들에 따른 빔포밍 방법, 빔포밍 장치 및 빔포밍 시스템 중 적어도 일부는 컴퓨팅 장치와 전기적으로 접속될 수 있는 하드웨어로 구현될 수도 있다.
도 1에서 설명한 바와 같은 빔포밍 장치(10)는 모니터(20)에 부착되도록 구현되며, 사람의 목소리를 분별한 출력 신호를 제공하기 위해 다른 컴퓨팅 장치에 연결될 수 있다. 여기서 특히 주목할 점은, 빔포밍 장치(10)는 뉴럴 프로세서(110)를 자체적으로 보유하고 있어, 다른 컴퓨팅 장치의 연산 자원을 사용하지 않고도, 자신의 뉴럴 프로세서(110)를 이용하여 주변 소음이 많은 환경에서 화상 회의에 참여하는 사람의 목소리를 분별하기 위해 뉴럴 네트워크 연산을 수행할 수 있다는 점이다.
이제 도 3 내지 도 5를 참조하여, 도 3은 본 발명의 실시 예들에 따른 빔포밍 방법에 대해 설명하도록 한다.
도 3은 본 발명의 일 실시 예에 따른 빔포밍 방법을 설명하기 위한 도면이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 빔포밍 방법(30)에서, 제1 마이크(M1)는 제1 측으로부터 제1 소리 신호(S1)를 수신할 수 있다. 예를 들어, 제1 마이크(M1)는 제1 측으로부터 화상 회의에 참여하는 사람의 목소리와 주변 소음을 포함하는 제1 소리 신호(S1)를 수신하여, 이를 제1 STFT 모듈(300)(도면 상에서는 L_STFT 모듈로 표시함)에 전달할 수 있다.
제1 STFT 모듈(300)은, 제1 마이크(M1)로부터 수신한 제1 소리 신호(S1)에 대해 푸리에 변환 연산을 수행하고, 제1 소리 신호(S1)에 대한 푸리에 변환 결과(P1)를 획득할 수 있다.
한편, 제1 마이크(M1)로부터 미리 정해진 거리(D)만큼 이격되어 배치되는 제2 마이크(M2)는 제2 측으로부터 제2 소리 신호(S2)를 수신할 수 있다. 예를 들어, 제2 마이크(M2)는 제2 측으로부터 화상 회의에 참여하는 사람의 목소리와 주변 소음을 포함하는 제2 소리 신호(S2)를 수신하여, 이를 제2 STFT 모듈(301)(도면 상에서는 R_STFT 모듈로 표시함)에 전달할 수 있다.
제2 STFT 모듈(301)은, 제2 마이크(M2)로부터 수신한 제2 소리 신호(S2)에 대해 푸리에 변환 연산을 수행하고, 제2 소리 신호(S2)에 대한 푸리에 변환 결과(P2)를 획득할 수 있다.
위상차 획득 모듈(302)은, 제1 STFT 모듈(300)로부터 제공받은 푸리에 변환 결과(P1) 및 제2 STFT 모듈(301)로부터 제공받은 푸리에 변환 결과(P2)로부터, 제1 소리 신호(S1)와 제2 소리 신호(S2)의 위상차(dP)를 획득할 수 있다.
학습 모듈(303)은, 제1 소리 신호(S1)와 제2 소리 신호(S2)의 위상차(dP)를 이용하여 빔포밍 모델(304)를 학습시킬 수 있다. 이에 따라, 빔포밍 모델(304)은, 제1 마이크(M1)와 제2 마이크(M2)를 통해 수신되는 2 가지 소리 신호의 위상차만으로 빔포밍을 수행할 수 있도록 학습될 수 있다.
학습 시, 제1 마이크(M1)와 제2 마이크(M2) 사이의 미리 정해진 거리(D)는 10 cm 내지 14 cm, 바람직하게는 12 cm일 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다. 미리 정해진 거리(D)가 12 cm일 때 학습된 빔포밍 모델(304)의 성능은, 추론 시 제1 마이크(M1)와 제2 마이크(M2) 사이의 거리가 10 cm 내지 14 cm인 경우에까지 성능을 발휘할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 빔포밍 방법을 설명하기 위한 도면이다.
도 4를 참조하면, 본 발명의 일 실시 예에 따른 빔포밍 방법(31)에서, 제1 마이크(M1)는 제1 측으로부터 제1 소리 신호(S1)를 수신할 수 있다. 예를 들어, 제1 마이크(M1)는 제1 측으로부터 화상 회의에 참여하는 사람의 목소리와 주변 소음을 포함하는 제1 소리 신호(S1)를 수신하여, 이를 제1 STFT 모듈(310)(도면 상에서는 L_STFT 모듈로 표시함)에 전달할 수 있다.
제1 STFT 모듈(310)은, 제1 마이크(M1)로부터 수신한 제1 소리 신호(S1)에 대해 푸리에 변환 연산을 수행하고, 제1 소리 신호(S1)에 대한 푸리에 변환 결과(P1)를 획득할 수 있다.
한편, 제1 마이크(M1)로부터 미리 정해진 거리(D)만큼 이격되어 배치되는 제2 마이크(M2)는 제2 측으로부터 제2 소리 신호(S2)를 수신할 수 있다. 예를 들어, 제2 마이크(M2)는 제2 측으로부터 화상 회의에 참여하는 사람의 목소리와 주변 소음을 포함하는 제2 소리 신호(S2)를 수신하여, 이를 제2 STFT 모듈(311)(도면 상에서는 R_STFT 모듈로 표시함)에 전달할 수 있다.
제2 STFT 모듈(311)은, 제2 마이크(M2)로부터 수신한 제2 소리 신호(S2)에 대해 푸리에 변환 연산을 수행하고, 제2 소리 신호(S2)에 대한 푸리에 변환 결과(P2)를 획득할 수 있다.
위상차 획득 모듈(312)은, 제1 STFT 모듈(310)로부터 제공받은 푸리에 변환 결과(P1) 및 제2 STFT 모듈(311)로부터 제공받은 푸리에 변환 결과(P2)로부터, 제1 소리 신호(S1)와 제2 소리 신호(S2)의 위상차(dP)를 획득할 수 있다.
도 3에서 설명한 바와 같이 학습이 완료된 빔포밍 모델(314)은 제1 소리 신호(S1)와 제2 소리 신호(S2)의 위상차(dP)을 입력으로 받아 뉴럴 네트워크 연산(즉, 추론 연산)을 수행할 수 있다.
마스킹 모듈(315)은 추론 연산 결과에 대해 마스크를 적용할 수 있으며, 이어서 원소곱 모듈(316)은, 추론 연산 결과(또는 마스크가 적용된 결과)와 제2 STFT 모듈(311)로부터 제공받은 제2 소리 신호(S2)에 대한 푸리에 변환 결과(P2)에 대해 원소곱을 수행할 수 있다. 여기서 원소곱은 동일한 크기의 2 개 행렬의 각 성분을 곱하는 연산일 수 있다.
출력 모듈(317)은 원소곱 모듈(316)로부터 제공받은 원소곱 결과(S3)를 출력할 수 있다. 예를 들어, 출력 모듈(317)은, 빔포밍 모델(314)를 이용하여 마이크(M1, M2)를 이용하여 수신한 소리 신호에 대해 빔포밍을 수행한 결과로서 획득한 빔포밍된 소리 신호(S3)를 출력할 수 있다. 예를 들어, 빔포밍된 소리 신호(S3)는 주변 소음이 많은 환경에서 화상 회의에 참여하는 사람의 목소리를 분별한 것일 수 있고, 다른 컴퓨팅 장치(예컨대 모니터(20)가 연결된 개인용 컴퓨터)에 제공되고, 이어서 다른 화상 회의 참여자에게 제공될 수 있다.
도 5는 본 발명의 일 실시 예에 따른 빔포밍 방법에 대한 일 구현 예를 설명하기 위한 도면이다.
방향성 청력을 위해서는 기본적으로 2 개 이상의 마이크가 필요하다. 마이크 배열의 기하학적 형태는 각 마이크에 의해 수신되는 신호가 정렬되는 공간적 특성을 가지고 있다. 빔포밍을 위한 마스크를 획득하는 과정은 다음과 같이 공식화할 수 있다. 우선, 다수의 마이크으로부터 수신된 각각의 신호를 STFT(short time Fourier transform)하여 스펙트로그램을 얻을 수 있다고 하자.
Figure PCTKR2021013328-appb-img-000001
는 얻고자 하는 음성이고 아래와 같이 표현된다.
Figure PCTKR2021013328-appb-img-000002
Figure PCTKR2021013328-appb-img-000003
Figure PCTKR2021013328-appb-img-000004
는 잡음이라고 할때, 음성과 잡음이 동시에 들어오는 마이크 배열의 입력은
Figure PCTKR2021013328-appb-img-000005
로 나타낼 수 있다.
Figure PCTKR2021013328-appb-img-000006
는 각도에 따른 마이크 배열의 특성을 나타낸다. 이 때 입력된 스펙트로그램에 필터
Figure PCTKR2021013328-appb-img-000007
를 취해준다고 하면, 그 결과는
Figure PCTKR2021013328-appb-img-000008
가 된다. 따라서 입력 신호의 크기를 최소화하되 얻고자 하는 신호는 남기는 방향으로
Figure PCTKR2021013328-appb-img-000009
를 디자인할 수 있다. 굵은 문자로 표시한 것이 벡터라 하면
Figure PCTKR2021013328-appb-img-000010
일때
Figure PCTKR2021013328-appb-img-000011
가 되고 이때 해는
Figure PCTKR2021013328-appb-img-000012
로 구해질 수 있다. 여기서, 윗첨자
Figure PCTKR2021013328-appb-img-000013
는 켤레 복소수를 취해준 뒤 전치한 행렬을 말한다. 따라서 구해진 필터를 이용해서 얻고자 하는 음성의 스팩트로그램은
Figure PCTKR2021013328-appb-img-000014
와 같이 얻을 수 있다. 이러한 방식을 사용하여 빔포밍을 구현하는 경우에 가장 중요한 부분은 바로 조향벡터
Figure PCTKR2021013328-appb-img-000015
와 공간상관행렬
Figure PCTKR2021013328-appb-img-000016
를 정확하게 구하는 것이다.
이와 같이, 뉴럴 네트워크를 사용하지 않는 MVDR 방식에서, MVDR을 정확하게 만족하기 위해서는 음원에서 발생한 소리가 각각의 마이크에 도달하기까지의 경로를 수학적으로 모델링하는 조향벡터가 필요한데, 화상대화와 같이 마이크와 사용자의 입이 가까운 거리, 예를 들어 1m 내외에 위치하고, 마이크의 간격 또한 근접한 거리, 예를 들어 수cm 또는 십 수cm 정도인 경우에는 수학적 모델링이 매우 어렵다. 또한, 실제 화상대화 환경에서와 같이 사용자가 불규칙하게 움직이는 경우, 조향벡터를 고정 값을 둘 경우 사용자의 불편도는 더욱 올라가게 되는 한계점들이 있다. 이러한 한계점들을 극복하기 위해, 조향벡터가 아닌 뉴럴 네트워크를 이용할 수 있다.
또 본 방식에서 뉴럴 네트워크의 입력으로 사용하는 위상차 행렬은 기존의 방식에서 음원의 위치 정보를 얻기 위해 사용하는 공간상관행렬보다 구하는 과정이 간단하여 더욱 쉽게 음원의 위치정보를 얻을 수 있다. 본 발명의 일 실시 예에 따른 빔포밍 방법에서는, 단지 2 개의 마이크에서 공간 정보를 위한 뉴럴 네트워크를 훈련시키고 이를 통해 미리 정해진 방향으로 소리를 획득할 수 있다. 따라서 아래와 같은 이점을 가진다.
1. 실제 상황에서 고정된 마이크로 측정할 때 움직이는 대상에 대한 조향벡터를 정확하게 정의할 필요가 없다.
2. 선형 필터를 구하는 과정에서 발생하는 특이점(Singular point)의 발산이 사라진다. 이는 정면 이외에서
Figure PCTKR2021013328-appb-img-000017
의 파워인 사이드 로브(side lobe)를 줄여주어 자동으로 사이드 로브 제거(side lobe cancelation) 효과를 가져온다.
3. 정면 이외의 각도에서 복원되는 음성의 STOI값으로 볼 때 여러 방향에서 음성 신호가 들어올 경우 MVDR의 측면 STOI가 뉴럴 네트워크의 STOI보다 더 크게 나타나며, 즉, 뉴럴 네트워크를 이용할 때 정면의 음성신호를 더 정확히 구분해 낸다.
음원과 마이크 사이에 장애물이 없을 때는 음원의 각도에 의해서만 음의 이동 경로가 영향을 받는다. 양쪽 마이크와 음원의 거리가 같기 때문에 앞에서 들려오는 소리는 서로 같다. 즉, 전방 소스의 도착 시간 차이(TDOA)는 0에 근접한다. 이 점을 이용하면 앞에서 들려오는 소리를 그대로 남길 수 있다.
임의의 위치에 있는 음원에서 발생하여 두 마이크에 도달한 소리를
Figure PCTKR2021013328-appb-img-000018
라 하면 각각의 신호로부터 2 개의 위상행렬
Figure PCTKR2021013328-appb-img-000019
를 구할 수 있다. 이 위상행렬간의 차이가 0에 가까울수록 정면에서 가까운 음원이 만들어낸 소리를 의미한다. 이것을 구분하기 위하여 입력이 0에서 멀어질 수록 0에 가까운 출력을 내고 입력이 0에 가까울 수록 1을 출력으로 내는 함수를 생각해 본다면 정면에서 오는 신호만을 남기는 마스크를 만드는 것이 가능하다. 따라서 아래의 오차
Figure PCTKR2021013328-appb-img-000020
을 최소화하는 마스크
Figure PCTKR2021013328-appb-img-000021
을 찾으면 정면에서 오는 신호를 복원할 수 있다.
Figure PCTKR2021013328-appb-img-000022
푸리에 변환을 사용할 때 신호는 각 주파수의 단순한 퓨어 톤(pure tone)의 합이라고 생각할 수 있지만 동일한 주파수의 두 퓨어 톤은 위상 지연을 통해 합쳐질 경우 전혀 새로운 퓨어 톤 신호를 만든다. 이 문제는 양쪽 마이크의 위상 차이가 음원의 각도에 정확히 비례하지 않는 상황을 만들 수 있으므로 단순히 위상차에만 의존하는 규칙에 기반하여 마스크를 만드는 것은 부정확하다. 음성을 얻는 일은 광범위한 주파수를 처리하는 필터가 필요하므로 이 문제를 해결해야 한다. 이를 극복하기 위한 방안으로 본 발명의 실시 예들은 뉴럴 네트워크와 기준 마이크의 스펙트로그램 패턴을 통해 위상 차이를 인식하는 방법을 제공한다.
도 6을 참조하면, 설계하고자 하는 마스크는 실수로 정의된 0과 1 사이의 마스크이기 때문에 IBM(Ideal Binary Mask)와 유사한 기능을 수행할 수 있다. 다만 그 사이값이 있기 때문에 SBM(Soft Binary Mask)가 될 수 있다. 기존 IBM를 이용한 뉴럴 네트워크에 대한 연구를 보면, 시끄러운 위상을 그대로 사용했다. 이로부터, 노이즈가 있는 스펙트로그램으로 스피치를 재구성할 때, 스피치의 구성과 관련된 주파수 영역을 남겨두는 것만으로 신호의 스피치 재구성이 가능하다. 그러므로 SBM 방식의 뉴럴 네트워크로 구한 마스크는 위상차로부터 매그니튜드에 적용되는 방향성 청각 마스크를 만들어 내는데, 이는 위상차가 나는 원소더라도 신호를 남기는 기능을 수행한다. 한편, TDOA로부터 방향 정보를 보다 명확하게 얻기 위해 가정된 시간 지연을 최적화하는 것을 제시하는 방법이 있으나, 본 발명의 다양한 실시 예에서는 CNN을 사용한다. CNN은 이미지와 같은 2D 행렬에 더 효율적이고, 계산 능력이 덜 필요하기 때문이다. 또한, 콘볼루션 필터는 이상적인 마스크의 위상차에 따른 감소폭에 최적화되어 있다. 한편, 뉴럴 네트워크에 위상차만이 입력으로 들어가는 경우 목표하는 음성의 패턴을 학습할 수 없다는 문제점을 방지하기 위해 역전파를 이용할 수 있다. 시간 영역에서 구해지는 MSE(mean squared error)는 위상 정보가 있는 마스크를 훈련시키는 손실 함수(loss function)로 사용되는데 앞서 말한 방식은 이 방법과 비슷한 방식이다. 역 STFT(ISTFT)로 마스크된 스펙트로그램을 복원함으로써, 손실 함수를 이용하여 시간 영역의 깨끗한 표적 소리와 비교할 수 있다. 이 경우 업데이트할 그레디언트값은 기준 마이크에 대한 음성 패턴 정보를 포함할 수 있다.
다양한 상황의 데이터로 모델을 훈련시키기 위해, 시뮬레이션 방법을 사용하여 소정의 데이터 세트를 생성하고, 뉴럴 네트워크를 이용하여 대상의 음성을 재구성하였으며, 스테레오 채널 음원은 10x10x10m 공간 시뮬레이션을 통해 생성되었다. 마이크의 높이는 2m로 좌우 6cm 간격으로 2 개 위치(9, 5.06, 2)와 (9, 4.94, 2)로 지정된다. 음원은 지름 1미터의 반원 상에 위치하며 이때 반원의 중심은 마이크의 중심과 동일하다. 얻고자 하는 음원의 위치는 정면인
Figure PCTKR2021013328-appb-img-000023
, (7, 5, 2)에 위치한다. 그리고 반원 상의 4개의 구간
Figure PCTKR2021013328-appb-img-000024
을 나누어 각 구간별 무작위 위치에 잡음의 음원을 배치한다. 음성 데이터 세트 중 일부는 훈련 데이터에 사용되었으며, 다른 일부는 시험 데이터로 사용되었다. 소음 데이터 세트는 두 개의 인공 소음(speech shape noise 및 babble noise)과 DEMAND database를 사용했으며, 이는 13개의 녹음된 소음이다. 훈련 데이터는 2개의 인공 소음과 8개의 녹음된 소음(카페, 자동차, 키친, 미팅, 메트로, 레스토랑, 역, 교통)으로 구성된다. 시험 데이터는 5개의 녹음된 소음(버스, 카페테리아, 거실, 사무실 및 공용 광장)으로 구성된다. 소음을 내기 위해 동일한 소음 신호의 무작위 지점 4개에서 음성의 길이만큼 소음이 추출되었다. 그 후 네 군데의 음원으로 부터 소리가 나오는 것으로 시뮬레이션 하여, 마이크 2 개로 수용하는 방식을 채택했다.
훈련 데이터의 경우 40가지 조건 즉 소음 상황 10개와 SNR 4개(0dB, 5dB, 10dB, 15dB)의 조합을 사용했다. 시험 데이터는 20개의 다른 조건 즉 5개의 소음 상황과 4개의 SNR(2.5dB, 7.5dB, 12.5dB, 17.5dB)의 조합을 사용했다. 이때는 image-source method의 Room impulse response를 이용하여 거리에 따른 에너지 감소만을 시뮬레이션 하였다. 잔향은 고려하지 않기 위하여 잔향시간(
Figure PCTKR2021013328-appb-img-000025
)은 0으로 설정했다.
2 개의 마이크가 수신한 각 신호는 STFT를 통해 푸리에 영역으로 변환되었다. STFT는 16kHz 샘플 레이트(sample rate)의 신호에 256 포인트 해밍 윈도우(hamming window)를 사용한다. 윈도우 시프트(window shift)는 128 포인트(128 포인트의 겹쳐짐)을 사용한다. 뉴럴 네트워크 조작이 완료된 후 ISTFT 작업을 수행할 때도 동일한 조건이 사용된다. 모델 구조는 표 1의 구조를 따른다.
입력 값은 STFT 결과 중 낮은 주파수 128 개만 포함한 것이다. 뉴럴 네트워크의 결과로 얻어진 마스크와 입력된 128 개 주파수의 스펙트로그램을 곱하고, 129번째 주파수를 0으로 채워서 ISTFT하여 복원된 신호를 얻는다.
Name Input Layer Output
Conv1 B,128,T,1 (5,3),(1,1),(2,0) B,128,T,5
Conv2 B,128,T,5 (4,1),(2,1),(1,0) B,64,T,5
Conv3 B,64,T,5 (5,3),(1,1),(2,0) B,64,T,10
Conv4 B,64,T,10 (4,1),(2,1),(1,0) B,32,T,10
Conv5 B,32,T,10 (5,3),(1,1),(2,0) B,32,T,18
Conv6 B,32,T,18 (4,1),(2,1),(1,0) B,16,T,18
Conv7 B,16,T,18 (5,3),(1,1),(2,0) B,16,T,32
Conv8 B,16,T,32 (4,1),(2,1),(1,0) B,8,T,32
Conv9 B,8,T,32 (5,3),(1,1),(2,0) B,8,T,32
deConv1 B,8,T,32 (4,1),(2,1),(1,0) B,16,T,64
Conv10 B,16,T,64 (5,3),(1,1),(2,0) B,16,T,18
deConv2 B,16,T,18 (4,1),(2,1),(1,0) B,32,T,36
Conv11 B,32,T,36 (5,3),(1,1),(2,0) B,32,T,10
deConv3 B,32,T,10 (4,1),(2,1),(1,0) B,64,T,20
Conv12 B,64,T,20 (5,3),(1,1),(2,0) B,64,T,5
deConv4 B,64,T,5 (4,1),(2,1),(1,0) B,128,T,10
Conv13 B,128,T,10 (5,3),(1,1),(2,0) B,128,T,5
Conv14 B,128,T,5 (1,1),(1,1),(0,0) B,128,T,2
여기서, 입력은 (batch, frequency, time step, channel)로 이루어진다. 그리고 컨벌루션 레이어는 (filter height, filter width),(stride height, stride width),(padding height, padding width) 로 구성된다. 출력은 (batch, frequency, time step, channel)로 구성된다. 활성함수는 모두 PReLU가 사용되었다. 가장 마지막 레이어의 활성함수는 시그모이드 함수를 사용하여 1채널과 2채널을 각각 마스크의 실수부, 허수부로 사용했다.
본 발명의 실시 예들에 따른 유리한 효과는 도 9 및 도 10과 관련하여 후술하도록 한다.
도 6은 본 발명의 일 실시 예에 따른 빔포밍 시스템을 설명하기 위한 도면이고, 도 7은 본 발명의 일 실시 예에 따른 빔포밍 시스템을 설명하기 위한 도면이고, 도 8은 본 발명의 일 실시 예에 따른 빔포밍 시스템을 설명하기 위한 도면이다.
도 6을 참조하면, 본 발명의 일 실시 예에 따른 빔포밍 시스템(2)은, 제1 마이크(M1) 및 제2 마이크(M2)를 구비하는 모니터로 구현될 수 있다.
도 7을 참조하면, 본 발명의 일 실시 예에 따른 빔포밍 시스템(2)은, 스마트 폰을 비롯한 포터블 컴퓨팅 장치(22)를 거치할 수 있는 거치대형 장치(14)를 포함하도록 구현될 수 있다. 그리고 마이크(M1, M2)를 이용하여 수신한 소리 신호에 대해 빔포밍을 수행한 후, 그 결과로서 획득한 빔포밍된 소리 신호는 임의의 접속 수단을 통해 포터블 컴퓨팅 장치(22)에 제공될 수 있다. 그러면 컴퓨터 장치(22)는 분별된 사람의 목소리를, 예컨대 다른 화상 회의 참여자에게 제공할 수 있다.
도 8을 참조하면, 본 발명의 일 실시 예에 따른 빔포밍 시스템(4)은, 스마트 폰을 비롯한 포터블 컴퓨팅 장치(22)에 부착할 수 있는 부착형 장치(16)로 구현될 수 있다. 그리고 마이크(M1, M2)를 이용하여 수신한 소리 신호에 대해 빔포밍을 수행한 후, 그 결과로서 획득한 빔포밍된 소리 신호는 임의의 접속 수단을 통해 포터블 컴퓨팅 장치(22)에 제공될 수 있다. 그러면 컴퓨터 장치(22)는 분별된 사람의 목소리를, 예컨대 다른 화상 회의 참여자에게 제공할 수 있다.
도 9 및 도 10은 본 발명의 실시 예들에 따른 빔포밍 방법 및 빔포밍 시스템의 유리한 효과를 설명하기 위한 도면이다.
제1 마이크(M1)와 제2 마이크(M2) 사이의 미리 정해진 거리(D)가 12 cm인 경우의 빔포밍 알고리즘에 8, 10, 12, 14, 16 cm의 마이크 거리로 시뮬레이션한 데이터를 넣어서 측정한 결과로, 도 9는 고전적인 방식(MVDR)을 이용한 빔포밍의 각도별 소리 크기(윗줄)와 STOI(short-time objective intelligibility) 점수(아래줄)를 나타낸 것이고, 도 10은 본 발명의 다양한 실시 예들에 따른 뉴럴 네트워크를 이용한 빔포밍의 각도별 소리 크기(윗줄)와 STOI점수(아래줄)를 나타낸 것이다.
STOI는 소리의 크기와 무관하게 소리의 복원된 정도와 관련 있는 지표로써 고전적인 방식의 경우 듣고자 하는 방향이 아닌 방향에서 STOI가 높게 나타나는 반면, 본 발명의 다양한 실시 예들에 따른 뉴럴 네트워크 방식의 측면에서는 낮게 나타나며, 이를 통해, 본 발명의 다양한 실시 예들에 따른 뉴럴 네트워크 방식이, 원하는 방향이 아닌 곳의 발화자가 말한 음성을 더 확실하게 분리하며 더 적게 방해를 받는다는 것을 알 수 있다.
이제까지 설명한 본 발명의 실시 예들에 따르면, 다양한 소음 환경에 대한 조향 벡터를 연산할 필요없이 위상차만을 이용하여 마이크에서 수신되는 음성을 복원할 수 있어, 빔포밍을 효율적으로 구현할 수 있다.
기존 MVDR의 경우 잔향이 심한 환경에서는 조향벡터를 얻기 힘들고 잔향이 없는 환경이라 하더라도 화상대화의 경우 원거리의 음원을 가정한 꼴을 구할 수 없어 간단한 꼴의 조향벡터를 구하는 것이 힘들어진다. 또 실재 상황에서는 화자가 움직이는 경우가 많은데 조향벡터를 정확하게 예측할수록 이러한 환경에서 사용하는 것이 어려워진다. 또한 위에서
Figure PCTKR2021013328-appb-img-000026
로 표현한 공간상관행렬을 구할 때 잡음이 섞인 소리를 이용하므로 정확한 예측이 불가능하다. 하지만, 본 방식은 뉴럴 네트워크를 사용하여 많은 양의 데이터로부터 공간정보를 학습하므로 조향벡터를 계산하지 않고 깨끗한 음성신호를 표적음성으로 하여 학습하는 방법을 사용하기 때문에, 정확한 학습이 가능하다. 본 방법을 통해서 훈련한 인공지능 모델과 기존의 방식인 MVDR방식으로 824개의 시험데이터를 계산하고 구해진 정면 소리의 평균 SSNR(Segmented Signal to Noise Ratio)지표를 보면 잡음이 포함된 소리는 -1.557, MVDR을 이용한 소리는 -0.120, 뉴럴 네트워크를 통과한 모델은 2.165으로 뉴럴 네트워크 모델이 가장 높은 것을 알 수 있다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고, 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속한다.

Claims (10)

  1. 제1 마이크와, 상기 제1 마이크로부터 미리 정해진 거리만큼 이격되어 배치된 제2 마이크를 이용하여 제1 소리 신호 및 제2 소리 신호를 각각 수신하는 단계;
    상기 제1 소리 신호 및 상기 제2 소리 신호 각각에 대한 푸리에 변환 결과를 획득하는 단계;
    상기 푸리에 변환 결과로부터 상기 제1 소리 신호와 상기 제2 소리 신호의 위상차를 획득하는 단계;
    뉴럴 프로세서를 이용하여 상기 위상차를 빔포밍 모델에 입력하여 연산하는 단계;
    상기 뉴럴 프로세서의 연산 결과와 상기 제1 소리 신호에 대한 푸리에 변환 결과에 대해 원소곱을 수행하는 단계; 및
    상기 원소곱 결과를 출력하는 단계를 포함하는
    빔포밍 방법.
  2. 제1항에 있어서,
    상기 원소곱을 수행하는 단계는,
    상기 원소곱을 수행하기 전에 상기 연산 결과에 대해 마스크(mask)를 적용하는 단계를 더 포함하는 빔포밍 방법.
  3. 제1항에 있어서,
    상기 원소곱을 수행하는 단계는,
    상기 원소곱을 수행한 후에 이득 제어(gain control)를 수행하는 단계를 더 포함하는 빔포밍 방법.
  4. 제1항에 있어서,
    상기 미리 정해진 거리는 10 cm 내지 14 cm인, 빔포밍 방법.
  5. 제1항에 있어서,
    상기 위상차를 이용하여 상기 빔포밍 모델을 학습시키는 단계를 더 포함하는 빔포밍 방법.
  6. 제1 소리 신호를 수신하는 제1 마이크;
    상기 제1 마이크로부터 미리 정해진 거리만큼 이격되어 배치되어 제2 소리 신호를 수신하는 제2 마이크;
    상기 제1 소리 신호에 대한 푸리에 변환 결과를 획득하는 제1 STFT 모듈;
    상기 제2 소리 신호에 대한 푸리에 변환 결과를 획득하는 제2 STFT 모듈;
    상기 푸리에 변환 결과로부터 상기 제1 소리 신호와 상기 제2 소리 신호의 위상차를 획득하는 위상차 획득 모듈;
    상기 위상차를 입력받아 빔포밍 모델을 이용하여 뉴럴 네트워크 연산을 수행하는 뉴럴 프로세서;
    상기 뉴럴 프로세서의 연산 결과와 상기 제1 소리 신호에 대한 푸리에 변환 결과에 대해 원소곱을 수행하는 원소곱 모듈; 및
    상기 원소곱 결과를 출력하는 출력 모듈을 포함하는
    빔포밍 시스템.
  7. 제6항에 있어서,
    상기 원소곱을 수행하기 전에 상기 연산 결과에 대해 마스크를 적용하는 마스킹 모듈을 더 포함하는 빔포밍 시스템.
  8. 제6항에 있어서,
    상기 원소곱을 수행한 후에 이득 제어를 수행하는 이득 제어 모듈을 더 포함하는 빔포밍 시스템.
  9. 제6항에 있어서,
    상기 미리 정해진 거리는 10 cm 내지 14 cm인, 빔포밍 시스템.
  10. 제6항에 있어서,
    상기 위상차를 이용하여 상기 빔포밍 모델을 학습시키는 학습 모델을 더 포함하는 빔포밍 시스템.
PCT/KR2021/013328 2020-11-04 2021-09-29 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템 Ceased WO2022097919A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2023551942A JP7591848B2 (ja) 2020-11-04 2021-09-29 ニューラルネットワークを用いたビームフォーミング方法及びビームフォーミングシステム
US18/035,297 US12477273B2 (en) 2020-11-04 2021-09-29 Beamforming method and beamforming system using neural network
EP21889384.0A EP4258567A4 (en) 2020-11-04 2021-09-29 BEAM FORMING METHOD AND BEAM FORMING SYSTEM WITH NEURAL NETWORK

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0146191 2020-11-04
KR1020200146191A KR102412148B1 (ko) 2020-11-04 2020-11-04 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템

Publications (1)

Publication Number Publication Date
WO2022097919A1 true WO2022097919A1 (ko) 2022-05-12

Family

ID=81457019

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/013328 Ceased WO2022097919A1 (ko) 2020-11-04 2021-09-29 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템

Country Status (5)

Country Link
US (1) US12477273B2 (ko)
EP (1) EP4258567A4 (ko)
JP (1) JP7591848B2 (ko)
KR (1) KR102412148B1 (ko)
WO (1) WO2022097919A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12335002B2 (en) * 2022-02-11 2025-06-17 Qualcomm Incorporated Calibration application for mitigating millimeter wave signal blockage
KR102869018B1 (ko) * 2022-09-14 2025-10-14 (주) 오토노머스에이투지 머신러닝에 기반하여 주변 차량 정보를 생성함으로써 자율 주행을 지원하기 위한 학습 방법 및 학습 장치, 이를 이용한 테스트 방법 및 테스트 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180111271A (ko) * 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
KR20180115984A (ko) * 2017-04-14 2018-10-24 한양대학교 산학협력단 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
WO2019199554A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US20200111483A1 (en) * 2016-12-21 2020-04-09 Google Llc Complex evolution recurrent neural networks
US20200342891A1 (en) * 2019-04-26 2020-10-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for aduio signal processing using spectral-spatial mask estimation

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8062918B2 (en) * 2008-05-01 2011-11-22 Intermolecular, Inc. Surface treatment to improve resistive-switching characteristics
US9516417B2 (en) * 2013-01-02 2016-12-06 Microsoft Technology Licensing, Llc Boundary binaural microphone array
US9460732B2 (en) * 2013-02-13 2016-10-04 Analog Devices, Inc. Signal source separation
US9881631B2 (en) * 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US11133011B2 (en) 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
EP3649642A1 (en) * 2017-07-03 2020-05-13 Yissum Research Development Company of The Hebrew University of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information
US10522167B1 (en) 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing
JP6903611B2 (ja) 2018-08-27 2021-07-14 株式会社東芝 信号生成装置、信号生成システム、信号生成方法およびプログラム
US10726830B1 (en) * 2018-09-27 2020-07-28 Amazon Technologies, Inc. Deep multi-channel acoustic modeling
US11435429B2 (en) * 2019-03-20 2022-09-06 Intel Corporation Method and system of acoustic angle of arrival detection
EP4042415B1 (en) * 2019-10-11 2026-01-28 Pindrop Security, Inc. Z-vectors: speaker embeddings from raw audio using sincnet, extended cnn architecture, and in-network augmentation techniques

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200111483A1 (en) * 2016-12-21 2020-04-09 Google Llc Complex evolution recurrent neural networks
KR20180111271A (ko) * 2017-03-31 2018-10-11 삼성전자주식회사 신경망 모델을 이용하여 노이즈를 제거하는 방법 및 장치
KR20180115984A (ko) * 2017-04-14 2018-10-24 한양대학교 산학협력단 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
WO2019199554A1 (en) * 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation
US20200342891A1 (en) * 2019-04-26 2020-10-29 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for aduio signal processing using spectral-spatial mask estimation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4258567A4 *

Also Published As

Publication number Publication date
EP4258567A1 (en) 2023-10-11
JP2024508821A (ja) 2024-02-28
KR102412148B1 (ko) 2022-06-22
US20230269532A1 (en) 2023-08-24
KR20220060322A (ko) 2022-05-11
EP4258567A4 (en) 2024-12-04
US12477273B2 (en) 2025-11-18
JP7591848B2 (ja) 2024-11-29

Similar Documents

Publication Publication Date Title
US6826284B1 (en) Method and apparatus for passive acoustic source localization for video camera steering applications
CN103152500A (zh) 多方通话中回音消除方法
Bub et al. Knowing who to listen to in speech recognition: Visually guided beamforming
JP5034607B2 (ja) 音響エコーキャンセラシステム
Bhattacharjee et al. Fast and efficient acoustic feedback cancellation based on low rank approximation
WO2022097919A1 (ko) 뉴럴 네트워크를 이용한 빔포밍 방법 및 빔포밍 시스템
WO2019004582A1 (ko) 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치
CN108347511A (zh) 消声装置和消声方法、通信设备和穿戴设备
WO2026077160A1 (zh) 本地扩声方法
Schwartz et al. Nested generalized sidelobe canceller for joint dereverberation and noise reduction
Papp et al. Hands-free voice communication with TV
CN116343816A (zh) 音频设备中语音提取方法、音频设备及计算机实现的方法
Konforti et al. Multichannel acoustic echo cancellation with beamforming in dynamic environments
Aroudi et al. Cognitive-driven convolutional beamforming using EEG-based auditory attention decoding
CN117896467B (zh) 一种用于立体声电话通信的回声消除方法及系统
WO2024084854A1 (ja) 音調整方法、音調整装置、音調整システム及びプログラム
WO2013168848A1 (ko) 하모닉 주파수 사이의 종속관계를 이용한 암묵 신호 분리 방법 및 이를 위한 디믹싱 시스템
JP2002062900A (ja) 収音装置及び受信装置
JP2022172600A (ja) 情報処理装置、情報処理方法、及びプログラム
EP4576079A1 (en) Apparatus, methods and computer programs for noise suppression
Lin et al. Design of novel field programmable gate array-based hearing aid
WO2019003131A1 (en) DIGITAL AUDIO SIGNAL PROCESSING METHOD AND SYSTEM THEREOF
Steele A Direction Finding–Beam Forming Conference Microphone System
Ichikawa et al. A Method For Estimating The Grouping Of Participants In Classroom Group Work Using Only Audio Information
Praveen et al. A frequency-domain adaptive filter (FDAF) prediction error method and ARLS for speech echo cancellation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21889384

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023551942

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021889384

Country of ref document: EP

Effective date: 20230605

WWG Wipo information: grant in national office

Ref document number: 18035297

Country of ref document: US