WO2011105003A1 - 信号処理装置及び信号処理方法 - Google Patents

信号処理装置及び信号処理方法 Download PDF

Info

Publication number
WO2011105003A1
WO2011105003A1 PCT/JP2011/000358 JP2011000358W WO2011105003A1 WO 2011105003 A1 WO2011105003 A1 WO 2011105003A1 JP 2011000358 W JP2011000358 W JP 2011000358W WO 2011105003 A1 WO2011105003 A1 WO 2011105003A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
conversation
sound source
duration
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2011/000358
Other languages
English (en)
French (fr)
Inventor
山田麻紀
遠藤充
水島考一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Panasonic Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp filed Critical Panasonic Corp
Priority to US13/262,690 priority Critical patent/US8498435B2/en
Priority to CN201180001707.9A priority patent/CN102388416B/zh
Priority to EP11746976.7A priority patent/EP2541543B1/en
Priority to JP2011523238A priority patent/JP5607627B2/ja
Publication of WO2011105003A1 publication Critical patent/WO2011105003A1/ja
Anticipated expiration legal-status Critical
Priority to US13/927,424 priority patent/US8644534B2/en
Priority to US13/927,429 priority patent/US8682012B2/en
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; ELECTRIC HEARING AIDS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Electric hearing aids
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers

Definitions

  • the present invention relates to a signal processing apparatus and a signal processing method for extracting a group that is talking in an environment where there is a voice or noise of another person around.
  • the sound / silence evaluation of the separated sound source signal is performed using a phenomenon in which sound is alternately generated between the two sound sources in the established conversation.
  • the degree of conversation establishment is calculated based on the combination of voice / silence.
  • FIG. 1 shows the concept of the conversation establishment degree calculation method described in Patent Document 1. If one of the target audio signal and the received signal is voiced and the other is silent, the degree of establishment of the conversation is added, and if the voice is voiced or silent, the points are deducted. In addition, it is assumed that a conversation is established between a combination of sound sources with a high degree of conversation establishment.
  • JP 2004-133403 A Japanese Patent Laid-Open No. 2002-6874 Japanese Patent Laid-Open No. 2004-243023 Japanese Unexamined Patent Publication No. 1-93298
  • a conventional method may be used to find a conversation partner in a scene where a conversation such as a meeting is performed.
  • a wearable microphone such as a hearing aid
  • An object of the present invention is to provide a signal processing apparatus and a signal processing method capable of correctly detecting that a conversation is established even in a daily environment.
  • the signal processing apparatus includes a separation unit that separates a mixed sound signal in which a plurality of sound sources are mixed for each sound source, and performs sound detection for each of the plurality of separated sound source signals.
  • a speech detection unit that generates speech segment information that indicates speech / non-speech information for each sound source signal by determining whether or not the speech signal is present, and speech overlap continuation that calculates and analyzes the speech overlap duration using the speech segment information
  • a degree of conversation is established based on at least one of a length extraction unit, a silence duration extraction unit that calculates and analyzes the silence duration, and the extracted speech overlap duration or silence duration.
  • the conversation establishment degree calculation unit for calculating the conversation establishment degree is employed.
  • the signal processing device instead of the utterance overlap duration extraction unit or the silence duration extraction unit, laughter is detected for each of the plurality of separated sound source signals, and the identification is performed.
  • utterance ratio information is used as the identification parameter for the combination of the plurality of sound source signals.
  • An utterance ratio calculation unit to be extracted; and the conversation establishment degree calculation unit calculates the conversation establishment degree using the voice section information and the utterance ratio information.
  • the signal processing apparatus can avoid malfunction by making the conversation establishment degree low. For example, even in a device that is worn on a daily basis, such as a hearing aid, the signal processing device does not malfunction due to one's own words or the voices of others when he / she is not speaking.
  • the signal processing method of the present invention includes a separation step of separating a mixed sound signal mixed with a plurality of sound sources for each sound source, and performing sound detection for each of the plurality of separated sound source signals.
  • a speech detection step for determining whether or not speech is generated and generating speech segment information indicating speech / non-speech information for each sound source signal, and continuation of speech overlap using the speech segment information for the combination of the plurality of sound source signals.
  • the degree of conversation is established based on at least one of the step of calculating and analyzing the length and the step of calculating and analyzing the silence duration and the extracted speech overlap duration or the silence duration. And a calculation step for calculating a conversation establishment degree shown.
  • the present invention since it is possible to correctly detect that a conversation is established even in a daily environment, it is possible to easily adjust or record the voice in which the conversation is established. it can.
  • the figure which shows the idea of the conversation establishment degree calculation method described in patent document 1 Diagram showing utterance overlap duration distribution of daily conversation data
  • a diagram showing the distribution of silence duration of daily conversation data The block diagram which shows the principal part structure of the signal processing apparatus which concerns on Embodiment 1 of this invention.
  • the figure showing an example which applied this invention to the remote control type hearing aid of the form which the main body and the earphone separated A diagram showing an example of a person's positional relationship when actually using a remote-controlled hearing aid
  • require speech overlap analysis value Pc The figure showing the conversation partner detection rate by the simulation experiment of Embodiment 1 A figure showing the total overlap duration of laughter / utterance / silence for a conversation partner A figure showing the total continuation length of laughter / utterance / silence for non-conversational partners The figure which shows the result of calculating the ratio which is a conversation partner
  • the block diagram which shows the principal part structure of the signal processing apparatus which concerns on Embodiment 2 of this invention.
  • the degree of conversation establishment is calculated by paying attention to the overlap of utterances or the duration of silence.
  • the present inventors will focus on the point of utterance overlap or silence duration.
  • the present inventors actually collected about 10 minutes for each of the nine daily conversations, and analyzed the continuation length of the utterance overlap for the conversation partner and the utterance overlap for the non-conversation partner.
  • FIG. 2 is a graph showing the distribution of lengths (continuation lengths) of sections in which speech overlaps continue at one time for each of a conversation partner and a non-conversation partner.
  • the horizontal axis represents the length of a section in which one speech overlap continues
  • the vertical axis represents the frequency.
  • the length of the section in which a single utterance overlap continues is often short with the conversation partner, and the length of the section in which a single utterance overlap continues is long with a non-conversation partner. It turns out that there are many cases. Therefore, in the present embodiment, a parameter focusing on the length (continuation length) of a section in which the speech overlap continues at once is introduced, not just whether the speech overlap is large or small.
  • the present inventors defined the state where both speakers are silent as silence, and similarly analyzed the duration of silence.
  • FIG. 3 is a graph showing the distribution of the length (continuation length) of a section where silence continues at one time for each of a conversation partner and a non-conversation partner.
  • the horizontal axis represents the length of a section where silence continues at one time
  • the vertical axis represents frequency.
  • FIG. 4 is a block diagram showing a main configuration of the signal processing apparatus 100 according to the present embodiment.
  • the microphone array 110 is a sound collection device in which a plurality of microphones are arranged.
  • the A / D (Analog-to-Digital) conversion unit 120 converts sound signals collected by the respective microphones into digital signals.
  • the sound source separation unit 130 performs signal processing using a difference in arrival time of sound signals arriving at each microphone, thereby separating a mixed sound signal in which a plurality of sound sources are mixed for each sound source.
  • the sound detection unit 140 determines whether the sound signal separated by the sound source separation unit 130 is sound, and generates sound section information indicating a sound / non-sound detection result for each sound source. The sound detection method in the sound detection unit 140 will be described later.
  • the identification parameter extraction unit 150 determines (identifies) the conversation partner and extracts an identification parameter used when calculating the conversation establishment degree. Details of the identification parameter will be described later.
  • the identification parameter extraction unit 150 includes an utterance overlap duration analysis unit 151 and a silence duration analysis unit 152.
  • the speech overlap duration analysis unit 151 uses the speech segment information indicating the speech / non-speech detection result for each sound source determined by the speech detection unit 140 to use the duration of the speech overlap segment (hereinafter referred to as “speech overlap”). Continuation length analysis value ”).
  • the silence duration analysis unit 152 uses the speech interval information indicating the sound / non-speech detection result for each sound source determined by the sound detection unit 140 to use the duration of the silence interval between sound sources (hereinafter referred to as “silence duration analysis”). Value) and analyze.
  • the identification parameter extraction unit 150 extracts the utterance overlap duration analysis value and the silence duration analysis value as the identification parameters indicating the feature amount of daily conversation.
  • a method for calculating the speech overlap analysis value and the silence analysis value in the identification parameter extraction unit 150 will be described later.
  • the conversation establishment degree calculation unit 160 determines the conversation establishment degree based on the utterance overlap duration analysis value calculated by the utterance overlap duration analysis unit 151 and the silence duration analysis value calculated by the silence duration analysis unit 152. Is calculated. A method for calculating the conversation establishment degree in the conversation establishment degree calculation unit 160 will be described later.
  • the conversation partner determination unit 170 uses the conversation establishment degree calculated by the conversation establishment degree calculation unit 160 to determine which sound source is the conversation partner.
  • the output sound control unit 180 controls and outputs the output sound with respect to the sound signal separated by the sound source separation unit 130 so that the voice of the conversation partner determined by the conversation partner determination unit 170 can be easily heard. Specifically, the output sound control unit 180 performs directivity control for suppressing the direction of the sound source that is a non-conversational partner for the sound signal separated by the sound source separation unit 130.
  • FIG. 5 shows an example in which the signal processing apparatus 100 according to the present embodiment is applied to a remote control type hearing aid (hereinafter abbreviated as “hearing aid”) 200 in a form in which the hearing aid main body and the earphone are separated.
  • hearing aid a remote control type hearing aid
  • the hearing aid 200 includes a hearing aid main body 210 and an earphone 260.
  • the hearing aid main body 210 includes a microphone array 220, an A / D converter 230, a CPU 240, and a memory 250.
  • the microphone array 220 has eight microphones arranged in a circle.
  • the A / D converter 230 converts the sound signal collected by the microphone array 220 into a digital signal.
  • the CPU 240 performs control and calculation of the hearing aid main body 210.
  • the memory 250 stores data used for calculation.
  • the earphone 260 that outputs a sound signal is connected to the hearing aid main body 210.
  • the CPU 240 uses the memory 250 to perform the above-mentioned sound source separation, voice detection, speech overlap duration analysis, silence duration analysis, conversation establishment, in addition to normal hearing aid processing such as sound signal amplification in accordance with the user's hearing. Performs degree calculation, conversation partner determination, and output sound control.
  • the hearing aid main body 210 is placed on a table, processes the sound collected by the microphone array 220 inside the hearing aid main body 210, and listens to the user wearing the earphone 260.
  • the hearing aid main body 210 and the earphone 260 may be connected by wireless communication.
  • FIG. 6 is a diagram showing an example of the positional relationship of people when the hearing aid 200 of FIG. 5 is actually used.
  • the user of the hearing aid 200 wears the earphone 260.
  • the hearing aid main body 210 is placed on a table, and the user has a conversation with a conversation partner in front. It is assumed that the hearing aid main body 210 is placed on the table so that the user of the hearing aid 200 comes to the front of the main body (in the direction of ⁇ in FIG. 5).
  • a conversation with an irrelevant speaker is performed on the right side when viewed from the user of the hearing aid 200, which is a disturbing sound.
  • FIG. 7 is a flowchart showing the operation of the hearing aid 200 equipped with the signal processing apparatus 100 according to the present embodiment.
  • the operation of the hearing aid 200 will be described using the flowchart of FIG.
  • S indicates each step of the flow.
  • the following processing in each step of FIG. 7 is performed using the CPU 240 and the memory 250. In the CPU 240 and the memory 250, the process proceeds every short time unit (frame, here 10 msec).
  • step S 110 the A / D conversion unit 120 A / D converts the sound signal input from the microphone array 110 (220) built in the hearing aid main body 210 and outputs the sound signal to the sound source separation unit 130.
  • step S120 the sound source separation unit 130 separates the sound signal for each direction by using the difference in arrival time of the sound signal arriving at each microphone.
  • the separated sound signals are assumed to be S1, S2, S3, S4, S5, S6, S7, and S8 in order counterclockwise from the front of the hearing aid 200 where the user is present.
  • the front of the hearing aid 200 is the direction in which the user of the hearing aid 200 is present, and it is assumed that the sound signal S1 coming from this direction is the voice of the user.
  • a speech detection method for example, power in a speech band (for example, 200 Hz to 4000 Hz) is calculated for each frame, smoothed in the time direction, and determined as speech when the power exceeds a threshold value.
  • post-processing performs processing such as treating a short voice section as silent, or treating it as voice when there is a short period of silence when the voice continues. It is desirable.
  • the voice detection method is not limited to the method based on the power of the voice band, and other methods such as a method of detecting a harmonic structure or a method of matching with a model may be used.
  • the section determined as speech by the voice detection unit 140 is defined as the speech section.
  • steps S140 and S150 is performed for each combination of the front sound signal S1 and the seven-direction sound signals S2 to S8 excluding the front.
  • a section indicated by a square indicates an utterance section in which the sound signal S1 is determined to be speech based on speech section information indicating a speech / non-speech detection result generated by the speech detection unit 140. Yes.
  • a section indicated by a square indicates an utterance section in which the sound signal Sk is determined to be speech.
  • the speech overlap continuation length analysis unit 151 defines a portion where these sections overlap as speech overlap (FIG. 8C).
  • the specific operation in the utterance overlap duration analysis unit 151 is as follows.
  • the utterance overlap continuation length analysis unit 151 stores the frame as the start frame.
  • the utterance overlap continuation length analysis unit 151 regards this as one utterance overlap and sets the time length from the start frame as the continuation length of the utterance overlap.
  • the part surrounded by an ellipse represents the speech overlap before frame t.
  • the utterance overlap continuation length analysis unit 151 obtains and stores a statistic regarding the continuation length of the utterance overlap before the frame t. Further, the utterance overlap continuation length analysis unit 151 calculates the utterance overlap analysis value Pc in the frame t using this statistic.
  • the speech overlap analysis value Pc is preferably a parameter that indicates whether the duration of speech overlap is often short or long.
  • the silence duration analysis unit 152 includes a section in which the sound signal S1 is determined to be non-sound based on the sound section information generated by the sound detection unit 140, and a section in which the sound signal Sk is determined to be non-speech.
  • the part where is overlapped is defined as silence.
  • the silence duration analysis unit 152 obtains the duration of the silence interval, and obtains and stores a statistic regarding the duration of the silence interval before the frame t. Further, the silence duration analysis unit 152 calculates the silence analysis value Ps in the frame t using this statistic.
  • the silence analysis value Ps is also preferably a parameter indicating whether the duration is often short or long in silence.
  • the silence duration analysis unit 152 stores and updates the statistics regarding the duration in the frame t.
  • the statistic regarding the duration is as follows: (1) Sum of duration of speech overlap before frame t, (2) Number of speech overlap Nc, (3) Sum of duration of silence Ws, and (4) Number of silences Ns is included.
  • the speech overlap duration analysis unit 151 and the silence duration analysis unit 152 calculate the average duration Ac of the speech overlap before the frame t and the average duration As of the silence interval before the frame t using the formula (1-1). , (1-2), respectively.
  • the following parameters may be considered as parameters indicating whether there are many conversations with a short duration or many conversations with a long duration.
  • T 1 second
  • these statistics are initialized when silence continues for a certain period of time so as to express the nature of a single conversation.
  • the statistics may be initialized every certain time (for example, 20 seconds). Further, as the statistic, it is possible to always use a statistic of speech overlap and silence continuation length within a certain past time window.
  • the conversation establishment degree calculation unit 160 calculates the conversation establishment degree between the sound signal S1 and the sound signal Sk, and outputs the conversation establishment degree to the conversation partner determination unit 170.
  • the conversation establishment degree C 1, k (t) in the frame t is defined as, for example, Expression (3).
  • Frame t is initialized when silence continues for a certain period of time for sound sources in all directions.
  • the conversation establishment degree calculation unit 160 starts counting when the sound source in any direction has power.
  • the conversation establishment degree may be obtained by using a time constant that forgets distant past data and adapts to the latest situation.
  • step S160 the conversation partner determination unit 170 determines the sound source in which direction. Is the user's conversation partner. Then, conversation partner determination unit 170 outputs the determination result to output sound control unit 180.
  • a sound source in one direction having a maximum value exceeding the threshold ⁇ from C 1, k (t) in all directions is defined as a conversation partner.
  • From C 1, k (t) in all directions, all sound sources in the direction exceeding the threshold ⁇ are set as conversation partners. -Only the front (S3 to S7, etc.), not all directions, is the search target. -When a conversation partner is determined immediately before, only the direction and the adjacent direction are searched (because speaker movement is not performed rapidly in time).
  • step S170 the output sound control unit 180 controls the directivity in the direction determined to be the conversation partner, so that the input mixed sound is easily processed and output from the earphone 260.
  • the identification parameter extraction unit 150 includes the utterance overlap duration analysis unit 151 and the sedimentation duration analysis unit 152 has been described.
  • only one of the utterance overlap duration analysis unit 151 and the sunk duration analysis unit 152 may be provided.
  • Equation (3) this is equivalent to setting either the weight w1 of the speech overlap analysis value Pc or the weight w2 of the silence analysis value Ps to 0.
  • the identification parameter extraction unit 150 has at least one of the utterance overlap duration analysis unit 151 and the sedimentation duration analysis unit 152.
  • the utterance overlap duration analysis unit 151 calculates and analyzes the utterance overlap duration using the speech section information
  • the sunk duration analysis unit 152 calculates and analyzes the silence continuation length.
  • the conversation establishment degree calculation unit 160 calculates the conversation establishment degree by using at least one of the utterance overlap continuation length and the silence continuation length. In this way, in this embodiment, daily speech overlap due to conflict, short speech overlap when the other party starts speaking before the end of the conversation, short silence during conversation, etc. The features of conversation can be used. For this reason, in the present embodiment, since the conversation establishment degree can be obtained correctly even in a simple daily conversation, it is possible to correctly detect that the conversation is established and to correctly determine the conversation partner. Become.
  • the present inventors conducted a simulation experiment for detecting a conversation partner using voice data that actually recorded five daily conversations.
  • the conventional method is a method disclosed in Patent Document 1, and the conversation establishment degree is updated using a time constant.
  • the conversation establishment degree C 1, k (t) in the frame t is obtained using the equation (4).
  • the method according to the present invention uses a method using speech overlap analysis and silence analysis, obtains the speech overlap analysis value and silence analysis value for each frame, and updates the conversation establishment degree. Further, the conversation establishment degree C 1, k (t) in the frame t was calculated using the equation (3).
  • FIG. 9 shows the conversation partner correct answer rate according to the conventional method and the method according to the present invention.
  • the method according to the present invention for determining the degree of establishment of conversation using the analysis value of the average duration of speech overlap and silence is significantly higher in conversation partner detection at any SN ratio level. Performance was obtained. From this, it was confirmed that the present invention is effective.
  • the sound source separation unit 130 may separate the sound signal by using another sound source separation method such as independent component analysis (ICA: IndependentInComponent Analysis). Further, the sound source separation unit 130 may obtain only the magnitude of the power for each band for each direction, perform voice detection from the power for each direction, and perform the same operation.
  • ICA IndependentInComponent Analysis
  • a speaker identification unit for identifying a speaker may be provided so that when there are a plurality of speakers in the same direction, they can be separated for each speaker.
  • FIG. 10 shows the total duration of speech / laughter / silence overlap (msec) for the conversation partner
  • FIG. 11 shows the total duration of speech / laughter / silence overlap (msec) for the non-conversation partner.
  • FIG. 12 shows the result of calculating the ratio of the conversation partner for the combination of speech / laughter / silence from these data. From FIG. 12, when laughter overlaps, the rate of being a conversation partner is very high at 92.28%, and the rate of being a conversation partner when one is uttered and the other is silent (62.23). %, 57.48%). Therefore, it can be said that the overlap of laughter is an important parameter that indicates the feature amount of everyday conversation and determines whether or not it is a conversation partner. Therefore, in the present embodiment, the degree of conversation establishment is calculated by paying attention to the overlap of laughter in addition to the combination of sound / silence.
  • a method for evaluating the degree of conversation establishment for example, when laughter overlaps, a method such as adding the degree of conversation establishment is used.
  • the weight of the added points is the same or larger than when one speaker speaks and the other speaker is silent.
  • the present embodiment is an example in which the present invention is applied to a remote-control hearing aid as in the first embodiment.
  • the shape of the remote control hearing aid is the same as in FIG.
  • FIG. 13 is a block diagram showing a main configuration of the signal processing apparatus 300 according to the present embodiment.
  • the same components as those of the signal processing device 100 of FIG. 4 are denoted by the same reference numerals as those in FIG.
  • the signal processing device 300 in FIG. 13 includes an identification parameter extraction unit 310 and a conversation establishment degree calculation unit 320 in place of the identification parameter extraction unit 150 and the conversation establishment degree calculation unit 160, as compared with the signal processing apparatus 100 in FIG. To do.
  • the identification parameter extraction unit 310 includes a laughter detection unit 311.
  • the laughter detection unit 311 determines whether or not the sound signal separated by the sound source separation unit 130 is a laughter.
  • a known technique is used as a method for detecting laughter from a sound signal.
  • Known techniques include, for example, the following methods.
  • Patent Document 2 a section in which voice power exceeds a predetermined threshold is determined as a voice section, and an rms amplitude value is obtained for each frame.
  • Patent Document 2 extracts a section in which the average value exceeds a predetermined threshold, and a section in which the same vowel continues intermittently, such as “haha” or “hahaha” in speech recognition, Is disclosed.
  • Patent Document 3 discloses a method for determining an envelope of a frequency band signal of a vowel, and determining whether the period of the amplitude peak is within a certain range when the amplitude peak of the envelope is equal to or greater than a certain value. It is disclosed.
  • Non-Patent Document 1 discloses a method of modeling laughter by GMM (Gaussian Mixture Model) and discriminating laughter and non-laughter for each frame.
  • Non-Patent Document 1 a method that is performed by comparing a laughter GMM that has been learned in advance with a non-laughter GMM is used.
  • the conversation establishment degree calculation unit 320 calculates the degree of conversation establishment using the laughter section information obtained by the laughter detection section 311 and the voice section information obtained by the voice detection section 140. A method for calculating the conversation establishment degree in the conversation establishment degree calculation unit 320 will be described later.
  • FIG. 14 is a flowchart showing the operation of the hearing aid 200 equipped with the signal processing device 300 according to the present embodiment. The operation of the hearing aid 200 will be described using the flowchart of FIG. In FIG. 14, steps common to those in FIG. 7 are denoted by the same reference numerals as those in FIG.
  • steps S110, S120, and S130 sound collection, A / D conversion, separation, and sound detection are performed as in the first embodiment.
  • the laughter detection unit 311 performs laughter / non-laughter determination on the sound signal Sk.
  • the laughter detection unit 311 compares the feature parameter vector of the frame t with the laughter GMM and the non-laughter GMM learned in advance, and obtains the laughter likelihood and the non-laughter likelihood.
  • the feature parameter vector is a total of 25 MFCC 12 dimensions (C1 to C12) obtained by performing acoustic analysis for each frame, 12 primary regression coefficients thereof ( ⁇ C1 to ⁇ C12), and 1 linear regression coefficient 1 dimension ( ⁇ E) of logarithmic power.
  • a vector consisting of dimensions.
  • MFCC Mel
  • FIG. 15 is a table showing the concept of a method for calculating the degree of conversation establishment by a combination of utterance / laughter / silence.
  • “utterance”, “silence”, and “laughter” are defined as follows. “Speech”: Frame in which the voice detection result is voice and the laughter detection result is non-laughter “Silence”: Frame in which the voice detection result is non-voice and laughter detection result is non-laughter “Laughter”: Voice A frame whose laughter detection result is laughter regardless of the detection result
  • conversation establishment degree calculation unit 320 calculates conversation establishment degree C 1, k (t) in frame t using, for example, Expression (5).
  • frame t is initialized when silence continues for a certain period of time for the sound source in all directions. Further, the degree of conversation establishment may be obtained using a time constant that forgets distant past data and adapts to the latest situation.
  • the conversation establishment degree calculation unit 320 outputs the calculated conversation establishment degree to the conversation partner determination unit 170. Thereafter, as in the first embodiment, in step S160, conversation partner determination unit 170 determines a conversation partner. In step S170, the output control unit 180 controls the output sound.
  • the identification parameter extraction unit 310 has a configuration including the laughter detection unit 311.
  • the laughter detection unit 311 detects laughter, and the conversation establishment determination unit 320 evaluates the degree of conversation establishment focusing on the overlap of laughter.
  • the conversation establishment degree can be obtained correctly, it is possible to correctly detect that the conversation is established, and to correctly determine the conversation partner.
  • the voice detection unit 140 and the laughter detection unit 311 are described as separate components. However, a voice laughter detection unit that divides the input signal into three of speech / laughter / silence may be provided.
  • the conversation establishment degree is calculated by paying attention to the speaker's utterance ratio.
  • the inventors will focus on the point where the speaker's utterance ratio is focused.
  • the present inventors In order to analyze how much unidirectional chatting that one speaker keeps speaking in actual daily conversation, the present inventors analyzed the time window from nine sets of conversation data including daily conversation. The above utterance interval ratio was obtained by changing the length (time window width).
  • FIG. 16 is a graph showing an example of transition of the utterance interval ratio Rb for each time window width of a set of conversations.
  • the horizontal axis represents the elapsed time from the start of conversation, and the vertical axis represents the utterance interval ratio.
  • the time window width N is shown for each of 5 seconds, 10 seconds, 20 seconds, and 30 seconds.
  • one-way chatter is suppressed by multiplying the conversation establishment degree by a weight less than 1 according to the value of the utterance interval ratio in the past N seconds.
  • the present embodiment is an example in which the present invention is applied to a remote-control hearing aid as in the first embodiment.
  • the shape of the remote control hearing aid is the same as in FIG.
  • FIG. 17 is a block diagram showing a main configuration of the signal processing apparatus 400 according to the present embodiment.
  • the signal processing device 400 of FIG. 17 includes an identification parameter extraction unit 410 and a conversation establishment degree calculation unit 420 in place of the identification parameter extraction unit 150 and the conversation establishment degree calculation unit 160, as compared with the signal processing apparatus 100 of FIG. To do.
  • the identification parameter extraction unit 410 has an utterance ratio calculation unit 411.
  • the utterance ratio calculation unit 411 calculates the utterance section ratio as the utterance ratio information from the voice section information calculated by the voice detection unit 140.
  • the conversation establishment degree calculation unit 420 obtains the conversation establishment degree from the voice section information calculated by the voice detection unit 140 and the utterance section ratio calculated by the utterance ratio calculation unit 411. A method for calculating the conversation establishment degree in the conversation establishment degree calculation unit 420 will be described later.
  • FIG. 18 is a flowchart showing the operation of the hearing aid 200 equipped with the signal processing apparatus 400 according to the present embodiment. The operation of the hearing aid 200 will be described using the flowchart of FIG. In FIG. 18, the steps common to those in FIG. 7 are denoted by the same reference numerals as those in FIG.
  • steps S110, S120, and S130 sound collection, A / D conversion, separation, and sound detection are performed as in the first embodiment.
  • a section determined as speech by the voice detection unit 140 is defined as an utterance section.
  • step S320 the conversation establishment degree calculation unit 420 calculates the conversation establishment degree between the sound signal S1 and the sound signal Sk.
  • conversation establishment degree calculation section 420 obtains conversation establishment degree C 1, k (t) in frame t, for example, as shown in equation (7).
  • the conversation establishment degree calculation unit 420 outputs the calculated conversation establishment degree to the conversation partner determination unit 170. Thereafter, as in the first embodiment, in step S160, conversation partner determination unit 170 determines a conversation partner. In step S170, the output control unit 180 controls the output sound.
  • the identification parameter extraction unit 410 has a configuration including the utterance ratio calculation unit 411.
  • the utterance ratio calculation unit 411 calculates the utterance section ratio as the utterance ratio information from the voice section information
  • the conversation establishment degree calculation unit 420 calculates the conversation establishment degree using the voice section information and the utterance ratio information.
  • the utterance ratio calculation unit 411 sets the utterance interval ratio Rb 1, k so that the degree of establishment of the conversation is lowered when the utterance interval ratio between itself and the other party is extremely biased.
  • the conversation establishment degree calculation unit 420 calculates the conversation establishment degree using the utterance interval ratio Rb 1, k .
  • the degree of conversation establishment is calculated by paying attention to the overlap length of utterances or the duration of silence, the overlap of laughter, and the utterance ratio of speakers.
  • the present embodiment is an example in which the present invention is applied to a remote-control hearing aid as in the first embodiment.
  • the shape of the remote control hearing aid is the same as in FIG.
  • FIG. 19 is a block diagram showing a main configuration of the signal processing apparatus 500 according to the present embodiment.
  • the signal processing device 500 of FIG. 19 includes an identification parameter extraction unit 510 and a conversation establishment degree calculation unit 520 in place of the identification parameter extraction unit 150 and the conversation establishment degree calculation unit 160 with respect to the signal processing apparatus 100 of FIG. To do.
  • the identification parameter extraction unit 510 includes an utterance overlap duration analysis unit 511, a silence duration analysis unit 512, a laughter detection unit 311, and an utterance ratio calculation unit 513.
  • the laughter section information obtained by the laughter detection unit 311 is also output to the utterance overlap duration analysis unit 511, the silence duration analysis unit 512, and the utterance ratio calculation unit 513. Then, in the utterance overlap duration analysis unit 511, the silence duration analysis unit 512, and the utterance ratio calculation unit 513, the laughing section information together with the voice section information from the voice detection unit 140, the utterance overlap duration analysis and the silence duration analysis And used to calculate the utterance ratio.
  • This embodiment is different from the utterance overlap duration analysis unit 151, the silence duration analysis unit 152, and the utterance ratio calculation unit 411 of the first embodiment and the third embodiment in this point.
  • FIG. 20 is a flowchart showing the operation of the hearing aid 200 equipped with the signal processing apparatus 500 according to the present embodiment. The operation of the hearing aid 200 will be described using the flowchart of FIG. In FIG. 20, the same steps as those in FIG. 14 are denoted by the same reference numerals as those in FIG.
  • steps S110, S120, S130, and S210 sound collection and A / D conversion, separation, voice detection, and laughter / non-laughter determination are performed as in the second embodiment.
  • “utterance”, “silence”, and “laughter” are defined as follows. “Speech”: Frame in which the voice detection result is voice and the laughter detection result is non-laughter “Silence”: Frame in which the voice detection result is non-voice and laughter detection result is non-laughter “Laughter”: Voice A frame whose laughter detection result is laughter regardless of the detection result
  • the speech overlap duration analysis unit 511 calculates and analyzes the overlap length of speech segments that do not include the laughter of the sound signal S1 and the sound signal Sk.
  • the silence duration analysis unit 512 obtains and analyzes the duration of a silence interval that does not include laughter based on the utterance / laughter / silence classification.
  • step S420 the utterance ratio calculation unit 513 calculates the ratio of the utterance section that does not include the laughter of the sound signal S1 and the sound signal Sk.
  • step S430 the conversation establishment degree calculation unit 520 calculates the degree of conversation establishment between the sound signal S1 and the sound signal Sk.
  • conversation establishment degree calculation unit 520 obtains conversation establishment degree C 1, k (t) in frame t, for example, as shown in equation (8).
  • step S160 conversation partner determination unit 170 determines a conversation partner.
  • step S170 the output control unit 180 controls the output sound.
  • the identification parameter extraction unit 510 has a configuration including the utterance overlap duration analysis unit 511, the silence duration analysis unit 512, and the laughter detection unit 311.
  • the conversation establishment degree calculation unit 520 calculates the degree of conversation establishment using the utterance overlap duration, the silence continuation length, the laughter section information indicating the laughter section, or the utterance ratio information indicating the ratio of the length of the utterance section. . For this reason, this embodiment can evaluate the degree of conversation establishment using the characteristics of the appearance of crosstalk or laughter peculiar to everyday conversation. Can be sought. Thereby, this Embodiment can detect correctly that the conversation is materialized, and can determine a conversation partner correctly.
  • the utterance overlap duration analysis unit 511 and the silence duration analysis unit 512 calculate the utterance overlap duration and the silence duration by taking into account the laughing section information.
  • this embodiment can accurately extract utterance sections that do not include laughter, the duration of utterance overlap and silence sections can be obtained correctly, and the conversation establishment degree can be calculated more correctly. Will be able to.
  • the utterance ratio calculation unit 513 in the identification parameter extraction unit 510 by providing the utterance ratio calculation unit 513 in the identification parameter extraction unit 510, it becomes possible to suppress unilateral chat.
  • devices worn on a daily basis such as hearing aids, do not malfunction due to their own words or the voices of others when they are not speaking.
  • Embodiments 1 to 4 the present invention has been described on the assumption that the present invention is applied to a remote-control hearing aid.
  • the present invention is applied to a hearing aid using a wearable microphone such as an ear-hook type or an ear-hole type. It is also possible.
  • a wearable microphone unlike a remote-controlled hearing aid, it is difficult to separate and collect a user's voice by directing the prescribed direction of the microphone array toward the user. Therefore, the present invention can be applied to a method for detecting a user's voice by adding a bone conduction microphone to a hearing aid and detecting a cranial vibration due to a spontaneous voice as disclosed in Patent Document 4.
  • the present invention can detect a spontaneous voice by being applied to a method of detecting a voice of a mouth by wearing a headset microphone.
  • the present embodiment does not include a sound source separation unit, and only determines whether there is a user's own voice and whether other sounds are voices every short time, so that the user and other speakers The conversation establishment degree may be obtained.
  • the present invention can be applied to an audio recorder, a digital still camera, a movie, a telephone conference system, and the like.
  • a digital recording device such as an audio recorder, a digital still camera, or a movie can suppress and record a disturbing sound such as a conversation of another person other than the conversation to be recorded.
  • the conversation partner of the voice sent from the other quiet site is extracted and By suppressing voices other than, you can hold a meeting smoothly. Also, if there is an interference sound at both sites, for example, the same effect can be obtained by detecting the loudest voice entering the microphone, finding the conversation partner, and suppressing other voices. it can.
  • the signal processing device and the signal processing method according to the present invention are useful as a signal processing device in various fields such as a hearing aid, an audio recorder, a digital still camera, a movie, and a telephone conference system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Abstract

 日常的な環境においても、会話が成立していることを正しく検出することができる信号処理装置及び信号処理方法を提供する。信号処理装置(100)において、音源分離部(130)は、複数の音源が入り混じった混合音信号を音源毎に分離する。音声検出部(140)は、分離された複数の音源信号のそれぞれについて音声検出を行い、複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する。識別パラメータ抽出部(150)は、複数の音源信号、又は、音声区間情報に基づいて、日常会話の特徴量を示す識別パラメータを抽出する。会話成立度計算部(160)は、抽出された前記識別パラメータに基づいて、会話成立度を計算し出力する。会話相手判定部(170)は、会話成立度を用いて、どの音源が会話相手であるかを判定する。

Description

信号処理装置及び信号処理方法
 本発明は、周囲に他人の声や騒音のある環境下で、会話している組を抽出する信号処理装置及び信号処理方法に関する。
 従来の会話している組を抽出する信号処理装置としては、有音/無音評価による音声信号の時系列データ間の相関関係に基づいて、会話の成立度合いを判断し有効音声を抽出する装置があった(特許文献1参照)。
 特許文献1に記載の信号処理装置では、成立している会話では2音源間で有音が交互に現れる現象を利用して、分離された音源信号の有音/無音評価を行ない、2音源間の有音/無音の組み合わせによって、会話成立度合いを算出する。図1は、特許文献1に記載された会話成立度合い算出方法の考え方を示すものである。対象音声信号及び受話信号のうち、一方が有音、もう一方が無音であれば、会話成立度合いを加点し、有音同士又は無音同士であれば減点する。そして、この会話成立度合いが大きい組み合わせの音源同士を会話が成立しているとしていた。
特開2004-133403号公報 特開2002-6874号公報 特開2004-243023号公報 特開平1-93298号公報
「音声処理と顔画像処理を統合した対話映像からの笑いの認識(Smile and Laughter Recognition using Speech Processing and Face Recognition from Conversation Video)」伊藤彰規則他、東北大、2005-NL-167,2005-SLP-56,2005/5/26
 しかしながら、日常的なくだけた会話では、会話をしている話者の発話は、時間的にきれいに交互には現れない。ここでいう日常的なくだけた会話とは、会議のような形式に則った会話ではなく、参加者が自由に話す雑談のような会話を指す。そして、このような日常的な会話は、くだけた会話であればあるほど、発話の重なり(クロストーク)も多くなる傾向がある。したがって、日常会話では、有音の時間的重なりが多くなる。このため、有音/無音の組み合わせだけで会話成立度を求める従来技術では、正しく会話相手と非会話相手とを区別することが難しい。
 また、日常的なくだけた会話では、笑いを伴ってしゃべることも多い。笑いは有音であり、従来技術のようにパワーで有音判定し、有音/無音の組み合わせだけで会話成立度を求める方法では、笑いが同時に起こったときに会話成立度は低くなってしまい、正しく会話相手と非会話相手とを区別することが難しい。
 また、従来技術では、一方の話者が有音、もう一方の話者が無音であれば、会話成立度を加点するため、一方的に人の声がずっとするような場合においても、会話成立とみなされてしまっていた。会議など会話が行われている場面において、会話相手を見つける場合には従来の方法でもよい。しかし、補聴器のようにユーザがウェアラブルマイクを常時身に付けているような状況では、ユーザの独り言や、自分としゃべっているわけではない他人の声がマイクにずっと入力される場合も数多くあり、実用性に欠けていた。
 このように、実際の日常的な環境においては、前記従来の方法のように有音/無音の組み合わせだけで会話成立度を求める方法では、会話が成立していることを正しく検出することが難しいという課題を有し、実用性に欠けていた。
 本発明の目的は、日常的な環境においても、会話が成立していることを正しく検出することができる信号処理装置及び信号処理方法を提供することである。
 本発明の信号処理装置は、複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出部と、前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部と、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、を具備する構成を採る。
 この構成によれば、日常的な環境においても、会話が成立していることを正しく検出することができる。例えば、相手の発話中に相槌を入れたり、相手が完全にしゃべり終わらないうちに発話を始めたり、短い沈黙が発生したりするなどの日常会話の特徴を利用することにより、くだけた日常会話においても、会話相手を正しく判定することができる。
 本発明の信号処理装置は、上記信号処理装置において、前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、前記分離された複数の音源信号のそれぞれについて笑い検出を行い、前記識別パラメータとして、笑い区間情報を抽出する笑い検出部、を具備し、前記会話成立度計算部は、前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、前記会話成立度を計算する、構成を採る。
 この構成によれば、笑いを検出し、笑いの重なりに着目した会話成立度の評価をすることにより、くだけた日常会話においても、会話が成立していることを正しく検出することができる。
 本発明の信号処理装置は、上記信号処理装置において、前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、前記複数の音源信号の組み合わせについて、前記識別パラメータとして、発話比率情報を抽出する発話比率計算部、を具備し、前記会話成立度計算部は、前記音声区間情報及び前記発話比率情報を用いて、前記会話成立度を計算する、構成を採る。
 この構成によれば、自分と相手との発話区間比が極端に偏っていた場合は、会話成立度が低くなるようにすることにより、信号処理装置は、誤動作を回避することができる。例えば、補聴器のように日常的に身に付ける機器においても、自分の独り言や、自分が会話していないときの他人の声などにより、信号処理装置は、誤動作しないようになる。
 本発明の信号処理方法は、複数の音源が入り混じった混合音信号を音源毎に分離する分離ステップと、前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出ステップと、前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する計算ステップと、を有するようにした。
 この方法によれば、日常的な環境においても、会話が成立していることを正しく検出することができる。
 本発明によれば、日常的な環境下においても、会話が成立していることを正しく検出することができるので、会話が成立している音声を聞きやすく調整したり、記録したりすることができる。
特許文献1に記載された会話成立度合い算出法の考え方を示す図 日常会話データの発話重なり継続長の分布を表す図 日常会話データの沈黙継続長の分布を表す図 本発明の実施の形態1に係る信号処理装置の要部構成を示すブロック図 本体とイヤホンとが分離した形態のリモコン型補聴器に本発明を適用した一例を表す図 リモコン型補聴器を実際に使用するときの人の位置関係の例を表した図 実施の形態1に係る補聴器の動作を表すフローチャート 発話重なり分析値Pcの求め方を説明するための図 実施の形態1のシミュレーション実験による会話相手検出率を表す図 会話相手に対する笑い/発話/無音の重なり継続長合計を示す図 非会話相手に対する笑い/発話/無音の重なり継続長合計を示す図 会話相手である割合を算出した結果を示す図 本発明の実施の形態2に係る信号処理装置の要部構成を示すブロック図 実施の形態2係る補聴器の動作を表すフローチャート 発話/笑い/無音の組み合わせによる会話成立度の算出方法を説明するための図 ある一組の会話の時間窓幅ごとの発話区間比Rbの推移の例を表した図 本発明の実施の形態3に係る信号処理装置の要部構成を示すブロック図 実施の形態3係る補聴器の動作を表すフローチャート 本発明の実施の形態4に係る信号処理装置の要部構成を示すブロック図 実施の形態4係る補聴器の動作を表すフローチャート
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 本実施の形態では、発話の重なり又は沈黙の継続長に着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、発話の重なり又は沈黙の継続長に着目した点について説明する。
 日常的なくだけた会話では、会話をしている話者の発話は、時間的にきれいに交互には現れない。くだけた会話であればあるほど、発話の重なり(クロストーク)も多くなる傾向がある。したがって、日常会話では、有音の時間的重なりが多くなるため、有音/無音の組み合わせだけで会話成立度を求める従来技術では、正しく会話相手と非会話相手とを区別することが難しいという課題を有していた。本実施の形態は、上記課題を解決する。
 日常会話では、一方の話者がしゃべり終わる前にもう一方の話者がしゃべりだしたり、一方の話者がしゃべっている途中にもう一方の話者が相槌を入れたりすることが頻繁に行われる。そこで、本発明者らは、このような発話の重なりの継続長に着目した。
 先ず、本発明者らは、実際に9組の日常会話それぞれ10分程度を収音し、このデータについて、会話相手に対する発話重なりと、非会話相手に対する発話重なりの継続長について分析を行なった。
 図2は、発話重なりが一回に連続する区間の長さ(継続長)の分布を、会話相手、非会話相手のそれぞれについて表したグラフである。図2において、横軸は一回の発話重なりが連続する区間の長さを表し、縦軸は頻度を表している。
 その結果、会話をしている相手とは、一回の発話重なりが連続する区間の長さが短い場合が多く、非会話相手とは、一回の発話重なりが連続する区間の長さが長い場合が多いことがわかった。そこで、本実施の形態では、単に発話重なりが多いか少ないかではなく、発話重なりが一回に連続する区間の長さ(継続長)に着目したパラメータを導入する。
 また、本発明者らは、両方の話者が黙っている状態を沈黙と定義し、沈黙の継続長についても、同様に分析を行った。
 図3は、沈黙が一回に連続する区間の長さ(継続長)の分布を、会話相手、非会話相手のそれぞれについて表したグラフである。図3において、横軸は一回に沈黙が連続する区間の長さを表し、縦軸は頻度を表している。
 その結果、発話重なりと同様に、沈黙についても、会話相手に対しては、非会話相手に対してと比べ、沈黙の継続長が短い場合が多いということがわかった。そこで、本実施の形態では、発話重なりと同様に、沈黙一回に連続する区間の長さ(継続長)に着目したパラメータを導入する。
 以下、本実施の形態に係る信号処理装置の内部構成について説明する。
 図4は、本実施の形態に係る信号処理装置100の要部構成を示すブロック図である。
 マイクロホンアレイ110は、複数のマイクを配置した収音装置である。
 A/D(Analog to Digital)変換部120は、それぞれのマイクで収音された音信号をデジタル信号に変換する。
 音源分離部130は、各マイクに到来する音信号の到来時間の差を利用して信号処理することにより、複数の音源が入り混じった混合音信号を音源毎に分離する。
 音声検出部140は、音源分離部130により分離された音信号が、音声であるか否かを判定し、音源毎に音声/非音声の検出結果を示す音声区間情報を生成する。音声検出部140における音声検出方法については、後述する。
 識別パラメータ抽出部150は、会話相手を判定(識別)し、会話成立度を算出する際に用いる、識別パラメータを抽出する。識別パラメータの詳細については、後述する。本実施の形態では、識別パラメータ抽出部150は、発話重なり継続長分析部151及び沈黙継続長分析部152を有する。
 発話重なり継続長分析部151は、音声検出部140により判定された音源毎の音声/非音声の検出結果を示す音声区間情報を用いて、音源間の発話重なり区間の継続長(以下「発話重なり継続長分析値」という)を求め分析する。
 沈黙継続長分析部152は、音声検出部140により判定された音源毎の音声/非音声の検出結果を示す音声区間情報を用いて、音源間の沈黙区間の継続長(以下「沈黙継続長分析値」という)を求め分析する。
 このようにして、識別パラメータ抽出部150は、日常会話の特徴量を示す識別パラメータとして、発話重なり継続長分析値及び沈黙継続長分析値を抽出する。なお、識別パラメータ抽出部150における発話重なり分析値及び沈黙分析値の算出方法については、後述する。
 会話成立度計算部160は、発話重なり継続長分析部151により算出された発話重なり継続長分析値と、沈黙継続長分析部152により算出された沈黙継続長分析値とに基づいて、会話成立度を算出する。会話成立度計算部160における会話成立度の算出方法については、後述する。
 会話相手判定部170は、会話成立度計算部160において算出された会話成立度を用いて、どの音源が会話相手であるかを判定する。
 出力音制御部180は、会話相手判定部170において判定された会話相手の声が聞き取りやすくなるように、音源分離部130により分離された音信号に対して、出力音を制御して出力する。具体的には、出力音制御部180は、音源分離部130により分離された音信号に対して、非会話相手である音源方向を抑圧する指向性制御を行う。
 図5は、補聴器本体とイヤホンとが分離した形態のリモコン型補聴器(以下、「補聴器」と略記する)200に、本実施の形態に係る信号処理装置100を適用した例である。
 補聴器200は、補聴器本体210及びイヤホン260を備える。
 補聴器本体210は、マイクロホンアレイ220、A/D変換部230、CPU240、及び、メモリ250から構成されている。マイクロホンアレイ220は、8個のマイクが円状に配置されている。A/D変換部230は、マイクロホンアレイ220により収音された音信号をデジタル信号に変換する。CPU240は、補聴器本体210の制御及び演算を行う。メモリ250は、演算に使用するデータを記憶する。
 音信号を出力するイヤホン260は、補聴器本体210と接続されている。CPU240は、メモリ250を使用して、ユーザの聴覚に合わせた音信号の増幅など通常の補聴処理のほかに、上述の音源分離、音声検出、発話重なり継続長分析、沈黙継続長分析、会話成立度計算、会話相手判定、出力音制御を行なう。
 通常、補聴器本体210は、卓上に置かれ、補聴器本体210の内部のマイクロホンアレイ220が収音した音を加工して、イヤホン260を装着したユーザに聞かせる。本実施の形態では、補聴器本体210とイヤホン260との接続が有線の場合について説明するが、補聴器本体210とイヤホン260とを無線通信により接続してもよい。
 次に、以上のように構成された補聴器200の動作を説明する。
 図6は、図5の補聴器200を実際に使用するときの人の位置関係の例を表した図である。図6において、補聴器200のユーザは、イヤホン260を装着する。補聴器本体210は、テーブル上に置かれ、ユーザは、正面にいる会話相手と会話をしている。なお、補聴器本体210は、本体前方(図5の▲の方向)に補聴器200のユーザが来るようにテーブルに置かれるものとする。なお、図6の例では、補聴器200のユーザから見て、右側には、無関係な話者による会話が行われており、妨害音となっている。
 図7は、本実施の形態に係る信号処理装置100を搭載した補聴器200の動作を示すフローチャートである。図7のフローチャートを用いて補聴器200の動作を説明する。図中、Sはフローの各ステップを示す。なお、図7の各ステップにおける以下の処理は、CPU240及びメモリ250を使用して行われる。CPU240及びメモリ250では、短時間単位(フレーム、ここでは10msecとする)ごとに処理が進められる。
 まず、ステップS110において、A/D変換部120は、補聴器本体210に内蔵されたマイクロホンアレイ110(220)から入力された音信号を、A/D変換し、音源分離部130に出力する。
 次に、ステップS120において、音源分離部130は、各マイクに到来する音信号の到来時間の差を利用して、フレーム毎に方向別に音信号を分離する。ここで、音源分離部130は、前後左右斜め45°ずつ8つの方向k(k=1,2,…,8)に音信号を分離するものとする。
 ここで、この分離された音信号は、ユーザがいる補聴器200の前方から反時計回りに順にS1,S2,S3,S4,S5,S6,S7,S8とする。この8方向のうち補聴器200の前方は、補聴器200のユーザがいる方向であるため、この方向から来る音信号S1はユーザの声であるとする。
 次に、分離された8方向の音信号Sk(k:方向、k=1,2,…,8)それぞれについて、ステップS130の処理を行う。
 ステップS130において、音声検出部140は、音信号Sk(k:方向、k=1,2,…,8)について音声/非音声検出を行う。音声検出の方法としては、例えば、ここでは音声帯域(例えば200Hz~4000Hz)におけるパワーをフレーム毎に計算し、時間方向に平滑化を行い、パワーが閾値を越えた場合に音声と判定する。より精度良く音声検出するために、後処理で、短時間の音声区間は無音扱いにしたり、音声が続いたときに短時間の無音がある場合には、音声扱いとしたりするなどの処理を行うことが望ましい。
 なお、音声検出の方法は、音声帯域のパワーによる方法に限るものではなく、調波構造を検出する方法、或いは、モデルと照合する方法等、他の方法を用いてもよい。
 以下では、音声検出部140により、音声と判定された区間を発話区間と定義する。
 次に、前方の音信号S1と、前方を除いた7方向の音信号S2からS8のそれぞれの組み合わせについて、ステップS140、S150の処理を行う。
 ステップS140において、発話重なり継続長分析部151及び沈黙継続長分析部152は、音信号S1と音信号Sk(k:方向、k=2,3,…,8)との発話の重なり及び沈黙の区間の継続長を求める。そして、発話重なり継続長分析部151及び沈黙継続長分析部152は、フレームtにおける発話重なり分析値Pc及び沈黙分析値Psをそれぞれ算出し、これらを会話成立度計算部160に出力する。
 以下、発話重なり分析値Pc及び沈黙分析値Psの算出方法について説明する。始めに、発話重なり分析値Pcの算出方法について、図8を参照しながら説明する。
 図8Aにおいて、四角で示された区間は、音声検出部140により生成される音声/非音声の検出結果を示す音声区間情報に基づいて、音信号S1が音声と判定された発話区間を示している。図8Bにおいて、四角で示された区間は、音信号Skが音声と判定された発話区間を示している。そして、発話重なり継続長分析部151は、これらの区間が重なる部分を発話重なりと定義する(図8C)。
 発話重なり継続長分析部151における具体的な動作は、次の通りである。フレームtにおいて、発話重なりが開始する場合、発話重なり継続長分析部151は、当該フレームを始端フレームとして記憶しておく。そして、フレームtにおいて発話重なりが終了した場合、発話重なり継続長分析部151は、これをひとつの発話重なりとみなし、始端フレームからの時間長を発話重なりの継続長とする。
 図8Cにおいて、楕円で囲んだ部分は、フレームt以前の発話重なりを表している。そして、フレームtにおいて、発話重なりが終了した場合、発話重なり継続長分析部151は、フレームt以前の発話重なりの継続長に関する統計量を求め、記憶しておく。さらに、発話重なり継続長分析部151は、この統計量を用いて、フレームtにおける発話重なり分析値Pcを算出する。発話重なり分析値Pcは、発話重なりの中で、その継続長が短い場合が多いのか長い場合が多いのかを表すパラメータであることが望ましい。
 次に、沈黙分析値Psの算出方法について説明する。
 まず、沈黙継続長分析部152は、音声検出部140により生成される音声区間情報に基づいて、音信号S1が非音声と判定された区間と、音信号Skが非音声と判定された区間とが重なる部分を沈黙と定義する。発話重なりの分析度と同様にして、沈黙継続長分析部152は、沈黙区間の継続長を求め、フレームt以前の沈黙区間の継続長に関する統計量を求め記憶しておく。さらに、沈黙継続長分析部152は、この統計量を用いて、フレームtにおける沈黙分析値Psを算出する。沈黙分析値Psも、沈黙の中でその継続長が短い場合が多いのか長い場合が多いのかを表すパラメータであることが望ましい。
 以下に、具体的な発話重なり分析値Pc及び沈黙分析値Psの算出方法を説明する。
 沈黙継続長分析部152は、フレームtにおいて、継続長に関する統計量を、それぞれ記憶・更新する。継続長に関する統計量は、フレームt以前の(1)発話重なりの継続長の和Wc、(2)発話重なりの個数Nc、(3)沈黙の継続長の和Ws、及び(4)沈黙の個数Nsを含む。そして、発話重なり継続長分析部151及び沈黙継続長分析部152は、フレームt以前の発話重なりの平均継続長Ac、及び、フレームt以前の沈黙区間の平均継続長Asを式(1-1)、(1-2)により、それぞれ求める。
Figure JPOXMLDOC01-appb-M000001
 Ac、Asは、値が小さいほどそれぞれ短い発話重なり、短い沈黙が多いことを表す。そこで、大小関係をあわせるためにAc、Asの符号を反転させて発話重なり分析値Pc及び沈黙分析値Psは、次の式(2-1)、(2-2)ように定義する。
Figure JPOXMLDOC01-appb-M000002
 なお、発話重なり分析値Pc及び沈黙分析値Psの他にも、継続長が短い会話が多いか長い会話が多いかを表すパラメータとしては、次のようなパラメータも考えられる。
 パラメータの算出は、発話重なり及び沈黙の継続長が閾値T(例えばT=1秒)より短い会話と、T以上の長い会話とに分けて、それぞれの出現個数又は継続長和を求める。次に、パラメータの算出は、フレームt以前に出現する継続長の短い会話の出現個数又は継続長和に対する割合を求める。すると、この割合は、値が大きいほど短い継続長の会話が多いことを表すパラメータとなる。
 なお、これらの統計量は、ひとつの会話のまとまりの性質を表すように、沈黙が一定時間続いた時点で初期化する。あるいは、統計量は、一定時間(例えば20秒)ごとに初期化するようにしてもよい。また、統計量は、常に過去一定時間窓内の発話重なり、沈黙継続長の統計量を用いるようにしてもよい。
 また計算量削減のため、音声が一定時間検出されなかった音源方向には人がいないと判定し、次に音声が検出されるまで上記処理を行わないようにしてもよい。
 再度、図7に戻り、ステップS150において、会話成立度計算部160は、音信号S1と音信号Skとの会話成立度を計算し、会話成立度を会話相手判定部170に出力する。
 フレームtにおける会話成立度C1,k(t)は、例えば、式(3)のように定義される。
Figure JPOXMLDOC01-appb-M000003
 なお、発話重なり分析値Pcの重みw1及び沈黙分析値Psの重みw2は、実験によりあらかじめ最適値を求めておく。
 フレームtは、全ての方向の音源に対して無音が一定時間続いた時点で初期化する。そして、会話成立度計算部160は、どれかの方向の音源にパワーがあったときにカウントを始める。なお、会話成立度は、遠い過去のデータを忘却させて最新の状況に適応させる時定数を用いて求めてもよい。
 7方向の会話成立度C1,k(t)(k:方向、k=2,3,…,8)が求まると、次にステップS160おいて、会話相手判定部170は、どの方向の音源がユーザの会話相手であるかを判定する。そして、会話相手判定部170は、判定結果を出力音制御部180に出力する。会話相手の判定方法としては、全ての方向のC1,k(t)から、閾値θを超えかつ最も値が大きい一方向の音源を会話相手とする。
 また、会話相手の他の判定方法としては、例えば、以下のようなバリエーションが考えられる。
 ・全ての方向のC1,k(t)から、閾値θを超える方向の音源は、すべて会話相手とする。
 ・全ての方向ではなく、前方(S3~S7など)のみを探索対象とする。
 ・直前に会話相手が判定されている場合、その方向及び隣り合う方向のみを探索対象とする(話者移動は時間的に急速には行われないため)。
 最後に、ステップS170において、出力音制御部180は、会話相手と判定された方向に、指向性を制御することにより、入力された混合音を聞き取りやすく加工してイヤホン260から出力される。
 なお、以上の説明では、識別パラメータ抽出部150が、発話重なり継続長分析部151及び沈継続長分析部152を有する場合について説明した。なお、本実施の形態では、発話重なり継続長分析部151及び沈継続長分析部152のうち、いずれか一方のみを有するようにしてもよい。その場合には、式(3)において、発話重なり分析値Pcの重みw1又は沈黙分析値Psの重みw2のいずれか一方が0に設定されていることと等価となる。
 以上のように、本実施の形態では、識別パラメータ抽出部150が、発話重なり継続長分析部151又は沈継続長分析部152の少なくとも一方を有する構成とした。発話重なり継続長分析部151は、音声区間情報を用いて、発話重なり継続長を計算し分析し、沈継続長分析部152は、沈黙継続長を計算し分析する。そして、会話成立度計算部160は、発話重なり継続長及び沈黙継続長のうち、少なくとも一方を用いて、会話成立度を計算するようにした。このようにして、本実施の形態では、相槌による発話重なりが短いこと、相手が完全にしゃべり終わらないうちに発話を始める場合の発話重なりが短いこと、会話中の沈黙が短いことなどの、日常会話の特徴を利用することができる。このため、本実施の形態では、くだけた日常会話においても、会話成立度を正しく求めることができるので、会話が成立していることを正しく検出でき、会話相手を正しく判定することができるようになる。
 なお、本発明者らは、実際に5組の日常会話を収録した音声データを用いて、会話相手検出のシミュレーション実験を行なった。
 シミュレーション実験は、マイクロホンアレイを用いて5組の2分間の日常会話を収音し、収音した音声データに、食堂で別途収音したがやがやとしたマルチトーカーノイズを、SN比が5,10,15,20dBとなるように重畳した。次に、シミュレーション実験は、それぞれのSN比について、話者ごとに音声パワーによる音声検出を行った。そして、シミュレーション実験は、話者ごとの音声検出結果について、5組の会話相手の組み合わせ及び40組の非会話相手の組み合わせを擬似的に作成し、従来方法及び本発明による方法に対して会話相手正解率を求めた。
 なお、ここで、従来方法は、特許文献1に開示されている方法であり、時定数を用いて会話成立度を更新している。従来方法では、フレームtにおける会話成立度C1,k(t)を、式(4)を用いて求めた。ここで、フレームtにおいて、音信号Skは、音声のときにはV(t)=1,非音声のときにはV(t)=0とする。
Figure JPOXMLDOC01-appb-M000004
ただし、時定数α=β=γ=0.99999、δ=0.99995、ε=0.999
 また、本発明による方法には、発話重なり分析及び沈黙分析を用いる方法を用い、フレーム毎に発話重なり分析値及び沈黙分析値を求め、会話成立度を更新している。また、フレームtにおける会話成立度C1,k(t)は、式(3)を用いて算出した。
 ここで、評価方法としては、会話相手の組の場合には閾値θを超えていたら正解とし、非会話相手の組の場合には閾値θを下回っていたら正解とした。また、会話相手正解率は、会話相手を正しく検出する割合と非会話相手を正しく棄却する割合との平均値と定義した。図9は、従来方法及び本発明による方法による会話相手正解率を示す。
 図9から分かるように、従来方法に比べ、発話重なり及び沈黙の平均継続長の分析値を用いて会話成立度を求める本発明による方法は、どのSN比レベルにおいても、大幅に高い会話相手検出性能が得られた。このことから、本発明は、有効であることが確認された。
 なお、以上の説明では、音源分離部130が、方向別に音信号を分離する場合について説明した。なお、音源分離部130は、独立成分分析(ICA:Independent Component Analysis)など他の音源分離方法を用いて、音信号を分離してもかまわない。また、音源分離部130は、帯域ごとのパワーの大きさのみ方向別に求め、方向別のパワーから音声検出を行い、同様の動作を行うようにしてもよい。
 また、本実施の形態は、話者を識別する話者識別部を設け、同じ方向に複数の話者がいる場合に、話者ごとに分離できるようにしてもよい。
 (実施の形態2)
 本実施の形態では、笑いの重なりに着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、笑いの重なりに着目した点について説明する。
 日常的なくだけた会話では、笑いを伴ってしゃべることも多い。笑いは、有音である。そのため、従来技術のパワーにより有音判定し、有音/無音の組み合わせだけで会話成立度を求める方法では、笑いが同時に起こったときに会話成立度が低くなる。このために、従来の方法では、会話相手と非会話相手とを正しく区別することが難しいという課題を有していた。本実施の形態は、上記課題を解決する。
 本発明者らは、実際の日常会話での笑いの出現タイミングについて分析するために、日常会話を収録した9組の会話データから、笑い/発話/無音(発話でも笑いでもない黙っている区間)が時間的にどの程度重なっているかを調べた。この会話データは、話者ごとに収音し、試聴により笑い/発話/無音の発話区間のラベルを付与した。
 図10は、会話相手に対する発話/笑い/無音の重なり継続長合計(msec)を示し、図11は、非会話相手に対する発話/笑い/無音の重なり継続長合計(msec)を示している。これらを比較すると、会話相手に対しては、笑いの重なりが非会話相手よりも多いことが分かる。
 図12は、これらのデータから、発話/笑い/無音の重なりの組み合わせに対して、それが会話相手である割合を算出した結果を示している。図12から、笑いが重なっている場合は、それが会話相手である割合は92.28%と非常に高く、一方が発話でもう一方が無音であるときに会話相手である割合(62.23%、57.48%)に比べ、格段に高いことがわかった。したがって、笑いの重なりは、日常会話の特徴量を示し、会話相手であるか否かを判定する重要なパラメータであると言える。そこで、本実施の形態では、単に有音/無音の組み合わせに加えて、笑いの重なりに着目して会話成立度を算出するようにした。
 会話成立度の評価方法としては、例えば、笑いが重なった場合には、会話成立度を加点するなどの方法を用いる。加点の重みは、一方の話者が発話でもう一方の話者が無音である場合に比べ、同じ若しくは大きくする。
 また、図12から、一方の話者が笑っているときにもう一方の話者が発話している場合は、それが会話相手である割合は40%前後とやや低めであることが分かる。また、一方の話者が笑っているときにもう一方の話者が無音の場合、それが会話相手である割合は、50%前後であって、会話成立度の識別に寄与しないことが分かる。これらのことから、一方の話者が笑っているとき、もう一方の話者が発話または無音の場合には、小さな減点か或いは加点も減点もしないようにする。このように、笑いの重なりに着目して評価することにより、会話成立度は、正しく求めることができる。
 以下、本実施の形態に係る信号処理装置の内部構成について説明する。本実施の形態は、実施の形態1と同様に、リモコン型補聴器に本発明を適用した例である。リモコン型補聴器の形状は、図5と同様のため説明を省略する。
 図13は、本実施の形態に係る信号処理装置300の要部構成を示すブロック図である。なお、図13の信号処理装置300において、図4の信号処理装置100と共通する構成部分には、図4と同一の符号を付して説明を省略する。図13の信号処理装置300は、図4の信号処理装置100に対して、識別パラメータ抽出部150及び会話成立度計算部160に代えて、識別パラメータ抽出部310及び会話成立度計算部320を具備する。
 識別パラメータ抽出部310は、笑い検出部311を有している。
 笑い検出部311は、音源分離部130で分離された音信号が笑い声であるか否かを判定する。なお、音信号から笑いを検出する方法は、公知の技術を用いる。公知の技術としては、例えば従来以下のような方法がある。
 例えば、特許文献2は、音声パワーが所定の閾値を超える区間を音声区間として判定し、フレーム毎にrms振幅値を求める。次に、特許文献2は、その平均値が所定の閾値を超える区間を抽出し、音声認識で「はは」や「ははは」のように、同じ母音が断続的に続く区間を笑い声区間と判定する方法が開示されている。
 また、特許文献3には、母音の周波数帯信号の包絡線を求め、当該包絡線の振幅ピークが一定値以上のとき、当該振幅ピークの周期が一定範囲であるか否かを判断する方法が開示されている。
 また、非特許文献1には、GMM(Gaussian Mixture Model)によって笑い声をモデル化し、フレーム毎に笑い声と非笑い声とを識別する方法が開示されている。
 なお、以下では、笑い検出方法として、非特許文献1と同様に、あらかじめ学習しておいた笑いGMMと非笑いGMMとの照合により行う方法を用いる場合について説明する。
 会話成立度計算部320は、笑い検出部311において得られた笑い区間情報、及び、音声検出部140において得られた音声区間情報を用いて、会話成立度を算出する。会話成立度計算部320における会話成立度の算出方法については、後述する。
 図14は、本実施の形態に係る信号処理装置300を搭載した補聴器200の動作を表すフローチャートである。図14のフローチャートを用いて、補聴器200の動作を説明する。なお、図14において、図7と共通するステップには、図7と同一の符号を付して説明を省略する。
 ステップS110、S120、S130では、実施の形態1と同様に、それぞれ、収音及びA/D変換、分離、音声検出が行われる。
 ステップS130の次に、ステップS210において、笑い検出部311は、音信号Skについて笑い/非笑い判定を行う。まず、笑い検出部311は、フレームtにおいて、フレームtの特徴パラメータベクトルをあらかじめ学習しておいた笑いGMM及び非笑いGMMと照合し、笑い尤度及び非笑い尤度を求める。特徴パラメータベクトルとは、フレーム毎に音響分析をして得られるMFCC12次元(C1~C12)、その一次回帰係数12次元(ΔC1~ΔC12)、対数パワーの一次回帰係数1次元(ΔE)の合計25次元からなるベクトルとする。なお、MFCC(Mel Filter Cepstral Coefficient)とは、メルフィルタバンクケプストラム係数を示す。そして、笑い検出部311は、過去Nフレーム(例えば、N=50)分の笑い尤度及び非笑い尤度をそれぞれ累積し、蓄積結果が大きい方を判定結果とする。笑い検出部311は、Nフレーム分の尤度を累積して判定することにより識別性能が向上する。
 ステップS220において、会話成立度計算部320は、前方の音信号S1と、前方を除いた7方向の音信号Sk(k:方向、k=2,3,…,8)のそれぞれの組み合わせについて、音信号S1と音信号Skとの会話成立度を算出する。
 図15は、発話/笑い/無音の組み合わせによる会話成立度の算出方法の考え方を表した表である。S1は、ユーザの声がある方向1の音信号を表し、Skは方向k(k=2,3,…,8)の音信号を表す。
 ここで、「発話」、「無音」及び「笑い」は、以下のように定義する。
 「発話」:音声検出結果が音声で、かつ、笑い検出結果が非笑いであるフレーム
 「無音」:音声検出結果が非音声で、かつ、笑い検出結果が非笑いであるフレーム
 「笑い」:音声検出結果に関わらず、笑い検出結果が笑いであるフレーム
 本実施の形態では、会話成立度計算部320は、フレームtにおける会話成立度C1,k(t)を、例えば、式(5)を用いて算出する。
Figure JPOXMLDOC01-appb-M000005
 なお、フレームtは、全ての方向の音源に対して無音が一定時間続いた時点で初期化する。また、会話成立度は、遠い過去のデータを忘却させて最新の状況に適応させる時定数を用いて求めてもよい。
 そして、会話成立度計算部320は、算出した会話成立度を会話相手判定部170に出力する。以降、実施の形態1と同様に、ステップS160において、会話相手判定部170は、会話相手が判定される。また、ステップS170において、出力制御部180は、出力音が制御される。
 以上のように、本実施の形態では、識別パラメータ抽出部310が、笑い検出部311を有する構成を採る。笑い検出部311は、笑いを検出し、会話成立判定部320は、笑いの重なりに着目した会話成立度の評価をする。これにより、本実施の形態は、会話成立度を正しく求めることができるので、会話が成立していることを正しく検出でき、会話相手を正しく判定することができるようになる。
 なお、以上の説明では、音声検出部140と笑い検出部311とを別構成として説明したが、入力信号を発話/笑い/無音の3つに分ける音声笑い検出部を設けるようにしてもよい。
 (実施の形態3)
 本実施の形態は、話者の発話比率に着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、話者の発話比率に着目した点について説明する。
 従来技術では、一方の話者が有音、もう一方の話者が無音であれば会話成立度が加点されるため、一方的にずっと人の声がするような場合においても、会話成立とみなされてしまっていた。会議など会話が行われている場面において、会話相手を見つける場合には、従来の方法でもよい。しかし、補聴器のようにユーザがウェアラブルマイクを常時身に付けているような状況では、ユーザの独り言、或いは、自分としゃべっているわけではない他人の声がマイクにずっと入力される場合も数多くあり、実用性に欠けていた。本実施の形態は、上記課題を解決する。
 本実施の形態では、自分又は相手のどちらかが一方的にしゃべっていることを検出し、「一方的なしゃべり」と検出された場合には会話成立度を低くする。そして、「一方的なしゃべり」を検出する方法として、本実施の形態では、自分と会話相手との発話区間比を求め、この発話区間比が極端に偏っている場合を「一方的なしゃべり」と判断する。
 ここで、音信号S1と音信号Sk(k:方向、k=2,3,…,8)との発話区間比Rb1,kは、以下の式(6)で定義する。
Figure JPOXMLDOC01-appb-M000006
 本発明者らは、実際の日常会話において、一人の話者がしゃべり続ける一方的なしゃべりがどれくらい起きているのかを分析するために、日常会話を収録した9組の会話データから、時間窓の長さ(時間窓幅)を変えて上記発話区間比を求めた。
 図16は、ある一組の会話の時間窓幅ごとの発話区間比Rbの推移の例を表したグラフである。横軸は会話開始時からの経過時間、縦軸は発話区間比を表す。時間窓幅Nは、5秒、10秒、20秒、30秒のそれぞれについて示している。その結果、本発明者らは、N=10秒程度の時間窓でみると、2話者間の発話区間比は、時間経過とともに変化はするものの、どの会話に対してもほぼ10%~90%の範囲に収まることに着目した。
 そこで、本実施の形態では、過去N秒間の発話区間比の値に応じて、会話成立度に1未満の重みを掛けることにより、一方的なしゃべりを抑圧する。
 以下、本実施の形態に係る信号処理装置の内部構成について説明する。本実施の形態は、実施の形態1と同様に、リモコン型補聴器に本発明を適用した例である。リモコン型補聴器の形状は、図5と同様のため説明を省略する。
 図17は、本実施の形態に係る信号処理装置400の要部構成を示すブロック図である。なお、図17の信号処理装置400において、図4の信号処理装置100と共通する構成部分には、図4と同一の符号を付して説明を省略する。図17の信号処理装置400は、図4の信号処理装置100に対して、識別パラメータ抽出部150及び会話成立度計算部160に代えて、識別パラメータ抽出部410及び会話成立度計算部420を具備する。
 識別パラメータ抽出部410は、発話比率計算部411を有している。
 発話比率計算部411は、音声検出部140において算出された音声区間情報から、発話比率情報として、発話区間比率を計算する。
 会話成立度計算部420は、音声検出部140において算出された音声区間情報と、発話比率計算部411において算出された発話区間比率とから、会話成立度を求める。会話成立度計算部420における会話成立度の算出方法については、後述する。
 図18は、本実施の形態に係る信号処理装置400を搭載する補聴器200の動作を表すフローチャートである。図18のフローチャートを用いて補聴器200の動作を説明する。なお、図18において、図7と共通するステップには、図7と同一の符号を付して説明を省略する。
 ステップS110、S120、S130では、実施の形態1と同様に、それぞれ、収音及びA/D変換、分離、音声検出が行われる。
 本実施の形態では、実施の形態1と同様に、音声検出部140により、音声と判定された区間を発話区間と定義する。
 次に、前方の音信号S1と、前方を除いた7方向の音信号Sk(方向k=2,3,…,8)とのそれぞれの組み合わせについて、ステップS310及びステップS320の処理が行われる。
 ステップS310において、発話比率計算部411は、フレームtから過去N秒(N=10)の区間における音信号S1と音信号Skとの発話区間比Rb1,kを求め、会話成立度計算部420に出力する。
 次に、ステップS320において、会話成立度計算部420は、音信号S1と音信号Skとの会話成立度を算出する。本実施の形態では、会話成立度計算部420は、フレームtにおける会話成立度C1,k(t)を、例えば、式(7)のようにして求める。
Figure JPOXMLDOC01-appb-M000007
 このようにして、本実施の形態では、発話区間比が10%未満又は90%以上に偏ったときに、1未満の重みをかけることにより、一方的なしゃべりを抑制することができるようになる。なお、今回は、N=10、重みw(Rb1,k)を上式のように設計したが、これに限定するものではない。
 そして、会話成立度計算部420は、算出した会話成立度を会話相手判定部170に出力する。以降、実施の形態1と同様に、ステップS160において、会話相手判定部170は、会話相手が判定される。また、ステップS170において、出力制御部180は、出力音が制御される。
 以上のように、本実施の形態では、識別パラメータ抽出部410が、発話比率計算部411を有する構成を採る。発話比率計算部411は、音声区間情報から、発話比率情報として、発話区間比率を計算し、会話成立度計算部420は、音声区間情報及び発話比率情報を用いて、会話成立度を計算する。具体的には、発話比率計算部411は、自分と相手との発話区間比が極端に偏っていた場合に会話成立度が低くなるように、発話区間比Rb1,kを設定する。次に、会話成立度計算部420は、当該発話区間比Rb1,kを用いて会話成立度を算出する。これにより、補聴器のように日常的に身に付ける機器では、自分の独り言や、自分が会話していないときの他人の声などによる誤動作をしないようになり、会話が成立していることを正しく検出し、会話相手を正しく判定することができる。
 (実施の形態4)
 本実施の形態では、発話の重なり又は沈黙の継続長、笑いの重なり、及び、話者の発話比率に着目して、会話成立度を算出する。
 以下、本実施の形態に係る信号処理装置の内部構成について説明する。本実施の形態は、実施の形態1と同様に、リモコン型補聴器に本発明を適用した例である。リモコン型補聴器の形状は、図5と同様のため説明を省略する。
 図19は、本実施の形態に係る信号処理装置500の要部構成を示すブロック図である。なお、図19の信号処理装置500において、図4、図13及び図17の信号処理装置100、300、400と共通する構成部分には、これら図と同一の符号を付して説明を省略する。図19の信号処理装置500は、図4の信号処理装置100に対して、識別パラメータ抽出部150及び会話成立度計算部160に代えて、識別パラメータ抽出部510及び会話成立度計算部520を具備する。
 識別パラメータ抽出部510は、発話重なり継続長分析部511、沈黙継続長分析部512、笑い検出部311及び発話比率計算部513を有している。
 なお、本実施の形態では、笑い検出部311により得られた笑い区間情報が、発話重なり継続長分析部511、沈黙継続長分析部512及び発話比率計算部513にも出力される。そして、発話重なり継続長分析部511、沈黙継続長分析部512及び発話比率計算部513において、笑い区間情報は、音声検出部140からの音声区間情報とともに、発話重なり継続長分析、沈黙継続長分析及び発話比率計算に利用される。本実施の形態は、この点が、実施の形態1及び実施の形態3の発話重なり継続長分析部151、沈黙継続長分析部152及び発話比率計算部411と異なる。
 図20は、本実施の形態に係る信号処理装置500を搭載する補聴器200の動作を表すフローチャートである。図20のフローチャートを用いて補聴器200の動作を説明する。なお、図20において、図14と共通するステップには、図14と同一の符号を付して説明を省略する。
 ステップS110、S120、S130、S210では、実施の形態2と同様に、それぞれ、収音及びA/D変換、分離、音声検出、笑い/非笑い判定が行われる。
 次に、前方の音信号S1と、前方を除いた7方向の音信号Sk(方向k=2,3,…,8)のそれぞれの組み合わせについて、ステップS410、S420及びS430の処理が行われる。
 ここで、本実施の形態では、実施の形態2と同様に、「発話」、「無音」及び「笑い」を以下のように定義する。
 「発話」:音声検出結果が音声で、かつ、笑い検出結果が非笑いであるフレーム
 「無音」:音声検出結果が非音声で、かつ、笑い検出結果が非笑いであるフレーム
 「笑い」:音声検出結果に関わらず、笑い検出結果が笑いであるフレーム
 この発話/笑い/無音の分類に基づいて、ステップS410において、発話重なり継続長分析部511は、音信号S1と音信号Skの笑いを含まない発話区間の重なりの継続長を求め分析を行う。また、沈黙継続長分析部512は、この発話/笑い/無音の分類に基づいて、笑いを含まない沈黙区間の継続長を求め分析を行う。
 次に、ステップS420において、発話比率計算部513は、音信号S1と音信号Skの笑いを含まない発話区間の比率を計算する。
 次に、ステップS430において、会話成立度計算部520は、音信号S1と音信号Skとの会話成立度を算出する。本実施の形態では、会話成立度計算部520は、フレームtにおける会話成立度C1,k(t)を、例えば式(8)のようにして求める。
Figure JPOXMLDOC01-appb-M000008
 そして、会話成立度計算部520は、算出した会話成立度を会話相手判定部170に出力する。以降、実施の形態1と同様に、ステップS160において、会話相手判定部170は、会話相手が判定される。また、ステップS170において、出力制御部180は、出力音が制御される。
 以上のように、識別パラメータ抽出部510は、発話重なり継続長分析部511、沈黙継続長分析部512、及び、笑い検出部311を有する構成を採る。会話成立度計算部520は、発話重なり継続長、沈黙継続長、笑いの区間を示す笑い区間情報、又は、発話区間の長さの比率を示す発話比率情報を用いて、会話成立度を算出する。このために、本実施の形態は、日常会話に特有のクロストーク或いは笑いの出現の特徴を利用した会話成立度の評価を行うことができるようになり、くだけた日常会話でも正しく会話成立度を求めることができる。これにより、本実施の形態は、会話が成立していることを正しく検出することができ、会話相手を正しく判定することができるようになる。
 特に、本実施の形態では、発話重なり継続長分析部511及び沈黙継続長分析部512が、笑い区間情報を加味して、発話重なり継続長及び沈黙継続長を算出する。これにより、本実施の形態は、笑いを含まない発話区間を正確に抽出できるようになるため、発話重なり及び沈黙の区間の継続長を正しく求められるようになり、より正しく会話成立度を求めることができるようになる。
 また、本実施の形態は、識別パラメータ抽出部510に発話比率計算部513を設けることにより、一方的なしゃべりを抑制できるようになる。これにより、補聴器のように日常的に身に付ける機器では、自分の独り言や、自分が会話していないときの他人の声などによる誤動作をしないようになる。
 なお、実施の形態1から実施の形態4では、本発明をリモコン型補聴器に適用する場合を想定し説明したが、本発明を耳かけ型或いは耳穴型などのウェアラブルマイクを用いた補聴器に適用することも可能である。ウェアラブルマイクでは、リモコン型補聴器と異なり、マイクロホンアレイの規定方向をユーザのほうに向けることによってユーザの声を分離収音することが困難である。そのため、本発明は、特許文献4に開示されているような、補聴器に骨伝導マイクロホンを付加し自発声による頭蓋振動を検出することによりユーザの声を検出する方法に適用できる。或いは、本発明は、ヘッドセットマイクロホンを装着し口元の音声を検出する方法などに適用することにより、自発声を検出することが出来る。また、本実施の形態は、音源分離部を設けず、短時間ごとにユーザの自発声があるか及びそれ以外の音が音声かどうかのみを判定するようにして、ユーザとそれ以外の話者の会話成立度を求めるようにしてもよい。
 また、他のアプリケーションへの適用としては、本発明を音声レコーダ、デジタルスチルカメラ、ムービー、電話会議システムなどに適用することができる。音声レコーダ、デジタルスチルカメラ、ムービーなどのデジタル記録機器では、記録したい会話以外の他人の会話などの妨害音を抑圧して記録することが出来る。或いは、本発明は、マイクロホンアレイによる入力音を全て記録しておき、後から会話成立度が高くなる組み合わせの会話を抽出し、所望の会話を再生したりすることも可能である。
 また、電話会議システムでは、一方の拠点でのみすぐ近くで他の会議が行われているなど妨害音がある場合、もう一方の静かな拠点から送られてくる声の会話相手を抽出し、それ以外の声を抑圧することで、スムーズに会議を行うことができる。また、両拠点において、妨害音がある場合には、例えば、マイクに入る一番大きい声を検出し、その会話相手を見つけ、それ以外の声を抑圧することにより、同様の効果を得ることができる。
 2010年2月25日出願の特願2010-039698に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明に係る信号処理装置及び信号処理方法は、補聴器、或いは、音声レコーダ、デジタルスチルカメラ、ムービー、電話会議システムなどさまざまな分野における信号処理装置として有用である。
 100,300,400,500 信号処理装置
 110,220 マイクロホンアレイ
 120,230 A/D変換部
 130 音源分離部
 140 音声検出部
 150,310,410,510 識別パラメータ抽出部
 151,511 発話重なり継続長分析部
 152,512 沈黙継続長分析部
 160,320,420,520 会話成立度計算部
 170 会話相手判定部
 180 出力音制御部
 200 補聴器
 210 補聴器本体
 240 CPU
 250 メモリ
 260 イヤホン
 311 笑い検出部
 411,513 発話比率計算部
 

Claims (15)

  1.  複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出部と、
     前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部と、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、
     抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、
     を具備する信号処理装置。
  2.  請求項1記載の信号処理装置において、
     前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、
     前記分離された複数の音源信号のそれぞれについて笑い検出を行い、前記識別パラメータとして、笑い区間情報を抽出する笑い検出部、を具備し、
     前記会話成立度計算部は、
     前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、前記会話成立度を計算する、
     信号処理装置。
  3.  請求項1記載の信号処理装置において、
     前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、
     前記複数の音源信号の組み合わせについて、前記識別パラメータとして、発話比率情報を抽出する発話比率計算部、を具備し、
     前記会話成立度計算部は、
     前記音声区間情報及び前記発話比率情報を用いて、前記会話成立度を計算する、
     信号処理装置。
  4.  前記抽出部は、
     前記発話重なり継続長分析部及び前記沈黙継続長分析部の少なくとも一方において、前記発話重なり継続長又は前記沈黙の継続長の長短の割合を、前記識別パラメータとして抽出する、
     請求項1記載の信号処理装置
  5.  前記抽出部は、
     前記発話重なり継続長分析部及び前記沈黙継続長分析部の少なくとも一方において、前記発話重なり継続長又は前記沈黙の継続長の平均値を、前記識別パラメータとして抽出する、
     請求項1記載の信号処理装置。
  6.  前記会話成立度計算部は、
     前記複数の音源信号で笑いが同時に検出された場合に、前記会話成立度を高くする、
     請求項2記載の信号処理装置。
  7.  前記会話成立度計算部は、
     前記複数の音源信号のうち、第1の音源信号で笑いが検出され、第2の音源信号で笑いが検出されなかった場合には、前記第一の音源信号と前記第2の音源信号との前記会話成立度を変化させない、又は、前記会話成立度を低くする、
     請求項2記載の信号処理装置。
  8.  前記発話比率計算部は、
     前記複数の音源信号のうち、過去一定時間窓内における第1の音源信号と第2の音源信号との発話区間比を、前記発話比率情報とする、
     請求項3記載の信号処理装置。
  9.  複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出部と、
     前記複数の音源信号、又は、前記音声区間情報に基づいて、日常会話の特徴量を示す識別パラメータを抽出する抽出部と、
     抽出された前記識別パラメータに基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、を具備し、
     前記抽出部は、
     前記分離された複数の音源信号のそれぞれについて笑い検出を行って、笑い区間情報を抽出する笑い検出部と、
     前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、発話重なりの連続する区間の長さを示す発話重なり継続長を計算し分析する発話重なり継続長分析部、及び、沈黙の連続する区間の長さを示す沈黙継続長を計算し分析する沈黙継続長分析部の少なくとも一方と、
     前記複数の音源信号の組み合わせについて、発話比率情報を抽出する発話比率計算部と、を具備し、
     前記発話重なり継続長、前記沈黙継続長、前記笑い区間情報、又は、前記発話比率情報を、前記識別パラメータとして抽出する、
     信号処理装置。
  10.  複数のマイクロホンを配置したマイクロホンアレイと、
     前記マイクロホンアレイから入力されたアナログ領域の混合音信号をデジタル領域の信号に変換するA/D変換部と、
     デジタル領域の前記混合音信号を入力とする請求項1記載の信号処理装置と、
     前記会話成立度に応じて、デジタル領域の前記混合音信号を加工して出力する出力音制御部と、
     を具備する信号処理装置。
  11.  前記出力音制御部は、
     指向性制御によりデジタル領域の前記混合音信号を加工して出力する、
     請求項10記載の信号処理装置。
  12.  複数のマイクロホンを配置したマイクロホンアレイと、
     前記マイクロホンアレイから入力されたアナログ領域の混合音信号をデジタル領域の信号に変換するA/D変換部と、
     前記変換されたデジタル領域の前記混合音信号を音源毎に分離する分離部と、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出部と、
     前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部、及び、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、
     抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、
     前記会話成立度に応じて、デジタル領域の前記混合音信号を加工して出力する出力音制御部と、
     を具備する補聴器。
  13.  複数の音源が入り混じった混合音信号を音源毎に分離するステップと、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成するステップと、
     前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、
     抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算するステップと、
     を記録した記憶媒体。
  14.  複数の音源が入り混じった混合音信号を音源毎に分離する分離ステップと、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出ステップと、
     前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、
     抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する計算ステップと、
     を有する信号処理方法。
  15.  前記抽出ステップは、
     前記分離された複数の音源信号のそれぞれについて笑い検出を行って、笑い区間情報を抽出する笑い検出ステップと、
     複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、発話重なりの連続する区間の長さを示す発話重なり継続長を計算し分析する発話重なり継続長分析ステップ、及び、沈黙の連続する区間の長さを示す沈黙継続長を計算し分析する沈黙継続長分析ステップの少なくとも一方と、
     前記複数の音源信号の組み合わせについて、発話比率情報を抽出する発話比率計算ステップと、を有し、
     前記発話重なり継続長、前記沈黙継続長、前記笑い区間情報、又は、前記発話比率情報を、前記識別パラメータとして抽出する、
     請求項14記載の信号処理方法。
     
     
PCT/JP2011/000358 2010-02-25 2011-01-24 信号処理装置及び信号処理方法 Ceased WO2011105003A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US13/262,690 US8498435B2 (en) 2010-02-25 2011-01-24 Signal processing apparatus and signal processing method
CN201180001707.9A CN102388416B (zh) 2010-02-25 2011-01-24 信号处理装置及信号处理方法
EP11746976.7A EP2541543B1 (en) 2010-02-25 2011-01-24 Signal processing apparatus and signal processing method
JP2011523238A JP5607627B2 (ja) 2010-02-25 2011-01-24 信号処理装置及び信号処理方法
US13/927,424 US8644534B2 (en) 2010-02-25 2013-06-26 Recording medium
US13/927,429 US8682012B2 (en) 2010-02-25 2013-06-26 Signal processing method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010039698 2010-02-25
JP2010-039698 2010-02-25

Related Child Applications (3)

Application Number Title Priority Date Filing Date
US13/262,690 A-371-Of-International US8498435B2 (en) 2010-02-25 2011-01-24 Signal processing apparatus and signal processing method
US13/262,690 Continuation US8498435B2 (en) 2010-02-25 2011-01-24 Signal processing apparatus and signal processing method
US13/927,424 Division US8644534B2 (en) 2010-02-25 2013-06-26 Recording medium

Publications (1)

Publication Number Publication Date
WO2011105003A1 true WO2011105003A1 (ja) 2011-09-01

Family

ID=44506438

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/000358 Ceased WO2011105003A1 (ja) 2010-02-25 2011-01-24 信号処理装置及び信号処理方法

Country Status (5)

Country Link
US (3) US8498435B2 (ja)
EP (1) EP2541543B1 (ja)
JP (1) JP5607627B2 (ja)
CN (1) CN102388416B (ja)
WO (1) WO2011105003A1 (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013225002A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> データ分析装置、データ分析方法およびデータ分析プログラム
JP2013225003A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
JP2015004928A (ja) * 2013-06-24 2015-01-08 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP2016133774A (ja) * 2015-01-22 2016-07-25 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2016170405A (ja) * 2015-03-10 2016-09-23 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法及び音声処理プログラム
JP2017063419A (ja) * 2015-09-24 2017-03-30 ジーエヌ リザウンド エー/エスGn Resound A/S 雑音を受ける発話信号の客観的知覚量を決定する方法
JP2017161731A (ja) * 2016-03-09 2017-09-14 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム
JPWO2019139101A1 (ja) * 2018-01-12 2021-01-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2021125037A1 (ja) * 2019-12-17 2021-06-24 ソニーグループ株式会社 信号処理装置、信号処理方法、プログラムおよび信号処理システム
JP2023534154A (ja) * 2020-07-15 2023-08-08 メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー 個別化された音プロファイルを使用するオーディオシステム
WO2025204676A1 (ja) * 2024-03-27 2025-10-02 ソニーグループ株式会社 オーディオ信号処理装置、オーディオ信号処理方法、およびプログラム
WO2025229916A1 (ja) * 2024-04-30 2025-11-06 京セラ株式会社 音処理システム及び音処理方法

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012001928A1 (ja) * 2010-06-30 2012-01-05 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
WO2013006324A2 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation Audio playback system monitoring
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US20140081637A1 (en) * 2012-09-14 2014-03-20 Google Inc. Turn-Taking Patterns for Conversation Identification
US9814879B2 (en) 2013-05-13 2017-11-14 Cochlear Limited Method and system for use of hearing prosthesis for linguistic evaluation
US20160049163A1 (en) * 2013-05-13 2016-02-18 Thomson Licensing Method, apparatus and system for isolating microphone audio
EP2876900A1 (en) 2013-11-25 2015-05-27 Oticon A/S Spatial filter bank for hearing system
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
JP6641832B2 (ja) * 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN106920543B (zh) * 2015-12-25 2019-09-06 展讯通信(上海)有限公司 语音识别方法及装置
US9812149B2 (en) * 2016-01-28 2017-11-07 Knowles Electronics, Llc Methods and systems for providing consistency in noise reduction during speech and non-speech periods
DK3396978T3 (da) 2017-04-26 2020-06-08 Sivantos Pte Ltd Fremgangsmåde til drift af en høreindretning og en høreindretning
CN107895582A (zh) * 2017-10-16 2018-04-10 中国电子科技集团公司第二十八研究所 面向多源信息领域的说话人自适应语音情感识别方法
CN110858476B (zh) * 2018-08-24 2022-09-27 北京紫冬认知科技有限公司 一种基于麦克风阵列的声音采集方法及装置
WO2021164001A1 (en) 2020-02-21 2021-08-26 Harman International Industries, Incorporated Method and system to improve voice separation by eliminating overlap
EP4184948B1 (en) * 2021-11-17 2025-10-15 Sivantos Pte. Ltd. A hearing system comprising a hearing instrument and a method for operating the hearing instrument
US20240089671A1 (en) 2022-09-13 2024-03-14 Oticon A/S Hearing aid comprising a voice control interface
CN116524948A (zh) * 2023-06-02 2023-08-01 阿里巴巴(中国)有限公司 语音分离方法及模型产品、电子设备及计算机存储介质
US20250140241A1 (en) 2023-10-30 2025-05-01 Reflex Technologies, Inc. Apparatus and method for speech processing using a densely connected hybrid neural network

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193298A (ja) 1987-10-02 1989-04-12 Pilot Pen Co Ltd:The 自己音声感度抑圧型補聴器
JP2001045454A (ja) * 1999-08-03 2001-02-16 Fuji Xerox Co Ltd 対話情報配信システムおよび対話情報配信装置並びに記憶媒体
JP2002006874A (ja) 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2003530051A (ja) * 2000-03-31 2003-10-07 クラリティー リミテッド ライアビリティ カンパニー 音声信号抽出のための方法及び装置
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2004243023A (ja) 2003-02-17 2004-09-02 Masafumi Matsumura 笑い検出装置、情報処理装置および笑い検出方法
JP2005037953A (ja) * 2004-07-26 2005-02-10 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US7596498B2 (en) * 2005-09-02 2009-09-29 Microsoft Corporation Monitoring, mining, and classifying electronically recordable conversations
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP4364251B2 (ja) * 2007-03-28 2009-11-11 株式会社東芝 対話を検出する装置、方法およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193298A (ja) 1987-10-02 1989-04-12 Pilot Pen Co Ltd:The 自己音声感度抑圧型補聴器
JP2001045454A (ja) * 1999-08-03 2001-02-16 Fuji Xerox Co Ltd 対話情報配信システムおよび対話情報配信装置並びに記憶媒体
JP2003530051A (ja) * 2000-03-31 2003-10-07 クラリティー リミテッド ライアビリティ カンパニー 音声信号抽出のための方法及び装置
JP2002006874A (ja) 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2004243023A (ja) 2003-02-17 2004-09-02 Masafumi Matsumura 笑い検出装置、情報処理装置および笑い検出方法
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
JP2005037953A (ja) * 2004-07-26 2005-02-10 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AKINORI ITO ET AL.: "Smile and Laughter Recognition using Speech Processing and Face Recognition from Conversation Video", 26 May 2005, TOHOKU UNIVERSITY
See also references of EP2541543A4

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JPWO2012042768A1 (ja) * 2010-09-28 2014-02-03 パナソニック株式会社 音声処理装置および音声処理方法
US9064501B2 (en) 2010-09-28 2015-06-23 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing method
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013225002A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> データ分析装置、データ分析方法およびデータ分析プログラム
JP2013225003A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
JP2015004928A (ja) * 2013-06-24 2015-01-08 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP2016133774A (ja) * 2015-01-22 2016-07-25 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2016170405A (ja) * 2015-03-10 2016-09-23 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法及び音声処理プログラム
JP2017063419A (ja) * 2015-09-24 2017-03-30 ジーエヌ リザウンド エー/エスGn Resound A/S 雑音を受ける発話信号の客観的知覚量を決定する方法
JP2017161731A (ja) * 2016-03-09 2017-09-14 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム
JPWO2019139101A1 (ja) * 2018-01-12 2021-01-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP7276158B2 (ja) 2018-01-12 2023-05-18 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
US11837233B2 (en) 2018-01-12 2023-12-05 Sony Corporation Information processing device to automatically detect a conversation
WO2021125037A1 (ja) * 2019-12-17 2021-06-24 ソニーグループ株式会社 信号処理装置、信号処理方法、プログラムおよび信号処理システム
JPWO2021125037A1 (ja) * 2019-12-17 2021-06-24
US12148432B2 (en) 2019-12-17 2024-11-19 Sony Group Corporation Signal processing device, signal processing method, and signal processing system
JP2023534154A (ja) * 2020-07-15 2023-08-08 メタ プラットフォームズ テクノロジーズ, リミテッド ライアビリティ カンパニー 個別化された音プロファイルを使用するオーディオシステム
WO2025204676A1 (ja) * 2024-03-27 2025-10-02 ソニーグループ株式会社 オーディオ信号処理装置、オーディオ信号処理方法、およびプログラム
WO2025229916A1 (ja) * 2024-04-30 2025-11-06 京セラ株式会社 音処理システム及び音処理方法

Also Published As

Publication number Publication date
US8644534B2 (en) 2014-02-04
EP2541543A4 (en) 2013-11-20
CN102388416A (zh) 2012-03-21
EP2541543B1 (en) 2016-11-30
JP5607627B2 (ja) 2014-10-15
US20130289982A1 (en) 2013-10-31
US20140012576A1 (en) 2014-01-09
CN102388416B (zh) 2014-12-10
US8682012B2 (en) 2014-03-25
US20120020505A1 (en) 2012-01-26
JPWO2011105003A1 (ja) 2013-06-17
EP2541543A1 (en) 2013-01-02
US8498435B2 (en) 2013-07-30

Similar Documents

Publication Publication Date Title
JP5607627B2 (ja) 信号処理装置及び信号処理方法
CN102474681B (zh) 交谈检测装置、助听器和交谈检测方法
CN103155036B (zh) 语音处理装置及语音处理方法
CN110268470B (zh) 音频设备滤波器修改
Chatterjee et al. ClearBuds: wireless binaural earbuds for learning-based speech enhancement
US20180054688A1 (en) Personal Audio Lifestyle Analytics and Behavior Modification Feedback
CN100356446C (zh) 近端讲话人检测方法
Bramsløw et al. Improving competing voices segregation for hearing impaired listeners using a low-latency deep neural network algorithm
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP7577960B2 (ja) 話者予測方法、話者予測装置、およびコミュニケーションシステム
US11736873B2 (en) Wireless personal communication via a hearing device
JP2013142843A (ja) 動作解析装置、音声取得装置、および、動作解析システム
US12452610B2 (en) Methods for synthesis-based clear hearing under noisy conditions
EP3288035B1 (en) Personal audio analytics and behavior modification feedback
Dekens et al. A Multi-sensor Speech Database with Applications towards Robust Speech Processing in hostile Environments.
JP2012252060A (ja) 話者判別装置、話者判別プログラム及び話者判別方法
CN108257607A (zh) 一种多通道语音信号处理方法
CN108133711A (zh) 具有降噪模块的数字信号监测设备
Brandstein et al. Speaker Recognition Using Real vs. Synthetic Parallel Data for DNN Channel Compensation

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180001707.9

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2011523238

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13262690

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2011746976

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2011746976

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11746976

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE