WO2000072308A1 - Interval normalization device for voice recognition input voice - Google Patents

Interval normalization device for voice recognition input voice Download PDF

Info

Publication number
WO2000072308A1
WO2000072308A1 PCT/JP2000/003113 JP0003113W WO0072308A1 WO 2000072308 A1 WO2000072308 A1 WO 2000072308A1 JP 0003113 W JP0003113 W JP 0003113W WO 0072308 A1 WO0072308 A1 WO 0072308A1
Authority
WO
WIPO (PCT)
Prior art keywords
pitch
voice
signal
frequency
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2000/003113
Other languages
English (en)
French (fr)
Inventor
Mikio Oda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to EP00925673A priority Critical patent/EP1102240A4/en
Publication of WO2000072308A1 publication Critical patent/WO2000072308A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • This invention enables a wide range of voice recognition processing for low-pitched male voices and high-pitched female and child voices in a voice recognition device that recognizes the voice of an unspecified speaker.
  • the present invention relates to a speech recognition device, and more specifically, to an input speech pitch normalization device for normalizing a pitch of a recognition target speech according to a pitch of a standard speech of the speech recognition device.
  • voice ⁇ recognition technology has been widely used in consumer electronics due to the improvement of digital signal processing technology and the use of high-performance and low-cost LSIs for processing. It has been introduced to help improve the operability of the equipment.
  • the basic principle of the sound recognition device is that the input sound is converted into a digital sound signal, and the digital sound signal is converted into a sound dictionary prepared in advance.
  • the input speech is recognized by comparing it with the registered standard speech data. For this reason, a special speaker method is required for a specific speaker that is the subject of speech recognition so that it can be easily compared with standard voice data.
  • Some measures have been taken, such as registering the voice of ⁇ in a speech recognition device in advance.
  • a speech recognition device is used as a consumer device, the convenience will be significantly reduced if the speaker is specified, and the product will be lost. Value is lost.
  • utterances by unspecified speakers are various. With regard to such varied utterances by unspecified speakers, the factors that inhibit speech recognition, which impair speech recognition accuracy, can be broadly divided into utterance speed and speech. And the pitch.
  • the utterance speed which is the first obstacle to speech recognition
  • speech recognition is realized by comparing the input speech with a standard-speed speech registered in a speech dictionary prepared in advance. . Therefore, if the difference between the utterance speeds of the two becomes more than a certain value, it is impossible to make a correct comparison, and the speech recognition becomes impossible.
  • the voice pitch which is the second voice recognition factor
  • the voice pitch there is a difference in the pitch of the voice depending on the speaker, such as low-pitched voice of men and high-pitched voice of women and children. Is Rukoto .
  • the difference between the pitch of the voice registered in the voice dictionary prepared in advance and the pitch of the voice uttered by the unspecified speaker exceeds a certain level. If this is not the case, the two voices cannot be correctly compared, and speech recognition becomes impossible.
  • FIG. 5 shows a speech recognition apparatus proposed in Japanese Patent Laid-Open No. 9-325579 to solve the above-mentioned problem.
  • the voice recognition device VRA c includes a voice input unit 111, a utterance speed calculation unit 112, a utterance speed conversion rate determination unit 113, a utterance speed conversion unit 114, and Also includes the speech recognition unit 115.
  • the voice input unit 1 1 1 converts an analog voice signal that captures a voice uttered by an unspecified speaker into a digital signal, performs A / D conversion, and converts the voice signal. Generate.
  • the utterance speed calculating unit 112 calculates the utterance speed of the voice of the unspecified speaker input based on the voice signal.
  • the utterance speed conversion rate determination unit 113 compares the utterance speed calculated by the utterance speed calculation unit 112 with the reference speed, and determines the speed conversion rate.
  • the utterance speed conversion unit 114 converts the utterance speed based on the rate conversion rate.
  • the voice recognition unit 115 performs voice recognition of the input voice signal whose speed has been converted by the voice speed conversion unit 114.
  • the voice uttered by the unspecified speaker is captured via the microphone and the amplifier of the voice input unit 111, and further by the AZD converter.
  • the analog signal is converted to a digital signal.
  • the utterance speed calculating unit 112 extracts one sound of the input voice from the converted digital voice signal.
  • the utterance speed calculation unit 1 12 calculates the utterance speed of one sound from the cut-out time of one cut-out sound.
  • the time required for the utterance speed calculation unit 1 1 2 to cut out the sound (hereinafter referred to as “single sound cut-out time”) is T s, and the unspecified speaker is
  • the reference time required for uttering one sound (hereinafter referred to as “single sound utterance reference time”) is defined as Th.
  • the utterance speed conversion rate determining unit 113 based on the one sound cut-out time T s and the one sound utterance reference time Th, the one sound utterance speed 1ZT s and the reference one sound utterance speed are determined.
  • l ZTh is compared with to determine the speed conversion rate ⁇ .
  • the speed conversion rate ⁇ can be calculated by the following equation (1).
  • one sound cut-out time T s force S 1 sound is shorter than the standard sound utterance time Th. If the utterance speed of the input speech is faster than the utterance speed that can be accurately recognized by the speech recognition device VRAc, the speed conversion rate a becomes smaller than 1. In this case, it is necessary to reduce the utterance speed of the input voice. Conversely, the output time of one sound T s is longer than the reference time of one sound utterance Th, that is, the utterance speed of the input voice is compared to the utterance speed at which the voice recognition device VRAc can accurately recognize it. When the speed is low, the speed conversion rate a is larger than 1. In this case, it is necessary to increase the utterance speed of the input voice.
  • the utterance speed conversion unit 114 converts the input voice signal based on the speed conversion rate a so that the utterance speed becomes constant, and converts the speed of the input voice signal to the speed conversion input voice signal. To generate.
  • the speech recognition unit 115 outputs a recognition result obtained by performing speech recognition processing on the speed conversion input speech signal.
  • the above-mentioned speed conversion can be easily realized by using modern digital technology. For example, to slow down the utterance speed of the input voice, add multiple vowel sound waveforms having a correlation with one sound of the input voice to the voice signal to extend the voice signal utterance time. Good. In order to increase the utterance speed of the input voice, the vowel waveform of one sound of the input voice may be thinned out from the voice signal a plurality of times.
  • speech rate conversion technology is used for unspecified speakers whose utterance speed varies among individuals, especially for speech uttered by a speaker who speaks quickly. It is intended to improve the recognition rate of speech uttered by a fast-talking speaker.
  • the speech generated by an unspecified speaker having a different utterance rate than the reference one-tone utterance rate lZTh can be obtained. It is effective to improve the recognition rate for the speech, that is, to be effective against the first obstacle to speech recognition.
  • the utterance sound having a difference in height from the reference sound that is, the utterance sound having a difference in height, which is a second obstacle to speech recognition, is referred to. Cannot be expected to improve the recognition rate.
  • the speech recognition device VRA c can handle a wide range of frequencies, such as low voices of men, high voices of women, and children, but the high speech recognition rate is high. It cannot be realized. Or, in the case of early opening, and boiled Tsu rather Ri story and intends et al also Do throat attention Ru Oh in a jar Do is already no problem if not force s, this uttered strange E the sound to speaker It is difficult to wish for. This is based on the shape and size of the speaker's throat, and the reference utterance frequency of the speaker is determined. In other words, since the shape of the speaker's throat cannot be changed, the timbre of the utterance cannot be changed.
  • the voice recognition device VRAc requires a male voice. It has multiple standard tone data of different pitches necessary for speech recognition, such as voices of women, children and children, and switches the standard tone data to be referred according to the tone of the speaker. If you don't have a review, you have a review and review issues. Disclosure of invention
  • the present invention has the following features in order to achieve the above-mentioned object.
  • the first phase of rebound is based on speech recognition standard data.
  • An input voice pitch normalization device which is used for a voice recognition device that recognizes input voices uttered by unspecified speakers, and converts the pitch of the input voice into a predetermined relationship with the pitch of voice recognition standard data.
  • a pitch difference judging device for judging a pitch difference between the input speech and the standard data for speech recognition;
  • the frequency of the input voice is converted so that the pitch of the input voice has a predetermined relationship with the pitch of the voice recognition standard data. And a pitch converter.
  • the pitch of the input voice is adjusted according to the pitch of the voice recognition standard data, so that the voice recognition rate can be improved.
  • a reading controller for reading a series of the input voices from the memory and generating a voice signal to be recognized
  • the pitch difference detector is
  • a frequency component analyzer that analyzes a frequency component of the speech signal to be recognized and generates a frequency component signal
  • the apparatus is provided with a pitch determining device that determines a pitch difference between the voice recognition standard data and the basic frequency and generates a pitch difference signal.
  • the input voice may be one sound, or may be a word composed of several sounds.
  • the third aspect is that, in the second aspect, the pitch determiner obtains the first format of the speech signal to be recognized as the basic frequency
  • the target voice to be recognized is one sound. It is characterized in that the pitch difference can be determined stably regardless of whether it is a plurality of sounds or a plurality of sounds.
  • the frequency characteristics are stabilized in units of the input voice. Since the pitch comparison with the recognition standard characteristic data is performed at the first format, processing such as clipping of one sound of the input voice is not required, and processing is quick and the device configuration is simplified. To be sent to
  • the pitch converter converts the memory so that the frequency of the speech signal to be recognized is converted based on the hand signal.
  • a read clock controller for determining a frequency of a timing clock to be read out and generating a read clock signal.
  • the memory outputs a voice signal to be recognized so as to have a pitch having a predetermined relationship with the pitch of the voice recognition standard data based on the m output mouth signal.
  • the reading of memory By changing the timing, it is possible to change the pitch without damaging the waveform characteristics of the speech signal to be recognized. No thinning process is required.
  • the fifth aspect is a speech recognition device provided with the input speech pitch normalization device according to the fourth aspect.
  • the sixth aspect is a speech recognition device for recognizing an input speech uttered by an unspecified speaker based on the speech recognition standard data.
  • the pitch of the input speech is determined in accordance with the pitch of the speech recognition standard data.
  • An input voice pitch normalization device for converting into the relationship
  • a voice analyzer for comparing the input voice whose pitch has been converted with the voice recognition standard data, and generating a recognition signal indicating voice recognition standard data matching the input voice;
  • the pitch of the input voice is adjusted according to the pitch of the voice recognition standard data, so that the voice recognition rate can be improved.
  • the seventh aspect is, in the sixth aspect, a memory for temporarily storing the input voice
  • a readout controller for reading out a series of input voices from the memory and generating a voice signal to be recognized
  • the pitch difference detector is
  • a frequency component analyzer that analyzes a frequency component of a speech signal to be recognized and generates a frequency component signal
  • the basic frequency of the speech signal to be recognized is determined, and the pitch difference between the standard speech recognition data and the basic frequency is determined to generate a pitch difference signal.
  • Pitch determiner Is provided.
  • the input voice may be a single sound or a word composed of several sound powers.
  • the pitch determiner obtains the first frequency of the speech signal to be recognized as a fundamental frequency, and obtains the first frequency of the speech signal to be recognized. By comparing the pitch with the first form of the speech recognition standard data to determine the pitch difference, whether the recognition target speech is one sound or multiple sounds is determined. Also, the feature is that the pitch difference can be determined stably.
  • the frequency characteristics are stable in units of the input speech. Since the pitch is compared with the recognition standard characteristic data in one format, there is no need to perform processing such as cutting out one sound of the input voice, and processing is quick and the device configuration is simplified. Can be used.
  • the pitch converter reads the memory so that the frequency of the speech signal to be recognized is converted based on the pitch difference signal.
  • a readout clock controller for determining a frequency of the timing clock and generating a readout clock signal;
  • the memory outputs a voice signal to be recognized so as to have a pitch having a predetermined relationship with a pitch of voice recognition standard data based on a read-out mouth signal.
  • the waveform characteristic of the speech signal to be recognized is impaired by changing the memory reading timing. You can change that pitch without any This eliminates the need for interpolation and decimation processing.
  • FIG. 1 is a block diagram showing a configuration of a speech recognition device incorporating the input speech normalization device according to the embodiment of the present invention.
  • FIG. 3 is an explanatory diagram of an example of a time change of a speech waveform and a pitch conversion method performed between the examples.
  • FIG. 4 is a flowchart showing the operation of the input speech normalizing apparatus shown in FIG. 1, and FIG.
  • FIG. 5 is a block diagram showing the configuration of a conventional speech recognition apparatus.
  • BEST MODE FOR CARRYING OUT THE INVENTION The present invention will be described in detail with reference to the accompanying drawings in order to explain the present invention in more detail. This will be explained according to the following.
  • the voice recognition device VRAp includes an AZD converter 1, an input voice normalization device Tr, a standard voice data storage unit 13, a voice analyzer 15 and a controller 17.
  • the standard voice data storage unit 13 stores a voice frequency component pattern Psf, which is a reference for voice recognition, and stores the voice frequency component Psf stored at a predetermined timing. Outputs Psf.
  • the uttered voice is input to the voice recognition device VRAp as an analog voice signal SVa via a microphone and an amplifier (not shown).
  • the controller 17 is the other component 1 of the voice recognition device V R A p, Ding! : Based on the operating state signal S s output from, 13, and 15, which indicates the operating state of those components,
  • a control signal Sc for controlling the operations of 1, Tr, 13 and 15 is generated to control the operation of the entire speech recognition apparatus VRAp. Since the operation state signal S s, the operation state signal S c, and the controller 17 are well-known technologies, they are not particularly required for the sake of simplicity of explanation. Not mentioned.
  • the A / D converter 1 performs an AZD conversion process on the input analog audio signal SVa to generate a digital audio signal SVd, and inputs the digital audio signal SVd to the input audio normalization device Tr.
  • the input voice normalization device Tr is based on the input digital voice signal SVd and is a pitch-normalized digital voice that is pitch-converted to the standard pitch of the voice recognition device VRAp.
  • a signal SVc is generated and output to the audio analyzer 15. Based on the audio frequency pattern P sf read from the standard audio data storage 13, the audio analyzer 15 receives a pitch-normalized digit from the input audio normalizer Tr.
  • the voice signal S vc is analyzed, and a recognition signal S rc indicating voice recognition standard data that matches the input voice is output.
  • the input speech normalizer Tr includes a memory 3, a read controller 5, a frequency component analyzer 7, a pitch determiner 9, and a read clock controller.
  • Including vessel 1 1 Memory 3 is The digital audio signal S vd output from the A / D converter 1 is temporarily stored.
  • the read controller 5 monitors the storage of the digital audio signal SV d by the memory 3, generates a read control signal S rc, and outputs the stored digital audio signal S rc.
  • the memory 3 is controlled so that the signal corresponding to the independent utterance of the signal SVd is read out as the digital sound signal unit Svu.
  • the frequency component analyzer 7 subjects the digital audio signal unit Svu output from the memory 3 to a high-speed free-time conversion process, and performs frequency frequency spectrum analysis. Perform the analysis.
  • the frequency component analyzer 7 generates a frequency component signal Sfc based on the frequency spectrum analysis result of the digital audio signal unit SVu.
  • the pitch determinator 9 extracts the first holoremant of the frequency component signal S fc output from the frequency component analyzer 7, and The pitch of the input voice (SVaSVdSvu) and the standard voice based on the first form of the standard voice (standard voice data storage 13) stored and stored in the Find the pitch difference between. Based on the obtained pitch difference, ztr. ⁇
  • the f-determiner 9 further generates a pitch conversion rate signal S cr indicating how much the pitch of the input voice (SV d ⁇ V a SVU) can be converted to the standard pitch.
  • the read clock controller 11 reads the clock for the memory 3 based on the pitch conversion rate signal S cr output from the 9 pitch determiners.
  • the read clock Sec is generated by controlling the frequency.
  • Memory 3 is the timing specified by the read clock Scc.
  • the pitch of the digital audio signal SVd is adjusted to match the pitch of the standard audio.
  • This predetermined pitch relationship does not necessarily mean the same, but an allowable tolerance determined by the performance of the voice recognition device VRAp (especially the voice analyzer 15). It goes without saying that the range is allowed.
  • the voice analyzer 15 analyzes the pitch-normalized digital voice signal SVc input from the memory 3 and reads the reference voice frequency read from the standard voice data storage 13. A recognition signal S rc indicating the one that matches with the wave number component pattern P sf is output.
  • FIG. 2 shows an example of a frequency spectrum obtained as a result of performing a high-speed Fourier transform on the digital audio signal SVd by the frequency component analyzer 7.
  • the horizontal axis indicates the frequency f
  • the vertical axis indicates the intensity A.
  • the dashed line L1 shows an example of a typical voice frequency spectrum of a voice in which the digital voice signal SVd is uttered by a man
  • the dashed line L2 shows a digital signal.
  • the following is an example of a typical voice frequency spectrum of a voice voice signal SV d generated by a woman or a child.
  • the solid line Ls shows an example of the audio frequency spectrum stored in the standard audio data storage 13 as the standard audio data for speech recognition. .
  • the frequency spectrum appears on the lower frequency side compared to the standard voice, and in the case of women or children, the frequency spectrum is broken L2.
  • a wavenumber spectrum appears on the higher frequency region side as compared with the standard sound.
  • the first fundamental frequencies which are the fundamental frequencies of such frequency components, are f1, f2, and fs
  • these fundamental frequencies are It is generally constant for speakers.
  • the first holoremant frequency described here will be briefly described.
  • the formants are named as the first, second, third,... Honoremant from the lower frequency, and were uttered by the same speaker
  • the first honorem of speech is almost constant, whether it is a single sound or a phrase composed of multiple sounds.
  • the reference utterance frequency of the speaker's voice is determined by the shape and size of the speaker's throat as described above.
  • the difference is substantially constant with respect to the individual speaker, not limited to the gender difference and the age difference described above, as well as the content of the uttered leaves.
  • the first volume of the voice sequence The mount is constant for the individual speaker.
  • the pitch determiner 9 obtains the first frequency of the speech uttered by the unspecified speaker, and obtains the fundamental frequency fi (hereinafter, referred to as the unspecified speaker's voice). "Input voice basic frequency fi"). Then, in the pitch determiner 9, the input voice basic frequency fi is compared with the basic frequency fs of the standard voice data (hereinafter, referred to as "standard voice basic frequency fs"), and the input voice basic frequency fs is compared.
  • the pitch ratio CR of the basic frequency fi to the standard voice basic frequency fs is calculated according to the following equation (2).
  • the first formant frequency is acoustically determined uniquely by the shape (length and thickness) of the speaker's throat.
  • the fundamental frequency f m of the voice is lower than the fundamental frequency f s of the standard voice.
  • the pitch ratio CR becomes larger than 1.
  • high women and children have short and thin throats, so their basic frequency f c is higher than the standard frequency f s of standard speech.
  • the pitch ratio CR becomes smaller than 1.
  • the frequency component analyzer 7 generates a pitch conversion rate signal Scr indicating the value of the pitch ratio CR.
  • the output clock controller 11 outputs a digital audio signal Scr based on the pitch conversion rate signal Scr output from the pitch determiner 9.
  • memory 3 By reading the digital audio signal S vd from the memory 3 at a timing that is CR times the sampling timing of Vd, the pitch normalized data is read.
  • a digital audio signal S vc is generated and recorded.
  • memory 3 is commonly called a ring memory. It consists of a circular memory.
  • the pitch ratio CR is greater than 1, that is, when the pitch of the input sound (SVd) is low, the memory is recorded earlier than the sampling mouth.
  • the digital sound signal S vd is read from 3 to generate a pitch-normalized digital sound signal s Vc.
  • the pitch ratio CR is smaller than 1, that is, when the pitch of the input sound (Svd) is higher, the sampling rate is lower than the sampling rate and the timing is higher. Then, the digital audio signal SVd is read out to generate a pitch-normalized digital audio signal SVc.
  • the pitch conversion process in the pitch converter 9 will be further described.
  • the horizontal axis represents time t
  • the vertical axis represents voice intensity A.
  • the waveform WS shows an example of a temporal change of the audio waveform stored in the standard audio data storage unit 13.
  • the waveform WL indicates a voice waveform having a lower pitch than the standard voice data (for example, male voice), and the waveform wH indicates a voice waveform having a higher pitch than the standard voice data (eg, a male voice).
  • the waveform WS, the waveform WL, and one cycle of the waveform WH are represented by PL, PS, and PH, respectively.
  • the periods P L and P H correspond to the reciprocal of the above-mentioned basic frequency f i of the input voice
  • the period P S corresponds to the reciprocal of the basic frequency f s of the standard voice.
  • the reading speed is faster (P / PS) than the sampling clock when the input audio waveform is converted to AZD. This can be achieved by reading it out by mouth.
  • the sample at the time of AZD conversion of the input audio waveform is used. This can be achieved by reading later (by a factor of PHPS) than the clock.
  • the protruding clock is obtained by converting the sampling clock based on the pitch ratio CR defined by the above equation (2).
  • a pitch-normalized digital voice signal SVc obtained by converting the pitch of the digital voice signal SVd according to the pitch of the standard voice is obtained.
  • the time axis of the voice waveform becomes shorter, and when the pitch lowers, the time axis of the voice waveform becomes longer. Resulting in .
  • the speech rate can be adjusted by adding a vowel waveform when raising the pitch, and by thinning out the vowel waveform when lowering the pitch.
  • this technique is well-known and is not the purpose of the present invention, and therefore, its description and illustration are omitted.
  • the frequency conversion of the SJC protruding clock can be easily created using the master clock frequency dividing clock, which is conventionally known. it can .
  • step S2 the voice uttered by the unspecified speaker through a device such as a magic is used as the analog voice signal SVa in the AZD converter 1 Is input to. Then, the process proceeds to the next step S4.
  • step S4 the A / D converter 1 sequentially converts the input analog audio signal SVa into AZD, and Then, the audio signal S vd is generated and output to the memory 3.
  • the above-described steps S2 and S4 form a subroutine # 1000 for receiving an input of the voice uttered by the speaker.
  • step S6 the readout controller 5 monitors the input state of the memory 3 and determines whether or not the voice input by the speaker (analog voice signal SVa) has been completed. Judge whether or not. This determination is made, for example, based on whether or not the interruption period of the input of the analog voice signal SVa has reached a predetermined threshold.
  • the speaker may be configured to indicate to the speech recognition device VRAP or the input speech normalization device Tr using appropriate means that the input has been completed.
  • step S8 If the speaker's utterance continues, it is determined to be No, and the process returns to step S4 described above to generate the digital voice signal SV d and to store the memo. The input to the file 3 is continued. Then, when the input of the analog voice signal SVa of an independent voice train composed of one or several sounds by the speaker is completed, it is determined to be Yes, and The process proceeds to the next step S8.
  • step S8 the read controller 5 outputs the data corresponding to the audio stream independent of the digital audio signal SVd stored in the memory 3.
  • the digital audio signal unit SVu is read out and output to the frequency component analyzer 7.
  • the digital voice signal unit S vu is the target of voice recognition by the voice recognition device VRAp.
  • steps S6 and S8 described above are recognition target voice extraction subroutines for extracting voices to be recognized from voices uttered by the speaker. Form # 2 0 0.
  • step S10 the frequency component analyzer 7 performs high-speed Fourier transform processing on the digital audio signal unit SVu input from the memory 3. Then, the frequency spectrum (Fig. 2) of the digital audio signal unit Svu is analyzed. Then, the process proceeds to the next step S12.
  • step S12 the frequency component analyzer 7 generates the frequency component signal Sfc as described with reference to FIG. Then, the process proceeds to the next step S14.
  • step S 14 the frequency component analyzer 7 outputs the generated frequency component signal Sfc to the pitch determiner 9. Then, the process proceeds to the next step S16.
  • the above-mentioned steps S10, S12, and S14 are the frequency spectrum analysis subroutines of the digital audio signal unit SVu. Form # 3 0 0.
  • step S 16 the pitch determiner 9 determines the input voice (digital) based on the frequency component signal Sfc input from the frequency component analyzer 7.
  • the first frequency which is the fundamental frequency of the audio signal unit S vu
  • the process proceeds to the next step S18.
  • step S18 the pitch determiner 9 stores the first format determined in step S16 in the standard voice data storage unit 13. Then, the pitch ratio CR is calculated in accordance with the above equation (2) in comparison with the first format of the standard audio data to be obtained. Then, the process proceeds to the next step S20.
  • step S20 the pitch determiner 9 generates a pitch conversion rate signal Scr representing the pitch ratio CR, and outputs the readout lock control. Output to controller 1 1. Then, the process proceeds to the next step S22.
  • the above steps S16, S18, and S20 form a pitch determination subroutine # 400 that determines the pitch of the input voice with respect to the standard voice.
  • the read clock controller 11 reads the memory 3 based on the pitch conversion rate signal Scr output from the pitch determiner 9. Generate a read clock Sec that determines the read timing. Then, the process proceeds to the next step S24.
  • step S24 the pitch-normalized digital voice signal SVc is read from the memory 3 based on the read clock Scc.
  • steps S22 and S24 are subroutines # 100 and # 100 that form the pitch-normalized subroutine # 500 of the input voice as described above.
  • the pitch-normalized digital voice signal SVc generated through the processing of # 200, # 300, # 400, and # 500 is sent to the voice analyzer 15. Accordingly, the data is collated with the standard voice data stored in the standard voice data storage unit 13 and subjected to recognition processing.
  • the speech analyzer 15 further generates and outputs a recognition signal Src indicating the recognition result.
  • the basic frequency (first form) detection in the pitch judgment subroutine # 400 can be obtained with only one sound, but the whole utterance word is detected.
  • the average value of can be taken. This is because, as described above, even if the voice uttered by the speaker is one sound, even if it is a voice composed of multiple sound powers, it is the first hormone. Is the speaker They are generally constant every time.
  • the voice analyzer 15 is a standard voice data storage unit 13 that refers to the voice digital signal (pitch normalized digital voice signal SVc) that has been pitch-converted in this way. Then, the degree of coincidence between the voice frequency component pattern of the voice recognition and the input voice frequency component pattern stored in the voice recognition is calculated, and the voice recognition is analyzed.
  • the standard voice By converting the input voice uttered by the unspecified speaker into the pitch of the stored standard voice data in advance, the standard voice can be obtained. Since it is not necessary to have multiple data, it is possible to cope with a wide frequency range of unspecified speakers, and the speech recognition rate can be improved.
  • the pitch of the standard voice data is converted to the input voice (digital voice signal). The pitch may be converted according to the pitch of the signal SV d).
  • the apparatus of the present invention recognizes the sound of the present invention and analyzes the frequency components of the input voice signal, and converts the input voice to the standard voice data for voice recognition.
  • the conversion improves the speech recognition rate based on the tone color difference of the speaker, and eliminates the need to have multiple standard speech data, thus reducing the memory capacity. .
  • this invention is intended for applications that require recognition of speech uttered by an unspecified number of speakers, such as television.

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Telephonic Communication Services (AREA)

Description

明細書 音声認識入力音声の音程正規化装置 技術分野
こ の発 明 は、 不特定話者の音声 を認識す る 音声認識装置 にお い て 、 低音の 男性の 声や、 高音の 女性お よ び子供の声 に も 幅広 く 音声認識処理が 可能 な音声認識装置に 関す る も の で あ り 、 さ ら に詳述すれば、 認識対象音声の音程 を 音声 認識装置の標準音声 の音程に合わせ て 正規化す る 入力 音声 音程正規化装置に 関す る 。 景技術
音声 αίέ識技術は近年、 デ ジ タ ル信号処理技術の 向 上 、 お よ び処理 に用 レ、 ら れ る L S I の高性能化かつ低価格化 な ど に よ り 、 民生機器 に数多 く 導入 さ れて 同機器の操作性向 上 に役立 つ て レヽ る 。 音 尸 6¾識装置の基本原理は、 入力 さ れた 音声 を デ ジ タ ル音声信 号 に変換 し 、 そ のデ ジ タ ル音声信号 を あ ら カゝ じ め用 意 さ れた 音声辞書に登録 さ れた標準音声デ — タ と 照合 し て 、 入力 さ れた音声 を認識す る も の で あ る 。 そ の た め 、 標準音声デー タ と 比較 しやすい よ う に 音尸 wi-識 対象で あ る 特定話者に 対 し て 、 特別 な発 尸 方法 を 要求 し た り 、 それ ら 特疋 S舌 ^ の音声 を あ ら カゝ じ め音声認識装置 に登 録 し て お く な ど の対策が と ら れて い る
し か し な が ら 、 民生機器 と し て 音声認識装置 を 用 い る 場 合に 、 話者 を特定すれ ば利便性が著 し く 殺がれ、 そ の商品 価値が 損 な われ る 。 そ の た め に 、 不特定話者に よ り 発生 さ れた音声 を 音声入力 と し て認識 し な ければな ら な レヽ。 言 う ま で も な く 、 不特定話者に よ る 発声 は様 々 で あ る 。 こ の よ う に不特定話者に よ る 変化に 富 んだ発声 に 関 し て 、 音声認 識精度 を損 な わせ る 音声認識阻害要 因 は大 き く 分 け て 、 発 声速度 と 音声音程 と の 二つで あ る 。
第 1 の音声認識阻害要因 で あ る 発声速度 に 関 し て は 、 例 えば、 早 口 の 人 な ど 、 話者に よ っ て 話す速度 に差が あ る こ と で あ る 。 つ ま り 、 音声認識 は 入力 さ れ る 音声 を 、 あ ら か じ め用 意 さ れた音声辞書に登録 さ れた標準速度の 音声 と 比 較す る こ と に よ っ て 実現 さ れ る 。 そ の た め 、 両者 の発声速 度の 差が 一 定以上 に な る と 、 正 し く 比較で き ずに 、 音声認 識 も 不 可能 に な る 。
第 2 の音声認識要因 で あ る 音声音程に 関 し て は 、 男性の 低音の 音声 、 女性や子供に よ る 高音 の音声な ど 、 話者に よ つ て そ の音声の音程に 差が あ る こ と で あ る 。 こ の場合 に も 、 あ ら カゝ じ め 用 意 さ れた音声辞書 に 登録 さ れた音声の音程 と 、 不 特定話者 に よ り 発声 さ れた音声の音程 と の差が 一定 以上 に な る と 、 両音声 を 正 し く 比較で き ずに 、 音声認識 も 不可能 に な る。
図 5 に 、 上述の 問題 を解決す る も の と し て特開 平 9 — 3 2 5 7 9 8 号公報 に提案 さ れて い る 音声認識装置 を示す。 同図 に 示す よ う に 、 音声認識装置 V R A c は、 音声入力部 1 1 1 、 発声速度算 出 部 1 1 2 、 発声速度変換率決定部 1 1 3 、 発声速度変換部 1 1 4 、 お よ び音声認識部 1 1 5 を 含む。 音声入力 部 1 1 1 は、 不特定話者に よ っ て発声 さ れた音 声を 取 り 込んだア ナ 口 グ音声信号 を デ ジ タ ル信号に変換 A / D 変換 し て音声信号 を 生成す る 。 発声速度算 出部 1 1 2 は、 音声信号に基づいて 入力 さ れた 不特定話者の音声の発 声速度 を 算 出す る 。 発声速度変換率決定部 1 1 3 は 、 発声 速度算 出 部 1 1 2 で算 出 さ れた発声速度 を 基準速度 と 比較 し て 、 速度変換率の決定を行な う 。 発声速度変換部 1 1 4 はそ の速度変換率 に基づい て 発声速度 を 変換す る 。 音声認 識部 1 1 5 は、 声速度変換部 1 1 4 に よ っ て速度変換 さ れ た入力 音声信号の 音声認識 を行 う 。
次に 、 音声認識装置 V R A c の動作に つ い て説明 す る 。 不特定話者 に よ り 発声 さ れた音声は、 音声 入力 部 1 1 1 の マ イ ク お よ び増幅器 を経 由 し て 取 り 込 ま れ、 さ ら に A Z D コ ン バー タ に よ り 、 ア ナ 口 グ信号か ら デ ジ タ ル信号に変換 さ れ る 。 発声速度算 出部 1 1 2 は 、 変換 さ れたデ ジ タ ル の 音声信号か ら 入力 音声の一音 を切 り 出す。 そ し て 、 発声速 度算 出 部 1 1 2 は切 り 出 さ れた 一音の切 り 出 し 時間 よ り 、 一音 の発 声速度 を 算 出す る 。
そ こ で 、 発声速度算 出 部 1 1 2 が ー音の切 り 出 し に要す る 所要時間 (以降 、 「 1 音切 出 時間」 と 称す) を T s と し 、 不特定話者が一音 の発声 に要す る 基準時間 (以降、 「 1 音発声基準時間」 と 称す) を T h と す る 。 そ し て 、 発声速 度変換率決定部 1 1 3 において 、 1 音切 出時間 T s お よ び 一音発声基準時間 T h に基づいて 、 1 音発声速度 1 Z T s と 基準一音発声速度 l Z T h と を 比較 し 、 速度変換率 α を 決定す る 。 速度変換率 α は次式 ( 1 ) に よ っ て 算 出 で き る a = T s / T h · · · · ( l ) 上記 1 式カゝ ら 明 ら かな よ う に 、 1 音切 出 時間 T s 力 S 1 音 発声基準時間 T h よ り 短い、 つ ま り 入力音声の発声速度が 音声認識装置 V R A c に よ っ て 正確に認識で き る 発声速度 に比べて 早い場合 に は、 速度変換率 a は 1 よ り 小 さ く な る 。 こ の場合 、 入力 音声 の発声速度 を遅 く し てや る 必要が あ る 。 逆 に 1 音切 出 時間 T s 力 1 音発声基準時間 T h よ り 長 い、 つ ま り 入力 音声の発声速度が音声認識装置 V R A c に よ っ て 正確 に認識で き る 発声速度 に 比べて 遅い場合 に は、 速度変換率 a は 1 よ り 大 き い。 こ の場合、 入力音声の発声 速度 を 早 く し てや る 必要が あ る 。
音声認識装置 V R A c にお い て は 、 速度変換率 a に 基づ いて発声速度変換部 1 1 4 が発声速度が一定に な る よ う に 入力 音声信号の速度変換 し て速度変換入力 音声信号 を 生成 す る 。 音声認識部 1 1 5 は、 速度変換入力 音声信号に 対 し て 音声認識処理 を 施 し て得 ら れた認識結果 を 出 力 す る 。
上述の速度変換 は最近のデ ジ タ ル技術 を使用 す る こ と で 容易 に 実現で き る 。 例 え ば、 入力 音声の発声速度 を 遅 く す る 場合は 、 入力 音声の 一音 と 相 関性 を有す る 母音波形 を 音 声信号に複数個追加 し て 音声信号の発声時間 を 延 ばせば良 い。 ま た 、 入力 音声の発声速度 を速 く す る 場合は、 入力音 声の一音 の母音波形 を複数回 に渡 っ て音声信号か ら 間 引 け ば良 い。
こ の処理は、 話速変換 と 呼ばれ る 入力 音声の音程を 変化 さ せ る こ と な く 話速 を 変換 さ せ る 技術で あ る 。 すな わ ち 、 音声認識において 、 発声速度 に個人差が あ る 不特定話者の う ち 、 特に 早 口 で し ゃ べ る 話者 に よ る 発声 さ れた音声に対 し て話速変換技術を利用 し て 、 早 口 の話者に よ り 発声 さ れ た音声の認識率向上 を 図 る も の で あ る 。
し カゝ し な 力 ら 、 上述の従来の音声認識装置 V R A c にお レ、て は 、 基準一音発声速度 l Z T h に比べて 、 発声速度の 異な る 不特定話者に よ る 音声 に対す る 認識率 を 向 上 さ せ る こ と 、 つ ま り 第 1 の 音声認識阻害要因 に対 し て 効果的で あ る 。 し か し な 力 S ら 、 基準音声 に 対 し て 高低差の あ る 発声音 声、 つ ま り 第 2 の音声認識阻害要因 で あ る 高低差の あ る 発 尸 " 尸 (こ対 し て は 、 認識率の 向 上 は期待で き な い。
詳述すれば、 音声認識装置 V R A c は 、 男性 の低い声、 女性、 お よ び子供の 高 い声な ど の幅広い周 波数 レ ン ジ に対 応で き る が 、 高 い音声認識率 は実現で き な い。 ま た 、 早 口 の場合は、 ゆ つ く り 話 し て も ら う な ど注意 を う な がせば済 む問題で あ る 力 s 、 話者に 音色 を 変 え て発声す る こ と を望む の は困難で あ る 。 こ れは 、 話者の喉の形状お よ び大 き さ に よ っ て 、 話者の 基準発声周 波数が 決定 さ れ る 。 つ ま り 、 話 者の喉の形状 を 変 え る こ と はで き な レ、 の で 、 そ の発声音色 も 変 え る こ と は で き な い。
そ の た め 、 音声認識装置 V R A c にお レ、 て は 、 不特定話 者間 の発声 にお け る 音色差に 対 し て も 音声認識率の 向 上 を 図 る に は、 男性の声 、 女性、 お よ び子供の 声な ど音声認識 に必要 な 異な る 音程の標準音 声デー タ を複数持 ち 、 話者の 音色 に応 じ て 、 参照す る 標準音声デー タ を切 り 換 え な けれ ばな ら な レヽ と レヽ ぅ 課題 を 有 し て レ、 る 。 発明 の 開示
本発明 は 、 上記の よ う な 目 的 を達成す る た め に 、 以下 に 述べ る よ う な特徴を 有 し て レ、 る 。
反発 明 の 第 1 の局面 は 、 音声認識標準デー タ に基づいて
、 不特定話者が発声 し た 入力 音声 を認識す る 音声認識装置 に用 い ら れ、 入力音声の 音程 を音声認識標準デー タ の音程 と 所定の 関係 に変換す る 入力 音声音程正規化装置で あ っ て 入力 音声 と 音声認識標準デー タ と の音程差 を 判断す る 音 程差判 断器 と 、
音程差判 断器に よ っ て 判断 さ れた音程差に 基づい て 、 入 力 音声 の 音程が音声認識標準デー タ の音程 と 所定の 関係 に な る よ う に 、 入力音声の周 波数を変換す る 音程変換器 と を 備 え る 。
上述 の よ う に 、 第 1 の 局面 にぉ レ、 て は、 入力 音声の音程 が音声認識標準デー タ の 音程 に合わせて調整 さ れ る の で 、 音声認識率 を 向 上で き る 。
第 2 の 局面 は 、 第 1 の 局面 にお いて 、 入力 音声 を 一時記 憶す る メ モ リ と 、
入力 音声 の一繋が り を メ モ リ か ら 読み出 し て認識対象音 声信号 を 生成す る 読 出制御器 と を さ ら に備 え 、
音程差判断器は、
認識対象音声信号の 周 波数成分 を分析 し て 周 波数成分 信 号 を 生成す る 周波数成分分析器 と 、
周 波数成分信号 に 基づい て 、 認識対象音 声信号の 基本 周 波数 を 求 め る と と も に 、 音声認識標準デー タ と 基本周 波 数の音程差を判定 し て 音程差信号 を 生成す る 音程判定器 と を備 え る 。
上述の よ う に 、 第 2 の 局面 にお い て は、 入力 音声が 1 音 で あ っ て も 良い し 、 数音か ら 成 る 単語で あ っ て も 良い。
第 3 の局面は、 第 2 の 局面 にお い て 、 音程判 定器は認識 対象音声信号の第 1 ホ ル マ ン ト を基本周 波数 と し て求 め 、
5¾ g 象音声信 号の第 1 ホ ル マ ン ト を音声認識標準デー タ の 第 1 ホノレマ ン ト と 比較 し て 、 音程差を判 定す る こ と に よ り 、 認識対象音声が 1 音お よ び複数音の何れで あ っ て も 、 音程差 を安定 し て 判 定 で き る こ と を特徴 と す る 。
上述の よ う に 、 第 3 の 局面 にお い て は、 入力 音声が 1 音 あ る い は数音力ゝ ら 成 る 単語で あ っ て も 、 入力音声単位で周 波数特性の安定 し た第 1 ホ ルマ ン ト で認識標準特性デー タ と の 音程比較 を行 う の で 、 入力 さ れ る 音声の一音切 り 出 し 等 の処理が 不要 と な り 処理が迅速かつ装置構成 を簡略に で さ る 。
第 4 の局面 は 、 第 3 の 局面 にお い て 、 音程変換器は 、 曰 手王 信号に 基づ い て認識対象音声信 号の周 波数が 変 換 さ れ る よ う に 、 メ モ リ の読み出す タ イ ミ ン グ ク ロ ッ ク の 周 波数を決定 し て 読出 ク 口 ッ ク 信号 を 生成す る 読出 ク 口 ッ ク 制御器 と を備 え 、
メ モ リ は m出 ク 口 ッ ク 信号 に 基づい て 、 音声認識標準デ ー タ の音程 と 所定の 関係 の音程 を 有す る よ う に認識対象音 声信 号 を 出力す る こ と を 特徴 と す る 。
上述の よ う に 、 第 4 の 局面 にお い て は 、 メ モ リ の読み 出 し タ イ ミ ン グ を 変 え る こ と に よ っ て認識対象音声信号の波 形特徴 を損な う こ と な く そ の音程を 変 え る こ と が で き る の で、 補間や間 引 き 処理が不要で あ る 。
第 5 の局面 は 、 第 4 の局面 にお け る 入力 音声音程正規化 装置 を備 え る 音声認識装置。
第 6 の局面 は 、 音声認識標準デー タ に基づいて 、 不特定 話者が発声 し た入力 音声 を認識す る 音声認識装置で あ っ て 入力 音声の音程 を 音声認識標準デー タ の音程 と 所定の 関 係 に 変換す る 入力 音声音程正規化装置 と 、
音程 を 変換 さ れた入力 音声 を 音声認識標準デー タ と 比較 し て 、 入力 音声 と 合致す る 音声認識標準テ ー タ を 示す認識 信号 を 生成す る 音声分析器 と を備 え る 。
上述 の よ う に 、 第 6 の局面 にお い て は、 入力 音声の音程 が音声認識標準デー タ の音程に 合わせて調整 さ れ る の で 、 音声認識率 を 向 上で き る 。
第 7 の局 面 は 、 第 6 の局面 に お い て 、 入力 音声 を 一時記 憶す る メ モ リ と 、
入力 音声の一繋が り を メ モ リ か ら 読み出 し て認識対象音 声信 号 を 生成す る 読出制御器 と を さ ら に備 え 、
音程差判断器は、
認識対象音声信号の周波数成分 を 分析 し て周 波数成分 信号 を 生成す る 周波数成分分析器 と 、
周 波数成分信号 に基づい て 、 認識対象音声信号の基本 周 波数 を 求 め る と と も に 、 音声認識標準デー タ と 基本周 波 数の音程差を 判 定 し て 音程差信 号 を 生成す る 音程判 定器 と を備 え る 。
上述の よ う に 、 第 7 の局面 にお い て は、 入力音声が 1 音 で あ っ て も 良 レ、 し 、 数音力ゝ ら 成 る 単語であ っ て も 良 い。
第 8 の局面は 、 第 7 の局面 にお い て 、 音程判 定器は認識 対象音声信号の第 1 ホ ルマ ン ト を 基本周波数 と し て求 め 、 認識対象音声信号の第 1 ホ ル マ ン ト を音声認識標準デー タ の第 1 ホ ル マ ン 卜 と 比較 し て 、 音程差 を判定す る こ と に よ り 、 認識対象音声が 1 音お よ び複数音の何れで あ っ て も 、 音程差を安定 し て判 定で き る こ と を 特徴 と す る 。
上述の よ う に 、 第 8 の 局面 に お い て は、 入力 音声が 1 音 あ る い は数音か ら 成 る 単語で あ っ て も 、 入力 音声 単位で周 波数特性の安定 し た第 1 ホ ル マ ン 卜 で認識標準特性デー タ と の音程比較 を 行 う の で、 入力 さ れ る 音声の一音切 り 出 し 等の処理が 不要 と な り 処理が迅速かつ装置構成 を簡略に で き る 。
第 9 の局面 は 、 第 8 の局面 に お い て 、 音程変換器は、 音程差信 号 に基づい て認識対象音声信号の 周 波数が変 換 さ れ る よ う に 、 メ モ リ の読み 出 す タ イ ミ ン グ ク ロ ッ ク の 周 波数 を 決定 し て 読出 ク 口 ッ ク 信号 を 生成す る 読出 ク 口 ッ ク 制御器 と を備 え 、
メ モ リ は読出 ク 口 ッ ク 信号に 基づいて 、 音声認識標準デ — タ の音程 と 所定の 関係 の音程 を 有す る よ う に認識対象音 声信号 を 出 力す る こ と を特徴 と す る 。
上述の よ う に 、 第 4 の局面 にお い て は、 メ モ リ の読み出 し タ イ ミ ン グ を 変 え る こ と に よ っ て認識対象音声信号の波 形特徴 を 損 な う こ と な く そ の音程 を 変 え る こ と が で き る の で、 補間や間 引 き 処理が 不要で あ る 。 図面 の簡 単な説明
図 1 は 、 本発 明 の実施の形態に かか る 入力 音声正規化装 置を組み込んだ音声認識装置の構成 を示すプ ロ ッ ク 図 であ 、
2 は、 異な る 音程 を 有す る 音声の周 波数 ス ぺ ク ト ルを 示す図 で あ り 、
図 3 は 、 音声波形の時間 変化例お よ びそ れ ら の 間 で行わ れ る 音程変換方法の説明 図 で あ り 、
図 4 は 、 図 1 に示 し た 入力 音声正規化装置の動作 を示す フ 口 — チ ャ ー ト で あ り 、 そ し て 、
5 は 、 従来 の音声認識装置の構成 を示すプ ロ ッ ク 図 で あ る 発明 を 実施す る た め の最良 の形態 本発明 を よ り 詳細 に 説述す る た め に 、 添付の 図 面 に従 つ て こ れ を 説明 す る 。
図 1 を 参照 し て 、 本発 明 の 実施形態 にかか る 入力 音声音 程正規化装置 を組み込ん だ音声認識装置 に つ い て説明 す る 。 音声認識装置 V R A p は 、 A Z D コ ンバー タ 1 、 入力 音 声正規化装置 T r 、 標準音声デー タ 格納器 1 3 、 音声分析 器 1 5 、 お よ び制御器 1 7 を含む。 標準音声デー タ 格納器 1 3 は 、 音声認識の 基準 と な る 音声周 波数成分パ タ ー ン P s f を格納 し 、 所定の タ イ ミ ン グで格納 し て い る 音声周波 数 ノ《 タ ー ン P s f を 出 力 す る 。 なお 、 不特定話者 に よ っ て 発声 さ れ た音声はマ イ ク お よ び増幅器 (図示せず) を経由 して ア ナ ロ グ音声信号 S V a と し て音声認識装置 V R A p に入力 さ れる 。
制御器 1 7 は 、 音声認識装置 V R A p の他の構成要素 1 、 丁 !: 、 1 3 、 お よ び 1 5 カゝ ら 出力 さ れ る 、 それ ら の動作 状態 を 示す動作状態信号 S s に基づい て それ ら の構成要素
1 、 T r 、 1 3 、 お よ び 1 5 の動作を制御す る 制御信号 S c を 生成 し て 、 音声認識装置 V R A p 全体の動作 を 制御す る。 なお 、 動作状態信号 S s 、 動作状態信号 S c 、 お よ び 制御器 1 7 につ いて公知 の技術で あ る の で、 説明 の簡便化 の た め に 特 に必要の な い限 り は言及 し な い。
A / D コ ンパー タ 1 は 、 入力 さ れた ア ナ ロ グ音声信号 S V a に A Z D 変換処理 を施 し てデジ タ ル音声信号 S V d を 生成 し て 、 入力 音声正規化装置 T r に入力す る 。 入力音声 正規化装置 T r は、 入力 さ れたデ ジ タ ル音声信号 S V d に 基づい て 、 音声認識装置 V R A p の標準音程に合わせて 音 程変換 さ れた音程正規化デ ジ タ ル音声信号 S V c を 生成 し て 、 音声分析器 1 5 に 出 力す る 。 音声分析器 1 5 は 、 標準音声デー タ 格納器 1 3 か ら 読み 出 さ れた音声周 波数パ タ ー ン P s f に基づいて 、 入力 音声正規化装置 T r か ら 音 程正規化デ ジ タ ル音声信号 S v c を分析 し て 、 入力 音声 と 合致す る 音声認識標準デー タ を 示す認識信号 S r c を 出力 す る 。
なお 、 図 1 に示す よ う に 、 入力 音声正規化装置 T r は、 メ モ リ 3 、 読出制御器 5 、 周 波数成分分析器 7 、 音程判定 器 9 、 お よ び読出 ク ロ ッ ク 制御器 1 1 を含む。 メ モ リ 3 は A / D コ ンバー タ 1 か ら 出力 さ れ る デ ジ タ ル音声信号 S v d を 一時的 に保存す る 。 読出制御器 5 は 、 メ モ リ 3 に よ る デ ジ タ ル音声信号 S V d の保存 を 監視す る と と も に読出 制御信号 S r c を 生成 し て 、 保存 さ れたデ ジ タ ル音声信号 S V d の う ち で独立 し た発声 に対応す る も の をデ ジ タ ル音 声信号ュ ニ ッ ト S v u と し て読み 出す よ う に メ モ リ 3 を制 御す る 。
周 波数成分分析器 7 は 、 メ モ リ 3 力 ら 出力 さ れ る デ ジ タ ル音声信号ュ ニ ッ ト S v u に 高速 フ 一 リ ェ変換処理を施 し て 、 周 波数 ス ぺ ク ト ル分析を行 う 。 周 波数成分分析器 7 は 、 デ ジ タ ル音声信 号ュ ニ ッ 卜 S V u の周 波数 ス ぺ ク ト ル分 析結果 に基づレヽ て 、 周 波数成分信号 S f c を 生成す る 。
音程判 定器 9 は 、 周 波数成分分析器 7 か ら 出 力 さ れ る 周 波数成分信号 S f c の第 1 ホ ノレ マ ン ト を抽出 し 、 あ ら カゝ じ め音程判 定器 9 内 に格納 さ れて レヽ る 標準音声 (標準音声デ — タ 格納器 1 3 ) の第 1 ホルマ ン ト に基づ レ、 て 、 入力 音声 ( S V a S V d S v u ) の音程 と 該標準音 声 の音程差 を 求 め る 。 求 め ら れた 音程差に 基づ レ、 て ztr. ί
f 判 定器 9 は さ ら に 入力 音声 ( S V d ^ V a S V U ) の 音程 を どの 程度変換すれば標準音程に 合わせ る こ と が で き る かを示す 音程変換率信号 S c r を 生成す る
読出 ク ロ ッ ク 制御器 1 1 は 音程判 定器 9 カゝ ら 出 力 さ れ る 音程変換率信号 S c r に基づレヽ て 、 メ モ リ 3 に対す る 読 み出 し ク ロ ッ ク 周 波数を制御 し て 読 出 ク ロ ッ ク S e c を生 成す る 。
メ モ リ 3 は 読出 ク ロ ッ ク S c c に規定 さ れ る タ イ ミ ン グで、 保存 さ れて い る デ ジ タ ル音声信号 S V d を 読み 出す こ と に よ っ て 、 デ ジ タ ル音声信号 S V d の音程が標準音声 の音程に合わせて調整 さ れた音程正規化デ ジ タ ル音声信号 S v c を 出力す る 。 つ ま り 、 音程正規化デ ジ タ ル音声信号 S V c は基準音声周 波数成分パ タ ー ン P s f と 所定の音程 関係 を 有す る 。 こ の所定の音程関係 と は、 必ず し も 同 一 を 意味す る も の で な く 、 音声認識装置 V R A p (特に 音声分 析器 1 5 ) の性能 に よ っ て 自 ず と 決ま る 許容範囲 が認め ら れる こ と は言 う ま で も な レ、。
音声分析器 1 5 は 、 メ モ リ 3 か ら 入力 さ れ る 音程正規化 デジ タ ル音声信号 S V c を 分析 し て 、 標準音声デー タ 格納 器 1 3 か ら 読み 出 さ れた基準音声周 波数成分パ タ ー ン P s f で合致す る も の を 示す認識信号 S r c を 出 力 す る 。
次 に 、 図 2 お よ び図 3 を 参照 し て 、 音声認識装置 V R A p の動作の基本原理につ い て説明す る 。
図 2 に 、 周 波数成分分析器 7 に よ る デ ジ タ ル音声信号 S V d に 高速 フ ー リ エ変換 を 施 し た結果得 ら れ る 、 周 波数 ス ベ ク ト ル の例 を 示す。 同 図 に お い て 、 横軸 は周 波数 f を 示 し 、 縦軸 は強度 A を 示 し て い る 。 な お 、 一点鎖線 L 1 はデ ジ タ ル音声信号 S V d が 男性 に よ り 発声 さ れた 音声の代表 的な音 声周 波数ス ぺ ク ト ノレ例 を 示 し 、 破線 L 2 はデ ジ タ ル 音声信 号 S V d が 女性 あ る いは子供に よ り 発声 さ れた音声 の代表的 な音声周 波数ス ぺ ク ト ル例 を示 し て レ、 る 。
そ し て 実線 L s は音声認識用 の標準音声デー タ と し て標 準音声デー タ 格納器 1 3 に格納 さ れて い る 、 音声周 波数 ス ぺ ク ト ル例 を 示 し て レ、 る 。 一般的 に 、 同 じ 音声 (言葉) で も 、 男 性の場合は一 鎖線 L 1 に示す よ う に標準音声 に比 ベて低周 波数領域側 に 周波数 ス ぺ ク ト ルが現れ、 女性 あ る いは子供の場合は破 L 2 に示す よ う に 、 標準音声に比べ て 高周 波数領域側 に 波数ス ぺ ク ト ル が現れ る 。
こ の よ う な周 波数成分の それぞれの基本周 波数で あ る 第 1 ホ ル マ ン ト 周 波数を f 1 、 f 2 、 お よ び f s と す る と 、 こ れ ら の基本周 波数は話者に対 し て概ね一定で あ る 。 こ こ で述べ る 第 1 ホ ノレ マ ン ト 周 波数につ い て簡単に説明す る 。 音声波形 を 時間領域か ら 周 波数領域 に 変換す る と 、 通常 5 k H z 以 下 に母音 の δ哉別 に 大 き な役割 を 占 め る ホ ノレ マ ン ト と 呼ばれ る 4 5 個程度の ピー ク が観測 さ れ る 。 ホ ル マ ン ト は周 波数の低い方 ら 第 1 、 第 2 、 第 3 、 · · · ホ ノレマ ン ト と 名 付 け ら れ る そ し て 、 同一 の話者に よ り 発声 さ れ た音声 の 第 1 ホ ノレマ ン ト は、 一音で あ っ て も 、 複数の音か ら構成 さ れ る 句 で あ て も 概ね一定で あ る 。
こ れ は 、 上述 の如 < 話者の喉の形状お よ び大 き さ に よ つ て 、 話者の声の 基準の発声周 波数が 決定 さ れ る こ と と 同 じ 理由 に よ る 。 つ ま り 上述の よ う な 不特定話者 に よ り 発声 さ れ た 音声の第 1 ホ ル マ ン ト 周 波数 と 標準音声デー タ の 第 1 ホ ノレマ ン ト 周 波数 ス ぺ ク ト ル の差は 、 上述の性差や年齢 差、 さ ら に発声 し た 葉の 内容 に 限 ら ず話者個 人 に対 し て 実質上一定で あ る 。 つ ま り 、 発声 し た音声が 1 音 だ け で あ つ て も 、 数音力、 ら 成 る 単語や句の よ う な音声列 で あ っ て も 、 そ の 音声列の第 1 ホ ル マ ン ト は話者個人 に対 し て 一定で あ る 。
こ の 事実 に基づ い て 、 本発 明 にお い て は周 波数成分信号 S f c に基づいて 、 音程判定器 9 は不特定話者 に よ り 発声 さ れた音声の第 1 ホ ルマ ン ト 周 波数 を求 め て 不特定話者音 声の基本周 波数 f i (以降、 「入力 音声基本周 波数 f i 」 と 称す) を 求 め る 。 そ し て 、 音程判 定器 9 にお いて 、 入力 音声基本周 波数 f i を標準音声デー タ の基本周 波数 f s ( 以降、 「標準音声基本周 波数 f s 」 と 称す) と 比較 し て 、 入力 音声基本周 波数 f i の標準音声基本周 波数 f s に対す る 音程比 C R を 、 以 下 に示す式 ( 2 ) に従 っ て算 出 さ れ る
C R = f s / f i • · · · ( 2 )
上述 の 如 く 、 第 1 ホ ル マ ン ト 周 波数は 、 音響的 に は 、 話 者 の 喉 の形状 (長 さ 、 太 さ ) に よ っ て 一義的 に決 ま る 。 つ ま り 、 男性は喉が長 く 太いの で 、 そ の 音 声 の基本周 波数 f m は標準音声の基本周 波数 f s よ り 低い。 結果 、 音程比 C R は 1 よ り 大 き く な る 。 一方、 高 い女性や子供は喉が短 く 細い の で 、 そ の 基本周 波数 f c は標準の音声の基本周 波数 f s よ り 高 い。 結果 、 音程比 C R は 1 よ り 小 さ く な る 。 こ の よ う な一般的 な傾 向 と と も に 、 話者毎 に音程比 C R は 固 有で あ る 。 さ ら に 、 周 波数成分分析器 7 は音程比 C R の値 を 示 す音程変換率信号 S c r を 生成す る 。
出 ク ロ ッ ク 制御器 1 1 は 、 音程判 定器 9 か ら 出 力 さ れ る 音程変換率信 号 S c r に 基づ い て 、 デ ジ タ ル音声信号 S
V d の サ ン プ リ ン グ タ イ ミ ン グ の C R 倍 の タ イ ミ ン グ で メ モ リ 3 力 ら ァ シ タ ル音声信号 S v d を読み 出す こ と で、 音 程正規化デ ジ タ ル音声信号 S v c を 生成 し て レヽ る 。 こ の よ う な 目 的の た め に 、 メ モ リ 3 は一般 に リ ン グ メ モ リ と 呼ば れ る 循環 メ モ リ で構成 さ れ る 。
音程比 C R が 1 よ り 大 き レヽ 、 つ ま り 入力音声 ( S V d ) の音程が低い場合 は、 サ ンプ リ ン グ ク 口 ッ ク よ り 早レヽ タ イ ミ ン グで 、 メ モ リ 3 か ら デジ タ ル音 信 号 S v d を 読み出 し て音程正規化デ ジ タ ル音声信号 s V c を生成す る 。 一方 、 音程比 C R が 1 よ り 小 さ レヽ 、 つ ま り 入力音声 ( S v d ) の音程力 高 レヽ場合は、 サ ン プ リ ン グ ク 口 ッ ク よ り 遅レ、 タ イ ミ ン グ で、 デ ジ タ ノレ音声信号 S V d を読み出 し て 音程正規 化デ ジ タ ル音声信号 S V c を 生成す る 。
図 3 を 参照 し て 、 音程変換器 9 にお け る 音程変換処理に つレヽ て 、 さ ら に説明す る 。 同 図 にね レ、 て横軸 は時間 t を示 し、 縦軸 は音声 の強度 A を示す。 波形 W S は標準音声デー タ 格納器 1 3 に格納 さ れて い る 音声波形の時間変化例 を示 す。 波形 W L は標準音声デ一 タ に比ベて音程の低い音声波 形 (例 え ば男性の音声) を示 し 、 波形 w H は標準音声デー タ に比 ベ て 音程の 高 い音声波形 (例 え ば女性や子供の音声 ) を示す。 同 図 に おレヽ て 、 波形 W S 、 波形 W L 、 お よ び波 形 W H の 1 周 期 を 、 それぞれ P L 、 P S 、 お よ び P H と 表 し て い る 。 周 期 P L お よ び P H は上述の 入力 音声基本周 波 数 f i の逆数に相 当 し 、 周 期 P S は標準音声基本周 波数 f s の逆数 に相 当 す る
波形 W L を 波形 W S に合わせて 音程変換す る に は、 入力 音声波形 を A Z D 変換す る 時の サ ン プ リ ン グ ク ロ ッ ク よ り 、 速い ( P し / P S 倍) 読み 出 し ク 口 ッ ク で読み 出せば実 現で き る 。 ま た 、 波形 W H を 波形 W S に合わせて 音程変換 する に は 、 入力 音声波形 を A Z D 変換す る 時の サ ンプ リ ン グ ク ロ ッ ク よ り 、 遅 い ( P H P S 倍) 読み出 し ク ロ ッ ク で読み 出せば実現で き る 。 つ ま り 、 み出 し ク ロ ッ ク は 、 上式 ( 2 ) で規定 さ れた音程比 C R に基づいて 、 サ ン プ リ ン グ ク ロ ッ ク を 変換す る こ と で得 ら れ る
こ の よ う に し て 、 デ ジ タ ル音声信号 S V d の音程を標準 音声の 音程 に合わせて 変換 し た音程正規化デジ タ ル音声信 号 S V c 力;得 ら れ る 。 し カゝ し な が ら 、 音程 を 上げ る 場合は 音声波形 の時間軸が 短 く な り 、 音程 を 下が る 場合 は音声波 形の 時間軸が長 く な る の で 、 話速度が 変化 し て し ま う 。 こ れ を 解決す る た め に 、 音程 を 上 げ る 場合 に は母音波形 を 追 加 し 、 音程 を 下 げ る 場合に は母音波形 を 間 引 く こ と に よ り 話速度 を調整で き る が 、 こ の技術は公知 で あ る と と も に 、 本発 明 の 目 的 と す る と こ ろ で は な いの で、 そ の説明 お よ び 図示 を 省 く 。 さ ら に 、 SJCみ出 し ク ロ ッ ク の周 波数変換 も 、 従来カゝ ら 知 ら れて レ、 る マ ス タ一ク ロ ッ ク の 分周 ク ロ ッ ク を 用 いて 容易 に作成で き る 。
次 に 、 図 4 に 示す フ ロ ー チ ヤ ー ト を 参照 し て 、 音声認識 装置 V R A p に組み込 ま れた 入力 音声正規化装置 T r の動 作に つ い て説明 す る 。 音声認識装置 V R A p が駆動 さ れて 、 そ の 音声認識動作が 開始 さ れ る 。
ス テ ッ プ S 2 に お い て 、 マ ィ ク 等の装置 を通 し て 不特定 話者 に よ り 発声 さ れた 音声が ア ナ ロ グ音声信号 S V a と し て A Z D コ ンバー タ 1 に入力 さ れ る 。 そ し て 、 処理は次の ス テ ッ プ S 4 に 進 む。
ス テ ッ プ S 4 に お い て 、 A / D コ ンバー タ 1 は入力 さ れ た ア ナ 口 グ音声信号 S V a を順次 A Z D 変換 し て 、 デ ジ タ ル音声信号 S v d を 生成 して メ モ リ 3 に 出 力す る 。 なお、 上述の ス テ ッ プ S 2 お よ び S 4 は、 話者に よ り 発声 さ れた 音声の入力受付サ ブルーチ ン # 1 0 0 を形成す る 。
ス テ ッ プ S 6 にお い て 、 読出制御器 5 は メ モ リ 3 の入力 状態 を監視 し て 、 話者 に よ る 音声入力 (ア ナ ロ グ音声信号 S V a ) が終了 し た か否かを判断す る 。 こ の判断は、 一例 と し て 、 ア ナ 口 グ音声信号 S V a の 入力 中 断時間 が所定の 閾値に達 し て レ、 る か否かを も っ て な さ れ る 。 そ の他、 話者 が入力 終 了 の 旨 を適 当 な手段 を 用 い て 音声認識装置 V R A p ま た は入力 音声正規化装置 T r に指示す る よ う に構成 し て も 良 い。
話者の発声が継続 し て い る 場合は N o と 判断 さ れて 、 処 理は上述の ス テ ッ プ S 4 に戻 り 、 デ ジ タ ル音声信号 S V d の生成お よ び メ モ リ 3 への入力 が継続 さ れ る 。 そ し て 、 話 者に よ る 一音 ま た は数音か ら 成 る 独立 し た音声列 の ア ナ 口 グ音声信号 S V a の 入力 が終了 し た 時点で Y e s と 判断 さ れて 、 処理は次 の ス テ ッ プ S 8 に進む。
ス テ ッ プ S 8 にお レヽ て 、 読 出 制御器 5 は 、 メ モ リ 3 に記 憶 さ れて い る デ ジ タ ル音声信号 S V d か ら 独立 し た音声列 に対応す る デ ジ タ ル音声信号ュ ニ ッ ト S V u を 読み出 し て 周 波数成分分析器 7 に 出力 さ せ る 。 デ ジ タ ル音声信号ュ ニ ッ ト S v u は、 音声認識装置 V R A p に よ る 音声認識対象 であ る 。 そ し て 、 処理は次の ス テ ッ プ S 1 0 に進む。 なお 、 上述の ス テ ッ プ S 6 お よ び S 8 は 、 話者 に よ り 発声 さ れ た音声の う ち 、 認識対象 と な る 音声 を 取 り 出す認識対象音 声抽出 サ ブルー チ ン # 2 0 0 を 形成す る 。 ス テ ッ プ S 1 0 にお い て 、 周 波数成分分析器 7 は メ モ リ 3 か ら 入力 さ れ る デ ジ タ ル音声信号ュ ニ ッ ト S V u に高速 フ ー リ エ変換処理を施 し て 、 デジ タ ル音声信号ュニ ッ ト S v u の周 波数ス ぺ ク ト ル (図 2 ) の分析 を行 う 。 そ し て 、 処理は次の ス テ ッ プ S 1 2 に進む。
ス テ ッ プ S 1 2 にお い て 、 周 波数成分分析器 7 は 、 図 2 を参照 し て説明 し た よ う に 、 周 波数成分信号 S f c を生成 す る 。 そ し て 、 処理は次の ス テ ッ プ S 1 4 に進む。
ス テ ッ プ S 1 4 において 、 周 波数成分分析器 7 は生成 し た周 波数成分信号 S f c を音程判 定器 9 に 出力 す る 。 そ し て 、 処理は 次の ス テ ッ プ S 1 6 に進む。 なお 、 上述の ス テ ッ プ S 1 0 、 S 1 2 、 お よ び S 1 4 は、 デ ジ タ ル音声信号 ュニ ッ ト S V u の周 波数 ス ぺ ク ト ル分析サ ブル ー チ ン # 3 0 0 を形成す る 。
ス テ ッ プ S 1 6 にお いて 、 音程判定器 9 は周 波数成分分 析器 7 か ら 入力 さ れ る 周 波数成分信号 S f c に基づ レ、 て 、 入力 さ れた音声 (デ ジ タ ル音声信号ユ ニ ッ ト S v u ) の基 本周 波数で あ る 第 1 ホ ルマ ン ト を抽 出す る 。 そ し て 、 処理 は次の ス テ ッ プ S 1 8 に進む。
ス テ ッ プ S 1 8 にお レ、 て 、 音程判定器 9 は ス テ ッ プ S 1 6 で求 め ら れた第 1 ホ ルマ ン ト を 、 標準音声デー タ 格納器 1 3 に格納 さ れて レヽ る 標準音声デー タ の第 1 ホ ルマ ン ト と 比較 し て 、 上記 ( 2 ) 式に従 っ て 、 音程比 C R を 算 出す る 。 そ し て 、 処理は次の ス テ ッ プ S 2 0 に進む。
ス テ ッ プ S 2 0 にお いて は 、 音程判 定器 9 は音程比 C R を表す音程変換率信 号 S c r を 生成 し て 、 読出 ク 口 ッ ク 制 御器 1 1 に 出力す る 。 そ し て 、 処理は次の ス テ ッ プ S 2 2 に進む。 なお、 上述の ス テ ッ プ S 1 6 、 S 1 8 、 お よ び S 2 0 は、 標準音声 に 対す る 入力音声の音程の 高低 を判定す る 音程判 定サブルーチ ン # 4 0 0 を形成す る 。
ス テ ッ プ S 2 2 にお レ、 て 、 読出 ク ロ ッ ク 制御器 1 1 は音 程判定器 9 か ら 出 力 さ れ る 音程変換率信号 S c r に基づい て 、 メ モ リ 3 の読み 出 し タ イ ミ ン グ を 決め る 読出 ク ロ ッ ク S e c を 生成す る 。 そ し て 、 処理は次の ス テ ッ プ S 2 4 に 進む。
ス テ ッ プ S 2 4 にお レ、 て 、 読出 ク ロ ッ ク S c c に基づい て 、 メ モ リ 3 か ら 音程正規化デ ジ タ ル音声信 号 S V c が読 み出 さ れ る 。 なお 、 上述の ス テ ッ プ S 2 2 お よ び S 2 4 は 、 入力 音声の音程正規化サ ブルーチ ン # 5 0 0 を形成す る 上述 の 如 く サ ブ ルー チ ン # 1 0 0 、 # 2 0 0 、 # 3 0 0 、 # 4 0 0 、 お よ び # 5 0 0 の処理 を経て 生成 さ れた音程 正規化デ ジ タ ル音声信 号 S V c は、 音声分析器 1 5 に よ つ て 、 標準音声デー タ 格納器 1 3 に格納 さ れて い る 標準音声 デー タ と 照合 さ れて認識処理 を 受 け る 。 音声分析器 1 5 は さ ら に 、 認識結果 を 示す認識信号 S r c を 生成 し て 出 力す る 。
音程判 定サ ブルー チ ン # 4 0 0 ( S 1 6 ) にお け る 基本 周 波数 (第 1 ホ ル マ ン ト ) 検 出 は 、 一音だ け で も 求 ま る が 、 発声単語全体の 平均値 を と つ て も 良い。 こ れは 、 上述 し た よ う に 、 話者に よ り 発声 さ れた音声 は 1 音 であ っ て も 、 複数音力ゝ ら 成 る 音声 で あ っ て も そ の第 1 ホ ル マ ン ト は話者 毎に概ね一定で あ る カゝ ら で あ る 。
さ ら に 、 音程比 C R は厳 し く 求 め る 必要 は な く 、 音程変 換で通常使用 さ れ る 1 0 0 0 ( セ ン ト ) 単位で近似 し て も 十分 に音程変換の効果 が あ る 。 音声分析器 1 5 は、 こ の よ う に し て音程変換 さ れた音声デ ジ タ ル信号 (音程正規化デ ジ タ ル音声信号 S V c ) を参照す る 標準音声デー タ 格納器 1 3 に格納 さ れて い る 音声認識の 音声周 波数成分パ タ ー ン と 入力 音声周 波数成分パ タ ー ン と の 一致度 を 算 出 し 、 音声 認識分析す る 。
こ の よ う に不特定話者 に よ り 発声 さ れた 入力 音声 を 、 あ ら カゝ じ め 、 格納 さ れた標準音声デー タ の音程に 音程変換す る こ と に よ り 、 標準音声デー タ を複数持つ必要が な く 、 不 特定話者の幅広 い周 波数 レ ン シ に も 対応 で き 、 音声認識率 の 向 上が で き る 。 なお 、 入力音声 (デ ジ タ ル音声信号 S V d ) の音程 を標準音声デー タ の 音程 に 合わせて音程変換す る 代 わ り に 、 標準音声デー タ の音程 を 入力 音声 (テ ジ タ ノレ 音声信号 S V d ) の 音程に 合わせて 音程変換 し て も 良 い。
以 上の よ う に 、 本発 明 の 音 尸 認 !¾.装置は 、 入力 さ れた音 声信 号の周 波数成分 を 分析 し 、 入力 音声 を 音声認識用 の標 準音声デー タ に 音程変換す る こ と で、 話者の音色差に よ る 音声認識率の 向 上 を 図 り 、 し か も 標準音声デー タ を複数持 つ必要が な く 、 メ モ リ 容量を低減で さ る 。 産業上 の利用 可能性
以上 の よ う に 、 こ の発 明 は、 テ レ ビ ジ ョ ン の よ う な 不特定 多数の話者に よ り 発声 さ れた 音声の認識 を 必要 と す る 用 途
io o£ _ ει Is/00 ,3d u

Claims

請求の範囲
1 . 音声認識標準デー タ に基づいて 、 不特定話者が発声 し た入力 音声 を認識す る 音声認識装置 に用 い ら れ、 当 該入力 音声 の音程 を 当 該音声認識標準デー タ の音程 と 所定の 関係 に変換す る 入力音声音程正規化装置で あ っ て 、
前記入力音声 と 前記音声認識標準デー タ と の音程差 を 判断す る 音程差判断手段 と 、
前記音程差判断手段 に よ っ て判断 さ れた音程差 に 基づ い て 、 前記入力音声 の 音程が 前記音声認識標準デー タ の音 程 と 所定の 関係 に な る よ う に 、 当 該入力 音声 の周 波数 を 変 換す る 音程変換手段 と を備 え る 入力 音声音程正規化装置。
2 . 前記入力 音声を 一時記憶す る メ モ リ 手段 と 、
前記入力音声の一繋が り を 前記 メ モ リ 手段か ら 読み出 し て認識対象音声信号 を 生成す る 読出制御手段 と を さ ら に 備 え 、
前記音程差判断手段 は 、
前記認識対象音声信 号の 周 波数成分 を 分析 し て 周 波数 成分信号 を 生成す る 周 波数成分分析手段 と 、
前記周 波数成分信号に基づ い て 、 前記認識対象音声信 号の 基本周 波数 を 求 め る と と も に 、 前記音声認識標準デ一 タ と 当 該基本周 波数の 音程差 を 判 定 し て音程差信号 を 生成 す る 音程判 定手段 と を備 え る 請求項 1 に記載の入力 音声音 程正規化装置。
3 . 前記音程判 定手段 は前記認識対象音声信号の第 1 ホ ル マ ン ト を基本周 波数 と し て 求 め 、 当 該認識対象音声信号の 第 1 ホ ルマ ン ト を前記音声認識標準デー タ の第 1 ホ ルマ ン 卜 と 比較 し て 、 前記音程差を判定す る こ と に よ り 、 前記認 識対象音声が 1 音お よ び複数音の何れで あ っ て も 、 音程差 を 安定 し て 判定で き る こ と を特徴 と す る 請求項 2 に記載の 入力音声音程正規化装置。
4 . 前記音程変換手段は 、
前記音程差信号 に基づい て 前記認識対象音声信号の周 波数が 変換 さ れ る よ う に 、 前記 メ モ リ の読み 出す タ イ ミ ン グ ク 口 ッ ク の周 波数 を 決定 し て 読出 ク 口 ッ ク 信号を 生成す る 読出 ク 口 ッ ク 制御手段 と を備 え 、
前記 メ モ リ は前記読出 ク 口 ッ ク 信号 に 基づい て 、 前記 音声認識標準デー タ の 音程 と 所定の 関係 の 音程を有す る よ う に 前記認識対象音声信号を 出 力 す る こ と を 特徴 と す る 請 求項 3 に記載の入力 音声音程正規化装置。
5 . 請求項 4 に記載の 入力 音声音程正規化装置 を備 え る 音 声認識装置。
6 . 音声認識標準デー タ に 基づ い て 、 不特定話者が発声 し た 入力 音声 を認識す る 音声認識装置 で あ っ て 、
当 該入力 音声の 音程 を 当 該音声認識標準デー タ の音程 と 所定 の 関係 に 変換す る 入力 音声音程正規化装置 と
前記音程を 変換 さ れた入力 音声 を 前記音声認識標準デ ー タ と 比較 し て 、 当 該入力音声 と 合致す る 当 該音声認識標 準テ 一 タ を 示す認識信号を生成す る 音声分析手段 と を備 え る 音声認識装置。
7 . 前記入力 音声 を 一時記憶す る メ モ リ 手段 と 、
前記入力 音声の一繋が り を 前記 メ モ リ 手段か ら 読み出 し て認識対象音声信号 を 生成す る 読出制御手段 と を さ ら に備 え、
前記音程差判断手段は 、
前記認識対象音声信号の周 波数成分を 分析 し て周 波数 成分信号 を 生成す る 周波数成分分析手段 と 、
前記周 波数成分信号に基づ い て 、 前記認識対象音声信 号の基本周 波数 を 求 め る と と も に 、 前記音声認識標準デー タ と 当 該基本周 波数の音程差を 判定 し て音程差信号 を 生成 す る 音程判 定手段 と を備 え る 請求項 6 に記載の音声認識装 置。
8 . 前記音程判 定手段は前記認識対象音声信号の第 1 ホ ル マ ン ト を 基本周 波数 と し て求 め 、 当 該認識対象音声信 号の 第 1 ホ ル マ ン ト を 前記音声認識標準デー タ の第 1 ホ ル マ ン ト と 比較 し て 、 前記音程差を判定す る こ と に よ り 、 前記認 識対象音声が 1 音お よ び複数音 の何れで あ っ て も 、 音程差 を 安定 し て 判 定で き る こ と を 特徴 と す る 請求項 7 に記載の 音声認識装置。
9 . 前記音程変換手段 は 、
前記音程差信 号に基づい て 前記認識対象音声信号の周 波数が 変換 さ れ る よ う に 、 前記 メ モ リ の読み出す タ イ ミ ン グ ク 口 ッ ク の周 波数 を決定 し て読出 ク 口 ッ ク 信号 を 生成す る 読出 ク ロ ッ ク 制御手段 と を備 え 、
前記 メ モ リ は前記読出 ク ロ ッ ク 信号に 基づい て 、 前記 音声認識標準デー タ の音程 と 所定の 関係の 音程を 有す る よ う に前記認識対象音声信号 を 出 力 す る こ と を特徴 と す る ? 5H 求項 8 に記載の 音声認識装置。
PCT/JP2000/003113 1999-05-21 2000-05-16 Interval normalization device for voice recognition input voice Ceased WO2000072308A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP00925673A EP1102240A4 (en) 1999-05-21 2000-05-16 DEVICE FOR INTERVAL NORMALIZING AN INPUT SIGNAL FOR VOICE RECOGNITION

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP11/141838 1999-05-21
JP14183899 1999-05-21

Publications (1)

Publication Number Publication Date
WO2000072308A1 true WO2000072308A1 (en) 2000-11-30

Family

ID=15301333

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2000/003113 Ceased WO2000072308A1 (en) 1999-05-21 2000-05-16 Interval normalization device for voice recognition input voice

Country Status (4)

Country Link
EP (1) EP1102240A4 (ja)
KR (1) KR100423630B1 (ja)
CN (1) CN1136538C (ja)
WO (1) WO2000072308A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100803894B1 (ko) * 2001-05-17 2008-02-15 신세다이 가부시키 가이샤 음계 인식 방법 및 그 장치

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1793370B1 (en) 2001-08-31 2009-06-03 Kabushiki Kaisha Kenwood apparatus and method for creating pitch wave signals and apparatus and method for synthesizing speech signals using these pitch wave signals
CN100458914C (zh) * 2004-11-01 2009-02-04 英业达股份有限公司 语音识别系统以及方法
AU2006272451B2 (en) * 2005-07-18 2010-10-14 Diego Giuseppe Tognola A signal process and system
EP1904816A4 (en) 2005-07-18 2014-12-24 Diego Giuseppe Tognola SIGNAL PROCESS AND SYSTEM
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
KR101674597B1 (ko) * 2014-03-28 2016-11-22 세종대학교산학협력단 음성 인식 시스템 및 방법
CN107895579B (zh) * 2018-01-02 2021-08-17 联想(北京)有限公司 一种语音识别方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS46205B1 (ja) * 1966-03-24 1971-01-06
JPH02275999A (ja) * 1989-04-18 1990-11-09 Oki Electric Ind Co Ltd 音紋の照合方法
JPH02275997A (ja) * 1989-04-18 1990-11-09 Oki Electric Ind Co Ltd 音紋照合方法における測定音紋変換処理方法
EP0290190B1 (en) * 1987-04-30 1991-10-09 Oki Electric Industry Company, Limited Pattern matching system
JPH04102900A (ja) * 1990-08-22 1992-04-03 Matsushita Electric Ind Co Ltd 音程変換装置
JPH06214596A (ja) * 1993-01-14 1994-08-05 Ricoh Co Ltd 音声認識装置および話者適応化方法
EP0390037B1 (en) * 1989-03-27 1994-08-10 Matsushita Electric Industrial Co., Ltd. Pitch shift apparatus
JPH09325798A (ja) * 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd 音声認識装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5839099A (en) * 1996-06-11 1998-11-17 Guvolt, Inc. Signal conditioning apparatus

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS46205B1 (ja) * 1966-03-24 1971-01-06
EP0290190B1 (en) * 1987-04-30 1991-10-09 Oki Electric Industry Company, Limited Pattern matching system
EP0390037B1 (en) * 1989-03-27 1994-08-10 Matsushita Electric Industrial Co., Ltd. Pitch shift apparatus
JPH02275999A (ja) * 1989-04-18 1990-11-09 Oki Electric Ind Co Ltd 音紋の照合方法
JPH02275997A (ja) * 1989-04-18 1990-11-09 Oki Electric Ind Co Ltd 音紋照合方法における測定音紋変換処理方法
JPH04102900A (ja) * 1990-08-22 1992-04-03 Matsushita Electric Ind Co Ltd 音程変換装置
JPH06214596A (ja) * 1993-01-14 1994-08-05 Ricoh Co Ltd 音声認識装置および話者適応化方法
JPH09325798A (ja) * 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd 音声認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
See also references of EP1102240A4 *
SEICHI NAKAGAWA ET AL.: "Spoken word recognition based on normalization of speaker differences spectra", IEICE TECHNICAL REPORT (AUTOMATON), vol. 79, no. 200, 20 December 1979 (1979-12-20), pages 79 - 86, AL79-78, XP002933260 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100803894B1 (ko) * 2001-05-17 2008-02-15 신세다이 가부시키 가이샤 음계 인식 방법 및 그 장치

Also Published As

Publication number Publication date
EP1102240A1 (en) 2001-05-23
CN1310839A (zh) 2001-08-29
KR100423630B1 (ko) 2004-03-22
CN1136538C (zh) 2004-01-28
KR20010053542A (ko) 2001-06-25
EP1102240A4 (en) 2001-10-10

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
KR100629669B1 (ko) 분산 음성인식 시스템
NL8300718A (nl) Werkwijze en inrichting voor herkenning van een foneem in een stemsignaal.
JPH0990974A (ja) 信号処理方法
WO2013002674A1 (ru) Система и способ распознавания речи
JP2018040982A (ja) 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
JP2002536691A (ja) 音声認識除去方式
Magre et al. A comparative study on feature extraction techniques in speech recognition
US20020065649A1 (en) Mel-frequency linear prediction speech recognition apparatus and method
WO2007046267A1 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
WO2000072308A1 (en) Interval normalization device for voice recognition input voice
JP2016042152A (ja) 音声認識装置及びプログラム
JP2002236494A (ja) 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2019032400A (ja) 発話判定プログラム、発話判定方法、及び発話判定装置
JP2001042889A (ja) 音声認識入力音声の音程正規化装置
JP3354252B2 (ja) 音声認識装置
JP2002189487A (ja) 音声認識装置および音声認識方法
JP4328423B2 (ja) 音声識別装置
JP2004341340A (ja) 話者認識装置
JP2009058548A (ja) 音声検索装置
JPH0345839B2 (ja)
JP2004139049A (ja) 話者正規化方法及びそれを用いた音声認識装置
JPH11338492A (ja) 話者認識装置
Kim et al. Speech/music discrimination using mel-cepstrum modulation energy
KR100322704B1 (ko) 음성신호의지속시간변경방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 00800952.X

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): CN KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE

WWE Wipo information: entry into national phase

Ref document number: 2000925673

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 09743578

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1020017000649

Country of ref document: KR

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWP Wipo information: published in national office

Ref document number: 2000925673

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020017000649

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 1020017000649

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 2000925673

Country of ref document: EP

WWW Wipo information: withdrawn in national office

Ref document number: 2000925673

Country of ref document: EP