WO1988001090A1 - Reconnaissance de la parole - Google Patents

Reconnaissance de la parole Download PDF

Info

Publication number
WO1988001090A1
WO1988001090A1 PCT/JP1987/000569 JP8700569W WO8801090A1 WO 1988001090 A1 WO1988001090 A1 WO 1988001090A1 JP 8700569 W JP8700569 W JP 8700569W WO 8801090 A1 WO8801090 A1 WO 8801090A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
similarity
voice
data
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP1987/000569
Other languages
English (en)
French (fr)
Inventor
Junichiroh Fujimoto
Seigou Yasuda
Tomofumi Nakatani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to DE3790442A priority Critical patent/DE3790442C2/de
Priority to GB8807531A priority patent/GB2202667B/en
Priority to JP62504580A priority patent/JP3002200B2/ja
Publication of WO1988001090A1 publication Critical patent/WO1988001090A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Definitions

  • the present invention generally relates to a voice deriving device, and particularly relates to a method of matching voice patterns and a method of performing similarity evaluation used in a voice deducing device.
  • the voice to be used is registered in advance, and the voice input later is checked to see which voice is most similar to the already registered voice, and the unknown input voice is deciphered. This is the so-called pattern mounting.
  • the pattern matching method is widely used because it has a smaller number of operations and higher accuracy than other methods, for example, methods using ⁇ different functions.
  • FIG. 1 is a configuration diagram for explaining an example of the above-described pattern matching method.
  • 1 is a sound collector such as a microphone
  • 2 is a filter bank
  • 3 is a dictionary
  • 4 is a local beak detector
  • 5 is a similarity minode part
  • 6 is a recognition result output part.
  • speech obtained through a sound collecting device such as a microphone is converted into a characteristic amount such as a frequency spectrum.
  • a characteristic amount such as a frequency spectrum.
  • the number of samples is m on the frequency. This means that 8 xml 2 xm bits can represent one time sample (one frame).
  • the n-frame pattern is 8 xmxi! ⁇ 12 x ia xn bits.
  • One of the patterns for performing Nope turn matching a ⁇ , a 2 i 3 ⁇ 4 ⁇ at ⁇ a other patterns of bt, b 2 iota-b have b 21 ⁇ b "to 2 Divide D which represents the difference between the two patterns
  • the city area is separated like this.
  • the execution of the 8112 bits can be executed i * j times to compare one pattern.
  • the above example is a case where it is determined that the lengths of two patterns to be compared are equal. If the time length always changes, such as voice, more operations are needed to match the time length. Need.
  • FIG. 2 is a block diagram for explaining an example of the above BTSP.
  • 11 is a sound collecting device such as a microphone
  • 12 is a filter bank
  • 13 is a correction unit using a least square
  • 14 is a correction unit.
  • Binarization section 15 is a BTSP creation part
  • 16 is a kamino part of n times utterance pattern by linear expansion and contraction
  • 17 is a dictionary part
  • 18 is a beak pattern generation part
  • 19 is a pattern length matching part by linear expansion and contraction
  • 20 Is the similarity part
  • 21 is the result display part.
  • the voice input from the microphone is frequency-analyzed using a group of band bus filters, etc. ).
  • this is converted to BTSP by binarizing it with “1” centering on the frequency beak and “0” for the others, and BTSP obtained by uttering multiple times is superimposed on a standard pattern. And register.
  • this voice also creates a BTSP in the same way as when the standard pattern was created, and compares it with a pre-registered standard pattern to determine the similarity of each standard pattern.
  • the similarity is determined from the degree of overlap of the ⁇ 1J element when the BTSP of the unknown speech and the standard pattern are overlapped.
  • an unspecified speaker speech recognition device that can deceive anyone's voice, means to increase the amount of speech, such as creating a plurality of standard patterns for one voice to be registered, is used. Has the merit that if a standard pattern is successfully created, it is easy to realize a voice recognition device for an unspecified speaker without a significant increase in the amount of computation.
  • the device shown in Fig. 2 performs linear matching between an input pattern obtained by binarizing speech generated in words and a dictionary pattern and discusses the input pattern.
  • the specific speaker system shown in FIG. 2 is registered as a voice according to the path of the ⁇ line.
  • the dictionary is newly created as a superposition of BTSP.
  • This method has the advantage that if the filter bank is set to 16 channels, the binarized result can be treated as 16-bit data.
  • This sequence of 16 data is called one frame.
  • This 16-bit, 2-byte data Data obtained by adding data three times (dictionary pattern or standard pattern), one element has a maximum of three, so each element must be represented by 2 bits. Become. In this case, the two bits are divided into upper and lower bits, the upper one frame is allocated to two bytes of data, and the lower one is allocated to another two bytes. This is shown in FIG. That is, one horizontal row of 2 bytes corresponds to 16 filters of the filter bank.
  • the product of the value of each channel and the unknown input and the 4-byte pattern is higher and lower If the logical product is obtained by associating each byte with a bit, it can be easily obtained, and the operation is easy.
  • This method can be performed quickly even if the number of calculated values is small and the number of patterns to be matched is relatively large. However, if each element of the dictionary pattern cannot be expressed in about 2 bits, for example, 4 to 6 bits When the number of words to be registered increases, it is necessary to play with each of them. On the other hand, when the number of words to be registered exceeds 500, this method also takes time.
  • a typical example of the speaker-independent method is a multi-template method. In this method, a plurality of standard patterns are prepared for one category to be registered, and the most similar pattern is selected from these. I Find what you have.
  • the unspecified speaker method requires a large number of operations, and as a result, it has disadvantages such as a long time to be accused and a low correct answer rate.
  • a BTSP-based recognition method has been announced as a simple method suitable for the speaker-independent method. (See Fig. 2)
  • a set of frequency data sampled at a certain point in time can be equally attached to a register of about 2 bytes and pulled out. The amount is small.
  • ' Figure 4 shows how to assign the output of 16 filters to a 2-byte register. For example, if such data is superimposed three times and the sum is calculated, each value becomes 0 to 3; as shown in FIG. 5, and cannot be represented by the two bytes so far. . Therefore, as shown in Fig. 6, each value is represented in binary, and only the upper part is represented by 2 bytes with 13 ⁇ 4, and the lower part is represented by 2 bytes as one set. In order to find the similarity between the standard pattern and the unknown input pattern created as shown in Fig.
  • the two bits are superimposed and corresponded as shown in Fig. 7.
  • the product is taken as the similarity.
  • FIG. 8 a method as shown in FIG. 8 can be considered.
  • the standard pattern is divided into high order and low order as shown in Fig. 6, and the unknown input and the high order are overlapped and the logical product of each pulse is calculated.
  • the lower part is also ANDed, and the sum of the values of the upper bits is doubled or added twice. If the sum of the lower bits is added, the same result as in Fig. 7 can be obtained, and this is used as the similarity.
  • the similarity between all the registered standard patterns and the unknown input pattern is determined, and the unknown input is classified into the standard pattern having the maximum similarity among them. And outputs the label attached to the standard pattern as an authenticated result. In this way, the similarity can be calculated easily.
  • the most time-consuming operation in this method is the logical AND between two sets of binary patterns. This is the part that calculates the sum of each bit value of.
  • the present invention has been made in order to solve the above-mentioned drawbacks of the conventional technology area, and in particular, to provide a voice recognition apparatus which can perform high-speed pattern matching with a small number of operations. aimed to.
  • Another object of the invention is to provide a simple pattern similarity performance method useful for speech recognition.
  • Still another object of the invention is to provide a pattern similarity method that is useful for speech recognition that minimizes the amount of performance and enables high-speed processing.
  • a means for recording a voice a means for converting the recorded voice into a plurality of features, and a feature pattern created by quantizing the features at intervals that can be regarded as the same time.
  • a voice deriving device which is characterized in that data sampled at an interval to be assigned is evenly allocated to a calculation unit of a computer for calculation.
  • voice is converted to a characteristic amount, sampled at a certain interval at a PP interval to form a series of data per unit time, and the set of data is converted to a power of 2 as a unit.
  • one data takes a value of 2 or more, it is divided into multiple units of registers, and in the speech pattern similarity calculation method, multiple units representing a series of samples are handled. More than one unit of this register is used to determine the degree of similarity with unknown input patterns by using all the unregistered registers, or a part of registers of a plurality of units that represent a single sample is logical.
  • a voice pattern similarity calculation method is provided in which a new pattern is created by performing a calculation, and a similarity is obtained by asking the unknown input pattern.
  • This aspect of the invention is based on the fact that each element of a series of data is uniformly allocated to each bit of each upper register unit and each lower register unit.
  • the voice is converted into a characteristic amount, sampled at a certain time interval to form a series of data per unit time, and the pair of data is assigned to a register in which a unit of power of 2 is one unit.
  • one data value is 2 or more, it is divided into multiple units of registers and handled.
  • the similarity between an unknown input pattern and one or more registers of a plurality of units representing a series of sambles is obtained by using a register whose number is not completely.
  • a voice is converted into a characteristic amount, a fixed time interval is sampled to form a set of data, and the set of data is set to a power of 2 as one unit.
  • one data takes two or more values, it is divided into a plurality of sets of registers, handled, and the similarity is measured to compare the magnitude of the similarity.
  • the degree comparison method when the similarity is calculated by performing primary matching between a previously registered standard pattern and an unknown pattern, the similarity already obtained is divided into a plurality of registers and held. ⁇ Compare the value obtained by comparing the input with a part of the standard pattern and the value in some registers of the similarity that has already been calculated. The feature is that the similarity calculation of Was, the pattern similarity ratio ⁇ method is provided.
  • voice is converted into a feature value, sampled at a certain time interval to form a pair of data per unit time, and the pair of data is set to a power of 2 as one unit.
  • one data takes on more than one value, it is obtained by means other than the above feature in the voice pattern matching method that handles this by dividing it into multiple unit registers.
  • the features of the second ... nth (where ⁇ is an integer) Based on this information, a voice pattern matching method is provided which specializes in controlling a special amount of pattern matching based on this information.
  • This aspect of the present invention is made in view of the above-mentioned problems of the prior art, and includes the control information in the BTS ⁇ data, thereby speeding up the calculation and disconnection, and improving the recognition.
  • the aim was to improve the rate.
  • the ⁇ TS ⁇ method expresses voice formant information as binary data of 0 and 1, and if it is handled as 16-bit data as described above, it will produce a lot of usefulness. .
  • This aspect of the present invention further applies the information necessary for the convergence operation and the information that can be judged as 0 or 1 by one shamble data of one cry to the empty channel of the above BTSP data.
  • the operation is performed using the above-described data structure to perform the operation at a higher speed.
  • Fig. 1 and Fig. 2 are process diagrams showing the conventional voice recognition device
  • Fig. 3 is a schematic diagram showing the conventional pattern similarity calculation method
  • Fig. 4 is a 2-byte register.
  • Fig. 5 is an explanatory diagram showing an allocation pattern for allocating the output of six filters
  • Fig. 5 is an explanatory diagram showing one example of the case where the binarized data is overlapped three times
  • Fig. 6 is FIG. 5 is an explanatory diagram showing the superimposition result shown in upper and lower two bytes in FIG. 5, and
  • FIG. 7 is an explanatory diagram showing one method of calculating the similarity between the standard pattern and the unknown input.
  • FIG. 9 is an explanatory diagram showing an example of the pattern similarity ratio ⁇ method to which the present invention is applied.
  • Fig. 9 is a block diagram showing a speech recognition device configured based on * an actual example of the invention.
  • Fig. 10 Is an explanatory diagram showing an example of creating a standard pattern from a BTSP that utters the same voice three times
  • Fig. 11 is a block diagram showing another example of a thick utterance
  • Fig. 12 Is a flow chart showing each step of the method of performing pattern similarity based on one example of the present invention
  • FIG. 13 is an explanatory diagram useful for explaining the method of FIG.
  • Fig. 14 is a block diagram showing an example of a device suitable for performing the method shown in Fig. 12; Fig.
  • FIG. 15 is a block diagram; *: Similar pattern based on another example at the time of launch Flow chart showing each step of the degree calculation method, Fig. 16 is an explanatory diagram useful for explaining the method of Fig. 15, and Fig. 17 is the diagram shown in Fig. 15.
  • FIG. 18 is a block diagram showing an example of an apparatus suitable for implementing the method, and FIG. 18 shows an apparatus suitable for enlarging the pattern similarity comparison method based on one example of the present invention.
  • Block diagram, Fig. 19 is a block diagram showing a device suitable for enlarging the pattern matching method based on one real example of ⁇ ⁇
  • Fig. 20 is a conventional pattern matching method.
  • Fig. 21 is a block diagram showing an example, Fig.
  • FIG. 21 is an explanatory diagram showing binarized data
  • Fig. 22 is an explanatory diagram showing an example of using empty bits
  • Fig. 23 is a method for determining a voice section.
  • Fig. 24, Fig. 24 is an explanatory diagram showing the method of massaging BTSP data
  • Fig. 25 is an explanatory diagram showing the average of the load average
  • Fig. 26 is an example of the accusation calculation FIG. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 9 shows a voice recognition device constructed based on * one embodiment of the invention.
  • 31 is a sound collecting device such as a microphone
  • 32 is a voice section detection unit
  • 33 is a group of bandpass filters
  • 34 is a binarization unit
  • 35 is an initial value setting and selection circuit
  • Reference numeral 6 denotes an allocation operation unit
  • 37 denotes a dictionary unit
  • 38 denotes a collation unit
  • 39 denotes a result output unit.
  • the data sampled by the question that can be regarded as the same time is calculated by allocating the data equally to the computer's execution units (4 bits, 8 bits, 16 bits, etc.) and calculating the same time.
  • the number of special vectors is set to be an integral multiple of 4, and the elements of each vector are represented as 1 or 0 by binarization so that they are performed as a unit vector. I have to.
  • the ward detection unit takes only the voice section P and the band.
  • Pass filter group 3 3 Performs frequency analysis with binarization. Any known method can be used for the binarization of the pattern.
  • a standardized pattern (BTSP) is created and registered as a standard pattern, and the input unknown voice is also converted to a BTSP and compared with the standard pattern. Is the result of the accusation.
  • the output of each of these bandpass filters after binarization is represented by 16 bits.
  • the value of the first channel is assigned to the least significant bit of 16 bits, and the second, third,... Are assigned to the upper bits one by one. For example, how to assign
  • a (i) ⁇ 2 (j ⁇ l) ⁇ aij (3).
  • i is the frame number
  • j is the channel number of the filter
  • aij indicates each element of BTSP as in equations (1) and (2).
  • the amount of memory conventionally required to represent a single pattern is reduced, and the performance is faster. At this time, the efficiency depends on how the number of bandpass filters is selected. Is changing.
  • Figure 10 shows the standard pattern in which the TSPs that are uttered three times for one voice are combined into a standard pattern in the specific speaker method.
  • Japanese * Acoustics World Journal, Pi 95 Japanese * Acoustics World Journal, Pi 95, In the same figure, one bleed corresponding to the BTSP when uttered three times is extracted and shown in this figure.By superimposing in this way, each element of the population pattern is 0-3. It has a value, and it cannot be expressed in binary.
  • FIG. 11 shows an embodiment in which the above-mentioned disadvantages are improved.
  • 40 is the upper bit part
  • 41 is the lower bit part
  • 42 is the Kamino part
  • 43 is the registration part logic part
  • 44 is the dictionary part
  • 45 is the deduction part logic part.
  • Reference numeral 46 denotes a result output unit.
  • Others 31 to 36 correspond to the executions 31 to 36 shown in FIG. 9, respectively.
  • this real example is a means for recording a voice, a means for converting this into a plurality of features, and a feature pattern created by quantizing the features at intervals that can be regarded as the same time.
  • the data sampled at intervals that can be regarded as the same temporary questions are equally allocated to the operation units (4 bits, 8 bits, 16 bits) of the viewer, and the operations are performed.
  • the number of feature vectors to be quantized at intervals is set to be an integral multiple of 4, and each vector element is expressed as 1 or 0 by a binarization process so as to be performed as a unit vector.
  • the vector Each element of the torque is converted to a binary number, and a new vector is constructed and operated according to the position. As shown in Fig. 10, if BTSP uttered three times for one voice is superimposed on a standard pattern, each element of the standard pattern has a value of 0-3.
  • the number of bits required to represent one element is 2 bits.
  • the input voice is converted to normal BTSP, so each element is represented by one bit, and the calculation of the similarity of the person becomes very complicated.
  • the method proposed here is to divide these 2 bits into upper and lower bits, and to represent the upper part of 15 channels with one word, that is, 16 bits, and to represent the lower part with another one word
  • the similarity S can be obtained by the following equation.
  • Equation (5) h, 1 each upper, lower bits, U is shown to.
  • Formula logical OR The product of the two patterns represented by (2) can be obtained as the product of the two words and the sum of the results as in Equation (5):
  • the standard pattern is Since one BTSP of about ten voices is superimposed on one voice, one element in the pattern is represented by 4 bits. The bits are divided and assigned to different words, and each word is treated as a unit vector representing 115 CH.
  • the amount of memory of the pre-assembly pattern is reduced, and the similarity degree is reduced, so that the accusation can be sped up.
  • the information that is used as a supplement for the degree of similarity "The number of elements in the standard pattern where two or more out of three utterances are 1 MJ (specific speaker method) In the case of), there is a merit that it can be obtained simply by performing the following operation.
  • FIG. 12 is a flow chart for explaining one embodiment of the pattern similarity demonstrating method of the present invention
  • Fig. 13 is a diagram for explaining the actual large scale shown in Fig. 12.
  • FIG. 14 is a diagram showing one example of a device suitable for the actual tooth of the actual example shown in FIG. In Fig.
  • 51 is a microphone t5
  • 2 is a band pass filter of 16 channels
  • 53 is a binarization unit
  • 54 is a register
  • 55 is a register
  • 55 is Noriminubu
  • 56 is Dictionary pattern (however, 56a is upper byte, 56b is middle byte, 56c is lower byte),
  • 57 is register
  • 58 Is the part that stores the three names of the upper NZs 59 to 63 are the multiplier
  • 64 is the adder
  • 65 is the register
  • 66 is the maximum similarity calculator
  • 67 is the result output.
  • the input speech is converted into features and collated with the upper byte of the dictionary pattern. Since the input pattern is binarized, it is represented by a series of two bytes.
  • the amount of operation 3 N is 2 N, which is the sum of 2 N 3 for the preliminary performance 1 and * N 3 * N 3. Needless to say, this depends on the number of words left in the preliminary selection method and the configuration of the dictionary pattern, and the amount of difference depends on the amount.
  • the dictionary pattern is assumed to be registered in advance by dividing it into upper, middle, and lower bits. This may be registered in the device, but since this registration method does not affect the present invention, its detailed description is omitted. Abbreviate.
  • the sum of the 16 channels and the time length is stored in the register 57. At this time, how to match the time lengths of the two patterns is not particularly described. For example, the method used in the BTSP may be used.
  • the input pattern is compared with the binarized pattern (Fig. 13 (d)), where 1 is the value of 4 ⁇ on the 13th (c), and the number of overlapping parts is large.
  • the similarity is checked and put into the register 57, and the word names or numbers that are in the top N / 3 are extracted from them, and the entire dictionary pattern that matches it is extracted and stored in the register 54.
  • the result of multiplication is added up to 16 channels and the time length.
  • the maximum value of the original dictionary is set to 1 ⁇ ⁇ 2 and the value is set to ⁇ , which is equivalent to binarization. Cannot be moved. Therefore, a part of a register of a plurality of units representing a series of samples is assigned, a new pattern is created, and a similarity with an unknown input pattern is obtained.
  • FIG. 15 is a diagram for explaining an example of the actual case
  • FIG. 16 is a diagram showing an example of the pattern for explaining the actual example shown in FIG. 15,
  • FIG. FIG. 7 is a diagram showing an example of an apparatus suitable for realization of the embodiment shown in FIG.
  • reference numeral 70 denotes an adder
  • the other parts having the same functions as those of the apparatus shown in FIG. 14 are denoted by the same reference numerals as in FIG. is there.
  • FIGS. 12 to 14 Only the differences from the embodiment shown in FIGS. 12 to 14 will be described below. Therefore, in this example, before comparing the input speech with the upper byte of the dictionary, the logical sum of the upper and middle bytes of the dictionary is obtained, and the result and the input are obtained.
  • the upper, middle, and lower three types of viscous compositions were used.
  • the number of types is not limited to three, but may be four or more.
  • the similarity is described as being obtained by logical AND according to the conventional technology town, but it is needless to say that it is not limited to this.
  • FIG. 18 is a block diagram showing one embodiment of the pattern similarity comparison method of the present invention.
  • 71 is a microphone
  • 72 is a filter group (special extraction section)
  • 73 is a speech section cutout section
  • 74 is a binarization section
  • 75 is a similarity minode section.
  • 76 is a dictionary
  • 77 is a comparison part
  • 78 is a high-ranking similarity part (similarity register)
  • 79 is a similarity part
  • 80 is a relative part
  • 81 is a lower similarity part
  • Degree part similarity register
  • 82 is a label part (label register)
  • 83 is a label display part.
  • the similarity registers 78 and 81 are cleared to 0, and the input voice is emitted toward the microphone 71.
  • the feature extraction unit 72 is composed of 16 band-pass filter filters is shown, but this is for frequency analysis and uses linear prediction coefficients. It may be replaced according to the special parameters.
  • the section extraction unit 73 extracts the voice part from the unnecessary sound using the specially extracted parameter and detects the section.
  • the order of feature extraction and ward detection is not particularly limited, and either may be the first. In the section detection method, the energy of the microphone output increases when speech is input, and a method that uses the energy change is often used.
  • the section may be determined based on a change in the spectrum.
  • the result is binarized by a binarization unit 74.
  • a well-known binarization method may be used.
  • the binarized data can represent one frame in two bytes.
  • the similarity to the first higher order of the standard pattern is obtained by the method described above, and is compared with the upper similarity of the similarity register 78. If the calculated similarity is greater than the similarity in the register, the current similarity is stored in the register 78 as it is, and then the lower order and similarity of the input and the standard pattern are calculated. It is stored in the similarity register 81 and the label of the standard pattern is labeled. Stored in register 82.
  • each similarity register is reset or contains 0, so the contents are always rewritten.
  • the similarity to the top of the second leveling pattern in the dictionary is calculated, and the same operation is repeated.
  • the higher similarity is larger than the register 78
  • the current similarity is substituted into the register 78
  • the lower similarity is obtained, and this is unconditionally entered into the register 81.
  • the high-order similarity is the same as that of register 78
  • the low-order similarity is calculated as it is, the value of register 81 is compared with this value, and the similarity obtained is registered only for the eve with the higher similarity. 8 Enter into 1.
  • the similarity When the similarity is assigned to the register 81, the current label must also be entered in the label register 82. On the other hand, if the higher similarity is smaller than the contents of the register 8, the operation proceeds to the comparison with the next standard pattern. Such an operation is performed by the number of standard patterns registered in the dictionary. When all the processing is completed, the label contained in the label register 82 is output as a result of accusation.
  • the standard pattern has a two-layer structure of upper and lower layers, this may be three or more layers, and the effect becomes remarkable as the number of slaughters increases. Also, in this comparison, we are considering matching with all standard patterns. It is also possible to apply this method after performing a typical collation. .
  • FIG. 20 is a diagram for explaining the overall configuration of a conventional voice recognition system.
  • 91 is a microphone
  • 92 is a preprocessing section
  • 3 is a group of 14 channel band filters
  • 94 is a binarization section
  • 95 is a dictionary creation section
  • Reference numeral 96 denotes the dictionary
  • reference numeral 97 denotes the approval operation unit
  • reference numeral 98 denotes the result output unit.
  • the sound input from the microphone mouth phone 91 is level-corrected by the pre-processing unit 92 and input to the 14-Ch band pass filter (B.P.F) group 93. .
  • B.P.F 14-Ch band pass filter
  • the frequency analysis is performed for each periodic sample, which is a group of 14 ch B.P.F groups, and binarization is performed by the binarization unit 94 to convert the binarized data as shown in FIG. Obtainable. * In the case of the example, since a band pass filter of 14 ch is used, there are two free channels E for the figure.
  • the binarized data is one word long, and each function is performed in the dictionary creation and inferring unit.
  • FIG. 19 shows an apparatus suitable for performing * the pattern matching method according to the invention.
  • 100 is a voice section detection section
  • 101 is a voiced / unvoiced detection section
  • 102 is a section bit section ⁇ section
  • 103 is a voiced person bit section section
  • Portions which operate in the same manner as the prior art shown in FIG. 20 are denoted by the same reference numerals as in FIG.
  • an example will be described in which a voice section detection signal and voiced / unvoiced detection are used as control bits as ⁇ in the invention.
  • Audio input from microphone In the same manner as described above, a pre-processing unit and a band pass filter of 14 channels are transmitted, and binarized data is generated in the binarization unit in the same manner as described above.
  • the voice section signal A and the voiced / unvoiced detection lip B are placed on the empty channel E in FIG. 21 as shown in FIG.
  • the voice section signal is obtained by checking the voice power signal with a certain threshold as shown in FIG. 23.
  • the voiced unvoiced lip is defined as voiced when the least squares approximation curve C of the speech formant at the time of sampling is negative, voiced when it is positive, and unvoiced when voiced.
  • binarized data of the frequency component of 14 c Ii and binarized (BTS) data containing voiced and unvoiced information and voiced and unvoiced information are obtained.
  • the binarized information based on the frequency information of chl to c lil 4 is: *: information for obtaining similarity at the time of the next perception, and includes voice section bit and voiceless unvoiced.
  • the bit becomes a control town bit at the time of accusation.
  • a dictionary is created using one word of the binary information obtained in this way.
  • the control bit is a binary bit like other information, the weight is averaged as it is.
  • the control town bits are embedded in the BTSP data with the binary bits of 0 and 1 as described above, it can be handled in the same way as the frequency information 0 and 1 when creating a dictionary, and the handling is extremely difficult. Simply.
  • each bit is 0 to 3 as shown in Fig. 25. It takes the value of the value and contains a variable component, and performs pattern matching during authentication according to the determined exclusion rule sealed in the control bit at the same position of the unknown input pattern. .
  • the voiced and unvoiced bit of the unknown input pattern is 1, if the bit is 0 in three utterances of the dictionary or if the input is 0, then that of the dictionary is Only when the value is 3, the similarity of the frame is set to 0, and otherwise, the exact similarity can be obtained by simply measuring the similarity.
  • Figure 26 shows the situation.D is a block of the block to be accused, and a dictionary is created by expanding and shrinking each cry in a rectangular shape. Are not considered. In this way, by assigning useful cipher bits for approval, a pattern control method that absorbs the fluctuation component can be configured. Of course, we do not care about the type of cremation bit.
  • the processing speed can be increased, and the BTS can be allocated by assigning a control bit to the empty channel.
  • the frequency data of P can be easily controlled, and at the same time, the absorption of the fluctuation component, which is the inherent feature of BTSP, can be applied to the control bits. Approval can be accepted.
  • the apparatus and method of the present invention can be used for voice recognition.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)
  • Image Analysis (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Machine Translation (AREA)

Description

明 細 書
音声認識方法反び装置
技術分野
*発明は、 大略、 音声認讒装置に閬するものであって、 特に、 音声認讒装置において使用される音声パターンの照 合方法及び類似度演箕方法に関するものである。
背景技衛
単語の音声を認讒する方法と して現在数多く の方式が開 発されている。 これらの多く は、 あらかじめ利用する音声 を登録しておいて、 後に入力される音声がすでに登録され ているう ちのどの音声に最もよく 類似しているかを調べて 未知の入力音声を認讒する、 いわゆる、 パターンマ ウチン グによるものである。 パターンマッチング法は他の方法、 例えば、 ^別閬数等を用いるものに比べて演算数が少な く 、 認讒精度が良いこ とから広く 普及している。
第 1 図は、 上記パターンマッチング法の一例を説明する ための構成図で、 図中、 1 はマイク等の集音装置、 2 はフ ィ ルタ一バンク、 3 は辞書、 4はローカルビーク検出部、 5 は類似度箕出部、 6 は認識結果出力部で、 周知のよ う に、 マイク等の集音装置を通して得られた音声は、 えば 周波数スペク トルのような特徵量に変換され、 これによつ て特镦パターンを耩成し、 パターンマ ウチングを行なう 。 この時、 1 つのスぺク トルの値は通常 8 - 1 2 ビッ ト程度 が割り 当てられて表されるため、 周波数上で m個のサンブ ルを取る と 8 x m l 2 x mビッ 卜で 1 つの時間サンブル ( 1 フ レーム) が表現できるこ とになる。 一般には、 1 0 m抄程度に 1 つの睁 サンプルをつく るため、 n フ レーム のノ ターンは 8 x m x i!〜 1 2 x ia x nビッ 卜である。 ノぺ ターンマッチングを行なう ための一方のパターンを a ^, a 2 i ¾ ··· a t ··· a 他方のパター ン を b t , b 2 ι— b い b 21··· b „とする 2つのパターンの違いを表す鉅離 Dは
D = 2 | a i j - b i j | ( 1 )
i j
のような市街地钜離をもちいる。 つまり 、 この方法では 8 一 1 2ビッ トの演箕を i * j 回実行して 1 つのパターンの 比較ができるわけである。 しかも上記の例は比較すべき 2 つのパターンの睁 Ρ 長が等しいと扳定した場合であり 、 音 声のような常に時間長が変化するものでは、 その時間長を 合わせるために更に多く の演算を必要とする。
このようなパターンマッチング方法の 1 つで、 データ量 が少な く 簏単な演算で実行で き る も の に B T S P
Β 1 n a r y 1 l m e — S e c t r u m P a t — t e r n ) を用いるものが発表されている。 ( 3太音響学 会鼸演論文誌、 P 1 9 5 、 昭和 5 8年秋)
第 2図は、 上記 B T S Pの一例を説明するための構成図 で、 図中、 1 1 はマィク等の集音装置 1 2はフィルタバ ンク、 1 3 は最小 2 乗に よる補正部、 1 4は 2値化部、 1 5 は B T S Pの作成部、 1 6 は線形伸縮による n回発声 パターンの加箕部、 1 7 は辞書部、 1 8はビークパターン 作成部、 1 9 は線形伸縮によるパターン長合わせ部、 2 0 は類似度箕出部、 2 1 は結果表示部で、 マイ クから入力さ れた音声は、 バン ドバス · フィ ルタ一群等を利用して周波 数分析され、 周波数とその時藺変化をパターン ( T S P ) と して表される。 更にこれを、 周波数上のビークを中心と して 「 1 」 、 他を 「 0 」 と して 2値化して B T S Pに変換 し、 複数回発声して得られた B T S Pを重ねて標準パター ンと して登録しておく 。 未知の音声が入力された際、 この 音声も標準パターン作成時と同様な遍程で B T S Pをつく り 、 あらかじめ登録してある標準パターンと照合して各標 準パターンどの類似度を求める。 類似度は未知音声の B T S P と標準パターンとを重ねた時の Γ 1 J のエレメ ン トの 重なり具合からもとめる。 通常、 誰の声でも認讒できる不 特定話者音声認識装置のためには、 一つの登録すべき音声 について複数個の標準パターンを作成するなど演箕量を増 やす手段を用いるが、 この方法では標準パターンをう ま く 作れば、 たいした演算量の増加もなく 不特定話者用の音声 認讒装置の実現が容易である という メ リ ッ 卜を有してい る。
この方法で定義される 2つのパターンの類似度 Sは
S = ∑ a i j - b i j ( 2 )
1 j で表される。 a , bの各エレメ ン トは、 -1 又は 0 、 あるい は その演算結果であるため、 大きなビッ ト数を割り 当て なく ても表現できるにもかかわらず、 コンピュータの演算 単位 ( 4 、 8、 1 6 ビッ ト ···) を年えるのが普通であるた め、 もっ と少ない演算量、 少ないメモリ量で実現できるも のが無駄が生じているこ とになる。
音声認識の分野でも他と同様、 照合すべきパターン数が 増えるほど、 一つのパターンに対する演箕時間の短い照合 方法が必要となってく る。 このよう な演算の少ない照合方 法で全パターンと照合するのも良いし、 又、 このよう な箇 単な方法でいくつかの正解候補を選んでおいてから最終的 に少ない数のバターンをていねいに照合する方法も良い。 演箕量が比較的少ない照合方法 ^ して 2値化した時問周波 数パターンを使う方法が提案されている。
第 2図の装置は、 単語単位に発生した音声を 2値化処理 して求めた入力パターンと辞書パターンを線形マッチング して認議するものである。 尚、 第 2図に示したものは特定 話者方式を示しており 、 ^線の経路に従って音声と登録す る。 不特定話者用の音声認議の場合には、 辞書は、 B T S Pの重ね合わせとして新たに作るよう にしている。
この方法は フ ィ ルタバンクを 1 6チャ ンネルに してお く と 2値化された結果は 1 6 ビッ 卜のデータ と して扱える という メ リ ッ トがある。 この 1 6個の一連のデータを 1 フ -レームと呼ぶこ とにする。 この 1 6 ビッ ト、 2バイ トのデ ータを 3 回加算して得られたもの (辞書パターン乃至は標 準パターン) は、 一つのエレメ ン トが最大 3 となるため、 各エレメ ン トを 2 ビッ トで表現しなければならなく なる。 この場合、 2 ビウ トを上位と下位に分け、 上位の 1 フ レー ムを 2バイ トのデータに割り つけ、 下位を別の 2バイ トに 割り つける。 この様子を第 3図に示す。 つま り 、 2バイ ト の横一列がフ ィ ルタバンクの 1 6個のフ ィ ルタに対応づぃ ているこ とになる。 パターン照合の時、 未知の入力が 2値 化されて 1 フ レーム、 2バイ トで表わされているなら、 各 チャ ンネルの値の積は、 未知入力と 4バイ 卜パターンの上 位、 下位各々のバイ 卜と ビッ 卜対応づけて論理積をとれば 容易に求めるこ とができ、 演算が楽である。 この方法自体 は演算値が少なく 照合すべきパターンの ϊ¾が比較的多く て も高速に演箕できるが、 辞書パターンの各エレメ ン 卜が 2 ビッ 卜程度で表現できない場合、 例えば 4〜 6 ビッ 卜程度 にな っ た場合には各々 と演箕しなければならないし、 一 方、 登録すべき単語数が 5 0 0を越えるような多数の時は この方法でも時間がかかるよう になって しまう 。
音声認識には特定話者方式と不特定話者方式があ り 、 前 者があらかじめ使用者の音声を登録する必要があるのに対 し、 後者にはその必要がないという メ リ ッ トがある。 不特 定話者方式の代表的なものはマルチテンプレー ト方式であ り 、 この方式は、 登録すべき一つのカテゴリーに対して複 数の標準パターンを用意しておき、 この中から最も類似し ているものを探すものである。 このよう に不特定話者方式 では多数の演算が必要である、 その結果、 認讒時間がかか る、 正答率が低いといった欠点がある。 最近、 箇単な方式 で不特定話者方式に向いている認識方式と して、 B T S P を用いるものが発表されている。 (第 2図参照)
第 2図の方式では、 ある時点にサンブルリ ングされた一 組の周波数データ ( ^後フ レームと呼ぶ) を 2バイ 卜程度 のレジスタに均等に aり つけて拔うこ とができるためメモ リ一量が少なく なる。 ' 第 4図は 2バイ トのレジスタに 1 6個のフィ ルターの出 力の割りつけ方を示す。 例えば、 このよう なデータを 3 回 重ねてその和をとつたとすると、 第 5図のよう に各々の値 は 0〜 3 ;になり 、 これまでの 2バイ 卜では表わすことがで きなく なる。 そこで、 第 6図に示すごと く 各々の値を 2進 表現し、 その上位だけを 1 ¾として 2バイ ト、 下位だけを 1組と して 2バイ トで表わすようにする。 これを瘵準バタ ーンとレ、 第 4図のよう にして作った未知入力パターンと の類似度性を求めるために、 第 7図に示すように、 両者を 重ね合わせて対応づく ビッ トの積をと り 、 それを類似度と する。 しかし、 このような演箕は厄介であり 、 時間がかか るので第 8図のような方法が考えられる。 瘵準パターンを 第 6図のごとき、 上位、 下位に分け、 未知入力と上位を重 ねて各ピサ 卜の論理積をとる。 下位も同様にして論理積を と り 、 上位の各ビッ トの値の合計を 2倍し、 或いは 2 回加 えて下位のビッ 卜の合計を加える と第 7図と同じ結果が得 られるので、 これを類似度とする。 このよう に して登録さ れている全ての標準パターンと未知の入力パターンとの類 似度を求めておき、 その中の最大類似度が得られた標準パ ターンに、 未知の入力が分類されたと考え、 その標準バタ ーンにつけられたラベルを認謹結果と して出力する。 この よう に して、 籠易的に類似度の計算を行なう こ とができる が、 しかし、 この方式で一番演算時間を要するのが二組の 2値パターン同士の論理積をと つてその中の各ビッ 卜値の 合計を演算する部分である。
木発明は、 上記の如き従来技街の欠点を解消する為にな されたものであって、 特に少ない演算で高速なパターン照 合を行なう こ とを可能とする音声認讒装置を提供するこ と を目的とする。
太発明の別の目的とするところは、 音声認識に有用な箇 易的なパターン類似度演箕方法を提供するこ とである。
*発 ¾の更に別の目的とする と ころは、 演箕量を最小と し且つ高速処理を可能とする音声認識に有用なパターン類 似度演箕方法を提供するこ とである。
発明の開示
本発明の一側面によれば、 音声を収録する手段と、 収録 した音声を複数の特徽量に変換する手段と、 該特徴量を同 一時間とみなせる間隔で量子化して特镥パターンを作成す る手段とを有する音声認讒装置において、 同一時間とみな せる間隔でサンブルしたデータをコンピュータの演算単位 の中に均等に割り付けて演算するこ とを特镦とした音声認 讒装置が提供される。
*発明の別の側面によれば、 音声を特徵量に変換し、 あ る時 P P 隔でサンプリ ングして単位時間ごとの一連のデー タにし、 該一達のデータを 2のべき乗を一単位としたレジ スタにわりつけ、 1 つのデータが 2以上の値をとるとき、 これを複数の単位のレジスタに分割して取り扱う音声バタ ーン類似度演算方法において、 一連のサンプルを表わす複 数の単位のレジスタの一単位以上、 全数未溝のレジスタを 甩いて未知の入力パターンとの間で類似度を求めるよう に したこと、 或いは、 一達のサンブルを表わす複数の単位の レジスタの一部で論理演算をして新たなパターンを作成 し、 未知の入カバターンとの問で類似度を求めるよう にし たこ とを特徴と した音声パターン類似度演算方法が提供さ れる。
:*:発明のこの僳面は、 一連のデータの各エレメン トが上 位…下位の各々のレジスタ単位の各ビッ 卜に均一に割り つ けられている こ とに着目 してなされたものであ り 、 ^え ば、 音声を特镦量に変換し、 ある時間間隔でサンプリ ング して単位時間ごとの一連のデータにし、 該一対のデータを 2のべき乗を一単位としたレジスタにわりつけ、 1 つのデ ータが 2以上の値をとる とき、 これを複数の単位のレジス タに分割して取り扱う音声認毳パターンの類似度演算方法 において、 一連のサンブルを表わす複数の単位のレジスタ の一単位以上、 全数未满のレジスタを用いて未知の入力パ ターンとの間で類似度を求めるよう に したものである。 本発明の更に別の佣面によれば、 音声を特徵量に変換 し、 一定時間間隔をサンプリ ングして一組のデータを作 り 、 該一組のデータを 2のべき乗を一単位と したレジスタ にわり つけ、 一つのデータが 2以上の値をと る と き、 これ を複数の組のレジスタに分割して取り扱い、 類似度を計箕 してその類似度の大きさを比鲛する類似度比鲛方法におい て、 あらかじめ登録されている標準パターンと未知パター ンを顺次照合して類似度を計算するに際し、 すでに求めた 類似'度を複数のレジスタに分割して保有し、 次の檫準バタ ーンの一部と入力を比較して求めた値とすでに求められて いる類似度の一部のレジスタ内の値を比較し、 先の値の方 が大きい時には現在の標準パターン との類似度演算を中止 するよう にしたこ とを特徵と した、 パターン類似度比鲛方 法が提供される。
本発明の更に別の側面に よれば、 音声を特徴量に変换 し、 ある時間間隔でサンプリ ングして単位時間ごとの一対 のデータにし、 該一対のデータを 2のべき乗を一単位と し たレジスタにわり つけ、 一つのデータが 2以上の値をとる 時、 これを複数の単位レジスタに分割して取り扱う音声パ ターン照合方法において、 上記特徴量とは別の手段によ つ て得られた第 2 ···第 n (ただし、 πは整数) の特徵畺を同 一データのあるビッ トに割り付け、 この情報を基に、 ; ί:来 の特截量のパターン照合を制铒する事を特徵とした音声パ ターン照合方法が提供される。
末発明のこの側面は、 上述のごとき従来技術の不具合に 鑑みてなされたものであり 、 その制街情報を B T S Ρデー タの中に含み、 演算、 ^断の高速化をはかる とともに、 認 讒率の高性簏化をはかったものである。
本来、 Β T S Ρ方式は音声のホルマン ト情報を 0 と 1 の 2値のデータで表わし、 前 ¾の如く 1 6 ビッ トデータと し て取り扱って演箕を行えば、 多く の有 ¾性を生ずる。
:*:発明のこの側面は、 更に 認讒演算に必要な情報でか つ 1 回の癸声の 1サンブルデータで 0か 1かに判定でき得 る情報を上記 B T S Pデータの空きチャンネルに充当し、 前述のデータ構造をもって演算を行って更に高速に演算せ しめよう とするものである。
図面の簏単な説明
第 1 図及び第 2図は従来の音声認議装置を示したプロサ ク図、 第 3図は従来バターン類似度演算方法のー钧を示し た概略図、 第 4図は 2バイ トのレジスタに 1 6個のフ ィ ル タの出方を割り つける割り つけ蕙様を示した説明図、 第 5 図は 2値化データを 3回重ねた場合の一锊を示す説明図、 第 6図は第 5図に示した重ね合せ結果を上下の 2バイ トで 表現した钧を示す説明図、 第 7図は瘭準バターンと未知入 力との類似度の求め方の一锊を示す説明図、 第 8図は本発 明が適用されるパターン類似度比鲛方式の一例を示す説明 図、 第 9図は *発明の 1 実旄例に基づいて構成された音声 認識装置を示したブロ ッ ク図、 第 1 0図は同一音声を 3 回 発声した B T S Pから標準パターンを作る場合の 1 例を示 す説明図、 第 1 1 図は太発 ¾の別の実尨例を示したブロ ウ ク図、 第 1 2図は本発明の 1 実旌例に基づく パターン類似 度演箕方法の各ステ ッ プを示したフ ローチャー ト図、 第 1 3図は第 1 2図の方法を説明するのに有用な説 ¾図、 第 1 4図は第 1 2図に示した方法を実旄するのに好適な装置 の一例を示したブロック図、 第 1 5図は; *:発頃の別の実 例に基づく パターン類似度演算方法の各ステップを示した フローチャー ト図、 第 1 6図は第 1 5図の方法を説明する のに有用な説明図、 第 1 7図は第 1 5図に示した方法を実 施するのに好適な装置の 1 例を示したブロッ ク図、 第 1 8 図は本発明の 1 実尨例に基づく パターン類似度比較方法を 実尨するのに好適な装置を示したブロ ッ ク図、 第 1 9図は 术発 ¾の 1実旄例によるパターン照合方法.を実尨するのに 好適な装置を示したブロック図、 第 2 0図は従来のパター ン照合方式の一例を示すブロック図、 第 2 1 図は 2値化デ ータを示す説明図、 第 2 2図は空ビッ トの使用例を示す説 ¾図、 第 2 3 図は音声区間の決定方法を示す説 ¾図、 第 2 4 図は B T S Pデータの揉取方法を示した説明図、 第 2 5図は荷重平均の一 ^を示す説明図、 第 2 6図は認讒演 算の一例を示す説明図、 である。 発明を実 ¾する為の最良の形態
第 9図は、 *発明の一実歲^に基づいて構成された音声 認讒装置を示している。
図中、 3 1 はマイク等の集音装置、 3 2は音声区間検出 部、 3 3 はバ ン ドパスフ ィ ルタ一群、 3 4 は 2値化部、 3 5は初期値設定及び選択回路、 3 6 は割り付け演算部、 3 7は辞書部、 3 8は照合部、 3 9は結果出力部である。 この実 ¾例では、 音声を収録する手段と、 収録された音声 を複数の特镦量に変換する手段と、 該特徵量を同一時間と みなせる間隔で量子化して特徵パターンを作成する手段を 有する音声認讒装置を構成している。 そして、 同一睁間と みな.せる問隖でサンブルしたデータをコンピュータの演箕 単位 ( 4ビッ ト、 8ビッ ト、 1 6ビッ ト.等) の中に均等に 割り付けて演算し、 同一睁間とみなせる間隔で量子化する 特徵ベク トルの数を 4の整数倍となるようにして、 各べク トルの要素を 2値化処理により 1又は 0で表して単位べク トルとして演箕するよう にしている。
すなわち、 第 9図に示した実簾伢においては、 まず、 音 声をマイ クで集音レ ノイズ等から分趣するために区問検 出部によって音声区 P のみをと り だレ、 バンドパスフィ ル ター群 3 3により周波数分析して 2値化する。 なお、 バタ ーンの 2値化処理に翳しては任意の周知の方法を邃用する こ とが可能である。
次いで、 あらかじめ使用すべき音声について、 この 2値 化されたパターン ( B T S P ) を作成して標準パターンと して登録しておき、 入力された未知の音声も B T S Pに変 换して標準パターンと比較、 合して最も類似性の高い標 準パターンを認讒結果とする。
第 9図では、 1 5個の各バン ドバスフ ィ ルタ一の出力は
8ビッ ト程度で表されているが、 こ こで示す方法では 2値 化後のこれらの各バン ドパスフ ィ ルターの出力を 1 6 ビッ 卜で表している。 つま り 、 第 1 チャ ンネルの値を 1 6 ビヅ トの最'下位ビッ トに割り 当て、 第 2、 3 、 ···と順に 1 つず つ上位ビッ 卜に割り付けていく 。 割り付け方は例えば
A ( i ) = ∑ 2 ( j - l ) - a i j ( 3 ) のようにすれば良い。 ただし、 i はフ レーム番号、 j はフ ィ ルタのチャ ンネル番号を、 a i j は式 ( 1 ) 、 ( 2 ) と 同様に B T S Pの各エ レメ ン トを示す。 これによ つ て式 ( 2 ) のごと き類似度 Sは
S = 2 A ( j ) ( j ) ( 4 )
と表すこ とができる。 ただし は各ビッ ト毎の論理積を表 している。 つま り 、 式 ( 2 ) では各要素の積をとる必要が あったものが、 式 ( 4 ) では各フ レーム毎の論理積の計算 をすれば良いこ とになる。
したがって、 従来一つのパターンを表すために必要であ つたメモ リ ー量は減少され、 演箕も高速化される。 この時 バン ドパスフ ィ ルターの数をどのよう に選ぶかによ り 効率 は変ってく る。
第 1 0図は、 特定話者方式において、 一つの音声につい て 3 回発声された T S Pをかさねあわせて標準バターン とする钩を示すが ( 日 *音響学界讒演論文誌、 P i 9 5 、 昭和 5 8年秋》 、 同図では 3回発声された時の B T S Pか ら対応つく 1 ブレームをとり だして示している。 このよう に重ね合わせるこ とにより棲準パターンの各要素は 0 - 3 の値を持つことになり 、 2値では表しきれなく なる。
第 1 1 図は、 上記欠点を改良した実 锊を示している。 図中、 4 0は上位ビッ ト部、 4 1 は下位ビッ ト部、 4 2は 加箕部、 4 3は登録演箕ロジック部、 4 4は辞書部、 4 5 は認讒演箕ロジック部、 4 6は結果出力部である。 その他 3 1 乃至 3 6 はそれぞれ第 9図に示した実 ¾伢 3 1 乃至 3 6に対応している。 而して、 この実旄例は、 音声を収録 する手段と、 これを複数の特徵量に変換する手段と、 該特 镦量を同一時簡とみなせる閽隔で量子化して特镦パターン を作成する手段を有する音声認議装置を構成している。 そ して、 同一時問とみなせる間隔でサンプルしたデータをュ ンビュータの演算単位 ( 4ビッ ト、 8ビッ ト、 1 6 ビッ 卜 —) の中に均等に割り付けて演算し、 同一時間とみなせる P 隔で量子化する特徵ベク トルの数を 4の整数倍となるよ う にし、 各ベク トルの要素を 2値化 ¾理によ り 1 又は 0で 表して単位ベク トルとして演箕するようにしておき、 演算 により待镊べク トルが単位べク トルでなく なつた時、 べク トルの各要素を 2進数であわら し、 その位に従って新しい ベク トルを構成して演算するよう に している。 第 1 0図に 示したよう に、 一つの音声について 3 回発声された B T S Pをかさねあわせて標準パターンとすると、 標準パターン の各要素は 0 - 3の値を持つこ とになる。 従って、 1 つの 要素を表すために必要なビッ ト数は 2 ビッ ト となる。 これ に対して入力される音声は普通の B T S Pに変換されるた め、 各要素は 1 ビッ トで表されるこ とになり 、 两者の類似 度の演算が、 非常に複雑になってしまう 。 こ こで提案する 方法は、 この 2 ビッ トを上位と下位のビッ トに分け 1 5 C H分の上位を 1 ワー ド、 つま り 1 6 ビッ トで表し、 下位を 別の 1 ワー ドで表すよう にしたもので、 これによ つて、 類 似度 Sが次のよう な式で求められるこ とになる。
S=∑ (Ah(j)«B(j)U(Al(j)AB(j)) (5) h、 1 はそれぞれ上位、 下位のビッ トを、 Uは論理和を示 す。 式 ( 2 ) で表される 2つのパターンの積は式 ( 5 ) の ごと く 2つのワー ドの積とそれらの結果の和で得るこ とが できる。 不特定話者方式の場合、 標準パターンは 1 つの音 声について 1 0個位の B T S Pを重ね合わせてつ く るこ と になるため、 パターン中の 1 つの要素が 4ビッ トで表され るこ とになる。 これも先例同様に、 4 ビッ トを分割して別 々のワー ドに割り 当て、 各ワー ドが 1 一 1 5 C Hを表す単 位ベク トルと して取り扱う 。 なお、 以上に本発 ¾の各実尨 例について説明 したが、 宪明はソフ ト ウェアで実現して も、 ノ、—— ド的に実現しても良いこ とは容易に理解でき ょ 以上の説 ¾から两らかなように、 *発明の 1 傯面による と、 棲準パターンのメモリー量が少なく なり更に、 類似度 の演箕が減って認讒の高速化が可能になった。 しかもそれ だけではなく 、 類似度箕出のために補助的に利用する情報 である 「瘵準パターン中、 3回の発声のう ち 2回以上が 1 である要素の数 M J (特定話者方式の場合) を求める とき には、 次式の演算をすれば箇単に求められるという メ リ ツ トがある。
M = 2 A h ( J ) ' 1
J
ただし 1は全ての要素が 1 である単位ベク トルを示して レヽる。
第 1 2図は、 末発明のパターン類似度演箕方法の一実 ¾ 伢を説困するためのフローチヤ一卜、 第 1 3図は、 第 1 2 図に示した実尨锊を説明するためのパターン例を示す図、 第 1 4図は、 第 1 2図に示した実旄例の実齒に好適な装置 の一钩を示す図である。 1 4図において、 5 1 はマイクロ フ ォ ン t 5 ,2 は 1 6 チャ ンネルのバン ドパスフ ィ ルタ、 5 3は 2値化部、 5 4はレジスタ、 5 5 は乗箕部、 5 6は 辞書パターン (ただし、 5 6 aは上位バイ ト、 5 6 b は中 位バイ ト, 5 6 cは下位バイ ト) 、 5 7 はレジスタ、 5 8 は上位 N Z 3 個の名前を記憶する部分 5 9〜 6 3 は乗算 部、 6 4は加算部、 6 5 はレジスタ、 6 6 は最大類似度演 算部、 6 7は結果出力部である。 まず、 入力された音声を 特徴量に変換して辞書パターンの上位バイ 卜 と照合する。 入力パターンは 2値化されているため、 1 連の 2バイ トで 表わされるため、 第 1 3図 ( b ) の上位バイ 卜 と この入力 バイ 卜 との論理積をとるこ とによ って両者の類似度が求め られる。 これは第 1 3図 ( a ) のパターンの 4以上のエレ メ ン ト と、 入力の相関を求めているこ とにな り 、 第 1 3図 ( a ) の 0〜 7 まである値を 4を閾値と して 2値化して入 力パターン との相関を求めている こ と に等しい。 従来、 上、 中、 下の 3つのバイ トを使っていたのを 1 つのバイ ト にするため、 演箕は 1 ノ 3 となるが当然演箕精度も低下し て しまう 。 従って、 第 1 2図に示すごと く 登録単語数を N と し、 この方法で対象を例えば Nノ 3 に絞って残った単語 に対して正規の照合をするよう にする と、 従来、 N単語に 対して 3バイ ト演算をしていたため演算量 3 Nが、 予備演 箕 1 、 *演箕 3 ♦ Nノ 3で合計 2 N となり演箕量は 2 Z 3 となる。 言う までもなく 、 これは予備的な選択法で残す単 語数と辞書パターンの構成によ って滅少量に差が出る。
第 1 4図において、 あらかじめ辞書パターンは上位、 中 位、 下位のビッ トに分けて登録しておく ものとする。 これ は装置の中で登録できるよう に してあっても良いが、 この 登録の方法は本発明に影響しないのでその詳細な説明は省 略する。 まず、 未知の入力が入ったら、 1 6チャンネルの バン ドパスフィ ルタを通して周波数分折した結果を例えば 1 0 m s程度に一連ずつ ( フ レーム) のデータと して取り 込みレジスタ 5 4に貯える。 辞書パターンの上位バイ ト と レジスタの入力パターンとの論理穰をと ってその 1 6チヤ ンネル分と時簡長分の合計をレジスタ 5 7へ格納してお く 。 この際、 2つのパターンの時間長の合わせ方は特に説 明しないが、 例えば前記 B T S Pで用いた方法などを用い れば良い。 ここでは、 第 1 3 0 ( c ) の 4 ^上を 1 と して 2値化したパターン (第 1 3図 ( d ) ) と入力パターンを 比較しているが、 两者の重なり部の多さによって 2つのパ ターンの類似度を定義していることになる。 この類似度を 照合した雇にレジスタ 5 7へ入れ、 その中から上位 N / 3 に入る単語名又は単語番号を油出し、 それと一致する辞書 パターン全体をと り 出し、 レジスタ 5 4に格納されていた 入力音声を 2値化したパターンと論理積をとる。 この場合 も先の論理癀と同様、 積をとつた結果を 1 6チャンネル分 と時間長分合計する。 下位バイ ト と積をとつた結果と、 中 位バイ トと氇をと り 、 結果に 2倍したものと t 上位の同じ も のに 4倍 したものの和をと る こ と に よ っ て第 1 3 図 ( c ) のパターンと入力パターンの重なり具合を表わす類 似度が得られ、 この結果の最大のものを認讒結果として出 力する。 このよう にして簏易な演算で厳密な照合をすべき 对彔を滅らすこ とができ、 その結果、 全体の演箕量も滅少 させるこ とができる。 こ こでは上位バイ ト との照合を述べ たが、 上位バイ トだけでなく 中位バイ ト と も照合しても良 いが、 演箕畺は上位だけのものよ り増える。 しかし、 この 方法では辞書を 1 つのバイ トの組で表現した時は、 もとの 辞書の最大値の 1 ノ 2 に閎値を設定して 2値化したものと 等しく 、 それ以外に閾値を移動させるこ とが出来ない。 そ こで、 一連のサンブルを表わす複数の単位のレジスタの一 部で譲理演箕をし、 新たなパターンを作成し、 未知の入力 パターン との間で類似度を求めるよう にした。
第 1 5図は、 その場合の一実旄例を説明するための図、 第 1 6図は、 第 1 5図に示した実 ¾例を説明するためのパ ターン例を示す図、 第 1 7図は、 第 1 5図に示した実施例 の実旄に好適な装置の一例を示す図である。 第 1 7図にお いて、 7 0は加算器で、 その他、 第 1 4図に示した装置と 同様の作用をする部分には第 1 4図の場合と同一の参照番 号が付してある。 説明を簡明にするために、 以下、 第 1 2 図乃至第 1 4図に示した実 ¾例との差異についてのみ説明 する。 而して、 この実旄例においては、 入力された音声と 辞書の上位バイ 卜の照合をする前に辞書の上位と中位のバ イ トの論理和を と つ た後に、 この結果と入力の照合をす る。 第 1 6図 ( b ) の上位と中位の論理和によ って出来る パターンは第 1 6図 ( c ) のよう になり 、 これは第 1 6図 ( d ) のパターンと等しく 、 前述の実; 例の閾値を下げた こ とに一致する。 又、 論理和ではなく 論理積にする と前述 の実 ¾例よ り 閡値を 6へ上げたこ とになる。 このようにし て論理演算を一回増やすこ とによ つて閾値を変化させるこ とが出来るよう になる。 この第 1 5図に示した実 ¾例の具 体的装置は、 第 1 7図のようになり 、 第 1 4図に示した装 置との差異は、 予儋的な照合に用いる辞書パターンを辞書 の上位と中位の論理和によって作り 出している点である。
この実; *钧による と、 上位と下位の再ビッ トを利用しな がら再者を別々に照合するこ となく 两者をまとめて圧港し た後に照合するため照合の演算量は上位バイ トのみと照合 するものに比べ大した増加はない。
なお、 以上には、 上、 中、 下位の 3種のビサ ト耩成で行 なったが、 必ずしも 3種でなく とも 4種以上でも良く 、 多 種になる程、 高速化の効果が顕著になる。 又、 類 度は従 来技街に従って論理積によって得られるものを書いたが、 これに限定するものではないこ とは言う までもない。
第 1 8図は、 本発 ¾のパターン類似度比較方法の一実歲 钧を示したブロック図である。 図中、 7 1 はマイクロフォ ン、 7 2はフ ィ ルタ群 (特截抽出部) 、 7 3 は音声区間切 り 出し部、 7 4は 2値化部、 7 5は類似度箕出部、 7 6は 辞書、 7 7は比較部、 7 8は上位類似度箕出部 (類似度レ ジスタ) 、 7 9は類似度箕出部、 8 0は比鲛部、 8 1 は下 位類似度箕出部 (類似度レジスタ) 、 8 2はラベル部 (ラ ベルレジスタ) 8 3はラベル ¾示部である。 まず、 あらか じめ照準パターンが辞書レジスタ 7 6に登録されているも のと して考える - 各標準パターンの 1 フ レームは上位 7 6 a と下位 7 6 bの 2曆になっているものと し、 それらを別 々の レジスタに入れて保管しておく 。 まず、 類似度レジス タ 7 8 、 8 1 をクリ ア して 0 に しておいて、 入力音声をマ イ ク 7 1 に向って発する。 こ こでは特徴抽出部 7 2が 1 6 個のバン ドパスフィルタのブ イ ルタ群で構成されている場 合を示すが, これは周波数分析をするためであって、 線形 予測係数など利用する特徵パラメータに応じて置き換えれ ば良い。 区間切り 出し部 7 3では特镊抽出したバラメ ータ を利用して音声の部分を不要な音から抜き出して区間検出 する。 特镦抽出と区問検出の顺序は特に制限をするもので はなく 、 どち らが先でもよい。 区間検出方法は、 音声が入 力された時にマイ-ク出力のエネルギー '増 するので、 そ のエネルギー変化を利用する方法がよく 利用される。 又、 スペク トルの変化によ って区間を決定しても良い。 その結 果を 2値化部 7 4にて 2値化する。 2値化の方法はすでに 提案されている周知のもので良い。 2値化されたデータは 1 フ レーム分を 2バイ 卜で表わすこ とができる。 先に述べ たよう な方法で最初の標準パターンの上位との類似度を求 め、 類似度レジスタ 7 8の上位類似度と比鲛する。 今、 求 めた類似度が、 レジスタ内の類似度よ り大なれば、 そのま ま現類似度をレジスタ 7 8の中へ格納し、 続いて入力と檩 準パターンの下位と類似度を求めそれを類似度レジスタ 8 1 へ格納する と共にその標準パターンのラベルをラベルレ ジスタ 8 2へ格納しておく 。 第 1 の標準バターンと照合き れた場合は各類似度レジスタ又はリセッ トされ 0が入って いるので必ず内容は書き替え れる。 次に、 辞書中の第 2 の漂準バターンの上位との類似度を求め、 同様の操作がく り返される。 この時、 上位の類似度がレジスタ 7 8 よ り も 大きい時は、 現類似度をレジスタ 7 8へ代入し、 下位の類 似度を求め、 これを無条件でレジスタ 8 1へ入れる。 上位 の類似度がレジスタ 7 8 と同じ場合は、 そのまま下位の類 似度を求め、 レジスタ 8 1 の値とこれを比較し、 求めた類 似度の方が大きい晦のみ、 その類似度をレジスタ 8 1へ入 れる。 レジスタ 8 1 へ類似度を代入した場合には必ずラベ ルレジスタ 8 2へも現ラベルを入れておく 。 これに対し、 上位の類似度がレジスタ 8め内容より も小さい睁はそのま ま次の棲準パターンとの照合に移る このよう な操作を辞 書に登録された棲準パターンの数だけく り返し、 全てが終 るとラベルレジスタ 8 2に入っているラベルを認讒結果と して出力する。 この方法を利用するこ どによって最大類似 度を得る標準パターン との照合が早ければ早い程、 下位の 照合する回数が滅り 、 計箕量が減少する。 従って、 m の 高速化が図れるこ とになる。
以上に述べたものは、 標準パターンが上位と下位の 2層 構造となっている例であるが、 これは 3層以上でも良く 、 屠が多く なる程度效果が著しく なつてく る。 また、 この照 合では全ての標準パターンとの照合を考えているが、 予備 的な照合をした後でこの方式を適用するのも良い。 .
第 2 0図は、 従来の音声認讒システムの全体耩成を説明 するための図である。 図中 9 1 はマイ ク ロ フ ォ ン、 9 2 は 前 ¾理部、 3 は 1 4 チ ャ ンネルバン ドバスフ ィ ルタ一 群、 9 4 は 2 値化演箕部、 9 5 は辞書作成都、 9 6 は辞 書、 9 7は認議演算部、 9 8は結果出力部である。 マイク 口 フ ォ ン 9 1 よ り入力された音声は、 前処理部 9 2 によ り レベル補正され、 1 4 C hのバン トパスフ ィ ルター ( B . P . F ) 群 9 3に入力される。 この 1 4 c hの B . P . F 群である周期サンブル毎に周波数解析され、 2値化演箕部 9 4において、 2値化演算されて第 2 1 図に示す様な 2値 化データを得るこ とができる。 *例の場合、 1 4 c hのバ ン ドパスフィ ルタを用いている為、 図の用に空きチャンネ ル Eが 2チャンネル存在する。 この 2値化データを一単語 長分で、 辞書作成、 及び認讒部で各々の機能を行う事にな る。
第 1 9図は、 *発明によるパターン照合方法を実旅する のに適した装置を示している。 図中、 1 0 0 は音声区間検 出部、 1 0 1 は有声/無声検出部、 1 0 2 は区間ビッ ト制 裤部、 1 0 3は有声者ビッ ト制街部で、 その他、 第 2 0図 に示した従来技術と同様の作用をする部分は第 2 0図の場 合と同一の参照番号が付してある。 以下、 太発明における ^と して、 制铒ビッ 卜に音声区間検出信号と有声無声検出 を用いる例について説明する。 マイ クから入力された音声 は、 前記と同様に前処理部、 1 4チャンネルのバン ドパス フ ィ ルタを通暹し、 2値化演箕部において前記と同様にし て 2値化データが生成される。 この時、 第 2 1 図の空チヤ ンネル Eに対して第 2 2図に示す様に音声区間信号 Aと有 声ノ無声検出唇号 B を置く 。 こ こ で音声区間信号は、 第 2 3図に示す様に音声パワー信号をある閾値 でチエ ツ クし、 音声区間信号を得る。 又、 有声無声唇号は第 2 4図 に示す用に、 サンプル時の音声ホルマン トの最小二乗近似 曲線 Cの煩きが負の時は有声、 正の時は無声と定義し、 有 声時には 2値化データのビッ トを 1 に、 無声時にはビッ ト を 0にする。 この様に 1 4 c Iiの周波数成分の 2値化デー タと音声区簡舊号、 有声無声情報の含まれた 2値化 ( B T S ) データを得る。
得られた 2値化情報で c h l〜 c li l 4の周波数情報に よる 2值化情報は :*:来の認讒時に類似度を得るための情報 であ り 、 音声区間ビ 卜と有声無声ビ トは認讒時の制街 ビッ 卜となる。 この様にして得られた 2値化情報の一単語 分を用いて辞書作成を行う。 この時、 制 ¾ビウ トは他の情 報と同様に 2値ビッ 卜であるので、 そのまま荷重平均化す る。 制街ビッ トを上述の如く 、 0 と 1 の 2値ビッ トで B T S Pデータの中に埋め込んでおけば、 辞書作成時は周波数 情報の 0、 1 と同様に扱う ことができ取り扱いが非常に箇 単となる。
次に認讒時における制 ¾ビッ トの用い方について説明す る。 辞書における制铒ビッ トは上述の如く 、 おのおのの発 声の情報を荷重平均化しているため、 たとえば 3 回発声の 場合、 第 2 5図に示す様に、 各ビッ トが 0〜 3の 4値の値 をと り 、 変動成分を含んだ様になつており 、 未知入力バタ ーンの同位置の制撢ビツ 卜に封して決められた制櫞ルール に従って認讒時のパターン照合を行う 。 例えば、 有声ノ無 声ビッ トの場合、 未知入力パターンの有ノ無声ビッ トが 1 の場合、 辞書の 3 回の発声でのそのビッ トが 0か又は入力 が 0の場合で、 辞書のそれが 3の場合に限って、 そのフ レ ームの類似度を 0 と し、 それ以外の場合は、 通常に類似度 を計箕すればよい正確な類似度を得る事ができる。
又、 次に音声区問信号の場合、 例えば有音ブロック単位 の語尾の部分などの 3以下の部分についてのみ、 類似度を 計算しない様にするだけで、 一般に言われている語尾の部 分の不安定さを取り 除いた認讒演箕が可饈となる。 第 2 6 図は、 その様子を示す図で、 D は認讒対象ブロ ッ ク範囲 で、 各々の癸声を钹形伸縮して辞書を作成し、 3以下の部 分つま り不安定な部分は認議対象と しない。 この様に認議 に有用な制櫞ビッ トを割り付ければ、 その変動成分を吸収 するパターン制撣方式が構成できる。 もちろん、 制櫞ビッ トの種類にはこだわらない。
この様に 2のべき乗を一単位と した 1 6 ビッ トのデータ 対を用いる事によ り 、 処理高速化を計れる と ともに、 その 空チャンネルに制铒ビッ トを割り 当てる事によ り 、 B T S Pの周波数データの演箕制 ¾を容易に行う事が可能となる と ともに B T S Pの本来の特徵である変動成分の吸収を制 撵ビッ トの中にもあてはめる事ができ 箇易かつ高精度な 認議を可篛とする事ができる。
産業上の利用可能性
以上詳説した如く 、 本発明の装置及び方法は、 音声認讒 に邃用するこ とが可能である。

Claims

請求の範囲
1 . 音声を収録する手段と、 収録した音声を複数の特 徴量に変換する手段と、 該特徴量を同一時間とみなせる間 隔で量子化して特镊パターンを作成する手段とを有する音 声認議装置において、 同一時間とみなせる間隔でサンブル したデータをコンピュータの演箕単位の中に均等に割り付 けて演算するこ とを特镊とする音声認讒装置。
2 . 同一時間とみなせる間隔で量子化する特镦べク 卜 ルの数を 4の整数倍となるよう に し、 各ベク トルの要素を 2値化 ¾理によ り 、 1 又は 0で表して単位ベク トルと して 演算するこ とを特徴とする請求の範囲第 1 項に記載の音声 認譏装置。
3 . 上記演箕によ り特镦ベク トルが単位べク 卜ルでな く なつた時、 ベク トルの各要素を 2進数で表し、 その位に 従って新しいべク トルを構成して演算するこ とを特徴とす る請求の範囲 2項に記載の音声認議装置。
4 . 音声を特镊畺に変換し、 ある時間間隔でサンプリ ングして単位時間ごとの一連のデータにし、 該一連のデー タを 2のべき乗を一単位と したレジスタにわり つけ、 1 つ のデータが 2以上の値をとる と き、 これを複数の単位の レ ジスタに分割して取り扱う音声パターンの類似度演算方法 において、 一連のサンブルを表す複数の単位の レジスタの 一単位以上、 全数未满のレジスタを用いて未知の入力パタ ーンとの間で類似度を求めるよう に したこ とを特徴とする パターン類似度演算方法。
5 . 音声を特镦量に変換し、 ある時間間隔でサンプリ ングして単位時間ごとの一連のデータにし、 該一連のデー タを 2のべき乗を一単位と したレジスタにわり つけ、 1 つ のデータが 2以上の值をとる とき、 これを複数の単位のレ ジスタに分割して取り扱う音声認議バターンの類似度演箕 方法において、 ー邃のサンブルを表わす複数の単位のレジ スタの一部で論理演算をし、 新たなパターンを作成し、 未 知の入力パターンとの間で類似度を求めるよう にしたこ と を特徴とするパターン類似度演箕方法。
6 . 音声を特徵量に変換し、 一定睁間 P 隔でサンプリ ンダレて一組のデータを作り 、. 該一組のデータを 2のべき 乗を一単位と したレジスタにわり つけ、 一つのデータが 2 以上の値をとるとき、 これを複数の組のレジスタに分割し て取り扱い、 類似度を計算してその類似度の大きさを比較 するパターン類似度比較方法において、 あらかじめ登録さ れている棲準パターンと未知パターンを雇次照合して類似 度を計箕するに際し、 すでに求めた類似度を複数のレジス タに分割して保有レ、 次の瘵準パターンの一部と入力を比 較して求めた値とすでに求められている類似度の一部のレ ジスタ内の値を比較し、 先の値の方が大きい時には現在の 檩準パターンとの類似度演箕を中止するよう にしたことを 特镦とするパターン類似度比較方法。
7 . 音声を特徵量に変換し、 ある時間間隔でサンプリ ングして単位時間ごとの一対のデータに し、 該一対のデー タを 2 のべき乗を一単位と した レジスタにわ り つけ、 一つ のデータが 2以上の値をと る時、 これを複数の単位レジス タに分割して取り扱う 音声パターン照合方法において、 上 記特镦量とは別の手段によ って得られた第 2乃至第 11 ( n は整数) の特镦量を同一データのあるビッ トに割り 付け、 この情報を基に、 太来の特徴量のパターン照合を制撣する *を特徴とする音声パターン照合方法。
3 . 上記制街ビッ 卜に対し音声の有声 Z無声情報と、 音声区間情報を用いたこ とを特镊とする請求の範囲第 7項 に記載の音声パターン照合方法。
PCT/JP1987/000569 1986-07-30 1987-07-30 Reconnaissance de la parole Ceased WO1988001090A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE3790442A DE3790442C2 (de) 1986-07-30 1987-07-30 Einrichtung zur Berechnung eines Ähnlichkeitsgrades eines Sprachmusters
GB8807531A GB2202667B (en) 1986-07-30 1987-07-30 Voice recognition
JP62504580A JP3002200B2 (ja) 1986-07-30 1987-07-30 音声認識

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP17939486 1986-07-30
JP61/179394 1986-07-30
JP62/63406 1987-03-18
JP6340687 1987-03-18

Publications (1)

Publication Number Publication Date
WO1988001090A1 true WO1988001090A1 (fr) 1988-02-11

Family

ID=26404526

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1987/000569 Ceased WO1988001090A1 (fr) 1986-07-30 1987-07-30 Reconnaissance de la parole

Country Status (4)

Country Link
EP (1) EP0275327B1 (ja)
DE (2) DE3790442T1 (ja)
GB (1) GB2202667B (ja)
WO (1) WO1988001090A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3002200B2 (ja) 1986-07-30 2000-01-24 株式会社リコー 音声認識

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5412003B2 (ja) * 1972-05-26 1979-05-19
JPS56168696A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS58111989A (ja) * 1981-12-25 1983-07-04 シャープ株式会社 音声認識装置
JPS58115497A (ja) * 1981-12-28 1983-07-09 シャープ株式会社 音声認識方法
JPS60175098A (ja) * 1984-02-20 1985-09-09 株式会社リコー 音声認識装置
JPS60198598A (ja) * 1984-03-22 1985-10-08 株式会社リコー 音声認識方式
JPS6127599A (ja) * 1984-07-18 1986-02-07 株式会社リコー 音声スペクトルの2値化装置
JPS6172300A (ja) * 1984-09-17 1986-04-14 株式会社リコー パタ−ン照合方式
JPS6199200A (ja) * 1984-10-02 1986-05-17 富士通株式会社 音声認識処理方式

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3812291A (en) * 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier
GB1545117A (en) * 1976-05-25 1979-05-02 Nat Res Dev Comparison apparatus eg for use in character recognition
EP0083226B1 (en) * 1981-12-25 1986-06-04 Sharp Kabushiki Kaisha A method of speech recognition
US4852171A (en) * 1984-11-09 1989-07-25 Alcatel Usa Corp. Apparatus and method for speech recognition
JPS61252594A (ja) * 1985-05-01 1986-11-10 株式会社リコー 音声パタ−ン照合方式

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5412003B2 (ja) * 1972-05-26 1979-05-19
JPS56168696A (en) * 1980-05-30 1981-12-24 Dainippon Printing Co Ltd Voice recognizing device
JPS58111989A (ja) * 1981-12-25 1983-07-04 シャープ株式会社 音声認識装置
JPS58115497A (ja) * 1981-12-28 1983-07-09 シャープ株式会社 音声認識方法
JPS60175098A (ja) * 1984-02-20 1985-09-09 株式会社リコー 音声認識装置
JPS60198598A (ja) * 1984-03-22 1985-10-08 株式会社リコー 音声認識方式
JPS6127599A (ja) * 1984-07-18 1986-02-07 株式会社リコー 音声スペクトルの2値化装置
JPS6172300A (ja) * 1984-09-17 1986-04-14 株式会社リコー パタ−ン照合方式
JPS6199200A (ja) * 1984-10-02 1986-05-17 富士通株式会社 音声認識処理方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP0275327A4 *

Also Published As

Publication number Publication date
DE3790442C2 (de) 1996-05-09
EP0275327A1 (en) 1988-07-27
DE3790442T1 (ja) 1988-08-25
GB2202667A (en) 1988-09-28
GB2202667B (en) 1991-03-27
EP0275327A4 (en) 1990-02-21
GB8807531D0 (en) 1988-05-25
EP0275327B1 (en) 1994-03-16

Similar Documents

Publication Publication Date Title
JPH0361959B2 (ja)
Chandna et al. Content based singing voice extraction from a musical mixture
CN114203159B (zh) 语音情感识别方法、终端设备及计算机可读存储介质
JP3039634B2 (ja) 音声認識装置
WO1988001090A1 (fr) Reconnaissance de la parole
JPH04504767A (ja) 時系列結合学習
US20050240397A1 (en) Method of determining variable-length frame for speech signal preprocessing and speech signal preprocessing method and device using the same
JP3477751B2 (ja) 連続単語音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3400474B2 (ja) 音声認識装置および音声認識方法
JPH07210197A (ja) 話者識別方法
JPS61137199A (ja) 単語音声の認識方法
JP3002200B2 (ja) 音声認識
JPWO1988001090A1 (ja) 音声認識
JP2515609B2 (ja) 話者認識方法
JPH04293099A (ja) 音声認識装置
JPS625298A (ja) 音声認識装置
Pol et al. USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM
JPH01186999A (ja) 話者照合方法
JPH042197B2 (ja)
JPH0311478B2 (ja)
JPS58224394A (ja) 連続単語音声認識装置
JPS607492A (ja) 単音節音声認識方式
JPH0426480B2 (ja)
JPS58176698A (ja) パターンマッチング装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 8807531.2

Country of ref document: GB

AK Designated states

Kind code of ref document: A1

Designated state(s): DE GB JP US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): FR

WWE Wipo information: entry into national phase

Ref document number: 1987904962

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1987904962

Country of ref document: EP

RET De translation (de og part 6b)

Ref document number: 3790442

Country of ref document: DE

Date of ref document: 19880825

WWE Wipo information: entry into national phase

Ref document number: 3790442

Country of ref document: DE

WWG Wipo information: grant in national office

Ref document number: 1987904962

Country of ref document: EP