WO2004084174A1 - 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 - Google Patents

歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 Download PDF

Info

Publication number
WO2004084174A1
WO2004084174A1 PCT/JP2004/003753 JP2004003753W WO2004084174A1 WO 2004084174 A1 WO2004084174 A1 WO 2004084174A1 JP 2004003753 W JP2004003753 W JP 2004003753W WO 2004084174 A1 WO2004084174 A1 WO 2004084174A1
Authority
WO
WIPO (PCT)
Prior art keywords
lyrics
singing voice
information
lyric
performance data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2004/003753
Other languages
English (en)
French (fr)
Inventor
Kenichiro Kobayashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to EP04722035A priority Critical patent/EP1605436B1/en
Priority to US10/548,280 priority patent/US7183482B2/en
Priority to CN2004800075731A priority patent/CN1761992B/zh
Publication of WO2004084174A1 publication Critical patent/WO2004084174A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/002Instruments in which the tones are synthesised from a data store, e.g. computer organs using a common processing for different operations or calculations, and a set of microinstructions, e.g. programs, to control the sequence thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2230/00General physical, ergonomic or hardware implementation of electrophonic musical tools or instruments, e.g. shape or architecture
    • G10H2230/045Special instrument [spint], i.e. mimicking the ergonomy, shape, sound or other characteristic of a specific acoustic musical instrument category
    • G10H2230/055Spint toy, i.e. specifically designed for children, e.g. adapted for smaller fingers or simplified in some way; Musical instrument-shaped game input interfaces with simplified control features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/315Sound category-dependent sound synthesis processes [Gensound] for musical use; Sound category-specific synthesis-controlling parameters or control means therefor
    • G10H2250/455Gensound singing voices, i.e. generation of human voices for musical applications, vocal singing sounds or intelligible words at a desired pitch or with desired vocal effects, e.g. by phoneme synthesis

Definitions

  • the present invention relates to a singing voice synthesizing method for synthesizing a singing voice from performance data, a singing voice synthesizing device, a program and a recording medium, and a lopot device.
  • Patent Document 1 A technique for generating a singing voice from a given singing song by a computer or the like is already known as represented by Patent Document 1.
  • MDI (Musical Instrument Digital Interface) data is a typical performance data and is the de facto industry standard.
  • MIDI data is used to generate a musical tone by controlling a digital sound source called a MIDI sound source, for example, a sound source operated by MDI data such as a computer sound source or an electronic musical instrument sound source.
  • MIDI files such as SMF (Standard MIDI File), can contain lyric data and are used to automatically create musical scores with lyrics.
  • MIDI data is used as a parameter expression (special data expression) of a singing voice or a phoneme segment constituting a singing voice.
  • the singing voice is expressed in the data format of MIDI data, but it is a control as if controlling a musical instrument. It was not something to use. Also, MIDI data created for other instruments could not be converted to singing without modification.
  • voice synthesis software that reads e-mails and websites is available from Sony Corporation. Rs imp le Speech], and many others, but the way of reading was similar to that of reading ordinary sentences.
  • Mouth pots a mechanical device that performs a movement similar to the movement of a human (living organism) using an electric or magnetic action. Mouth pots began to spread in Japan in the late 1960s, but most of them were industrial pots such as manipulators and transport pots for the purpose of automation of production work in factories and unmanned operation. (In dus trial robot).
  • robot devices can perform various operations with an emphasis on entertainment as compared with industrial robots, they are sometimes referred to as entertainment robots. Some of such robot devices operate autonomously in response to external information or internal conditions.
  • Artificial intelligence (AI) used in this autonomously operating mouth pot device artificially realizes intellectual functions such as inference and judgment, as well as emotions and instinct. Attempts have also been made to artificially realize such functions.
  • visual expression means as means for expressing artificial intelligence to the outside and means for expressing natural language
  • speech as an example of a natural language expression function is mentioned.
  • Japanese Patent No. 3233036 Japanese Patent Application Laid-Open No. 11-95798.
  • An object of the present invention is to provide a novel singing voice synthesizing method and apparatus which can solve the problems of the prior art.
  • Still another object of the present invention is to be able to sing up MIDI data specified by a MIDI file (typically, SMF) by voice synthesis and to use the lyric information as it is in the MIDI data. It can be replaced with other lyrics, and it is possible to sing a song with MIDI data without lyrics information, and / or add melody to the text data prepared separately. It is an object of the present invention to provide a singing voice synthesizing method and apparatus capable of singing in the form of a singing voice.
  • a MIDI file typically, SMF
  • Still another object of the present invention is to provide a program and a recording medium for causing a computer to execute such a singing voice synthesizing function.
  • Still another object of the present invention is to provide a robot apparatus that realizes such a singing voice synthesizing function.
  • the singing voice synthesizing method includes an analyzing step of analyzing performance data as musical information of pitch, length, and lyrics, and adding lyrics to a note sequence based on the analyzed lyrics information of the musical information. And a lyric generation step of generating a singing voice based on the lyric provided, the lyric providing step of giving an arbitrary lyric to an arbitrary note sequence when the lyric information does not exist.
  • the singing voice synthesizing device comprises: an analyzing means for analyzing performance data as musical information of pitch, length, and lyrics; and adding lyrics to a note sequence based on the analyzed lyrics information of the musical information. Means for assigning an arbitrary lyrics to an arbitrary note sequence in the performance data when the lyrics information does not exist; Singing voice generating means for generating a singing voice.
  • the singing voice synthesizing method and apparatus analyze performance data and add arbitrary lyrics to note information based on the pitch, length, and strength of the sound obtained from the data. Singing voice information can be generated and a singing voice can be generated based on the singing voice information. If there is lyrics information in the performance data, not only can the lyrics be sung, but also any of the lyrics in the performance data Free lyrics can be given to the note sequence.
  • the performance data used in the present invention is preferably performance data of a MIDI file.
  • the lyrics providing step or means may play predetermined lyrics, for example, lyrics such as “la” or “bon”, and perform any musical notes during the performance. It is preferable to apply to columns.
  • the note string included in the track or channel of the MIDI file is to be given the lyrics.
  • the lyrics assigning step or means arbitrarily select a track or a channel.
  • the lyric providing step or means be a lyric providing object for a track or a channel of a channel which appears first in a performance.
  • the lyrics assigning step or means assigns independent lyrics to a plurality of tracks or channels. Thereby, singing chorus such as duet and trio can be easily realized.
  • the lyrics information includes information indicating a speech
  • the speech insertion process or means for reading the speech with synthetic speech instead of the lyrics at the utterance of the utterance of the corresponding lyrics and inserting the speech into the singing is performed. It is preferable to have further.
  • a program according to the present invention causes a computer to execute the singing voice synthesizing function of the present invention, and a recording medium according to the present invention is readable by a computer on which the program is recorded.
  • a robot device is an autonomous mouth pot device that operates based on supplied input information, and converts input performance data into a pitch, a length, and a lyric sound.
  • Analysis means for analyzing as music information; and lyrics providing means for providing arbitrary lyrics to an arbitrary note sequence in the analyzed music information when the analyzed music information does not include lyrics information.
  • Singing voice generating means for generating a singing voice based on the lyrics.
  • FIG. 1 is a block diagram showing a system configuration of a singing voice synthesizer according to the present invention.
  • FIG. 2 is a diagram showing an example of the musical score information of the analysis result.
  • FIG. 3 is a diagram illustrating an example of singing voice information.
  • FIG. 4 is a block diagram illustrating a configuration of the singing voice generation unit.
  • FIG. 5 is a diagram showing an example of music information without lyrics.
  • FIG. 6 is a diagram illustrating an example of singing voice information.
  • FIG. 7 is a flowchart illustrating the operation of the singing voice synthesizing device according to the present invention.
  • FIG. 8 is a perspective view showing the appearance of the robot device according to the present invention.
  • FIG. 9 is a diagram schematically illustrating a configuration model of the degree of freedom of the robot apparatus.
  • FIG. 10 is a block diagram showing a system configuration of the robot apparatus. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 10 is a block diagram showing a system configuration of the robot apparatus.
  • FIG. 1 shows a system configuration of a singing voice synthesizer according to the present invention.
  • the singing voice synthesizing device according to the present invention is applied to, for example, a mouth pot device having at least an emotion model, a voice synthesizing unit, and a sound generating unit, but is not limited thereto.
  • a mouth pot device having at least an emotion model, a voice synthesizing unit, and a sound generating unit, but is not limited thereto.
  • various computer AIs ArtificialIntelligence
  • the performance data that analyzes the performance data 1 represented by MIDI data
  • the evening analysis section 2 analyzes the input performance data 1 and converts it into musical score information 4 representing the pitch, length and intensity of the track # channel within the performance data.
  • FIG. 2 shows an example of performance data (MIDI data) converted to music score information 4.
  • events are written for each track and each channel.
  • Events include note events and control events.
  • a note event has information on the occurrence time (time column in Fig. 2), height, length, and velocity (velocity). Therefore, a note sequence or a sound sequence is defined by a sequence of note events.
  • a control event has a time of day, a type of control (eg, vibrato, playing dynamics expression), and a date indicating the content of the control.
  • the content of the control includes “depth” indicating the magnitude of the sound swing, “width” indicating the cycle of the sound swing, and the start timing of the sound swing, that is, sounding timing It has a “delay” item that indicates the delay time from A control event for a specific track or channel applies to the playback of the note sequence of that track channel unless a new control event (control change) occurs for that control type.
  • lyrics can be entered for each track in the performance data of the MIDI file.
  • “Uruhi” shown at the top is a part of the lyrics written on track 1
  • “Uruhi” shown at the bottom is a part of the lyrics written on track 2. That is, the example shown in Fig. 2 is an example in which lyrics are embedded in the analyzed music information (music score information).
  • time is represented by “measures: beats: number of ticks”
  • length is represented by “number of ticks”
  • strength is represented by numerical values of “0–127”
  • height is 440.
  • Hz is represented by ⁇ 4 J.
  • the depth, width, and delay are each represented by a numerical value from "0-64-1127".
  • the lyrics assigning unit 5 generates singing voice information 6 to which the lyrics for the sound are added together with information such as the length, pitch, strength, and expression of the sound corresponding to the note based on the musical score information 4.
  • FIG. 3 shows an example of the singing voice information 6.
  • “ ⁇ song ⁇ ” is a tag indicating the start of the lyrics information.
  • the tag “ ⁇ PP, T 10673075 ⁇ ” is 1 06 73
  • the tag “ ⁇ td yn a 1 10 649075 ⁇ ” indicates a break of 075 M sec, and the overall strength of 10673075 is sec from the beginning, and the tag “ ⁇ fine— 100 ⁇ ” corresponds to MIDI fine tune.
  • the singing voice information in Fig. 3 is obtained from the music score information (the analysis result of MIDI data) shown in Fig. 2.
  • performance data for musical instrument control for example, note information is sufficiently utilized in generating singing voice information.
  • the musical score information for the constituent element “A” of the lyrics “Aruhi”, the musical score information (see Figure 2) for the generation time, length, height, strength, etc. of the sound of “A”, a singing attribute other than “A”
  • the time of occurrence, length, height, strength, etc. included in the control information and note event information in the middle are directly used.
  • the next note event information on the channel is used directly, and so on.
  • the singing voice information 6 is passed to the singing voice generating section 7 as shown in FIG. 1, and the singing voice generating section 7 generates the singing voice waveform 8 based on the singing voice information 6.
  • the singing voice generator 7 that generates the singing voice waveform 8 from the singing voice information 6 is configured as shown in FIG. 4, for example.
  • the singing voice prosody generation unit 7-1 converts the singing voice information 6 into singing voice prosody data.
  • the waveform generator 7-2 converts the singing voice prosody data into a singing voice waveform 8.
  • [LABEL] indicates the duration of each phoneme. That is, the phoneme (phoneme segment) “ra” is the duration of 100 samples from 0 to 100 samples, and the first “aa J” following ⁇ ra J The phoneme is the duration of 3860 samples from 1000 samples to 3600 samples, and [PITCH] is the pitch period expressed in point pitches. The pitch period at the 0 sample point is 56. In this case, the pitch of 56 samples is applied to all samples because the height of the "ra" is not changed.
  • [VOLUME] indicates the relative volume at each sample point. That is, assuming that the default value is 100%, the volume is 66% at the 0 sample point and 57% at the 3960 sample point. Similarly, at the 410.00 sample point, the volume of 48% continues, and at the 420.000 sample point, the volume becomes 3%. As a result, it is realized that the voice of “LA” attenuates over time.
  • the pitch period at the 0 sample point and the 100 sample point is the same at 50 samples, and during this period the pitch of the voice does not change. Thereafter, the pitch period is about 400 000, such as 53 sample pitch periods at 200 sample points, 47 sample pitch periods at 400 sample points, and 53 pitch periods at 600 sample points. It swings up and down (50 soil 3) with the period '(width) of the sample. This implements vibrato, which is a fluctuation in the pitch of the voice.
  • the waveform generator 7-2 reads a sample from an internal waveform memory (not shown) based on such singing voice / phonological data and generates a singing voice waveform 8.
  • the singing voice generator 7 that generates the singing voice waveform 8 from the singing voice information 6 is not limited to the above example, and any appropriate known singing voice generator can be used.
  • the performance data 1 is passed to the MIDI sound source 9, and the MIDI sound source 9 generates a musical tone based on the performance data.
  • This musical tone has an accompaniment waveform 10.
  • the singing voice waveform 8 and the accompaniment waveform 10 are both passed to a mixing section 11 for synchronizing and mixing.
  • the mixing unit 11 synchronizes the singing voice waveform 8 and the accompaniment waveform 10 and superimposes them on each other and reproduces them as the output waveform 3. I do.
  • FIG. 2 shows an example of the musical score information 4 to which lyrics are added
  • FIG. 3 shows an example of the singing voice information 6 generated from the musical score information 4 of FIG.
  • the target is a target for the track or channel of the score information 4 selected by the track selecting section 14. This is the corresponding note sequence.
  • the lyrics assigning unit 5 pre-operates the musical note sequence selected by the track selecting unit 14 by the lyric selecting unit 13 in advance.
  • Arbitrary lyrics are assigned based on arbitrary lyrics data 1 2 such as “ra” or “bon” specified by.
  • FIG. 5 shows an example of musical score information 4 with no lyrics assigned
  • FIG. 6 shows an example of singing voice information 6 in a case where “ra” is registered as an optional lyrics in the musical score information of FIG.
  • time is represented by "measures: beats: number of ticks”
  • length is represented by “number of ticks”
  • strength is represented by the numerical value of ⁇ 0-127 J
  • height is represented by Is represented by "A4" at 44 Hz.
  • the lyric selection section 13 can specify the optional lyric data as optional lyric data 1 2 depending on the evening, but the initial arbitrarily lyric data when nothing is specified. 1 and 2 are set to “ra”.
  • the lyrics selection section 13 can also add lyrics data 15 prepared in advance to the note sequence selected by the track selection section 14.
  • the lyrics selection unit 13 converts texts and data 16 such as documents created by E-mail and homepage @ pro to the kana by the lyrics generation unit 17 to convert any character string into lyrics. It is possible to select as Here, a technique of reading a character string mixed with kanji and kana and converting it into kana is widely known as an application of “morphological analysis”.
  • the target text may be text 18 distributed on the network via the network.
  • the speech when the lyrics information includes the information indicating the speech, the speech can be read out by the synthetic voice instead of the lyrics at the timing of the utterance of the lyrics, and the speech can be inserted into the singing.
  • a dialogue tag such as "ZZ Happy Daughter”
  • the middle of MIDI data for example, as information indicating that the lyrics are speeches in the lyrics of the singing voice information 6 generated by the lyrics assigning unit 5, " ⁇ SP, T 2 3 4 5 6 9 6 ⁇ Happy one" is added.
  • the speech part is passed to the text-to-speech synthesis unit 19 to generate a speech waveform 20 Is done.
  • tags such as “ ⁇ SP, T ⁇ line” as the information indicating the dialogue.
  • the speech waveform can also be obtained by diverting rest information in singing voice information as speech utterance timing information and adding a silent waveform before the speech.
  • the track selection unit 14 informs the operator of the number of tracks in the score information 4, the number of channels in each track, and the presence or absence of lyrics, and gives the operator what kind of lyrics to which track or channel. You can choose.
  • the track selecting section 14 selects the track or the channel to which the lyrics are given.
  • the first channel of the first track is notified to the lyrics providing unit 5 as a target note sequence as a default.
  • the lyric providing unit 5 performs the lyric selection by the lyric selection unit 13 on the note sequence indicated by the track or channel selected by the track selection unit 14 based on the musical score information 4.
  • the singing voice information 6 is generated using the lyrics described in the track or channel, and these processes can be performed independently for each track or channel.
  • FIG. 7 is a flowchart for explaining the overall operation of the singing voice synthesizing apparatus shown in FIG.
  • step S1 performance data 1 of a MIDI file is input (step S1).
  • step S2 the performance data 1 is analyzed to create the score information 4 (steps S2, S3).
  • step S4 the operator is inquired of and the operator is set up (for example, selection of the lyrics, selection of the track or channel as the target of the lyrics, selection of the MIDI track to be muted, selection of the channel, etc.) (step S4). Note that defaults will be used in subsequent processing for parts not set by the operator.
  • steps S5 to S16 constitute a lyrics adding process.
  • step S5 if external lyrics are specified (step S5), the lyrics have the highest priority, so the process proceeds to step S6, where text data 16 such as E-mail, etc. If it is 18, it is converted to Yomi (Step S7) and then its lyrics are acquired. Otherwise (for example, in the case of lyrics 15), the external lyrics are directly acquired as lyrics (Ste S8).
  • step S9 If no external lyrics are specified, it is checked whether the lyrics exist in the score information 4 of the track (step S9). Since the lyrics present in the musical score information take precedence second, the lyrics of the musical score information are acquired when this holds (step S10).
  • step S11 If there is no lyrics in the musical score information 4, it is checked whether any lyrics are specified (step S11). If there is any lyrics, the arbitrary lyrics data 12 is obtained (step S12). After failing in the optional lyrics determination step S11, or after the lyrics acquisition steps S8, S10, S12, it is checked whether a track to which lyrics are to be assigned is selected (step S13). If there is no selected track, the first track is selected (step S19). In detail, the channel of the track that appears first is selected.
  • the track to which the lyrics are to be assigned and the channel are determined, and the singing voice information 6 is created from the lyrics using the musical score information 4 of the channel in the track (step S15).
  • step S16 it is checked whether or not the processing has been completed for all the tracks.
  • lyrics are added to a plurality of tracks, the lyrics are added independently of each other and singing voice information 6 is created.
  • lyrics adding step of FIG. 7 if no lyrics information exists in the analyzed music information, an arbitrary lyrics is added to an arbitrary note sequence. Also, when there is no external instruction for lyrics, predetermined lyrics (for example, “ra” or “bon”) can be added to an arbitrary note sequence. Also, note strings included in tracks or channels in the MIDI file are subject to lyrics. The selection of the track or channel to which the lyrics are to be assigned is performed through the operator setting processing S 4 or the like. Arbitrarily.
  • step 17 the singing voice generator 8 creates a singing voice waveform 8 from the singing voice information 6.
  • a line waveform 20 is created by the text-to-speech synthesis unit 19 (step S19).
  • the lyrics information includes information indicating a line
  • the line is read out by synthetic speech instead of the lyrics at the timing of the utterance of the corresponding lyrics, and the line is inserted into the singing.
  • step S20 it is checked whether there is a MIDI sound source to be muted (step S20), and if there is, the corresponding MIDI track and channel are muted (step S21). This makes it possible to mute, for example, the musical sound of the track or channel to which the lyrics are assigned.
  • step S21 the MIDI is reproduced by the MIDI sound source 9 to create an accompaniment waveform 10 (step S21).
  • the singing voice waveform 8, the speech waveform 20 and the accompaniment waveform 10 were obtained. Then, the singing voice waveform 8, the accompaniment waveform 10 and the speech waveform 20 are synchronized by the mixing unit 11, and they are superimposed and reproduced as the output waveform 3 (steps S23 and S24). This output waveform 3 is output as a sound signal via a sound system (not shown).
  • the processing result for example, the result of the lyrics assignment and the speech assignment result can be stored.
  • the singing voice synthesizing function described above is mounted on, for example, a robot device.
  • the bipedal-type mouth pot device shown below as an example of a configuration is a practical robot that supports human activities in various situations in the living environment and other everyday life.
  • the internal state (anger, sadness, joy, enjoyment) Etc.) and can show basic actions performed by humans.
  • the mouth pot device 60 includes a head unit 63 connected to a predetermined position of the trunk unit 62, a left and right two arm units 64 R / L, and a left and right One leg unit 65 R / L is connected.
  • R and And L are suffixes indicating right and left, respectively (the same applies hereinafter).
  • FIG. 9 schematically shows a configuration of the degree of freedom of the joint included in the mouth pot device 60.
  • the neck joint supporting the head unit 63 has three degrees of freedom: a neck joint axis 101, a neck pitch axis 102, and a neck roll axis 103.
  • each arm unit 6 4 R / L constituting the upper limb has a shoulder joint pitch axis 107, a shoulder joint roll axis 108, an upper arm single axis 109, and an elbow joint pitch axis 1 1 0, forearm axis 1 1 1, wrist joint pitch axis 1 1 2, wrist joint roll axis 1 1 3, and hand 1 1 4.
  • the hand 1 114 is actually a multi-joint-multi-degree-of-freedom structure that includes multiple fingers. However, the movement of the hand portions 114 has little contribution or influence to the posture control and the walking control of the mouth pot device 60, and therefore, it is assumed in this specification that the degree of freedom is zero. Therefore, each arm has seven degrees of freedom.
  • the trunk unit 62 has three degrees of freedom: a trunk pitch axis 104, a trunk roll axis 105, and a trunk axis 110.
  • each leg unit 6 5 R .ZL constituting the lower limb has a hip joint axis 1 15, a hip joint pitch axis 1 16, a hip joint roll axis 1 17, and a knee joint pitch axis 1 18, It is composed of an ankle joint pitch axis 1 19, an ankle joint roll axis 120 and a foot 1 2 1.
  • the intersection of the hip joint pitch axis 116 and the hip joint roll axis 117 defines the hip joint position of the robot device 60.
  • the foot 1 2 1 of the human body is actually a structure including a sole with multiple joints and multiple degrees of freedom, but the sole of the robot device 60 has zero degrees of freedom. Therefore, each leg has six degrees of freedom.
  • the mouth bot device 60 for entertainment is not necessarily limited to 32 degrees of freedom.
  • the degree of freedom that is, the number of joints, can be appropriately increased or decreased according to design and production constraints and required specifications.
  • -Each degree of freedom of the mouth pot device 60 as described above is actually implemented using the actuary. Due to the need to eliminate extra bulges on the appearance to approximate the human body shape, and to control the posture of unstable structures such as bipedal walking, Actu Yue is small and lightweight. Is preferred. Also, -In the evening, it is more preferable to configure a small AC service actuator that is directly connected to the gears and has a one-chip service control system and is mounted in the motor unit.
  • FIG. 10 schematically shows a control system configuration of the mouth pot device 60.
  • the control system comprises a thinking control module 200 that dynamically determines information and expresses emotions in response to user input and the like, and a robot device 6 such as a drive for the actuary 350. And a motion control module 300 for controlling the whole body cooperative movement.
  • the thought control module 200 is a CPU (Central Processing Unit) 211 that executes arithmetic processing related to emotion judgment and emotion expression, a RAM (Random Access Memory) 212, and a ROM (Read Only Memory) 211 , And an external storage device (hard disk drive, etc.) 214, which is a self-contained information processing device capable of performing self-contained processing in a module.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • ROM Read Only Memory
  • the thinking control module 200 such as voice data input from the image de Isseki and sound input apparatus 2 5 2 input from the image input unit 2 5 1, according to such external stimulation, mouth pot 6 0 Current Determine your emotions and intentions.
  • the image input device 25 1 includes, for example, a plurality of CCD (Charge Coupled Device) force cameras
  • the audio input device 25 2 includes, for example, a plurality of microphones.
  • the thought control module 200 issues a command to the motion control module 300 so as to execute a motion or action sequence based on a decision, that is, a motion of a limb.
  • the motion control module 300 controls the CPU 311, which controls the whole body coordination motion of the robot device 60, the RAM312, the ROM313, and an external storage device (such as a hard disk drive).
  • This is an independent drive type information processor that can perform self-contained processing within a module.
  • the external storage device 3 14 for example, a walking pattern calculated offline, a target ZMP trajectory, and other action plans can be stored.
  • the ZMP is a point on the floor at which the moment due to the floor reaction force during walking becomes zero
  • the ZMP trajectory is, for example, a locus along which the ZMP moves during the walking operation of the Lopot device 60.
  • the motion control module 300 measures the posture and tilt of the trunk unit 62, which realizes the joint degrees of freedom distributed throughout the body of the robot device 60 shown in FIG. 9.
  • a posture sensor 351 a grounding confirmation sensor 352, 353, which detects leaving or landing on the left and right soles, and a power control device 354, which controls the power supply such as a battery, It is connected via the bus interface (I / F) 301.
  • the attitude sensor 351 is constituted by, for example, a combination of an acceleration sensor and a gyro sensor
  • the grounding confirmation sensors 352, 353 are constituted by a proximity sensor or a micro switch.
  • the thought control module 200 and the motion control module 300 are built on a common platform, and they are interconnected via bus interfaces 201 and 301.
  • the movement control module 300 controls the whole body cooperative movement by each actuary 350 to embody the behavior specified by the thought control module 200. That is, the CPU 311 retrieves an operation pattern corresponding to the action instructed from the thought control module 200 from the external storage device 314 or internally generates an operation pattern. . Then, the CPU 311 sets the foot movement, the ZMP trajectory, the trunk movement, the upper limb movement, the waist horizontal position and the height, etc., according to the specified movement pattern, and performs the operation according to these setting contents. The command value to be instructed is transferred to each factory 350.
  • the CPU 311 detects the posture and inclination of the trunk unit 62 of the robot device 60 based on the output signal of the posture sensor 351, and outputs the output signals of the grounding confirmation sensors 352 and 353.
  • the whole body cooperative movement of the robot device 60 can be appropriately controlled.
  • the CPU 311 controls the posture and operation of the mouth pot device 60 so that the ZMP position always faces the center of the ZMP stable region. Further, the motion control module 300 returns to the thought control module 200 the extent to which the behavior determined according to the intention determined in the thought control module 200 has been expressed, that is, the processing status. I have.
  • the robot device 60 can determine its own and surrounding conditions based on the control program, and can act autonomously.
  • a program (including data) that implements the above-mentioned singing voice synthesis function is placed, for example, in the ROM 212 of the thought control module 200.
  • the singing voice synthesis program is executed by the CPU 211 of the thought control module 200.
  • the expressive ability as a lopot that sings along with the accompaniment is newly acquired, the entertaining property is expanded, and the intimacy with human beings is deepened.
  • the present invention is not limited to only the above-described embodiment, and it is needless to say that various changes can be made without departing from the gist of the present invention.
  • the present invention corresponds to the singing voice synthesizing unit and the waveform generating unit used in the voice synthesizing method and apparatus described in the specification and drawings of Japanese Patent Application No. 200-7333385 previously proposed by the present applicant.
  • the singing voice information that can be used for the singing voice generating unit 7 described above is illustrated, various other singing voice generating units can be used. In this case, information necessary for the singing voice generation by the various singing voice generating units is provided. Needless to say, such singing voice information may be generated from the performance data.
  • the performance data is not limited to MIDI data, and performance data of various standards can be used.
  • INDUSTRIAL APPLICABILITY As described above, according to the singing voice synthesizing method and apparatus according to the present invention, the performance data is analyzed as the music information of the pitch, length, and lyrics, and the lyrics of the analyzed music information are analyzed. The lyrics are assigned to the note sequence based on the information, and if the lyrics information does not exist, any lyrics are assigned to any note sequence in the analyzed music information, and the singing voice is determined based on the assigned lyrics.
  • the performance data can be analyzed and obtained Singing voice information can be generated by adding arbitrary lyrics to the note information based on the pitch, length, and intensity of the singing voice, and singing voice can be generated based on the singing voice information. If there is lyrics information in the evening of the performance data, not only can the lyrics be sung, but also free lyrics can be given to any note sequence in the performance data. Therefore, in the creation and reproduction of music that was conventionally expressed only by the sound of musical instruments, the singing voice can be reproduced without adding any special information, and the musical expression is greatly improved.
  • a program according to the present invention causes a computer to execute the singing voice synthesizing function of the present invention
  • a recording medium according to the present invention is a computer-readable recording medium on which this program is recorded.
  • the performance data is analyzed as the musical information of the pitch, length, and lyrics, and the lyrics are analyzed for the note sequence based on the analyzed lyrics information of the musical information.
  • the lyrics information does not exist, an arbitrary lyrics is added to an arbitrary note sequence in the analyzed music information, and the performance data is analyzed by generating a singing voice based on the added lyrics.
  • Singing voice information is generated by adding arbitrary lyrics to the note information based on the pitch, length, and strength of the sound obtained from the singing voice information, and singing voice is generated based on the singing voice information. If there is lyric information during the performance, not only can the singing be performed, but also free lyrics can be given to any note sequence during the performance .
  • the robot apparatus realizes the singing voice synthesizing function of the present invention. That is, according to the robot apparatus of the present invention, in the autonomous mouth pot apparatus which operates based on the supplied input information, the input performance data is converted to the music information of the pitch, length, and lyrics. The lyrics are added to the note sequence based on the lyric information of the analyzed music information, and if the lyric information does not exist, any lyric is assigned to an arbitrary note sequence in the analyzed music information. By generating a singing voice based on the assigned lyrics, the performance data is analyzed and arbitrary lyrics can be assigned to the note information based on the pitch, length, and strength obtained from the data.
  • the singing voice information can be generated by adding the singing voice information, and the singing voice can be generated based on the singing voice information.
  • Arbitrary in performance data Sound Free lyrics can be given to the code string. Therefore, the expression ability of the mouth pot device is improved, the entertainment property can be improved, and the intimacy with humans can be deepened.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Toys (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

 MIDIデータ等の演奏データを活用して歌声を合成する歌声合成方法であり、入力された演奏データを音の高さ、長さ、歌詞の音楽情報として解析する(S2、S3)。解析された音楽情報に歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する(S9、S11、S12、S15)。付与された歌詞に基づき歌声を生成する(S17)。

Description

明細書 歌声合成方法、 歌声合成装置、 プログラム及び記録媒体並びに口ポット装置 技術分野 本発明は、 演奏データから歌声を合成する歌声合成方法、 歌声合成装置、 プロ グラム及び記録媒体、 並びにロポット装置に関する。
本出願は、 日本国において 2003年 3月 20日に出願された日本特許出願番 号 2003— 079 1 50を基礎として優先権を主張するものであり、 この出願 は参照することにより、 本出願に援用される。 背景技術
コンピュータ等により、 与えられた歌唱デ一夕から歌声を生成する技術は特許 文献 1に代表されるように既に知られている。
M I D I (Musical Instrument Digital Interface) データは代表的な演奏デ 一夕であり、 事実上の業界標準である。 代表的には、 M I D Iデ一夕は M I D I 音源と呼ばれるデジタル音源、 例えば、 コンピュータ音源や電子楽器音源等の M I D Iデータにより動作する音源を制御して楽音を生成するのに使用される。 M I D Iファイル、 例えば、 SMF (Standard MIDI File) には歌詞データを入れ ることができ、 歌詞付きの楽譜の自動作成に利用される。
また、 M I D Iデ一夕を歌声又は歌声を構成する音素セグメン卜のパラメ一夕 表現 (特殊データ表現) として利用する試みも提案されている。
これらの従来の技術においては、 M I D Iデ一夕のデータ形式の中で歌声を表 現しようとしているが、 あくまでも楽器をコントロールする感覚でのコントロ一 ルであり、 M I D I本来が持っている歌詞データを利用するものではなかった。 また、 他の楽器用に作成された M I D Iデータを、 修正を加えることなく歌声 にすることはできなかった。
また、 電子メールやホームページを読み上げる音声合成ソフトはソニー (株) の rs imp le Speech] をはじめ多くのメ一力一から発売されているが、 読み上げ 方は普通の文章を読み上げるのと同じような口調であった。
ところで、 電気的又は磁気的な作用を用いて人間 (生物) の動作に似た運動を 行う機械装置を 「口ポット」 という。 我が国において口ポットが普及し始めたの は、 1 9 6 0年代末からであるが、 その多くは、 工場における生産作業の自動化 •無人化等を目的としたマニピュレータや搬送ロポット等の産業用ロポット (In dus t r i al Robot) であった。
最近では、 人間のパートナーとして生活を支援する、 すなわち住環境その他の 日常生活上の様々な場面における人的活動を支援する実用ロポッ卜の開発が進め られている。 このような実用口ポットは、 産業用口ポットとは異なり、 人間の生 活環境の様々な局面において、 個々に個性の相違した人間、 又は様々な環境への 適応方法を自ら学習する能力を備えている。 例えば、 犬、 猫のように 4足歩行の 動物の身体メカニズムやその動作を模した 「ペット型」 ロボット、 或いは、 2足 直立歩行を行う人間等の身体メカニズムや動作をモデルにしてデザインされた 「人間型」 又は 「人間形」 口ポット (Humano id Robot) 等のロボッ ト装置は、 既 に実用化されつつある。
これらのロボット装置は、 産業用ロボットと比較して、 エンタテインメント性 を重視した様々な動作を行うことができるため、 ェン夕ティンメントロボットと 呼称される場合もある。 また、 そのようなロボット装置には、 外部からの情報や 内部の状態に応じて自律的に動作するものがある。
この自律的に動作する口ポット装置に用いられる人工知能 (A I : Ar t i f ic ial Inte l l i gence) は、 推論 ·判断等の知的な機能を人工的に実現したものであり、 さらに感情や本能等の機能をも人工的に実現することが試みられている。 このよ うな人工知能の外部への表現手段としての視覚的な表現手段や自然言語の表現手 段等のうちで、 自然言語表現機能の一例として、 音声を用いることが挙げられる, 本発明の先行技術文献として、 特許第 3 2 3 3 0 3 6号公報、 特開平 1 1 一 9 5 7 9 8号公報がある。
以上のように、 従来の歌声合成は特殊な形式のデ一夕を用いていたり、 仮に M I D Iデータを用いていてもその中に埋め込まれている歌詞データを有効に活用 できなかったり、 他の楽器用に作成された M I D Iデータを鼻歌感覚で歌い上げ たりすることはできなかった。 発明の開示 本発明の目的は、 従来の技術が有する問題点を解消することができる新規な歌 声合成方法及び装置を提供することにある。
本発明の他の目的は、 M I D Iデータのような演奏データを活用して歌声を合 成することが可能な歌声合成方法及び装置を提供することにある。
本発明のさらに他の目的は、 M I D Iファイル (代表的には S M F ) により親 定された M I D Iデータを音声合成により歌い上げることができ、 M I D Iデ一 夕の中に歌詞情報があればそれをそのまま利用することも他の歌詞に置き換える ことも可能であり 歌詞情報がない M I D Iデ一夕に関しても任意の歌詞を付与 して歌い上げることができ、 及び 又は、. 別に用意されたテキストデータにメロ ディーを付けて替え歌風に歌い上げることが可能な歌声合成方法及び装置を提供 することにある。
本発明のさらに他の目的は.. このような歌声合成機能をコンピュータに実施さ せるプロダラム及び記録媒体を提供することにある。
本発明のさらに他の目的は、 このような歌声合成機能を実現するロポッ卜装置 を提供することにある。
本発明に係る歌声合成方法は、 演奏データを音の高さ、 長さ、 歌詞の音楽情報 として解析する解析工程と、 解析された音楽情報の歌詞情報に基づき音符列に対 して歌詞を付与するとともに、 歌詞情報が存在しない場合に任意の音符列に対し て任意の歌詞を付与する歌詞付与工程と、 付与された歌詞に基づき歌声を生成す る歌声生成工程とを有する。
本発明に係る歌声合成装置は、 演奏データを音の高さ、 長さ、 歌詞の音楽情報 として解析する解析手段と、 解析された音楽情報の歌詞情報に基づき音符列に対 して歌詞を付与するとともに、 歌詞情報が存在しない場合に演奏データ中の任意 の音符列に対して任意の歌詞を付与する歌詞付与手段と、 付与された歌詞に基づ き歌声を生成する歌声生成手段とを有する。
本発明に係る歌声合成方法及び装置は、 演奏データを解析してそれから得られ る音の高さ、 長さ、 強さをもとにした音符情報に対して任意の歌詞を付与するこ とにより歌声情報を生成し、 その歌声情報をもとに歌声の生成を行うことができ、 演奏データの中に歌詞情報があればその歌詞を歌い上げることが可能なばかりで なく、 演奏データ中の任意の音符列に対して自由な歌詞を付与することができる。 本発明に用いられる演奏データは、 M I D Iファイルの演奏データであること が好ましい。
また、 歌詞付与工程又は手段は、 外部からの歌詞の指示がない場合には予め決 められた歌詞、 例えば、 「ら」 や 「ぼん」 などの歌詞を演奏デ一夕中の任意の音 符列に対して付与することが好ましい。
また、 M I D Iファイルのトラック又はチャンネルに含まれる音符列を歌詞付 与の対象とすることが好ましい。
これに鬨連し、 歌詞付与工程又は手段は、 トラック又はチャンネルの選択を任 意に行うことが好ましい。
また、 歌詞付与工程又は手段は演奏デ一夕の中で一番初めに現れるトラック又 は、 チヤンネルの音符列を歌詞付与の対象とすることが好ましい。
さらに.. 歌詞付与工程又は手段は複数のトラック又はチャンネルに対してそれ ぞれ独立した歌詞を付与することが好ましい。 これにより、 デュエットやトリオ 等の歌声合唱が容易に実現できる。
また、 歌詞付与の結果を保存することが好ましい。
さらに、 歌詞情報に台詞を表す情報が含まれている場合に該当歌詞の発声の夕 ィミングで歌詞の替わりに台詞を合成音声により読み上げ、 歌唱の中に台詞を揷 入する台詞挿入工程又は手段をさらに有することが好ましい。
本発明に係るプログラムは、 本発明の歌声合成機能をコンピュータに実行させ るものであり、 本発明に係る記録媒体は、 このプログラムが記録されたコンビュ —夕により読み取り可能なものである。
本発明に係るロボット装置は、 供給された入力情報に基づいて動作を行う自律 型の口ポット装置であって、 入力された演奏データを音の高さ、 長さ、 歌詞の音 楽情報として解析する解析手段と、 解析された音楽情報に歌詞情報が存在しない 場合に解析された音楽情報中の任意の音符列に対して任意の歌詞を付与する歌詞 付与手段と、 付与された歌詞に基づき歌声を生成する歌声生成手段とを有する。 これにより、 ロポットの持っているエンタテインメント性を格段に向上させるこ とができる。 図面の簡単な説明 図 1は、 本発明に係る歌声合成装置のシステム構成を示すブロック図である。 図 2は、 解析結果の楽譜情報の例を示す図である。
図 3は、 歌声情報の例を示す図である。
図 4は、 歌声生成部の構成を示すブロック図である。
図 5は、 歌詞が振られていない楽譜情報の例を示す図である。
図 6は、 歌声情報の例を示す図である。
図 7は、 本発明に係る歌声合成装置の動作を説明するフローチャートである。 図 8は、 本発明に係るロポット装置の外観を示す斜視図である。
図 9は、 ロボット装置の自由度構成モデルを模式的に示す図である。
図 1 0は、 ロボット装置のシステム構成を示すプロック図である。 発明を実施するための最良の形態 以下、 本発明を適用した実施の形態について、 図面を参照しながら詳細に説明 する。
先ず、 本発明に係る歌声合成装置のシステム構成を図 1に示す。 ここで、 本発 明に係る歌声合成装置は、 少なくとも感情モデル、 音声合成手段及び発音手段を 有する例えば口ポット装置に適用することを想定しているが、 これに限定されず, 各種口ポット装置や、 口ポット以外の各種コンピュータ A I (Art i f ic i al Inte l l igence) 等への適用も可能であることは勿論である。
図 1において、 M I D Iデ一夕に代表される演奏データ 1を解析する演奏デ一 夕解析部 2は入力された演奏データ 1を解析し演奏デ一夕内にあるトラックゃチ ャンネルの音の高さや長さ、 強さを表す楽譜情報 4に変換する。
図 2に、 楽譜情報 4に変換された演奏データ (M I D Iデータ) の例を示す。 図 2において、 トラック毎、 チャンネル毎にイベントが書かれている。 イベント にはノートイベントとコントロ一ルイベントが含まれる。 ノートイベン卜は発生 時刻 (図 2中の時間の欄) 、 高さ、 長さ、 強さ (velocity) の情報を持つ。 した がって、 ノートイベントのシーケンスにより音符列又は音列が定義される。 コン トロ一ルイベントは発生時刻、 コントロールのタイプデ一夕 (例えばビブラート、 演奏ダイナミクス表現 (expression) ) 及びコントロールのコンテンツを示すデ —夕を持つ。 例えば、 ビブラートの場合、 コントロールのコンテンツとして、 音 の振れの大きさを指示する 「深さ」 、 音の揺れの周期を指示する 「幅」 、 音の揺 れの開始タイミング、 すなわち、 発音夕イミングからの遅れ時間を指示する 「遅 れ」 の項目を有する。 特定のトラック、 チャンネルに対するコント口一ルイベン 卜はそのコントロールタイプについて新たなコントロ一ルイベント (コントロー ルチェンジ) が発生しない限り そのトラック チャンネルの音符列の楽音再生 に適用される。 さらに、 M I D Iファイルの演奏データにはトラック単位で歌詞 を記入することができる。 図 2において、 上方に示す 「あるうひ」 はトラック 1 に記入された歌詞の一部であり、 下方に示す 「あるうひ」 はトラック 2に記入さ れた歌詞の一部である。 すなわち、 図 2に示す例は、 解析した音楽情報 (楽譜情 報) の中に歌詞が埋め込まれた例である。
なお、 図 2において、 時間は 「小節:拍:ティック数」 で表され、 長さは 「テ イツク数」 で表され、 強さは 「0— 127」 の数値で表され、 高さは 440 Hzが ΓΑ 4 J で表される。 また、 ビブラートは、 深さ、 幅、 遅れがそれぞれ 「 0— 6 4一 127」 の数値で表される。
そして、 変換された楽譜情報 4は、 歌詞付与部 5に渡される。 歌詞付与部 5で は楽譜情報 4をもとに音符に対応した音の長さ、 高さ、 強さ、 表情などの情報と ともにその音に対する歌詞が付与された歌声情報 6の生成を行う。
図 3に、 歌声情報 6の例を示す。 図 3において、 「¥ s o n g¥」 は歌詞情報 の開始を示すタグである。 タグ 「¥PP, T 10673075 ¥」 は 1 06 73 075 M secの休みを示し、 タグ 「¥ t d yn a 1 10 649075 ¥」 は先 頭から 10673075 i secの全体の強さを示し、 タグ 「¥ f i n e— 100 ¥」 は M I D Iのファインチューンに相当する高さの微調整を示し、 タグ 「¥v i b r a t o N R P N一 d e p = 64 ¥」 、 [¥v i b r a t o NRPN一 d e 1 = 50 ¥] , 「¥ v i b r a t o N R P N_ r a t = 64 ¥」 はそれぞ れ、 ビブラートの深さ、 遅れ、 幅を示す。 また、 タグ 「¥dyn a 100 ¥」 は音毎の強弱を示し、 タグ 「¥G4, T 28846 1 ¥あ」 は G4の高さで、 長 さが 28846 1 secの歌詞 「あ」 を示す。 図 3の歌声情報は図 2に示す楽譜情 報 (M I D Iデータの解析結果) から得られたものである。
図 2と図 3の比較から分かるように、 楽器制御用の演奏データ、 例えば、 音符 情報が歌声情報の生成において十分に活用されている。 例えば、 歌詞 「あるう ひ」 の構成要素 「あ」 について、 「あ」 以外の歌唱属性である 「あ」 の音の発生 時刻 長さ、 高さ、 強さ等について、 楽譜情報 (図 2参照) 中のコントロール情 報やノートイベント情報に含まれる発生時刻、 長さ、 高さ、 強さ等が直接的に利 用され., 次の歌詞要素 「る」 についても楽譜情報中の同じトラック、 チャンネル における次のノートイベント情報が直接的に利用され、 以下同様である。
そして、 歌声情報 6は 図 1に示すように 歌声生成部 7に渡され、 歌声生成 部 7においては歌声情報 6をもとに歌声波形 8の生成を行う。 ここで、 歌声情報 6から歌声波形 8を生成する歌声生成部 7は例えば図 4に示すように構成される。 図 4において、 歌声韻律生成部 7— 1は歌声情報 6を歌声韻律データに変換す る。 波形生成部 7— 2は歌声韻律データを歌声波形 8に変換する。
具体例として、 「A4」 の高さの歌詞要素 「ら」 を一定時間伸ばす場合につい て説明する。 ビブラートをかけない塲合の歌声韻律データは、 以下の表のように 表される。 [LABEL] [PITCH] [VOLUME]
0 ra 0 50 0 66
1000 aa 39600 57
39600 aa 40100 48
40100 aa
40600 aa 41100 30
41100 aa 41600 21
41600 aa 42100 12
42100 aa 42600 3
42600 aa
43100 a. この表 1において、 [LABEL]は、 各音韻の継続時間長を表したものである。 すな わち、 「 r a」 という音韻 (音素セグメント) は、 0サンプルから 1 0 0 0サン プルまでの 1 0 0 0サンプルの継続時間長であり、 Γ r a J に続く最初の 「 a a J という音韻は、 1 0 0 0サンプルから 3 9 6 0 0サンプルまでの 3 8 6 0 0 サンプルの継続時間長である。 また、 [PITCH]は、 ピッチ周期を点ピッチで表した ものである。 すなわち、 0サンプル点におけるピッチ周期は 5 6サンプルである。 ここでは 「ら」 の高さを変えないので全てのサンプルに渡り 5 6サンプルのピッ チ周期が適用される。 また、 [VOLUME]は、 各サンプル点での相対的な音量を表し たものである。 すなわち、 デフオルト値を 1 0 0 %としたときに、 0サンプル点 では 6 6 %の音量であり、 3 9 6 0 0サンプル点では 5 7 %の音量である。 以下 同様にして、 4 0 1 0 0サンプル点では 4 8 %の音量等が続き 4 2 6 0 0サンプ ル点では 3 %の音量となる。 これにより 「ら」 の音声が時間の経過とともに減衰 することが実現される。
これに対して、 ビブラートをかける場合には、 例えば、 以下に示すような歌声 韻律データが作成される。
Figure imgf000011_0001
s拏
CS.C00/l700Zdf/X3d 請 OOZ OAV この表 2の [PITCH]の欄に示すように、 0サンプル点と 1 0 0 0サンプル点にお けるピッチ周期は 50サンプルで同じであり、 この間は音声の高さに変化がない が、 それ以降は、 20 0 0サンプル点で 5 3サンプルのピッチ周期、 40 0 9サ ンプル点で 47サンプルのピッチ周期、 6 0 09サンプル点で 5 3のピッチ周期 というようにピッチ周期が約 40 0 0サンプルの周期 '(幅) を以て上下 (5 0土 3) に振れている。 これにより音声の高さの揺れであるビブラートが実現される。 この [PITCH]の欄のデータは歌声情報 6における対応歌声要素 (例えば 「ら」 ) に 関する情報、 特にノートナンバー (例えば A 4) とビブラートコントロールデ一 夕 (例えば、 タグ 「¥v i b r a t o NRPN— d e p = 64¥」 、 [¥v i b r a t o N R P N_d e 1 = 5 0 ¥] , 「¥v i b r a t o NRPN一 r a t = 64 ¥」 ) に基づいて生成される。
波形生成部 7— 2は、 このような歌声音韻データに基づき内部の波形メモリ (図示せず) からサンプルを読み出して歌声波形 8を生成する。 なお 歌声情報 6から歌声波形 8を生成する歌声生成部 7については上記の例に限らず、 任意の 適当な公知の歌声生成器を使用できる。
演奏データ 1は、 図 1に示すように、 M I D I音源 9に渡され、 M I D I音源 9は演奏デ一夕をもとに楽音の生成を行う。 この楽音は 伴奏波形 1 0である。 歌声波形 8と伴奏波形 1 0は、 ともに同期を取りミキシングを行うミキシング 部 1 1に渡される。
ミキシング部 1 1では、 歌声波形 8と伴奏波形 1 0との同期を取りそれぞれを 重ね合わせて出力波形 3として再生を行うことにより、 演奏データ 1をもとに伴 奏を伴った歌声による音楽再生を行う。
ここで、 楽譜情報 4をもとに歌詞付与部 5により歌声情報 6に変換する段階に おいて、 楽譜情報 4において歌詞情報が存在する場合には、 情報として存在する 歌詞を優先して歌声情報 6の付与を行う。 上述したように、 図 2は歌詞が付与さ れた状態の楽譜情報 4の例であり、 図 3は図 2の楽譜情報 4から生成された歌声 情報 6の例である。
また、 歌詞付与部 5が楽譜情報 4をもとに歌詞の付与を行う際に対象となるの はトラック選択部 14により選択された楽譜情報 4のトラックやチャンネルに対 応した音符列である。
ここで、 楽譜情報 4において、 歌詞がどのトラックやチャンネルにも存在しな い場合、 歌詞付与部 5はトラック選択部 1 4により選択された音符列に対して歌 詞選択部 1 3により予めオペレータにより指定された 「ら」 や 「ぼん」 などの任 意歌詞データ 1 2をもとに任意の歌詞を付与する。
図 5に歌詞が振られていない楽譜情報 4の例を、 図 6には図 5の楽譜情報に任 意歌詞として 「ら」 が登録されている場合の歌声情報 6の例を示す。
なお、 図 5において、 時間は 「小節:拍:ティック数」 で表され、 長さは 「テ イツク数」 で表され、 強さは Γ 0 - 1 2 7 J の数値で表され、 高さは 4 4 0 Hzが 「A 4」 で表される。
歌詞選択部 1 3は、 図 1に示すように、 この任意歌詞データ 1 2としてォペレ —夕によって任意の読みの付与が指定できるが、 何も指定されていない場合の初 期値の任意歌詞データ 1 2は 「ら」 に設定されている。
また、 歌詞選択部 1 3は予め外部に用意された歌詞データ 1 5をトラック選択 部 1 4により選択された音符列に対して付与することも可能である。
さらに、 歌詞選択部 1 3は E-mai lやホームページゃヮ一プロで作成した文書な どのテキス 1、データ 1 6を歌詞生成部 1 7により読み仮名に変換することにより 任意の文字列を歌詞として選択することが可能である。 ここで、 漢字かな混じり の文字列を読み仮名に変換する技術は、 「形態素解析」 の応用として広く公知で ある。
ここで、 対象となるテキストはネットワークを用いて配信されるネットワーク 上のテキスト 1 8であってもかまわない。
本発明によれば、 歌詞情報に台詞を表す情報が含まれている場合に該当歌詞の 発声のタイミングで歌詞の替わりに台詞を合成音声により読み上げ、 歌唱の中に 台詞を挿入することができる。
例えば、 M I D Iデ一夕中に台詞タグ、 例えば 「ZZ幸せだな一」 がある場合, 歌詞付与部 5により生成された歌声情報 6の歌詞中にその歌詞が台詞であること を表す情報として例えば 「¥ S P, T 2 3 4 5 6 9 6 ¥幸せだな一」 が付加され る。 この場合は台詞部分がテキスト音声合成部 1 9に渡され台詞波形 2 0が生成 される。 この例のように、 台詞を表す情報としては 「¥ S P , T ¥台詞」 など のタグを用いて表現することが文字列レベルで容易に可能である。
この際、 台詞波形は台詞発話のタイミング情報として、 歌声情報における休符 情報を流用し、 台詞の前に無音の波形を付加することによつても可能である。
トラック選択部 1 4は、 楽譜情報 4のトラックの数やそれぞれのトラックの中 にあるチャンネルの数、 歌詞の有無をォペレ一夕に伝え、 オペレータによりどの トラック又はチャンネルにどのような歌詞を付与するかを選択することができる。 ここで、 トラック選択部 1 4においてはトラック又はチャンネルに対して歌詞 が付与されている場合は歌詞が付与されているトラック又はチヤンネルを選択す る。
また、 歌詞が付与されていないものに対しては、 ォペレ一夕の指示によりどの トラックを又はチャンネルを選択するかを判断する。 勿論、 歌詞が付与されてい るトラック又はチャンネルに対してオペレータにより任意の歌詞を付与すること も可能である。
歌詞もオペレータの指示もない場合には、 デフオル卜として第 1 トラックの第 1チャンネルを対象音符列として歌詞付与部 5に知らせる。
以上の説明のように、 歌詞付与部 5は、 楽譜情報 4をもとにトラック選択部 1 4により選択された卜ラック又はチャンネルが示す音符列に対して歌詞選択部 1 3により選択された歌詞又はトラック又はチャンネルに記載されている歌詞を用 いて歌声情報 6の生成を行うが、 これらの処理は、 それぞれのトラックやチャン ネルに対して独立して行えるものである。
図 7は、 図 1に示す歌声合成装置の全体動作を説明するためのフローチャート である。
この図 7において、 先ず M I D I ファイルの演奏データ 1を入力する (ステツ プ S 1 ) 。 次に、 演奏データ 1を解析し、 楽譜情報 4を作成する (ステップ S 2 、 S 3 ) 。 次に、 オペレータに問い合わせオペレータの設定処理 (例えば、 歌詞の 選択、 歌詞の対象であるトラック、 チャンネルの選択、 ミュートする M I D I ト ラック、 チャンネルの選択等) を行う (ステップ S 4 ) 。 なお、 オペレータが設 定しなかった部分についてはデフォルトが後続処理で使用される。 続くステップ S 5〜 S 1 6は歌詞付加工程を構成する。 先ず着目しているトラ ックについて、 外部の歌詞の指定あり (ステップ S 5 ) のときは、 その歌詞を最 優先するので、 ステップ S 6に進み、 E-ma i l等のテキストデータ 1 6、 1 8であ れば、 読みに変換し (ステップ S 7 ) てからその歌詞を取得し、 そうでなければ (例えば歌詞デ一夕 1 5のときは) 直接その外部歌詞を歌詞として取得する (ス テツプ S 8 ) 。
外部の歌詞の指定がなければ、 そのトラックの楽譜情報 4内に歌詞があるか検 査する (ステップ S 9 ) 。 楽譜情報中に存在する歌詞は 2番目に優先するので、 これが成り立つときは楽譜情報の歌詞を取得する (ステップ S 1 0 ) 。
楽譜情報 4内に歌詞がなければ任意歌詞の指定があるか検査し (ステップ S 1 1 ) 、 指定ありなら、 その任意歌詞データ 1 2を取得する (ステップ S 1 2 ) 。 任意歌詞判定ステップ S 1 1で不成立の後、 又は歌詞取得ステップ S 8、 S 1 0、 S 1 2の後、 歌詞を割り当てるトラックが選択されているか検査する (ステ ップ S 1 3 ) 。 選択されたトラックがなければ先頭のトラックを選択する (ステ ップ S 1 9 ) 。 なお、 詳細には、 一番初めに現れるトラックのチャンネルが選択 される。
以上で歌詞を割り当てるトラックとチヤンネルが決定したので そのトラック におけるチヤンネルの楽譜情報 4を用いて歌詞から歌声情報 6を作成する (ステ ップ S 1 5 ) 。
次に、 全てのトラックについて処理を完了したかどうか検査し (ステップ S 1 6 ) 、 完了してなければトラックを次に進めて、 ステップ S 5に戻る。
したがって、 複数のトラックにそれぞれ歌詞を付加する場合に、 互いに独立し て歌詞が付加され歌声情報 6が作成されることになる。
このように、 図 7の歌詞付加工程によれば、 解析された音楽情報に歌詞情報が 存在しない場合に、 任意の音符列に対して任意の歌詞が付加される。 また、 外部 からの歌詞の指示がない場合に予め決められた歌詞 (例えば 「ら」 や 「ぼん」 ) を任意の音符列に対して付与することもできる。 また、 M I D Iファイルのトラ ック又はチャンネルに含まれる音符列を歌詞付与の対象としている。 また、 歌詞 を割り当てるトラック又はチャンネルの選択をオペレータ設定処理 S 4等を介し て任意に行うことができる。
歌詞付加工程の後、 ステップ 1 7に進み、 歌声生成部 7により歌声情報 6から 歌声波形 8を作成する。
次に、 歌声情報の中に台詞があれば (ステップ S 1 8 ) 、 テキスト音声合成部 1 9により台詞波形 2 0を作成する (ステップ S 1 9 ) 。 これにより、 歌詞情報 に台詞を表す情報が含まれている場合には該当歌詞の発声のタイミングで歌詞の 替わりに台詞が合成音声により読み上げられ、 歌唱の中に台詞が挿入されること になる。
次に、 ミュートする M I D I音源があるか検査し (ステップ S 2 0 ) 、 あれば 該当する M I D I トラック、 チャンネルをミュ一トする (ステツプ S 2 1 ) 。 こ れにより、 例えば歌詞を割り当てたトラック、 チャンネルの楽音をミュートする ことができる。 次に M I D I音源 9により M I D Iを再生して伴奏波形 1 0を作 成する (ステップ S 2 1 ) 。
ここまでの処理で、 歌声波形 8、 台詞波形 2 0及び伴奏波形 1 0が得られた。 そこで ミキシング部 1 1により、 歌声波形 8と伴奏波形 1 0、 台詞波形 2 0 との同期を取りそれぞれを重ね合わせて出力波形 3として再生を行う (ステップ S 2 3、 S 2 4 ) 。 この出力波形 3は図示しないサウンドシステムを介して音響 信号として出力される。
なお、 最後のステップ S 2 4又は途中の適当なステップ、 例えば歌声波形と台 詞波形の生成を終了した段階で、 処理結果例えば、 歌詞付与の結果と台詞付与の 結果を保存することができる。
以上説明した歌声合成機能は例えば、 ロボット装置に搭載される。
以下、 一構成例として示す 2足歩行タイプの口ポット装置は、 住環境その他の 日常生活上の様々な場面における人的活動を支援する実用ロポットであり、 内部 状態 (怒り、 悲しみ、 喜び、 楽しみ等) に応じて行動できるほか、 人間が行う基 本的な動作を表出できるェン夕ティンメントロポットである。
図 8に示すように、 口ポット装置 6 0は、 体幹部ユニット 6 2の所定の位置に 頭部ュニット 6 3が連結されるとともに、 左右 2つの腕部ュニット 6 4 R / Lと、 左右 2つの脚部ユニット 6 5 R / Lが連結されて構成されている。 ただし、 R及 び Lの各々は、 右及び左の各々を示す接尾辞である (以下において同じ。 ) 。 この口ポット装置 6 0が具備する関節自由度構成を、 図 9に模式的に示す。 頭 部ユニット 6 3を支持する首関節は、 首関節ョー軸 1 0 1と、 首関節ピッチ軸 1 0 2と、 首関節ロール軸 1 0 3という 3自由度を有している。
また、 上肢を構成する各々の腕部ユニット 6 4 R / Lは、 肩関節ピッチ軸 1 0 7と、 肩関節ロール軸 1 0 8と、 上腕ョ一軸 1 0 9と、 肘関節ピッチ軸 1 1 0と、 前腕ョ一軸 1 1 1と、 手首関節ピッチ軸 1 1 2と、 手首関節ロール軸 1 1 3と、 手部 1 1 4とで構成される。 手部 1 1 4は、 実際には、 複数本の指を含む多関節 -多自由度構造体である。 ただし、 手部 1 1 4の動作は、 口ポット装置 6 0の姿 勢制御や歩行制御に対する寄与や影響が少ないので、 本明細書ではゼロ自由度と 仮定する。 したがって、 各腕部は 7自由度を有するとする。
また、 体幹部ュニット 6 2は、 体幹ピッチ軸 1 0 4と、 体幹ロール軸 1 0 5と、 体幹ョ一軸 1 0 6という 3自由度を有する。
また、 下肢を構成する各々の脚部ユニット 6 5 R .Z Lは、 股関節ョー軸 1 1 5 と、 股関節ピッチ軸 1 1 6と 股関節ロール軸 1 1 7と、 膝関節ピッチ軸 1 1 8 と、 足首関節ピッチ軸 1 1 9と、 足首関節ロール軸 1 2 0と、 足部 1 2 1とで構 成される。 本明細書中では、 股関節ピッチ軸 1 1 6と股閼節ロール軸 1 1 7の交 点は、 ロボット装置 6 0の股関節位置を定義する。 人体の足部 1 2 1は、 実際に は多関節 ·多自由度の足底を含んだ構造体であるが、 ロポット装置 6 0の足底は, ゼロ自由度とする。 したがって、 各脚部は、 6自由度で構成される。
以上を総括すれば、 口ポット装置 6 0全体としては、 合計で 3 + 7 X 2 + 3 + 6 X 2 = 3 2自由度を有することになる。 ただし、 エンタテインメント向けの口 ボッ卜装置 6 0が必ずしも 3 2自由度に限定されるわけではない。 設計 ·制作上 の制約条件や要求仕様等に応じて、 自由度すなわち関節数を適宜増減することが できることはいうまでもない。 - 上述したような口ポット装置 6 0がもつ各自由度は、 実際にはァクチユエ一夕 を用いて実装される。 外観上で余分な膨らみを排してヒトの自然体形状に近似さ せること、 2足歩行という不安定構造体に対して姿勢制御を行うことなどの要請 から、 ァクチユエ一夕は小型且つ軽量であることが好ましい。 また、 ァクチユエ —夕は、 ギア直結型で且つサーポ制御系をワンチップ化してモー夕ュニット内に 搭載したタイプの小型 ACサーポ ·ァクチユエ一夕で構成することがより好まし い。
図 1 0には、 口ポット装置 6 0の制御システム構成を模式的に示している。 図 1 0に示すように、 制御システムは、 ユーザ入力などに動的に反応して情緖判断 や感情表現を司る思考制御モジュール 2 0 0と、 ァクチユエ一夕 3 5 0の駆動な どロポット装置 6 0の全身協調運動を制御する運動制御モジュール 30 0とで構 成される。
思考制御モジュール 2 00は、 情緒判断や感情表現に関する演算処理を実行す る CPU (Central Processing Unit) 2 1 1や、 RAM (Random Access Memor y) 2 1 2、 ROM (Read Only Memory) 2 1 3、 及び、 外部記憶装置 (ハード · ディスク · ドライブなど) 2 14で構成される、 モジュール内で自己完結した処 理を行うことができる、 独立駆動型の情報処理装置である。
この思考制御モジュール 200は、 画像入力装置 2 5 1から入力される画像デ 一夕や音声入力装置 2 5 2から入力される音声データなど、 外界からの刺激など に従って、 口ポット装置 6 0の現在の感情や意思を決定する。 ここで、 画像入力 装置 2 5 1は、 例えば CCD (Charge Coupled Device) 力メラを複数備えており また、 音声入力装置 2 5 2は、 例えばマイクロホンを複数備えている。
また、 思考制御モジュール 2 0 0は、 意思決定に基づいた動作又は行動シーケ ンス、 すなわち四肢の運動を実行するように、 運動制御モジュール 300に対し て指令を発行する。
一方の運動制御モジュール 3 0 0は、 ロポット装置 60の全身協調運動を制御 する C P U 3 1 1や、 RAM 3 1 2、 ROM 3 1 3 , 及ぴ外部記憶装置 (ハード 'ディスク ' ドライブなど) 3 14で構成される、 モジュール内で自己完結した 処理を行うことができる、 独立駆動型の情報処理装置である。 外部記憶装置 3 1 4には、 例えば、 オフラインで算出された歩行パターンや目標とする Z MP軌道、 その他の行動計画を蓄積することができる。 ここで、 ZMPとは、 歩行中の床反 力によるモーメントがゼロとなる床面上の点のことであり、 また、 ZMP軌道と は、 例えばロポット装置 60の歩行動作期間中に ZMPが動く軌跡を意味する。 なお、 Z M Pの概念並びに Z M Pを歩行ロポットの安定度判別規範に適用する 点については、 Miomi r Vukobratov ic 著 "LEGGED LOCOMOTION ROBOTS" (加藤一 郎外著 『歩行口ポットと人工の足』 (日刊工業新聞社) ) に記載されている。 運動制御モジュール 3 0 0には、 図 9に示したロボット装置 6 0の全身に分散 するそれぞれの関節自由度を実現するァクチユエ一夕 3 5 0、 体幹部ュニット 6 2の姿勢や傾斜を計測する姿勢センサ 3 5 1、 左右の足底の離床又は着床を検出 する接地確認センサ 3 5 2, 3 5 3、 パッテリなどの電源を管理する電源制御装 置 3 5 4などの各種の装置が、 バス ·ィンタフェース ( I / F ) 3 0 1経由で接 続されている。 ここで、 姿勢センサ 3 5 1は、 例えば加速度センサとジャイロ · センサの組み合わせによって構成され、 接地確認センサ 3 5 2, 3 5 3は、 近接 センサ又はマイクロ ·スィツチなどで構成される。
思考制御モジュール 2 0 0と運動制御モジュール 3 0 0は、 共通のブラットフ オーム上で搆築され、 両者間はバス · イン夕フェース 2 0 1, 3 0 1を介して相 互接続されている。
運動制御モジュール 3 0 0では 思考制御モジュール 2 0 0から指示された行 動を体現すべく、 各ァクチユエ一夕 3 5 0による全身協調運動を制御する。 すな わち、 C P U 3 1 1は、 思考制御モジュール 2 0 0から指示された行動に応じた 動作パ夕一ンを外部記憶装置 3 1 4から取り出し、 又は、 内部的に動作パターン を生成する。 そして、 C P U 3 1 1は、 指定された動作パターンに従って、 足部 運動、 Z M P軌道、 体幹運動、 上肢運動、 腰部水平位置及び高さなどを設定する とともに、 これらの設定内容に従った動作を指示する指令値を各ァクチユエ一夕 3 5 0に転送する。
また、 C P U 3 1 1は、 姿勢センサ 3 5 1の出力信号によりロポット装置 6 0 の体幹部ユニット 6 2の姿勢や傾きを検出するとともに、 各接地確認センサ 3 5 2 , 3 5 3の出力信号により各脚部ュニッ卜 6 5 R / Lが遊脚又は立脚のいずれ の状態であるかを検出することによって、 ロポット装置 6 0の全身協調運動を適 応的に制御することができる。
また、 C P U 3 1 1は、 Z M P位置が常に Z M P安定領域の中心に向かうよう に、 口ポット装置 6 0の姿勢や動作を制御する。 さらに、 運動制御モジュール 3 0 0は、 思考制御モジュール 2 0 0において決 定された意思通りの行動がどの程度発現されたか、 すなわち処理の状況を、 思考 制御モジュール 2 0 0に返すようになつている。
このようにしてロポット装置 6 0は、 制御プログラムに基づいて自己及び周囲 の状況を判断し、 自律的に行動することができる。
この口ポット装置 6 0において、 上述した歌声合成機能をィンプリメントした プログラム (デ一夕を含む) は例えば思考制御モジュール 2 0 0の R O M 2 1 3 に置かれる。 この場合、 歌声合成プログラムの実行は思考制御モジュール 2 0 0 の C P U 2 1 1により行われる。
このようなロポット装置に上記歌声合成機能を組み込むことにより、 伴奏に合 わせて歌うロポットとしての表現能力が新たに獲得され、 ェンタティンメント性 が広がり、 人間との親密性が深められる。
なお、 本発明は、 上述した実施の形態のみに限定されるものではなく、 本発明 の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。 例えば、 本件出願人が先に提案した特願 2 0 0 2— 7 3 3 8 5の明細書及び図 面に記載の音声合成方法及び装置等に用いられる歌声合成部及び波形生成部に対 応した歌声生成部 7に使用可能な歌声情報を例示しているが、 この他種々の歌声 生成部を用いることができ、 この場合、 各種の歌声生成部によって歌声生成に必 要とされる情報を含むような歌声情報を、 上記演奏デ一夕から生成するようにす ればよいことは勿論である。 また、 演奏データは、 M I D Iデ一夕に限定されず, 種々の規格の演奏データを使用可能である。 産業上の利用可能性 上述したように、 本発明に係る歌声合成方法及び装置によれば、 演奏データを 音の高さ、 長さ、 歌詞の音楽情報として解析し、 解析された音楽情報の歌詞情報 に基づき音符列に対して歌詞を付与するとともに、 歌詞情報が存在しない場合に 解析された音楽情報中の任意の音符列に対して任意の歌詞を付与し、 付与された 歌詞に基づき歌声を生成することにより、 演奏データを解析してそれから得られ る音の高さ、 長さ、 強さをもとにした音符情報に対して任意の歌詞を付与して歌 声情報を生成し、 その歌声情報をもとに歌声の生成を行うことができ、 演奏デー 夕の中に歌詞情報があればその歌詞を歌い上げることが可能なばかりでなく、 演 奏データ中の任意の音符列に対して自由な歌詞を付与することができる。 したが つて、 従来、 楽器の音のみにより表現していた音楽の作成や再生において特別な 情報を加えることがなく歌声の再生を行えることによりその音楽表現は格段に向 上する。
また、 本発明に係るプログラムは、 本発明の歌声合成機能をコンピュータに実 行させるものであり、 本発明に係る記録媒体は、 このプログラムが記録されたコ ンピュ一夕読み取り可能なものである。
本発明に係るプログラム及び記録媒体によれば、 演奏デ一夕を音の高さ、 長さ、 歌詞の音楽情報として解析し、 解析された音楽情報の歌詞情報に基づき音符列に 対して歌詞を付与するとともに、 歌詞情報が存在しない場合に解析された音楽情 報中の任意の音符列に対して任意の歌詞を付与し、 付与された歌詞に基づき歌声 を生成することにより 演奏データを解析してそれから得られる音の高さ、 長さ、 強さをもとにした音符情報に対して任意の歌詞を付与して歌声情報を生成し、 そ の歌声情報をもとに歌声の生成を行うことができ、 演奏デ一夕の中に歌詞情報が あればその歌詞を歌い上げることが可能なばかりでなく、 演奏デ一夕中の任意の 音符列に対して自由な歌詞を付与することができる。
また、 本発明に係るロボット装置は本発明の歌声合成機能を実現する。 すなわ ち、 本発明のロボット装置によれば、 供給された入力情報に基づいて動作を行う 自律型の口ポット装置において、 入力された演奏データを音の高さ、 長さ、 歌詞 の音楽情報として解析し、 解析された音楽情報の歌詞情報に基づき音符列に対し て歌詞を付与するとともに、 歌詞情報が存在しない場合に解析された音楽情報中 の任意の音符列に対して任意の歌詞を付与し、 付与された歌詞に基づき歌声を生 成することにより、 演奏データを解析してそれから得られる音の高さ、 長さ、 強 さをもとにした音符情報に対して任意の歌詞を付与して歌声情報を生成し、 その 歌声情報をもとに歌声の生成を行うことができ、 演奏デ一夕の中に歌詞情報があ ればその歌詞を歌い上げることが可能なばかりでなく、 演奏データ中の任意の音 符列に対して自由な歌詞を付与することができる。 したがって、 口ポット装置の 表現能力が向上し、 エンタテインメント性を高めることができるとともに、 人間 との親密性を深めることができる。

Claims

請求の範囲
1 . 演奏デ一夕を音の高さ、 長さ、 歌詞の音楽情報として解析する解析工程と、 解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するととも に、 歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌 詞付与工程と、
付与された歌詞に基づき歌声を生成する歌声生成工程と
を有することを特徴とする歌声合成方法。
2 . 上記演奏データは、 M I D Iファイルの演奏データであることを特徴とする 請求の範囲第 1項記載の歌声合成方法。
3 . 上記歌詞付与工程は、 外部からの歌詞の指示がない場合には予め決められた 歌詞を任意の音符列に対して付与することを特徴とする請求の範囲第 1項記載の 歌声合成方法。
4 . 上記歌詞付与工程は、 上記 M I D Iファイルのトラック又はチャンネルに含 まれる音符列を歌詞付与の対象とすることを特徴とする請求の範囲第 2項記載の 歌声合成方法。
5 . 上記歌詞付与工程は、 上記トラック又はチャンネルの選択を任意に行うこと を特徴とする請求の範囲第 4項記載の歌声合成方法。
6 . 上記歌詞付与工程は、 演奏データの中で一番初めに現れるトラック又はチヤ ンネルの音符列を歌詞付与の対象とすることを特徴とする請求の範囲第 4項記載 の歌声合成方法。
7 . 上記歌詞付与工程は、'複数のトラック又はチャンネルに対してそれぞれ独立 した歌詞を付与することを特徴とする請求の範囲第 4項記載の歌声合成方法。
8 . 上記歌詞付与工程は、 歌詞付与の結果を保存することを特徴とする請求の範 囲第 2項記載の歌声合成方法。
9 . 上記歌詞情報に台詞を表す情報が含まれている場合に、 該当歌詞の発声の夕 ィミングで歌詞の替わりに台詞を合成音声により読み上げ、 歌唱の中に台詞を揷 入する台詞挿入工程をさらに有することを特徴とする請求の範囲第 2項記載の歌 声合成方法。
1 0 . 演奏データを音の高さ、 長さ、 歌詞の音楽情報として解析する解析手段と、 解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するととも に、 歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌 詞付与手段と、
付与された歌詞に基づき歌声を生成する歌声生成手段と
を有することを特徴とする歌声合成装置。
1 1 . 上記演奏データは、 M I D Iファイルの演奏データであることを特徴とす る請求の範囲第 1 0項記載の歌声合成装置。
1 2 . 上記歌詞付与手段は、 外部からの歌詞の指示がない場合には予め決められ た歌詞を任意の音符列に対して付与することを特徴とする請求の範囲第 1 0項記 載の歌声合成装置。
1 3 . 上記歌詞付与手段は、 上記 M I D Iファイルのトラック又はチャンネルに 含まれる音符列を歌詞付与の対象とすることを特徴とする請求の範囲第 1 1項記 載の歌声合成装置。
1 4 . 上記歌詞情報に台詞を表す情報が含まれている場合に、 該当歌詞の発声の 夕イミングで歌詞の替わりに台詞を合成音声により読み上げ、 歌唱の中に台詞を 挿入する台詞挿入手段をさらに有することを特徴とする請求の範囲第 1 1項記載 の歌声合成装置。
1 5 . 所定の処理をコンピュータに実行させるためのプログラムであって、 入力された演奏デ一夕を音の高さ、 長さ、 歌詞の音楽情報として解析する解析 工程と、
解析された音楽情報に歌詞情報が存在しない場合に任意の音符列に対して任意 の歌詞を付与する歌詞付与工程と、
付与された歌詞に基づき歌声を生成する歌声生成工程と
を有することを特徴とするプログラム。
1 6 . 上記演奏データは、 M I D Iファイルの演奏データであることを特徴とす る請求の範囲第 1 5項記載のプログラム。
1 7 . 上記歌詞情報に台詞を表す情報が含まれている場合に、 該当歌詞の発声の 夕イミングで歌詞の替わりに台詞を合成音声により読み上げ、 歌唱の中に台詞を 挿入する台詞挿入工程をさらに有することを特徴とする請求の範囲第 1 6項記載 のプログラム。
1 8 . 所定の処理をコンピュータに実行させるためのプログラムが記録されたコ ンピュータ読取可能な記録媒体であって、
入力された演奏データを音の高さ、 長さ、 歌詞の音楽情報として解析する解析 工程と、
解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するととも に、 歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌 詞付与工程と、
付与された歌詞に基づき歌声を生成する歌声生成工程と
を有することを特徴とするプログラムが記録された記録媒体。
1 9 . 上記演奏デ一夕は、 M I D I ファイルの演奏デ一夕であることを特徴とす る請求の範囲第 1 8項記載の記録媒体。
2 0 . 供給された入力情報に基づいて動作を行う自律型のロボッ卜装置であって, 入力された演奏データを音の高さ、 長さ 歌詞の音楽情報として解析する解析 手段と、
解析された音楽情報の歌詞情報に基づき音符列に対して歌詞を付与するととも に、 歌詞情報が存在しない場合に任意の音符列に対して任意の歌詞を付与する歌 詞付与手段と、
付与された歌詞に基づき歌声を生成する歌声生成手段と
を有することを特徴とするロボッ卜装置。
2 1 . 上記演奏データは、 M I D I ファイルの演奏デ一夕であること
を特徴とする請求の範囲第 2 0項記載のロポット装置。 M I D Iデ一夕等の演奏データを活用して歌声を合成する歌声合成方法であり · 入力された演奏データを音の高さ、 長さ、 歌詞の音楽情報として解析する (S 2. S 3) 。 解析された音楽情報に歌詞情報が存在しない場合に任意の音符列に対し て任意の歌詞を付与する (S 9、 S l l、 S 1 2、 S 1 5 ) 。 付与された歌詞に 基づき歌声を生成する (S 1 7) 。
PCT/JP2004/003753 2003-03-20 2004-03-19 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置 Ceased WO2004084174A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP04722035A EP1605436B1 (en) 2003-03-20 2004-03-19 Singing voice synthesizing method, singing voice synthesizing device, program, recording medium, and robot
US10/548,280 US7183482B2 (en) 2003-03-20 2004-03-19 Singing voice synthesizing method, singing voice synthesizing device, program, recording medium, and robot apparatus
CN2004800075731A CN1761992B (zh) 2003-03-20 2004-03-19 歌声合成方法和设备以及机器人设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003-079150 2003-03-20
JP2003079150A JP4483188B2 (ja) 2003-03-20 2003-03-20 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置

Publications (1)

Publication Number Publication Date
WO2004084174A1 true WO2004084174A1 (ja) 2004-09-30

Family

ID=33028063

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/003753 Ceased WO2004084174A1 (ja) 2003-03-20 2004-03-19 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置

Country Status (5)

Country Link
US (1) US7183482B2 (ja)
EP (1) EP1605436B1 (ja)
JP (1) JP4483188B2 (ja)
CN (1) CN1761992B (ja)
WO (1) WO2004084174A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7176372B2 (en) * 1999-10-19 2007-02-13 Medialab Solutions Llc Interactive digital music recorder and player
US9818386B2 (en) 1999-10-19 2017-11-14 Medialab Solutions Corp. Interactive digital music recorder and player
EP1326228B1 (en) * 2002-01-04 2016-03-23 MediaLab Solutions LLC Systems and methods for creating, modifying, interacting with and playing musical compositions
US7076035B2 (en) * 2002-01-04 2006-07-11 Medialab Solutions Llc Methods for providing on-hold music using auto-composition
US7928310B2 (en) * 2002-11-12 2011-04-19 MediaLab Solutions Inc. Systems and methods for portable audio synthesis
US7169996B2 (en) * 2002-11-12 2007-01-30 Medialab Solutions Llc Systems and methods for generating music using data/music data file transmitted/received via a network
US20050137880A1 (en) * 2003-12-17 2005-06-23 International Business Machines Corporation ESPR driven text-to-song engine
JP4277697B2 (ja) * 2004-01-23 2009-06-10 ヤマハ株式会社 歌声生成装置、そのプログラム並びに歌声生成機能を有する携帯通信端末
EP1846916A4 (en) * 2004-10-12 2011-01-19 Medialab Solutions Llc SYSTEMS AND METHODS FOR REMOVE MUSIC
KR100689849B1 (ko) * 2005-10-05 2007-03-08 삼성전자주식회사 원격조정제어장치, 영상처리장치, 이를 포함하는 영상시스템 및 그 제어방법
CA2567021A1 (en) * 2005-11-01 2007-05-01 Vesco Oil Corporation Audio-visual point-of-sale presentation system and method directed toward vehicle occupant
US8244546B2 (en) * 2008-05-28 2012-08-14 National Institute Of Advanced Industrial Science And Technology Singing synthesis parameter data estimation system
JP5895740B2 (ja) 2012-06-27 2016-03-30 ヤマハ株式会社 歌唱合成を行うための装置およびプログラム
JP6024403B2 (ja) * 2012-11-13 2016-11-16 ヤマハ株式会社 電子音楽装置、パラメータ設定方法および当該パラメータ設定方法を実現するためのプログラム
CN103915093B (zh) * 2012-12-31 2019-07-30 科大讯飞股份有限公司 一种实现语音歌唱化的方法和装置
CN107076631A (zh) 2014-08-22 2017-08-18 爵亚公司 用于将文本消息自动地转换成音乐作品的系统和方法
JP6728754B2 (ja) * 2015-03-20 2020-07-22 ヤマハ株式会社 発音装置、発音方法および発音プログラム
CN105096962B (zh) * 2015-05-22 2019-04-16 努比亚技术有限公司 一种信息处理方法及终端
CN106205571A (zh) * 2016-06-24 2016-12-07 腾讯科技(深圳)有限公司 一种歌声语音的处理方法和装置
FR3059507B1 (fr) * 2016-11-30 2019-01-25 Sagemcom Broadband Sas Procede de synchronisation d'un premier signal audio et d'un deuxieme signal audio
CN106652997B (zh) * 2016-12-29 2020-07-28 腾讯音乐娱乐(深圳)有限公司 一种音频合成的方法及终端
CN107248406B (zh) * 2017-06-29 2020-11-13 义乌市美杰包装制品有限公司 一种自动生成鬼畜类歌曲的方法
CN110301117B (zh) * 2017-11-24 2022-10-21 微软技术许可有限责任公司 用于在会话中提供响应的方法和装置
JP6587008B1 (ja) * 2018-04-16 2019-10-09 カシオ計算機株式会社 電子楽器、電子楽器の制御方法、及びプログラム
CN108877766A (zh) * 2018-07-03 2018-11-23 百度在线网络技术(北京)有限公司 歌曲合成方法、装置、设备及存储介质
JP7243418B2 (ja) * 2019-04-26 2023-03-22 ヤマハ株式会社 歌詞入力方法およびプログラム
US11487815B2 (en) * 2019-06-06 2022-11-01 Sony Corporation Audio track determination based on identification of performer-of-interest at live event
US11495200B2 (en) * 2021-01-14 2022-11-08 Agora Lab, Inc. Real-time speech to singing conversion
US12605823B1 (en) * 2024-04-04 2026-04-21 Victoria Hewitt Humanoid android

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS638795A (ja) * 1986-06-30 1988-01-14 松下電器産業株式会社 電子楽器
JPH06337690A (ja) * 1993-05-31 1994-12-06 Fujitsu Ltd 歌声合成装置
JPH10319955A (ja) * 1997-05-22 1998-12-04 Yamaha Corp 音声データ処理装置及びデータ処理プログラムを記録した媒体
JPH11184490A (ja) * 1997-12-25 1999-07-09 Nippon Telegr & Teleph Corp <Ntt> 規則音声合成による歌声合成方法
JP2001282269A (ja) * 2000-03-31 2001-10-12 Clarion Co Ltd 情報提供システム及び発声人形
JP2002132281A (ja) * 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4527274A (en) * 1983-09-26 1985-07-02 Gaynor Ronald E Voice synthesizer
JPH05341793A (ja) * 1991-04-19 1993-12-24 Pioneer Electron Corp カラオケ演奏装置
JP3333022B2 (ja) * 1993-11-26 2002-10-07 富士通株式会社 歌声合成装置
JP2993867B2 (ja) * 1995-05-24 1999-12-27 中小企業事業団 観客情報から多様な対応をするロボットシステム
JPH08328573A (ja) * 1995-05-29 1996-12-13 Sanyo Electric Co Ltd カラオケ装置及び音声再生装置及びこれに使用する記録媒体
JP3144273B2 (ja) * 1995-08-04 2001-03-12 ヤマハ株式会社 自動歌唱装置
JP3793041B2 (ja) * 1995-09-29 2006-07-05 ヤマハ株式会社 歌詞データ処理装置及び補助データ処理装置
US5998725A (en) * 1996-07-23 1999-12-07 Yamaha Corporation Musical sound synthesizer and storage medium therefor
JPH1063274A (ja) * 1996-08-21 1998-03-06 Aqueous Res:Kk カラオケ装置
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JP3521711B2 (ja) * 1997-10-22 2004-04-19 松下電器産業株式会社 カラオケ再生装置
JP2000105595A (ja) * 1998-09-30 2000-04-11 Victor Co Of Japan Ltd 歌唱装置及び記録媒体
JP2002221980A (ja) * 2001-01-25 2002-08-09 Oki Electric Ind Co Ltd テキスト音声変換装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS638795A (ja) * 1986-06-30 1988-01-14 松下電器産業株式会社 電子楽器
JPH06337690A (ja) * 1993-05-31 1994-12-06 Fujitsu Ltd 歌声合成装置
JPH10319955A (ja) * 1997-05-22 1998-12-04 Yamaha Corp 音声データ処理装置及びデータ処理プログラムを記録した媒体
JPH11184490A (ja) * 1997-12-25 1999-07-09 Nippon Telegr & Teleph Corp <Ntt> 規則音声合成による歌声合成方法
JP2001282269A (ja) * 2000-03-31 2001-10-12 Clarion Co Ltd 情報提供システム及び発声人形
JP2002132281A (ja) * 2000-10-26 2002-05-09 Nippon Telegr & Teleph Corp <Ntt> 歌声メッセージ生成・配信方法及びその装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1605436A4 *

Also Published As

Publication number Publication date
EP1605436A4 (en) 2009-12-30
JP4483188B2 (ja) 2010-06-16
JP2004287097A (ja) 2004-10-14
EP1605436A1 (en) 2005-12-14
US20060156909A1 (en) 2006-07-20
US7183482B2 (en) 2007-02-27
CN1761992B (zh) 2010-05-05
CN1761992A (zh) 2006-04-19
EP1605436B1 (en) 2012-12-12

Similar Documents

Publication Publication Date Title
WO2004084174A1 (ja) 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
JP3864918B2 (ja) 歌声合成方法及び装置
CN1761993B (zh) 歌声合成方法和设备以及机器人设备
JP4150198B2 (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP3858842B2 (ja) 歌声合成方法及び装置
JP2003271174A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、制約情報生成方法及び装置、並びにロボット装置
US7216082B2 (en) Action teaching apparatus and action teaching method for robot system, and storage medium
JP4415573B2 (ja) 歌声合成方法、歌声合成装置、プログラム及び記録媒体並びにロボット装置
EP1256931A1 (en) Method and apparatus for voice synthesis and robot apparatus
WO2002091356A1 (en) Obot device, character recognizing apparatus and character reading method, and control program and recording medium
WO2002034478A1 (fr) Robot pourvu de jambes, procede de commande du comportement d&#34;un tel robot, et support de donnees
JP2002318594A (ja) 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
WO2004111993A1 (ja) 信号合成方法及び装置、歌声合成方法及び装置、プログラム及び記録媒体並びにロボット装置
JP2003271172A (ja) 音声合成方法、音声合成装置、プログラム及び記録媒体、並びにロボット装置
JP2003044080A (ja) ロボット装置、文字認識装置及び文字認識方法、並びに、制御プログラム及び記録媒体
JP2002346958A (ja) 脚式移動ロボットのための制御装置及び制御方法
JP2001043126A (ja) ロボットシステム

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
ENP Entry into the national phase

Ref document number: 2006156909

Country of ref document: US

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 10548280

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2004722035

Country of ref document: EP

Ref document number: 20048075731

Country of ref document: CN

WWP Wipo information: published in national office

Ref document number: 2004722035

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 10548280

Country of ref document: US