WO2018079294A1 - 情報処理装置及び情報処理方法 - Google Patents
情報処理装置及び情報処理方法 Download PDFInfo
- Publication number
- WO2018079294A1 WO2018079294A1 PCT/JP2017/037117 JP2017037117W WO2018079294A1 WO 2018079294 A1 WO2018079294 A1 WO 2018079294A1 JP 2017037117 W JP2017037117 W JP 2017037117W WO 2018079294 A1 WO2018079294 A1 WO 2018079294A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- input
- information
- voice
- level
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Definitions
- the present technology relates to an information processing apparatus and an information processing method, and more particularly, to an information processing apparatus and an information processing method that improve convenience of information input.
- Patent Literature 1 discloses a technique for creating a sentence based on a phrase selected by a user from a plurality of phrases.
- speech recognition speech input by a user can be converted into a character string.
- the present technology is intended to improve the convenience of information input.
- the information processing apparatus is set based on a first sound that satisfies a predetermined input condition, and includes an input level indicating a level of input information, and the input based on the first sound
- a feedback information generation unit that generates feedback information including at least one of the processing information obtained by processing the information is provided.
- a voice recognition unit that acquires the input information by converting the second voice into a character string can be further provided.
- the input condition may include that the first sound is input at a predetermined timing after the second sound is input.
- the input condition may include that a volume difference between the first sound and the second sound satisfies a predetermined condition.
- the input condition may include that the feature amount of the first voice satisfies a predetermined condition.
- the input condition may include that a predetermined phoneme continues for a predetermined length in the first voice.
- the feedback information generation unit can set the input level based on the feature amount of the first sound.
- the feedback information generation unit can set the input level based on the duration of the first voice.
- the feedback information generation unit can set the input level based on the volume of the first sound.
- the feedback information generation unit can generate the processing information by adding a character string to the input information.
- the feedback information generating unit can generate the processing information by repeating predetermined characters or symbols of the input information.
- the feedback information generation unit can generate the processing information by repeating a predetermined character or symbol of a word with a predetermined part of speech of the input information.
- the feedback information generation unit can adjust the amount of the character string added to the input information based on the feature amount of the first voice.
- the feedback information can include the input information and the input level.
- the information processing method is set based on a sound that satisfies a predetermined input condition, and includes an input level indicating a level of input information, and processing information obtained by processing the input information based on the sound
- the information processing apparatus executes processing corresponding to the input information based on the input level that is set based on the first sound that satisfies a predetermined input condition and indicates the level of the input information.
- An execution unit is provided.
- the execution unit can process the input information at a level corresponding to the input level.
- the input information may be a command input by the second voice, and the execution unit may execute a process corresponding to the command at a level corresponding to the input level.
- the execution unit can react to the input information at a level corresponding to the input level.
- the information processing method is an execution step of executing processing corresponding to the input information based on an input level that is set based on a sound that satisfies a predetermined input condition and indicates a level of the input information. including.
- Feedback information including one is generated.
- the processing corresponding to the input information is executed based on the input level that is set based on the voice that satisfies a predetermined input condition and indicates the level of the input information.
- the convenience of information input is improved.
- FIG. 1 is a block diagram illustrating an embodiment of an information processing system to which the present technology is applied. It is a figure for demonstrating the outline
- Embodiment >> ⁇ 1-1.
- Configuration example of information processing system> First, a configuration example of an information processing system 10 to which the present technology is applied will be described with reference to FIG.
- the information processing system 10 is a system that recognizes voice input by a user and performs processing corresponding to the recognition result.
- the information processing system 10 includes a client 11, a server 12, and a network 13.
- the client 11 and the server 12 are connected to each other via the network 13.
- client 11 Although only one client 11 is illustrated, in practice, a plurality of clients 11 are connected to the network 13 and a plurality of users can use the information processing system 10 via the clients 11.
- the client 11 transmits voice data indicating the voice input by the user to the server 12, receives feedback information for the transmitted voice data from the server 12, and performs processing corresponding to the feedback information.
- the client 11 includes a mobile information terminal such as a smart phone, a tablet, a mobile phone, and a laptop personal computer, a wearable device, a desktop personal computer, a game machine, a video playback device, a music playback device, and the like.
- a wearable device for example, various types such as a glasses type, a watch type, a bracelet type, a necklace type, a neckband type, an earphone type, a headset type, and a head mount type can be adopted.
- the client 11 includes a voice input unit 21, an operation unit 22, a display unit 23, a presentation unit 24, a communication unit 26, a control unit 27, and a storage unit 28.
- the control unit 27 includes an input / output control unit 41, a presentation control unit 42, and an execution unit 43.
- the voice input unit 21, the operation unit 22, the display unit 23, the presentation unit 24, the communication unit 26, the control unit 27, and the storage unit 28 are connected to each other via a bus 29.
- the voice input unit 21 is constituted by a microphone, for example.
- the number of microphones can be set arbitrarily.
- the voice input unit 21 collects surrounding voices and supplies voice data indicating the collected voices to the control unit 27 or stores the voice data in the storage unit 28.
- the operation unit 22 includes various operation members and is used for the operation of the client 11.
- the operation unit 22 includes a controller, a remote controller, a touch panel, hardware buttons, and the like.
- the operation unit 22 supplies operation data indicating the content of the operation on the operation unit 22 to the control unit 27.
- the display unit 23 is constituted by a display, for example.
- the display unit 23 displays various images, GUI (Graphical User Interface), various application programs, service screens, and the like under the control of the presentation control unit 42.
- GUI Graphic User Interface
- the presentation unit 24 is constituted by, for example, a speaker, a vibration device, another cooperation device, and the like.
- the presentation unit 24 presents various types of information when executing processing corresponding to feedback information under the control of the presentation control unit 42.
- the sensor unit 25 includes various sensors such as a camera, a distance sensor, a GPS (Global Positioning System) receiver, an acceleration sensor, and a gyro sensor.
- the sensor unit 25 supplies sensor data indicating the detection result of each sensor to the control unit 27 or stores it in the storage unit 28.
- the communication unit 26 includes various communication devices.
- the communication method of the communication unit 26 is not particularly limited, and may be either wireless communication or wired communication. Further, the communication unit 26 may support a plurality of communication methods.
- the communication unit 26 communicates with the server 12 via the network 13 and transmits and receives various data.
- the communication unit 26 supplies the data received from the server 12 to the control unit 27 or stores it in the storage unit 28.
- the control unit 27 includes, for example, various processors.
- the input / output control unit 41 controls input / output of various data.
- the input / output control unit 41 extracts data necessary for processing of the server 12 from the audio data from the audio input unit 21, the operation data from the operation unit 22, and the sensor data from the sensor unit 25, The extracted data is transmitted to the server 12 via the communication unit 26 and the network 13.
- the input / output control unit 41 receives feedback information and the like from the server 12 via the communication unit 26 and the network 13.
- the presentation control unit 42 controls the presentation of various information by the display unit 23 and the presentation unit 24.
- the execution unit 43 executes various processes by executing various application programs (hereinafter referred to as APP).
- APP application programs
- the storage unit 28 stores programs, data, and the like necessary for the processing of the client 11.
- the server 12 performs voice recognition on the voice data received from the client 11, generates feedback information based on the recognition result, and transmits the feedback information to the client 11 via the network 13.
- the server 12 includes a communication unit 61, a control unit 62, and a storage unit 63.
- the control unit 62 includes a sound processing unit 71, an image processing unit 72, a natural language processing unit 73, a speech recognition unit 74, a gesture recognition unit 75, an operation recognition unit 76, and a feedback information generation unit 77.
- the communication unit 61, the control unit 62, and the storage unit 63 are connected to each other via a bus 64.
- the communication unit 61 includes various communication devices.
- the communication method of the communication unit 61 is not particularly limited, and may be either wireless communication or wired communication. Further, the communication unit 61 may support a plurality of communication methods.
- the communication unit 61 communicates with the client 11 via the network 13 and transmits / receives various data.
- the communication unit 61 supplies data received from the client 11 to the control unit 62 or stores the data in the storage unit 63.
- the control unit 62 includes, for example, various processors.
- the sound processing unit 71 extracts various feature amounts from the sound data.
- the feature quantity extracted by the sound processing unit 71 is not particularly limited, and includes, for example, phonemes, volume, inflection, length, speed, and the like.
- the image processing unit 72 extracts various feature amounts from the image data.
- the feature amount extracted by the image processing unit 72 is not particularly limited, but includes, for example, a feature amount suitable for recognition of a human gesture.
- the natural language processing unit 73 performs natural language processing such as morphological analysis, syntax analysis, and modality analysis.
- the speech recognition unit 74 performs speech recognition processing and converts the input speech into a character string.
- the gesture recognition unit 75 recognizes a gesture of a person shown in the image data based on the feature amount extracted by the image processing unit 72.
- the operation recognition unit 76 recognizes an operation performed on the client 11 based on the operation data acquired from the client 11.
- the feedback information generation unit 77 is based on the processing results of the sound processing unit 71, the image processing unit 72, the natural language processing unit 73, the speech recognition unit 74, the gesture recognition unit 75, and the operation recognition unit 76, and the like. Is generated.
- the feedback information is at least one of input information obtained by performing voice recognition on the voice data from the client 11, an input level indicating the level of the input information, and processing information obtained by processing the input information based on the input level. Contains one or more. Further, for example, the feedback information includes a result of performing natural language processing on the input information.
- the storage unit 63 stores programs, data, and the like necessary for the processing of the server 12.
- a user inputs information input voice for inputting input information and input level setting voice for setting an input level to the client 11.
- the input level setting sound is input so as to satisfy a predetermined input condition.
- the client 11 (or APP executed by the client 11) transmits audio data indicating the information input audio and the input level setting audio to the server 12.
- the server 12 performs voice recognition on the information input voice and acquires the input information by converting the information input voice into a character string. Further, the server 12 sets the input level based on the input level setting voice.
- the input level indicates various levels of input information.
- the input level is used as, for example, a feedback level when processing is performed using input information.
- the input level includes the level of emotion expressed by the input information, the level of processing performed based on the input information, and the quality and quantity of the input information (eg, size, length, thickness, weight, quality, etc.) Indicates the level.
- the server 12 generates feedback information including the input information and the input level, and transmits the feedback information to the client 11.
- the client 11 executes processing corresponding to the feedback information. For example, the client 11 executes processing for processing input information (text information) obtained by voice recognition at a level corresponding to the input level. For example, the client 11 executes processing corresponding to the command recognized by voice recognition of the voice command at a level corresponding to the input level. For example, the client 11 executes a process of reacting to input information obtained by voice recognition at a level corresponding to the input level.
- input information text information
- the client 11 executes processing corresponding to the command recognized by voice recognition of the voice command at a level corresponding to the input level.
- the client 11 executes a process of reacting to input information obtained by voice recognition at a level corresponding to the input level.
- the input information can be directly supplied to the server 12 instead of the client 11 or can be supplied to the server 12 from another server.
- the information processing system 10 performs a process of processing the inputted sentence. A specific example will be described.
- step S1 the client 11 requests execution of speech recognition.
- the execution unit 43 generates a voice recognition start command that is a command for instructing the start of voice recognition.
- the input / output control unit 41 transmits a voice recognition start command to the server 12 via the communication unit 26.
- the input / output control unit 41 attaches information indicating the type of the client 11 or the type of APP that uses the result of the voice recognition in the client 11 to the voice recognition start command as necessary.
- step S2 the client 11 receives a voice input.
- the presentation control unit 42 controls the display unit 23 or the presentation unit 24 to prompt the user to input voice.
- the image displayed on the display unit 23 changes from the image 101 in FIG. 4 to the image 102, indicating that the user has received a voice input.
- the input / output control unit 41 starts processing for acquiring voice data indicating voice (information input voice) input by the user from the voice input unit 21 and transmitting the voice data to the server 12 via the communication unit 26. Further, the input / output control unit 41 performs a process of transmitting operation data supplied from the operation unit 22 and sensor data supplied from the sensor unit 25 to the server 12 via the communication unit 26 as necessary. Start.
- the server 12 starts voice recognition for the voice data from the client 11 in step S52 of FIG. 8 described later, and transmits feedback information in step S64 or step S65.
- the feedback information includes, for example, input information that is text information obtained as a recognition result of speech recognition, and a result obtained by performing natural language processing on the input information. Note that, for example, when feedback information is transmitted during speech recognition, text information indicating the progress of speech recognition (that is, part of input information) is included in the feedback information.
- step S3 the input / output control unit 41 determines whether feedback information has been received. If the input / output control unit 41 receives feedback information from the server 12 via the communication unit 26, the input / output control unit 41 determines that the feedback information has been received, and the process proceeds to step S4.
- step S4 the client 11 performs processing corresponding to the feedback information.
- the feedback information includes text information indicating the progress of voice recognition, as shown in the third example from the left in FIG.
- An image 104 indicating the progress of voice recognition is displayed on the display unit 23.
- the presentation control unit 42 displays an image 105 indicating that analysis is in progress, as shown in the example at the right end of FIG. It is displayed on the display unit 23.
- the presentation control unit 42 displays an image 106 indicating the final result of speech recognition, as illustrated in the example on the left side of FIG. This is displayed on the unit 23.
- step S3 determines whether the feedback information has been received. If it is determined in step S3 that the feedback information has not been received, the process of step S4 is skipped, and the process proceeds to step S5.
- step S5 the input / output control unit 41 determines whether or not an input level input is instructed. If it is determined that input level input is not instructed, the process returns to step S3.
- step S3 to step S5 is repeatedly executed until it is determined in step S5 that the input level input is instructed.
- step S5 when the input level input start command to be described later is received from the server 12 via the communication unit 26, the input / output control unit 41 determines that the input level input is instructed, and the process is performed. Proceed to step S6.
- step S6 the client 11 starts accepting input at the input level.
- the presentation control unit 42 controls the display unit 23 or the presentation unit 24 to prompt the user to input an input level.
- an image 107 including a message for accepting text processing for 3 seconds is displayed on the display unit 23.
- an image 108 including a message indicating that an input level input for processing a sentence is accepted is displayed on the display unit 23.
- the user inputs an input level setting voice for setting the input level.
- the presentation control unit 42 causes the display unit 23 to display an image 109 indicating that input level setting sound is being input.
- a sound whose feature amount satisfies a predetermined condition is input as an input level setting sound.
- a voice in which a vowel continues as a phoneme for a predetermined length or more is input as an input level setting voice.
- the text input by the input level setting voice may be the same as or different from the information input voice.
- at least a part of the vowels in the sentence is stretched as in “What a cooooooooool game”.
- a voice in which at least a part of the vowels in the sentence is extended is input, such as “Oooooooo”.
- it may be a simple sound sequence.
- a voice in which a predetermined phoneme continues for a predetermined length or more is input as an input level setting voice.
- a voice in which a predetermined phoneme continues is input, such as “Nh” or “ohhhhhhhhhhhhhh”.
- a relatively loud sound or a small sound is input as an input level setting sound compared to the information input sound input immediately before. That is, a sound whose volume difference from the information input sound satisfies a predetermined condition is input as the input level setting sound.
- the text input by the input level setting voice may be the same as or different from the information input voice.
- a meaningful sentence such as “really” may be input, or a particularly meaningless sentence may be input.
- a threshold may be provided for the volume difference from the information input voice, and a voice whose volume difference from the information input voice is equal to or greater than the threshold may be recognized as the input level setting voice.
- a threshold may be provided for the duration of the voice, and a voice whose duration is equal to or greater than the threshold may be recognized as the input level setting voice.
- the input / output control unit 41 starts processing for acquiring audio data indicating the input level setting audio input by the user from the audio input unit 21 and transmitting the audio data to the server 12 via the communication unit 26.
- the server 12 sets the input level in step S63 in FIG. 8, step S72 in FIG. 9, or step S75 in FIG. Further, the server 12 transmits feedback information including the set input level to the client 11 in step S63 in FIG. 8, step S72 in FIG. 9, or step S75 in FIG.
- step S7 it is determined whether or not feedback information has been received in the same manner as in step S3. If it is determined that feedback information has been received, the process proceeds to step S8.
- step S8 the client 11 performs processing corresponding to the feedback information.
- the execution unit 43 processes the input information (text information) obtained by voice recognition based on the input level by adding a character string.
- the character string is a sequence of one or more characters, symbols, etc., and may be a single character.
- the execution unit 43 performs processing so as to repeat all or part of the vowels in the input information based on the input level. At this time, for example, the higher the input level, the greater the number of vowel repeats, and the lower the input level, the smaller the number of vowel repeats.
- FIG. 7 shows an example in which all vowels of the input information (“What acool game”) are repeated.
- the lower example of FIG. 7 shows an example in which only the vowel of the adjective (cool) of the input information (“What a cool game”) is repeated.
- the part of speech that repeats a vowel is not limited to an adjective, and another part of speech may be selected or two or more types of part of speech may be selected. Alternatively, only some vowels in the selected part of speech may be repeated. In this case, repeated vowels are selected at random, for example. Note that when the corresponding part of speech word does not exist in the input information, the input information may not be processed.
- consonants may be repeated instead of vowels.
- the user may select a word that repeats a vowel or a consonant from words in the input information.
- the execution unit 43 adds a character string according to the part of speech of the input information. For example, the execution unit 43 processes the input information so that the particle is repeated immediately after the part where the noun and the particle are arranged in the input information.
- the execution unit 43 selects a symbol to be added based on the modality information of the input information, and adds the selected symbol or the like. At this time, the amount of added symbols and the like is adjusted according to the input level. For example, the higher the input level, the greater the number of repeated symbols and the like, and the lower the input level, the smaller the number of repeated symbols.
- the execution unit 43 randomly selects one or more characters or the like in the input information and processes the selected characters or the like so as to be repeated.
- the amount of added symbols and the like is adjusted according to the input level. For example, the higher the input level, the greater the number of repeated selected characters, and the lower the input level, the smaller the number of repeated selected characters.
- the presentation control unit 42 displays the image 110 indicating that the input information is being processed (analyzing) as shown in the center example of FIG. This is displayed on the unit 23.
- step S7 determines whether the feedback information has been received. If it is determined in step S7 that the feedback information has not been received, the process of step S8 is skipped, and the process proceeds to step S9.
- step S9 the input / output control unit 41 determines whether or not an instruction to end acceptance of input at the input level has been issued. If it is determined that the end of receiving the input level is not instructed, the process returns to step S7.
- steps S7 to S9 are repeatedly executed until it is determined in step S9 that an instruction to end the input level input is instructed.
- processing corresponding to the feedback information is performed in parallel according to the input level being input. For example, processing for processing and presenting input information in real time is executed according to the input level during input.
- step S8 is skipped.
- step S9 when the input level input end command to be described later is received from the server 12 via the communication unit 26 in step S9, the input / output control unit 41 determines that the end of the input level input is instructed, The process proceeds to step S10.
- step S10 the client 11 ends the input level input.
- the presentation control unit 42 controls the display unit 23 or the presentation unit 24 to notify the user of the end of input level input. For example, as shown in the example at the right end of FIG. 6, an image 111 indicating that no voice input is received is displayed on the display unit 23. Further, the input / output control unit 41 stops the transmission of the audio data, operation data, and sensor data to the server 12.
- step S11 it is determined whether or not feedback information has been received in the same manner as in step S3. If it is determined that feedback information has been received, the process proceeds to step S12.
- step S12 processing corresponding to the feedback information is performed in the same manner as in step S8.
- the presentation control unit 42 controls the display unit 23 or the presentation unit 24 to present the processing information after processing the input information (for example, the processed text in FIG. 7). Further, for example, the input / output control unit 41 transmits the processing information to another server or the like via the subsequent apparatus or the network 13.
- step S11 determines whether the feedback information has been received. If it is determined in step S11 that the feedback information has not been received, the process of step S12 is skipped, and the process of the client 11 ends.
- step S51 the voice recognition unit 74 determines whether or not execution of voice recognition has been requested.
- the voice recognition unit 74 repeatedly executes the process of step S51 at a predetermined timing until it is determined that execution of voice recognition has been requested.
- the voice recognition start command transmitted from the client 11 in step S1 of FIG. 3 is received via the communication unit 61, the voice recognition unit 74 determines that execution of voice recognition has been requested, and the process is Proceed to S52.
- the voice recognition unit 74 starts voice recognition. Specifically, the voice recognition unit 74 receives the voice data started to be transmitted from the client 11 in step S2 of FIG. 3 via the communication unit 61, and starts voice recognition processing on the received voice data. Further, the natural language processing unit 73 starts natural language processing for input information (text information) obtained by speech recognition.
- step S53 the feedback information generation unit 77 determines whether or not to sequentially transmit feedback information. For example, the feedback information generation unit 77 determines whether or not the client 11 has sequentially performed processing that requires feedback information based on the type of the client 11 or the type of APP that uses the result of speech recognition in the client 11. Determine. For example, when it is necessary to sequentially present the results of voice recognition to the user, it is determined that the client 11 is performing processing that sequentially requires feedback information. Then, the feedback information generation unit 77 determines that the feedback information is not sequentially transmitted when the processing that sequentially requires the feedback information is not performed in the client 11, and the processing proceeds to step S54.
- step S54 the server 12 determines whether or not the voice input is stopped.
- the voice recognition unit 74 determines whether or not voice input has been stopped based on the result of VAD (Voice Activity Detection) for the voice data from the client 11.
- the operation recognition unit 76 determines whether or not the voice input has been stopped by detecting whether or not an operation for stopping the voice input has been performed based on the operation data from the client 11.
- the server 12 repeatedly executes the process of step S54 at a predetermined timing until it is determined that the voice input is stopped. If it is determined that the voice input has been stopped, the process proceeds to step S55.
- step S55 the feedback information generating unit 77 instructs to accept input at the input level. Specifically, the feedback information generation unit 77 generates an input level input start command that is a command for instructing reception of an input level. The feedback information generation unit 77 transmits an input level input start command to the client 11 via the communication unit 61.
- step S56 the feedback information generation unit 77 determines whether or not a specified time (for example, 3 seconds) has elapsed since the input level was received. If it is determined that the specified time has not elapsed since the input level has been received, the process proceeds to step S57.
- a specified time for example, 3 seconds
- step S57 the sound processing unit 71 determines whether or not sound is input based on the sound data from the client 11. If it is determined that no sound has been input, the process returns to step S56.
- step S56 and step S57 are repeatedly executed until it is determined in step S56 that the specified time has elapsed since the input level was received, or until it is determined in step S57 that the sound has been input.
- step S57 if it is determined in step S57 that a voice has been input, the process proceeds to step S58.
- step S58 the sound processing unit 71 extracts a feature amount from the sound data.
- the sound processing unit 71 extracts feature quantities such as phonemes, volume, and length of the audio data.
- step S59 the sound processing unit 71 determines whether or not the sound is an input level setting sound (input level setting sound). For example, if the sound data 71 does not satisfy predetermined input conditions such as the phoneme, volume, and length of the sound data, for example, the sound indicated by the sound data is described above in the description of the process of step S6. If it does not have the characteristics of the input level setting sound, it is determined that the sound is not the input level setting sound, and the process returns to step S56.
- predetermined input conditions such as the phoneme, volume, and length of the sound data
- step S56 Thereafter, the process from step S56 to step S59 is performed until it is determined in step S56 that the specified time has elapsed since the input level input was accepted, or until it is determined in step S59 that the sound is for input level setting. Is repeatedly executed.
- step S59 when the feature amount of the audio data satisfies the predetermined input condition, the sound processing unit 71 determines that the sound is for input level setting, and the process proceeds to step S60.
- step S60 as in the process of step S56, it is determined whether or not a specified time has elapsed since the input level was received. If it is determined that the specified time has not elapsed since the input level has been received, the process proceeds to step S61.
- step S61 it is determined whether or not the voice input is stopped as in the process of step S54. If it is determined that the voice input has not stopped, the process returns to step S60.
- step S60 and step S61 is repeatedly executed until it is determined in step S60 that the specified time has elapsed since the input level was received or until it is determined in step S61 that the voice input has been stopped. Is done.
- step S60 if it is determined in step S60 that the specified time has elapsed since the input level was received, or if it is determined in step S61 that the voice input has stopped, the process proceeds to step S62.
- step S56 If it is determined in step S56 that the specified time has elapsed since the input level was received, the process proceeds to step S62. This is a case where the specified time has passed without the input level setting sound being input.
- step S62 the feedback information generation unit 77 instructs to end the input level input. Specifically, the feedback information generation unit 77 generates an input level input end command that is a command for instructing the end of acceptance of input level input. The feedback information generation unit 77 transmits an input level input end command to the client 11 via the communication unit 61.
- step S63 the feedback information generation unit 77 sets an input level. For example, the feedback information generation unit 77 sets the input level based on the feature amount of the sound data indicating the input level setting sound.
- the feedback information generating unit 77 sets the input level higher as the duration of the input level setting voice is longer, and sets the input level lower as the duration of the input level setting voice is shorter. For example, as shown in FIG. 10, when the duration t of the input level setting sound is less than 0.1 seconds, the input level is set to 1. When the duration t is 0.1 seconds or more and less than 0.3 seconds, the input level is set to 2. When the duration t is 0.3 seconds or more and less than 0.7 seconds, the input level is set to 3. When the duration is 0.7 seconds or more, the input level is set to 4.
- the feedback information generation unit 77 sets the input level higher as the number of repetitions of the predetermined phoneme of the input level setting sound is larger, and decreases the input level as the number of repetitions of the predetermined phoneme of the input level setting sound is smaller. Set low.
- the feedback information generation unit 77 sets the input level higher as the volume of the input level setting sound is higher, and sets the input level lower as the volume of the input level setting sound is lower.
- the feedback information generating unit 77 sets the input level to 0 when the input level setting sound is not input.
- the feedback information generation unit 77 generates and transmits feedback information.
- the feedback information generation unit 77 generates feedback information including input information obtained as a recognition result of speech recognition, a result of natural language processing of the input information, and a set input level. If the input information and the natural language processing result have already been transmitted, it is not always necessary to include them in the feedback information.
- the feedback information generation unit 77 transmits feedback information to the client 11 via the communication unit 61.
- step S51 Thereafter, the process returns to step S51, and the processes after step S51 are executed.
- step S53 determines whether the feedback information is sequentially transmitted. If it is determined in step S53 that the feedback information is sequentially transmitted, the process proceeds to step S65.
- step S65 the feedback information generation unit 77 starts generating and transmitting feedback information.
- the feedback information generation unit 77 generates input information obtained as a recognition result of speech recognition and feedback information including the result of natural language processing of the input information, and transmits the feedback information to the client 11 via the communication unit 61. To start.
- step S66 it is determined whether or not the voice input is stopped, similar to the process in step S54.
- the determination process in step S66 is repeatedly executed at a predetermined timing, and when it is determined that the voice input has been stopped, the process proceeds to step S67.
- step S67 the input level input is instructed in the same manner as in step S55.
- step S68 as in the process of step S56, it is determined whether or not a specified time has elapsed since the input level was received. If it is determined that the specified time has not elapsed since the input level has been received, the process proceeds to step S69.
- step S69 it is determined whether or not a voice has been input, similar to the process in step S57. If it is determined that no sound has been input, the process returns to step S68.
- step S68 and step S69 are repeatedly executed until it is determined in step S68 that the specified time has elapsed since the input level input was accepted, or until it is determined in step S69 that sound has been input.
- step S69 if it is determined in step S69 that a voice has been input, the process proceeds to step S70.
- step S70 as in the process of step S58, feature quantities are extracted from the audio data.
- step S71 as in the process of step S59, it is determined whether or not the sound is for input level setting. If it is determined that the input level sound is not set, the process returns to step S68.
- step S68 the process from step S68 to step S71 is performed until it is determined in step S68 that the specified time has elapsed since the input level input was accepted, or until it is determined in step S71 that the sound is for input level setting. Is repeatedly executed.
- step S71 determines whether the input level sound is set. If it is determined in step S71 that the input level sound is set, the process proceeds to step S72.
- step S72 the feedback information generation unit 77 starts input level setting and transmission.
- the feedback information generation unit 77 starts setting the input level by the same method as the processing in step S63.
- the feedback information generation unit 77 generates feedback information including input information obtained as a recognition result of speech recognition, a result of natural language processing of the input information, and a set input level, via the communication unit 61. The process of transmitting to the client 11 is started. If the input information and the natural language processing result have already been transmitted, it is not always necessary to include them in the feedback information.
- the input level is sequentially transmitted from the server 12 to the client 11. Therefore, for example, as described above with reference to FIG. 10, when the input level is set according to the duration of the input level setting sound, the value of the input level transmitted to the client 11 is the input level setting sound. Varies with duration. Thereby, for example, as shown in FIG. 11, input information (voice recognition result) can be gradually processed and presented in accordance with the input level.
- the processing information to be presented is incremented by “o” by one when the input level setting sound is input for 0.09 seconds. , "What a coool game” Furthermore, when the input level setting sound continues for 0.6 seconds, the processing information to be presented becomes “What3aocooooool game” with “o” increased by three more.
- step S73 as in the process of step S56, it is determined whether or not a specified time has elapsed since the input level was received. If it is determined that the specified time has not elapsed since the input level has been received, the process proceeds to step S74.
- step S74 it is determined whether or not the voice input is stopped, as in the process of step S54. If it is determined that the voice input has not stopped, the process returns to step S73.
- steps S73 and S74 are repeatedly executed until it is determined in step S73 that the specified time has elapsed since the input level input was accepted or until it is determined in step S74 that the voice input has been stopped. Is done.
- step S73 if it is determined in step S73 that the specified time has elapsed since the input level was received, or if it is determined in step S74 that the voice input has stopped, the process proceeds to step S76.
- step S68 If it is determined in step S68 that the specified time has elapsed since the input level was received, the process proceeds to step S75. This is a case where the specified time has passed without the input level setting sound being input.
- step S75 the feedback information generation unit 77 sets the input level to 0 and transmits it. Specifically, the feedback information generation unit 77 sets the input level to 0. Then, feedback information including the input level is generated by the same processing as in step S ⁇ b> 72 and transmitted to the client 11 via the communication unit 61.
- step S76 the termination of the acceptance of the input of the input level is instructed as in the process of step S62.
- step S77 the feedback information generation unit 77 ends the generation and transmission of feedback information.
- step S51 Thereafter, the process returns to step S51, and the processes after step S51 are executed.
- the information processing system 10 after first obtaining the standard sentence “What a cool game” by voice recognition, by inputting the voice for setting the input level, it is processed to repeat characters and symbols. Therefore, the above erroneous recognition does not occur.
- the user can easily process the input sentence by simply inputting the input level setting voice without performing a manual operation to process the “What a cool game”.
- the user can repeat the same characters such as "Chosoooooooooooo”, “Goolaaaaa”, “coooooooooool”, “yeeeeeeeeees”, “smaaaaashhhhhhhhh”, or "yes !!! Like !!!! ", you can easily and properly enter sentences that repeat the same symbol.
- the present technology can be applied to conversation processing with an interactive agent.
- the server 12 when only the information input voice “What a cool game” is input to the client 11 (agent executed), the server 12 inputs “What a cool game”. Recognize information. The server 12 sets the input level to 0 because the input level setting voice is not input in the client 11. Then, the server 12 transmits the input information indicating the recognized “What a cool game” and feedback information including the input level set to 0 to the client 11. The client 11 outputs a response “I think so, too” to the sentence “What a cool game” indicated in the input information by voice.
- the server 12 While recognizing the input information “What a cool game”, the input level is set to 3 based on the input level setting voice. Then, the server 12 transmits input information indicating the recognized “What a cool game” and feedback information including the input level set to 3 to the client 11. The client 11 outputs a response with a greater response to the sentence “What a ⁇ ⁇ cool ⁇ game” shown in the input information than “Really! It's fun!” Compared to the case where the input level is 0. To do.
- the present technology can be applied to various devices and APP control using voice commands.
- a case where the client 11 executes APP for realizing a video recorder will be described as an example.
- the server 12 when only the voice command “Playback” is input to the client 11, the server 12 recognizes the command “Playback”. The server 12 sets the input level to 0 because the input level setting voice is not input in the client 11. Then, the server 12 transmits to the client 11 input information indicating the recognized command “Playback” and feedback information including an input level set to 0. The client 11 performs normal playback of the video recorder according to the command “Playback” indicated in the input information.
- the server 12 executes the command “Playback”. At the same time, the input level is set to 3 based on the input level setting voice. Then, the server 12 transmits input information indicating the recognized command “Playback” and feedback information including the input level set to 3 to the client 11. The client 11 performs double speed playback of the video recorder based on the command “Playback” indicated in the input information and the value 3 of the input level.
- the user can cause the client 11 (APP) to perform different operations by designating the input level with the input level setting voice for the same voice command.
- the user can perform similar processing at different levels (eg, different speeds, different amounts, etc.) using the same voice command.
- the input level may be set by a voice command such as “level 1”, “level 2”, “repeated symbol”, “repeated vowel”.
- the input level setting sound may be input by combining the sound and another modal interface.
- the sound when inputting information input sound, the sound may be input without performing other operations, and when inputting input level setting sound, the sound may be input while performing other operations.
- the client 11 recognizes the voice input without performing other operations as the information input voice, and the voice input while performing other operations is the input level setting voice. recognize.
- a predetermined operation on the operation unit 22 can be adopted as an input level setting voice input operation.
- the client 11 recognizes voice input by the user while pressing a predetermined button of the operation unit 22 or touching the touch pad as input level setting voice.
- a user gesture can be employed as an input level setting voice input operation.
- the client 11 recognizes the voice input by the user while swinging his / her head finely or input while swinging his / her head from right to left as the input level setting voice.
- the input level may be set to a negative value.
- the input level may be set to a negative value corresponding to the volume difference.
- the client 11 may process the input information so as to reduce the expressive power and the information amount. For example, when the input information is “magic”, the client 11 deletes the trailing “tsu” and processes it into “magic”.
- the input level may be set according to the environment such as a service using information input by voice recognition. For example, when an excitement is detected in an SNS chat service or community service used by the user, the input level may be set according to the degree of the excitement.
- the user can post a sentence automatically processed into an expression corresponding to the excitement of the service to the service simply by inputting a normal sentence by voice.
- the input timing which is one of the input conditions for the input level setting voice.
- the condition for inputting the input level setting voice within a predetermined time after the input of the information input voice is given as an example.
- the result of voice recognition of the information input voice is acquired. Thereafter, the input level setting sound may be input within a predetermined time.
- the input information is processed by adding a character string.
- the input information may be processed by other methods.
- a word in the input information may be converted into an abbreviation, for example, “easy” to “ez” so that the expression is broken.
- part or all of the kanji in the input information may be converted into hiragana or katakana.
- the visual characteristics of the input information may be changed. For example, the font, character size, color, etc. when displaying the input information may be changed.
- the processing information can be manually corrected by the user, and the client 11 records a log of a combination of input information and input level and final processing information. Then, the client 11 may generate the same processing information for the same combination of input information and input level based on the log. Alternatively, the client 11 may present a plurality of processing information candidates based on the log.
- the processing information when the processing information is different from what the user expects, the original input information may be easily restored.
- the processing information may be returned to the original input information by the user performing a predetermined operation on the operation unit 22 or inputting a voice command such as “Return”.
- the user presents the processing information if the user utters a sound such as “It has become a strange wind” or “Different from the expected result”, it is based on the result of analyzing the meaning of the sound. Then, the processing information may be returned to the original input information.
- a part of the function of the client 11 can be provided in the server 12, or a part of the function of the server 12 can be provided in the client 11.
- the server 12 may process the input information based on the input level setting voice, and transmit feedback information including the processed information obtained as a result to the client 11.
- the client 11 acquires input information by performing voice recognition of information input voice
- the server 12 sets only the input level, and includes feedback information including the input level but not including input information. You may make it transmit to the client 11.
- the server 12 may transmit feedback information to a device different from the client 11.
- the server 12 may transmit feedback information including a command obtained by voice recognition and an input level to a device operated by the command (for example, a video recorder). Note that when feedback information is transmitted to a device different from the client 11, it is possible to include not the input information obtained by speech recognition but also speech data before speech recognition in the feedback information.
- the server 12 may perform processing based on the input information and the input level.
- this technology can be applied when input information is given by a method other than voice.
- the present technology can also be applied to processing input information given by text information.
- the series of processes described above can be executed by hardware or can be executed by software.
- a program constituting the software is installed in the computer.
- the computer includes, for example, a general-purpose personal computer capable of executing various functions by installing various programs by installing a computer incorporated in dedicated hardware.
- FIG. 16 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
- a CPU Central Processing Unit
- ROM Read Only Memory
- RAM Random Access Memory
- An input / output interface 305 is further connected to the bus 304.
- An input unit 306, an output unit 307, a storage unit 308, a communication unit 309, and a drive 310 are connected to the input / output interface 305.
- the input unit 306 includes a keyboard, a mouse, a microphone, and the like.
- the output unit 307 includes a display, a speaker, and the like.
- the storage unit 308 includes a hard disk, a nonvolatile memory, and the like.
- the communication unit 309 includes a network interface and the like.
- the drive 310 drives a removable medium 311 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
- the CPU 301 loads the program stored in the storage unit 308 to the RAM 303 via the input / output interface 305 and the bus 304 and executes the program, for example. Is performed.
- the program executed by the computer (CPU 301) can be provided by being recorded in, for example, a removable medium 311 as a package medium or the like.
- the program can be provided via a wired or wireless transmission medium such as a local area network, the Internet, or digital satellite broadcasting.
- the program can be installed in the storage unit 308 via the input / output interface 305 by attaching the removable medium 311 to the drive 310. Further, the program can be received by the communication unit 309 via a wired or wireless transmission medium and installed in the storage unit 308. In addition, the program can be installed in the ROM 302 or the storage unit 308 in advance.
- the program executed by the computer may be a program that is processed in time series in the order described in this specification, or in parallel or at a necessary timing such as when a call is made. It may be a program for processing.
- a plurality of computers may perform the above-described processing in cooperation.
- a computer system is configured by one or a plurality of computers that perform the above-described processing.
- the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Accordingly, a plurality of devices housed in separate housings and connected via a network and a single device housing a plurality of modules in one housing are all systems. .
- the present technology can take a cloud computing configuration in which one function is shared by a plurality of devices via a network and is jointly processed.
- each step described in the above flowchart can be executed by one device or can be shared by a plurality of devices.
- the plurality of processes included in the one step can be executed by being shared by a plurality of apparatuses in addition to being executed by one apparatus.
- the present technology can take the following configurations.
- An information processing apparatus comprising a feedback information generation unit that generates feedback information.
- the input condition includes that the first sound is input at a predetermined timing after the second sound is input.
- the input condition includes a volume difference between the first sound and the second sound satisfying a predetermined condition.
- the information processing apparatus includes a feature amount of the first sound satisfying a predetermined condition.
- the input condition includes that a predetermined phoneme continues for a predetermined length in the first voice.
- the feedback information generation unit sets the input level based on a feature amount of the first sound.
- the feedback information generation unit sets the input level based on a duration of the first sound.
- the feedback information generation unit sets the input level based on a volume of the first sound.
- the information processing apparatus according to any one of (1) to (13), wherein the feedback information includes the input information and the input level.
- Feedback that generates feedback information that is set based on a voice that satisfies a predetermined input condition and includes at least one of an input level that indicates a level of input information and processing information that is obtained by processing the input information based on the voice.
- An information processing method including an information generation step.
- An information processing apparatus comprising: an execution unit that is set based on a first voice that satisfies a predetermined input condition and that executes processing corresponding to the input information based on an input level that indicates a level of the input information.
- the information processing apparatus processes the input information at a level corresponding to the input level.
- the input information is a command input by the second voice, The information processing apparatus according to (16), wherein the execution unit executes processing corresponding to the command at a level corresponding to the input level.
- the information processing apparatus wherein the execution unit reacts to the input information at a level corresponding to the input level.
- An information processing method comprising: an execution step of executing processing corresponding to the input information based on an input level that is set based on a sound that satisfies a predetermined input condition and indicates a level of the input information.
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Abstract
本技術は、情報入力の利便性を向上させることができるようにする情報処理装置及び情報処理方法に関する。 情報処理装置は、所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第1の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成部を備える。本技術は、例えば、音声認識を行ったり、音声認識の結果に基づいて処理を行うサーバ、クライアント、アプリケーションプログラムに適用できる。
Description
本技術は、情報処理装置及び情報処理方法に関し、特に、情報入力の利便性を向上させるようにした情報処理装置及び情報処理方法に関する。
従来、自然言語処理に関する技術が各種提案されている。例えば、下記特許文献1には、複数の語句のうちユーザに選択された語句に基づいて文を作成する技術が開示されている。
また、音声認識に関する技術も各種提案されている。音声認識では、ユーザにより入力された音声を文字列に変換することができる。
しかしながら、従来の音声認識の技術では、音声の抑揚、スピード、音の長さ等の表現の違いを、変換後の文字列に適切に反映することは困難である。例えば、"What a cooooooooool game"のように、ユーザの感情を表すために通常の単語より母音の数を増やした表現の文章を音声認識により得ることは難しい。従って、例えば、ユーザは、音声認識により"What a cool game"という文字列を得た後に、手動で"o"を入力したり、或いは、"What a cooooooooool game"という文字列を全て手動で入力する必要がある。
そこで、本技術は、情報入力の利便性を向上させるようにするものである。
本技術の第1の側面の情報処理装置は、所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第1の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成部を備える。
第2の音声を文字列に変換することにより前記入力情報を取得する音声認識部をさらに設けることができる。
前記入力条件には、前記第2の音声の入力後に前記第1の音声が所定のタイミングで入力されることを含ませることができる。
前記入力条件には、前記第1の音声と前記第2の音声の音量差が所定の条件を満たすことを含ませることができる。
前記入力条件には、前記第1の音声の特徴量が所定の条件を満たすことを含ませることができる。
前記入力条件には、前記第1の音声において所定の音素が所定の長さ以上連続することを含ませることができる。
前記フィードバック情報生成部には、前記第1の音声の特徴量に基づいて、前記入力レベルを設定させることができる。
前記フィードバック情報生成部には、前記第1の音声の継続時間に基づいて、前記入力レベルを設定させることができる。
前記フィードバック情報生成部には、前記第1の音声の音量に基づいて、前記入力レベルを設定させることができる。
前記フィードバック情報生成部には、前記入力情報に文字列を付加することにより前記加工情報を生成させることができる。
前記フィードバック情報生成部には、前記入力情報の所定の文字又は記号を繰り返すことにより前記加工情報を生成させることができる。
前記フィードバック情報生成部には、前記入力情報の所定の品詞の単語の所定の文字又は記号を繰り返すことにより前記加工情報を生成させることができる。
前記フィードバック情報生成部には、前記第1の音声の特徴量に基づいて、前記入力情報に付加する文字列の量を調整させることができる。
前記フィードバック情報には、前記入力情報及び前記入力レベルを含ませることができる。
本技術の第1の側面の情報処理方法は、所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成ステップを含む。
本技術の第2の側面の情報処理装置は、所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行部を備える。
前記実行部には、前記入力レベルに応じたレベルで前記入力情報の加工を行わせることができる。
前記入力情報を、第2の音声により入力されるコマンドとし、前記実行部には、前記コマンドに対応する処理を前記入力レベルに応じたレベルで実行させることができる。
前記実行部には、前記入力情報に対して、前記入力レベルに応じたレベルで反応させることができる。
本技術の第2の側面の情報処理方法は、所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行ステップを含む。
本技術の第1の側面においては、所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報が生成される。
本技術の第2の側面においては、所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理が実行される。
本技術の第1の側面又は第2の側面によれば、情報入力の利便性が向上する。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
以下、発明を実施するための形態(以下、「実施形態」と記述する)について図面を用いて詳細に説明する。なお、説明は以下の順序で行う。
1.実施の形態
2.変形例
3.応用例
1.実施の形態
2.変形例
3.応用例
<<1.実施の形態>>
<1-1.情報処理システムの構成例>
まず、図1を参照して、本技術を適用した情報処理システム10の構成例について説明する。
<1-1.情報処理システムの構成例>
まず、図1を参照して、本技術を適用した情報処理システム10の構成例について説明する。
情報処理システム10は、ユーザが入力した音声の認識を行い、認識結果に対応した処理を行うシステムである。情報処理システム10は、クライアント11、サーバ12、及び、ネットワーク13により構成される。クライアント11とサーバ12は、ネットワーク13を介して相互に接続されている。
なお、クライアント11が1つのみ図示されているが、実際には複数のクライアント11がネットワーク13に接続され、複数のユーザがクライアント11を介して情報処理システム10を利用することが可能である。
クライアント11は、ユーザが入力した音声を示す音声データをサーバ12に送信し、送信した音声データに対するフィードバック情報をサーバ12から受信し、フィードバック情報に対応する処理を行う。
例えば、クライアント11は、スマートフォン、タブレット、携帯電話機、ノート型のパーソナルコンピュータ等の携帯情報端末、ウエアラブルデバイス、デスクトップ型のパーソナルコンピュータ、ゲーム機、動画再生装置、音楽再生装置等により構成される。また、ウエアラブルデバイスには、例えば、眼鏡型、腕時計型、ブレスレット型、ネックレス型、ネックバンド型、イヤフォン型、ヘッドセット型、ヘッドマウント型等の各種の方式を採用することができる。
クライアント11は、音声入力部21、操作部22、表示部23、提示部24、通信部26、制御部27、及び、記憶部28を備える。制御部27は、入出力制御部41、提示制御部42、及び、実行部43を備える。音声入力部21、操作部22、表示部23、提示部24、通信部26、制御部27、及び、記憶部28は、バス29を介して相互に接続されている。
音声入力部21は、例えばマイクロフォンにより構成される。マイクロフォンの数は、任意に設定することができる。音声入力部21は、周囲の音声を収集し、収集した音声を示す音声データを制御部27に供給したり、記憶部28に記憶させたりする。
操作部22は、各種の操作部材により構成され、クライアント11の操作に用いられる。例えば、操作部22は、コントローラ、リモートコントローラ、タッチパネル、ハードウエアボタン等により構成される。操作部22は、操作部22に対する操作の内容等を示す操作データを制御部27に供給する。
表示部23は、例えばディスプレイにより構成される。表示部23は、提示制御部42の制御の下に、各種の画像、GUI(Graphical User Interface)、各種のアプリケーションプログラムやサービスの画面等を表示する。
提示部24は、例えば、スピーカ、振動デバイス、他の連携デバイス等により構成される。提示部24は、提示制御部42の制御の下に、フィードバック情報に対応する処理を実行する際の各種の情報の提示等を行う。
センサ部25は、カメラ、距離センサ、GPS(Global Positioning System)受信機、加速度センサ、ジャイロセンサ等の各種のセンサを備える。センサ部25は、各センサの検出結果を示すセンサデータを制御部27に供給したり、記憶部28に記憶させたりする。
通信部26は、各種の通信デバイスにより構成される。通信部26の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部26が、複数の通信方式に対応していてもよい。通信部26は、ネットワーク13を介してサーバ12と通信を行い、各種のデータの送受信を行う。通信部26は、サーバ12から受信したデータを制御部27に供給したり、記憶部28に記憶させたりする。
制御部27は、例えば、各種のプロセッサ等により構成される。
入出力制御部41は、各種のデータの入出力を制御する。例えば、入出力制御部41は、音声入力部21からの音声データ、操作部22からの操作データ、及び、センサ部25からのセンサデータの中からサーバ12の処理に必要なデータを抽出し、抽出したデータを、通信部26及びネットワーク13を介して、サーバ12に送信する。また、例えば、入出力制御部41は、通信部26及びネットワーク13を介して、フィードバック情報等をサーバ12から受信する。
提示制御部42は、表示部23及び提示部24による各種の情報等の提示を制御する。
実行部43は、各種のアプリケーションプログラム(以下、APPと称する)を実行することにより、各種の処理を実行する。
記憶部28は、クライアント11の処理に必要なプログラム、データ等を記憶する。
サーバ12は、クライアント11から受信した音声データに対して音声認識を行い、認識結果に基づいてフィードバック情報を生成し、フィードバック情報を、ネットワーク13を介してクライアント11に送信する。サーバ12は、通信部61、制御部62、及び、記憶部63を備える。制御部62は、音処理部71、画像処理部72、自然言語処理部73、音声認識部74、ジェスチャ認識部75、操作認識部76、及び、フィードバック情報生成部77を備える。通信部61、制御部62、及び、記憶部63は、バス64を介して相互に接続されている。
通信部61は、各種の通信デバイスにより構成される。通信部61の通信方式は特に限定されるものではなく、無線通信又は有線通信のいずれでもよい。また、通信部61が、複数の通信方式に対応していてもよい。通信部61は、ネットワーク13を介してクライアント11と通信を行い、各種のデータの送受信を行う。通信部61は、クライアント11から受信したデータを制御部62に供給したり、記憶部63に記憶させたりする。
制御部62は、例えば、各種のプロセッサ等により構成される。
音処理部71は、音声データから各種の特徴量を抽出する。音処理部71が抽出する特徴量は特に限定されるものではないが、例えば、音素、音量、抑揚、長さ、スピード等が含まれる。
画像処理部72は、画像データから各種の特徴量を抽出する。画像処理部72が抽出する特徴量は特に限定されるものではないが、例えば、人のジェスチャの認識に適した特徴量が含まれる。
自然言語処理部73は、形態素解析、構文解析、モダリティ解析等の自然言語処理を行う。
音声認識部74は、音声認識処理を行い、入力された音声を文字列に変換する。
ジェスチャ認識部75は、画像処理部72により抽出された特徴量等に基づいて、画像データに写っている人のジェスチャを認識する。
操作認識部76は、クライアント11から取得した操作データに基づいて、クライアント11で行われた操作を認識する。
フィードバック情報生成部77は、音処理部71、画像処理部72、自然言語処理部73、音声認識部74、ジェスチャ認識部75、及び、操作認識部76の処理の結果等に基づいて、フィードバック情報を生成する。フィードバック情報は、クライアント11からの音声データに対して音声認識を行うことにより得られる入力情報、入力情報のレベルを示す入力レベル、及び、入力レベルに基づいて入力情報を加工した加工情報のうち少なくとも1つ以上を含む。また、例えば、フィードバック情報は、入力情報に対して自然言語処理を行った結果等を含む。
記憶部63は、サーバ12の処理に必要なプログラム、データ等を記憶する。
なお、以下、クライアント11(通信部26)とサーバ12(通信部61)がネットワーク13を介して通信を行う場合の”ネットワーク13を介して”の記載は省略する。以下、クライアント11の各部がバス29を介してデータの授受を行う場合の”バス29を介して”の記載は省略する。以下、サーバ12の各部がバス64を介してデータの授受を行う場合の”バス64を介して”の記載は省略する。
<1-2.情報処理システム10の処理の概要>
次に、図2を参照して、情報処理システム10の処理の概要について説明する。
次に、図2を参照して、情報処理システム10の処理の概要について説明する。
まず、ユーザは、入力情報を入力するための情報入力用音声、及び、入力レベルを設定するための入力レベル設定用音声をクライアント11に入力する。このとき、入力レベル設定用音声は、所定の入力条件を満たすように入力される。クライアント11(又は、クライアント11で実行されるAPP)は、情報入力用音声及び入力レベル設定用音声を示す音声データをサーバ12に送信する。
サーバ12は、情報入力用音声に対して音声認識を行い、情報入力用音声を文字列に変換することにより、入力情報を取得する。また、サーバ12は、入力レベル設定用音声に基づいて、入力レベルを設定する。入力レベルは、入力情報の各種のレベルを示す。入力レベルは、例えば、入力情報を用いて処理を行う際のフィードバックレベル等に用いられる。例えば、入力レベルは、入力情報が表現する感情のレベル、入力情報に基づいて行われる処理のレベル、入力情報の質や量(例えば、大きさ、長さ、厚さ、重さ、品質等)のレベルを示す。そして、サーバ12は、入力情報及び入力レベルを含むフィードバック情報を生成し、クライアント11に送信する。
クライアント11(又は、クライアント11で実行されるAPP)は、フィードバック情報に対応した処理を実行する。例えば、クライアント11は、音声認識により得られた入力情報(テキスト情報)を入力レベルに応じたレベルで加工する処理を実行する。例えば、クライアント11は、音声コマンドを音声認識により認識したコマンドに対応する処理を入力レベルに応じたレベルで実行する。例えば、クライアント11は、音声認識により得られた入力情報に対して、入力レベルに応じたレベルで反応する処理を実行する。
なお、例えば、入力情報を、クライアント11からではなく、直接サーバ12に供給したり、他のサーバからサーバ12に供給したりすることも可能である。
<1-3.情報処理システム10の処理の具体例>
次に、図3乃至図11を参照して、情報処理システム10の処理の具体例について説明する。
次に、図3乃至図11を参照して、情報処理システム10の処理の具体例について説明する。
(クライアント11の処理)
まず、図3のフローチャートを参照して、クライアント11の処理について説明する。この処理は、例えば、ユーザが操作部22を介して音声認識の実行の指示を入力したとき開始される。
まず、図3のフローチャートを参照して、クライアント11の処理について説明する。この処理は、例えば、ユーザが操作部22を介して音声認識の実行の指示を入力したとき開始される。
なお、以下、ユーザが"What a cool game"という文章を入力情報として音声で入力した後、入力レベル設定用音声を入力した場合に、情報処理システム10が、入力された文章を加工する処理を具体例に挙げて説明する。
ステップS1において、クライアント11は、音声認識の実行を依頼する。具体的には、実行部43は、音声認識の開始を指示するコマンドである音声認識開始命令を生成する。入出力制御部41は、通信部26を介して、音声認識開始命令をサーバ12に送信する。このとき、入出力制御部41は、クライアント11の種類、又は、クライアント11において音声認識の結果を使用するAPPの種類を示す情報等を、必要に応じて音声認識開始命令に添付する。
ステップS2において、クライアント11は、音声入力を受け付ける。具体的には、例えば、提示制御部42は、表示部23又は提示部24を制御して、ユーザに音声の入力を促す。例えば、表示部23に表示されている画像が、図4の画像101から画像102に変化し、音声入力を受け付けていることがユーザに示される。
これに対して、ユーザは、認識させたい文章を音声により入力する。入出力制御部41は、ユーザにより入力された音声(情報入力用音声)を示す音声データを音声入力部21から取得し、通信部26を介してサーバ12に送信する処理を開始する。また、入出力制御部41は、必要に応じて、操作部22から供給される操作データ、及び、センサ部25から供給されるセンサデータを、通信部26を介してサーバ12に送信する処理を開始する。
サーバ12は、後述する図8のステップS52において、クライアント11からの音声データに対する音声認識を開始し、ステップS64又はステップS65において、フィードバック情報を送信する。フィードバック情報には、例えば、音声認識の認識結果として得られるテキスト情報である入力情報、及び、入力情報に対して自然言語処理を行った結果が含まれる。なお、例えば、音声認識の途中にフィードバック情報を送信する場合には、音声認識の途中経過を示すテキスト情報(すなわち、入力情報の一部)がフィードバック情報に含まれる。
ステップS3において、入出力制御部41は、フィードバック情報を受信したか否かを判定する。入出力制御部41は、通信部26を介して、フィードバック情報をサーバ12から受信した場合、フィードバック情報を受信したと判定し、処理はステップS4に進む。
ステップS4において、クライアント11は、フィードバック情報に対応した処理を行う。
例えば、提示制御部42は、フィードバック情報に音声認識の途中経過を示すテキスト情報が含まれる場合、図4の左から3番目の例に示されるように、音声入力中を示す画像103、及び、音声認識の途中経過を示す画像104を表示部23に表示させる。
また、例えば、提示制御部42は、サーバ12からのフィードバック情報(音声認識の結果)を待っている間、図4の右端の例に示されるように、解析中であることを示す画像105を表示部23に表示させる。
さらに、例えば、提示制御部42は、フィードバック情報に音声認識の最終結果を示す入力情報が含まれる場合、図5の左端の例に示されるように、音声認識の最終結果を示す画像106を表示部23に表示させる。
その後、処理はステップS5に進む。
一方、ステップS3において、フィードバック情報を受信していないと判定された場合、ステップS4の処理はスキップされ、処理はステップS5に進む。
ステップS5において、入出力制御部41は、入力レベルの入力の受付が指示されたか否かを判定する。入力レベルの入力の受付が指示されていないと判定された場合、処理はステップS3に戻る。
その後、ステップS5において、入力レベルの入力の受付が指示されたと判定されるまで、ステップS3乃至ステップS5の処理が繰り返し実行される。
一方、ステップS5において、入出力制御部41は、通信部26を介して、後述する入力レベル入力開始命令をサーバ12から受信した場合、入力レベルの入力の受付が指示されたと判定し、処理はステップS6に進む。
ステップS6において、クライアント11は、入力レベルの入力の受付を開始する。例えば、提示制御部42は、表示部23又は提示部24を制御して、ユーザに入力レベルの入力を促す。例えば、図5の中央の例に示されるように、文章の加工を3秒間受け付けるメッセージを含む画像107が表示部23に表示される。次に、図5の右端の例に示されるように、文章の加工を行うための入力レベルの入力を受け付けている旨を示すメッセージを含む画像108が表示部23に表示される。
これに対して、ユーザは、入力レベルを設定するための入力レベル設定用音声を入力する。このとき、例えば、提示制御部42は、図6の左端の例に示されるように、入力レベル設定用音声を入力中であることを示す画像109を表示部23に表示させる。
また、例えば、特徴量が所定の条件を満たす音声が、入力レベル設定用音声として入力される。具体的には、例えば、音素として母音が所定長さ以上連続する音声が、入力レベル設定用音声として入力される。この場合、入力レベル設定用音声により入力される文章は、情報入力用音声と同じであってもよいし、異なっていてもよい。例えば、前者の場合、"What a cooooooooool game"のように、文章内の母音の少なくとも一部が伸ばされる。一方、後者の場合、"おーーおーーおーー"のように、文章内の母音の少なくとも一部を伸ばした音声が入力される。また、後者の場合、必ずしも意味のある文章を入力する必要はなく、例えば、単なる音の並びであってもよい。
また、例えば、所定の音素が所定の長さ以上連続する音声が、入力レベル設定用音声として入力される。例えば、"んー"や"ohhhhhhhhhhhhhhhhh"のように、所定の音素が連続する音声が入力される。
さらに、例えば、直前に入力された情報入力用音声と比較して、相対的に音量が大きい音声又は小さい音声が入力レベル設定用音声として入力される。すなわち、情報入力用音声との音量差が所定の条件を満たす音声が、入力レベル設定用音声として入力される。この場合、入力レベル設定用音声により入力される文章は、情報入力用音声と同じでもよいし、異なっていてもよい。後者の場合、例えば、"really"のような意味のある文章を入力してもよいし、特に意味のない文章を入力してもよい。また、例えば、情報入力用音声との間の音量差に閾値を設け、情報入力用音声との音量差が閾値以上の音声が、入力レベル設定用音声として認識されるようにしてもよい。さらに、例えば、音声の継続時間に閾値を設け、継続時間が閾値以上の音声が、入力レベル設定用音声として認識されるようにしてもよい。
入出力制御部41は、ユーザにより入力された入力レベル設定用音声を示す音声データを音声入力部21から取得し、通信部26を介してサーバ12に送信する処理を開始する。
サーバ12は、後述する図8のステップS63、図9のステップS72、又は、図9のステップS75において、入力レベルを設定する。また、サーバ12は、後述する図8のステップS63、図9のステップS72、又は、図9のステップS75において、設定した入力レベルを含むフィードバック情報をクライアント11に送信する。
ステップS7において、ステップS3の処理と同様に、フィードバック情報を受信したか否かが判定される。フィードバック情報を受信したと判定された場合、処理はステップS8に進む。
ステップS8において、クライアント11は、フィードバック情報に対応した処理を行う。例えば、実行部43は、入力レベルに基づいて、音声認識により得られた入力情報(テキスト情報)を、文字列を付加することにより加工する。ここで、文字列とは1以上の文字、記号等を並べたものであり、1文字の場合もある。
例えば、実行部43は、入力レベルに基づいて、入力情報内の全部又は一部の母音を繰り返すように加工する。このとき、例えば、入力レベルが高くなるほど、母音を繰り返す数が多くなり、入力レベルが低くなるほど、母音を繰り返す数が少なくなる。
図7の上の例は、入力情報("What a cool game")の全ての母音を繰り返すようにした例を示している。
一方、図7の下の例は、入力情報("What a cool game")の形容詞(cool)の母音のみを繰り返すようにした例を示している。なお、母音を繰り返す品詞は形容詞に限定されるものではなく、他の品詞を選択したり、2種類以上の品詞を選択したりするようにしてもよい。また、選択した品詞内の一部の母音のみを繰り返すようにしてもよい。この場合、繰り返す母音は、例えばランダムに選択される。なお、該当する品詞の単語が入力情報内に存在しない場合、入力情報を加工しないようにしてもよい。
また、例えば、母音ではなく子音を繰り返すようにしてもよい。さらに、例えば、入力情報の単語の中から母音又は子音を繰り返す単語をユーザが選択するようにしてもよい。
或いは、実行部43は、入力情報の品詞の並びに応じて、文字列を付加する。例えば、実行部43は、入力情報内の名詞と助詞が並んでいる部分の直後に、当該助詞を繰り返すように入力情報を加工する。
或いは、実行部43は、入力情報のモダリティ情報に基づいて、付加すべき記号等を選択し、選択した記号等を付加する。このとき、入力レベルに応じて、付加される記号等の量が調整される。例えば、入力レベルが高いほど、記号等を繰り返す数が多くなり、入力レベルが低いほど、記号等を繰り返す数が少なくなる。
或いは、実行部43は、入力情報内の文字等を1つ以上ランダムに選択し、選択した文字等を繰り返すように加工する。このとき、入力レベルに応じて、付加される記号等の量が調整される。例えば、入力レベルが高いほど、選択した文字等を繰り返す数が多くなり、入力レベルが低いほど、選択した文字等を繰り返す数が少なくなる。
また、このとき、例えば、提示制御部42は、入力情報の加工中に、図6の中央の例に示されるように、入力情報を加工中(解析中)であることを示す画像110を表示部23に表示させる。
その後、処理はステップS9に進む。
一方、ステップS7において、フィードバック情報を受信していないと判定された場合、ステップS8の処理はスキップされ、処理はステップS9に進む。
ステップS9において、入出力制御部41は、入力レベルの入力の受付の終了が指示されたか否かを判定する。入力レベルの入力の受付の終了が指示されていないと判定された場合、処理はステップS7に戻る。
その後、ステップS9において、入力レベルの入力の受付の終了が指示されたと判定されるまで、ステップS7乃至ステップS9の処理が繰り返し実行される。これにより、入力レベルの入力中も、入力中の入力レベルに応じて、フィードバック情報に対応した処理が並行して行われる。例えば、入力中の入力レベルに応じて、リアルタイムに入力情報を加工し提示する処理が実行される。
なお、入力レベルの入力中には、フィードバック情報に対応した処理が行われず、入力レベルの入力が完了した後に、フィードバック情報に対応した処理が行われる場合、ステップS8の処理はスキップされる。
一方、ステップS9において、入出力制御部41は、通信部26を介して、後述する入力レベル入力終了命令をサーバ12から受信した場合、入力レベルの入力の受付の終了が指示されたと判定し、処理はステップS10に進む。
ステップS10において、クライアント11は、入力レベルの入力の受付を終了する。例えば、提示制御部42は、表示部23又は提示部24を制御して、ユーザに入力レベルの入力の終了を知らせる。例えば、図6の右端の例に示されるように、音声の入力を受け付けていないことを示す画像111が表示部23に表示される。また、入出力制御部41は、音声データ、操作データ、及び、センサデータのサーバ12への送信を停止する。
ステップS11において、ステップS3の処理と同様に、フィードバック情報を受信したか否かが判定される。フィードバック情報を受信したと判定された場合、処理はステップS12に進む。
ステップS12において、ステップS8の処理と同様に、フィードバック情報に対応した処理が行われる。なお、このとき、例えば、提示制御部42は、表示部23又は提示部24を制御して、入力情報を加工した後の加工情報(例えば、図7の加工後の文章)を提示する。また、例えば、入出力制御部41は、加工情報を、後段の装置や、ネットワーク13を介して、他のサーバ等に送信する。
その後、クライアント11の処理は終了する。
一方、ステップS11において、フィードバック情報を受信していないと判定された場合、ステップS12の処理はスキップされ、クライアント11の処理は終了する。
次に、図8及び図9のフローチャートを参照して、図3のクライアント11の処理に対応して、サーバ12により実行される処理について説明する。
ステップS51において、音声認識部74は、音声認識の実行が依頼されたか否かを判定する。音声認識部74は、音声認識の実行が依頼されたと判定されるまで、ステップS51の処理を所定のタイミングで繰り返し実行する。そして、音声認識部74は、図3のステップS1においてクライアント11から送信された音声認識開始命令を、通信部61を介して受信した場合、音声認識の実行が依頼されたと判定し、処理はステップS52に進む。
ステップS52において、音声認識部74は、音声認識を開始する。具体的には、音声認識部74は、図3のステップS2においてクライアント11から送信が開始された音声データを、通信部61を介して受信し、受信した音声データに対する音声認識処理を開始する。また、自然言語処理部73は、音声認識により得られた入力情報(テキスト情報)に対する自然言語処理を開始する。
ステップS53において、フィードバック情報生成部77は、フィードバック情報を逐次送信するか否かを判定する。例えば、フィードバック情報生成部77は、クライアント11の種類、又は、クライアント11において音声認識の結果を使用するAPPの種類に基づいて、クライアント11においてフィードバック情報が逐次必要な処理が行われているか否かを判定する。例えば、音声認識の結果を逐次ユーザに提示する必要がある場合、クライアント11においてフィードバック情報が逐次必要な処理が行われていると判定される。そして、フィードバック情報生成部77は、クライアント11においてフィードバック情報が逐次必要な処理が行われていない場合、フィードバック情報を逐次送信しないと判定し、処理はステップS54に進む。
ステップS54において、サーバ12は、音声入力が停止したか否かを判定する。例えば、音声認識部74は、クライアント11からの音声データに対するVAD(Voice Activity Detection)の結果に基づいて、音声入力が停止したか否かを判定する。或いは、操作認識部76は、クライアント11からの操作データに基づいて、音声入力を停止する操作が行われたか否かを検出することにより、音声入力が停止したか否かを判定する。
サーバ12は、音声入力が停止したと判定するまで、ステップS54の処理を所定のタイミングで繰り返し実行する。そして、音声入力が停止したと判定された場合、処理はステップS55に進む。
ステップS55において、フィードバック情報生成部77は、入力レベルの入力の受付を指示する。具体的には、フィードバック情報生成部77は、入力レベルの入力の受付を指示するコマンドである入力レベル入力開始命令を生成する。フィードバック情報生成部77は、通信部61を介して、入力レベル入力開始命令をクライアント11に送信する。
ステップS56において、フィードバック情報生成部77は、入力レベルの入力を受け付けてから規定時間(例えば、3秒間)が経過したか否かを判定する。まだ入力レベルの入力を受け付けてから規定時間が経過していないと判定された場合、処理はステップS57に進む。
ステップS57において、音処理部71は、クライアント11からの音声データに基づいて、音声が入力されたか否かを判定する。音声が入力されていないと判定された場合、処理はステップS56に戻る。
その後、ステップS56において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップS57において、音声が入力されたと判定されるまで、ステップS56及びステップS57の処理が繰り返し実行される。
一方、ステップS57において、音声が入力されたと判定された場合、処理はステップS58に進む。
ステップS58において、音処理部71は、音声データから特徴量を抽出する。例えば、音処理部71は、音声データの音素、音量、長さ等の特徴量を抽出する。
ステップS59において、音処理部71は、入力レベル設定用の音声(入力レベル設定用音声)であるか否かを判定する。例えば、音処理部71は、音声データの音素、音量、長さ等の特徴量が所定の入力条件を満たしていない場合、例えば、音声データにより示される音声が、ステップS6の処理の説明で上述した入力レベル設定用音声の特徴を有していない場合、入力レベル設定用の音声でないと判定し、処理はステップS56に戻る。
その後、ステップS56において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップS59において、入力レベル設定用の音声であると判定されるまで、ステップS56乃至ステップS59の処理が繰り返し実行される。
一方、ステップS59において、音処理部71は、音声データの特徴量が所定の入力条件を満たしている場合、入力レベル設定用の音声であると判定し、処理はステップS60に進む。
ステップS60において、ステップS56の処理と同様に、入力レベルの入力を受け付けてから規定時間が経過したか否かが判定される。まだ入力レベルの入力を受け付けてから規定時間が経過していないと判定された場合、処理はステップS61に進む。
ステップS61において、ステップS54の処理と同様に、音声入力が停止したか否かが判定される。音声入力が停止していないと判定された場合、処理はステップS60に戻る。
その後、ステップS60において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップS61において、音声入力が停止したと判定されるまで、ステップS60及びステップS61の処理が繰り返し実行される。
一方、ステップS60において、入力レベルの入力を受け付けてから規定時間が経過したと判定された場合、又は、ステップS61において、音声入力が停止したと判定された場合、処理はステップS62に進む。
また、ステップS56において、入力レベルの入力を受け付けてから規定時間が経過したと判定された場合、処理はステップS62に進む。これは、入力レベル設定用音声が入力されないまま規定時間が経過した場合である。
ステップS62において、フィードバック情報生成部77は、入力レベルの入力の受付の終了を指示する。具体的には、フィードバック情報生成部77は、入力レベルの入力の受付の終了を指示するコマンドである入力レベル入力終了命令を生成する。フィードバック情報生成部77は、通信部61を介して、入力レベル入力終了命令をクライアント11に送信する。
ステップS63において、フィードバック情報生成部77は、入力レベルを設定する。例えば、フィードバック情報生成部77は、入力レベル設定用音声を示す音声データの特徴量に基づいて、入力レベルを設定する。
例えば、フィードバック情報生成部77は、入力レベル設定用音声の継続時間が長いほど、入力レベルを高く設定し、入力レベル設定用音声の継続時間が短いほど、入力レベルを低く設定する。例えば、図10に示されるように、入力レベル設定用音声の継続時間tが0.1秒未満の場合、入力レベルは1に設定される。継続時間tが0.1秒以上、かつ、0.3秒未満の場合、入力レベルは2に設定される。継続時間tが0.3秒以上、かつ、0.7秒未満の場合、入力レベルは3に設定される。継続時間が0.7秒以上の場合、入力レベルは4に設定される。
或いは、フィードバック情報生成部77は、入力レベル設定用音声の所定の音素の繰り返し数が多いほど、入力レベルを高く設定し、入力レベル設定用音声の所定の音素の繰り返し数が少ないほど、入力レベルを低く設定する。
或いは、フィードバック情報生成部77は、入力レベル設定用音声の音量が大きいほど、入力レベルを高く設定し、入力レベル設定用音声の音量が小さいほど、入力レベルを低く設定する。
なお、フィードバック情報生成部77は、入力レベル設定用音声が入力されなかった場合、入力レベルを0に設定する。
ステップS64において、フィードバック情報生成部77は、フィードバック情報を生成し、送信する。例えば、フィードバック情報生成部77は、音声認識の認識結果として得られた入力情報、入力情報の自然言語処理の結果、及び、設定した入力レベルを含むフィードバック情報を生成する。なお、入力情報及び自然言語処理の結果をすでに送信済みの場合、このとき必ずしもそれらをフィードバック情報に含める必要はない。フィードバック情報生成部77は、通信部61を介して、フィードバック情報をクライアント11に送信する。
その後、処理はステップS51に戻り、ステップS51以降の処理が実行される。
一方、ステップS53において、フィードバック情報を逐次送信するとと判定された場合、処理はステップS65に進む。
ステップS65において、フィードバック情報生成部77は、フィードバック情報の生成及び送信を開始する。例えば、フィードバック情報生成部77は、音声認識の認識結果として得られる入力情報、及び、入力情報の自然言語処理の結果を含むフィードバック情報を生成し、通信部61を介してクライアント11に送信する処理を開始する。
ステップS66において、ステップS54の処理と同様に、音声入力が停止したか否かが判定される。ステップS66の判定処理は、所定のタイミングで繰り返し実行され、音声入力が停止されたと判定された場合、処理はステップS67に進む。
ステップS67において、ステップS55の処理と同様に、入力レベルの入力の受付が指示される。
ステップS68において、ステップS56の処理と同様に、入力レベルの入力を受け付けてから規定時間が経過したか否かが判定される。まだ入力レベルの入力を受け付けてから規定時間が経過していないと判定された場合、処理はステップS69に進む。
ステップS69において、ステップS57の処理と同様に、音声が入力されたか否かが判定される。音声が入力されていないと判定された場合、処理はステップS68に戻る。
その後、ステップS68において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップS69において、音声が入力されたと判定されるまで、ステップS68及びステップS69の処理が繰り返し実行される。
一方、ステップS69において、音声が入力されたと判定された場合、処理はステップS70に進む。
ステップS70において、ステップS58の処理と同様に、音声データから特徴量が抽出される。
ステップS71において、ステップS59の処理と同様に、入力レベル設定用の音声であるか否かが判定される。入力レベル設定用の音声でないと判定された場合、処理はステップS68に戻る。
その後、ステップS68において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップS71において、入力レベル設定用の音声であると判定されるまで、ステップS68乃至ステップS71の処理が繰り返し実行される。
一方、ステップS71において、入力レベル設定用の音声であると判定された場合、処理はステップS72に進む。
ステップS72において、フィードバック情報生成部77は、入力レベルの設定及び送信を開始する。例えば、フィードバック情報生成部77は、ステップS63の処理と同様の方法により、入力レベルの設定を開始する。また、フィードバック情報生成部77は、音声認識の認識結果として得られた入力情報、入力情報の自然言語処理の結果、及び、設定した入力レベルを含むフィードバック情報を生成し、通信部61を介してクライアント11に送信する処理を開始する。なお、入力情報及び自然言語処理の結果をすでに送信済みの場合、このとき必ずしもそれらをフィードバック情報に含める必要はない。
この場合、サーバ12からクライアント11に入力レベルが逐次送信される。従って、例えば、図10を参照して上述したように、入力レベル設定用音声の継続時間により入力レベルが設定される場合、クライアント11に送信される入力レベルの値が、入力レベル設定用音声の継続時間により変化する。これにより、例えば、図11に示されるように、入力情報(音声認識結果)を入力レベルに合わせて徐々に加工し、提示することができる。
具体的には、入力情報が"What a cool game"である場合、入力レベル設定用音声が0.09秒入力された段階では、提示される加工情報は、"o"が1つだけ増えて、"What a coool game"となる。さらに、入力レベル設定用音声が0.6秒継続した場合、提示される加工情報は、"o"がさらに3つ増えて、"What a cooooool game"となる。
ステップS73において、ステップS56の処理と同様に、入力レベルの入力を受け付けてから規定時間が経過したか否かが判定される。まだ入力レベルの入力を受け付けてから規定時間が経過していないと判定された場合、処理はステップS74に進む。
ステップS74において、ステップS54の処理と同様に、音声入力が停止したか否かが判定される。音声入力が停止していないと判定された場合、処理はステップS73に戻る。
その後、ステップS73において、入力レベルの入力を受け付けてから規定時間が経過したと判定されるか、ステップS74において、音声入力が停止したと判定されるまで、ステップS73及びステップS74の処理が繰り返し実行される。
一方、ステップS73において、入力レベルの入力を受け付けてから規定時間が経過したと判定された場合、又は、ステップS74において、音声入力が停止したと判定された場合、処理はステップS76に進む。
また、ステップS68において、入力レベルの入力を受け付けてから規定時間が経過したと判定された場合、処理はステップS75に進む。これは、入力レベル設定用音声が入力されないまま規定時間が経過した場合である。
ステップS75において、フィードバック情報生成部77は、入力レベルを0に設定し、送信する。具体的には、フィードバック情報生成部77は、入力レベルを0に設定する。そして、ステップS72と同様の処理により、入力レベルを含むフィードバック情報が生成され、通信部61を介してクライアント11に送信される。
その後、処理はステップS76に進む。
ステップS76において、ステップS62の処理と同様に、入力レベルの入力の受付の終了が指示される。
ステップS77において、フィードバック情報生成部77は、フィードバック情報の生成及び送信を終了する。
その後、処理はステップS51に戻り、ステップS51以降の処理が実行される。
以上のようにして、例えば、SNS(Social Networking Service)、チャット、ゲーム等でよく使用される、辞書に載っていないような砕けた表現の文章を容易かつ適切に入力することができ、情報入力の利便性が向上する。
例えば、"What a coooooooooool game"の"coooooooooool"のように、通常より音が長く伸ばされた単語の先頭及び末尾の文字(例えば、c及びl)は、音声の特性上、音声認識処理により正確に認識することが困難であり、誤認識が発生する可能性が高い。
一方、情報処理システム10においては、まず標準的な文章である"What a cool game"を音声認識により取得した後、入力レベル設定用音声を入力することにより、文字や記号を繰り返すように加工するため、上記のような誤認識は発生しない。
また、ユーザは、"What a cool game"を加工するために手動の操作を行うことなく、入力レベル設定用音声を入力するだけで、簡単に入力した文章を加工することができる。
従って、例えば、ユーザは、"ちょーすげーーーーーーーー"、"ごるあぁぁぁぁ"、"coooooooooool"、"yeeeeeeeeeees"、"smaaaaashhhhhhhhhhhh"のように同じ文字を繰り返す文章や、"yes!!!!!!!!!!!!!!!!!!!!!!!!"のように同じ記号を繰り返す文章を容易かつ適切に入力することができる。
<1-4.その他の応用例>
以上の説明では、音声により入力した文章を加工する場合に本技術を適用する例を示したが、本技術は、他の用途にも適用することが可能である。
以上の説明では、音声により入力した文章を加工する場合に本技術を適用する例を示したが、本技術は、他の用途にも適用することが可能である。
例えば、本技術は、対話型のエージェントとの会話処理に適用することができる。
例えば、図12に示されるように、"What a cool game"という情報入力用音声のみがクライアント11(において実行されるエージェント)に入力された場合、サーバ12は、"What a cool game"という入力情報を認識する。また、サーバ12は、クライアント11において入力レベル設定用音声が入力されていないため、入力レベルを0に設定する。そして、サーバ12は、認識した"What a cool game"を示す入力情報、及び、0に設定した入力レベルを含むフィードバック情報をクライアント11に送信する。クライアント11は、入力情報に示される"What a cool game"という文章に対して、"I think so, too"という応答を音声により出力する。
一方、図13に示されるように、クライアント11に"What a cool game"という情報入力用音声が入力された後、"cooooooooool"という入力レベル設定用音声が入力された場合、サーバ12は、"What a cool game"という入力情報を認識するとともに、入力レベル設定用音声に基づいて、入力レベルを3に設定する。そして、サーバ12は、認識した"What a cool game"を示す入力情報、及び、3に設定した入力レベルを含むフィードバック情報をクライアント11に送信する。クライアント11は、入力情報に示される"What a cool game"という文章に対して、"Really! It's fun!"という、入力レベルが0の場合と比較して、より反応が大きい応答を音声により出力する。
例えば、ユーザが、"What a coooooooool game"という音声を入力した場合、エージェントは、上述した理由により音声認識に失敗し、適切な応答を返すことができないことが想定される。一方、本技術を用いることにより、ユーザは、感情のこもった発話を容易にエージェントに認識させることができ、エージェントと感情のこもった会話を容易かつ適切に行うことができる。
また、例えば、本技術は、音声コマンドにより各種の機器やAPPの制御を行う場合にも適用することができる。例えば、図14及び図15を参照して、クライアント11において、ビデオレコーダを実現するAPPを実行する場合を例に挙げて説明する。
例えば、図14に示されるように、クライアント11に"Playback"という音声コマンドのみが入力された場合、サーバ12は、"Playback"というコマンドを認識する。また、サーバ12は、クライアント11において入力レベル設定用音声が入力されていないため、入力レベルを0に設定する。そして、サーバ12は、認識したコマンド"Playback"を示す入力情報、及び、0に設定した入力レベルを含むフィードバック情報をクライアント11に送信する。クライアント11は、入力情報に示されるコマンド"Playback"に従って、ビデオレコーダの通常再生を行う。
一方、図15に示されるように、クライアント11に"Playback"という音声コマンドが入力された後、"Ohhhhhhhhhhhh"という入力レベル設定用音声が入力された場合、サーバ12は、"Playback"というコマンドを認識するともに、入力レベル設定用音声に基づいて、入力レベルを3に設定する。そして、サーバ12は、認識したコマンド"Playback"を示す入力情報、及び、3に設定した入力レベルを含むフィードバック情報をクライアント11に送信する。クライアント11は、入力情報に示されるコマンド"Playback"、及び、入力レベルの値3に基づいて、ビデオレコーダの倍速再生を行う。
このように、ユーザは、同じ音声コマンドに対して、入力レベル設定用音声により入力レベルを指定することにより、クライアント11(APP)に異なる動作をさせることができる。例えば、ユーザは、同じ音声コマンドを用いて、同様の処理を異なるレベル(例えば、異なる速度、異なる量等)で実行させることができる。
<<2.変形例>>
以下、上述した本技術の実施の形態の変形例について説明する。
以下、上述した本技術の実施の形態の変形例について説明する。
<2-1.入力レベルの設定方法に関する変形例>
例えば、”レベル1”、”レベル2”、”繰り返し記号”、”繰り返し母音”等の音声コマンドにより、入力レベルを設定するようにしてもよい。
例えば、”レベル1”、”レベル2”、”繰り返し記号”、”繰り返し母音”等の音声コマンドにより、入力レベルを設定するようにしてもよい。
また、例えば、音声と他のモーダルのインタフェースとを組み合わせて、入力レベル設定用音声を入力するようにしてもよい。例えば、情報入力用音声を入力する場合、他の操作を行わずに音声を入力するようにし、入力レベル設定用音声を入力する場合、他の操作を行いながら音声を入力するようにしてもよい。この場合、例えば、クライアント11は、他の操作を行わずに入力された音声を情報入力用音声であると認識し、他の操作を行いながら入力された音声を入力レベル設定用音声であると認識する。
例えば、入力レベル設定用音声入力用の操作として、操作部22に対する所定の操作を採用することができる。例えば、クライアント11は、ユーザが操作部22の所定のボタンを押下したり、タッチパッドをタッチしたりしながら入力した音声を入力レベル設定用音声と認識する。
また、例えば、入力レベル設定用音声入力用の操作として、ユーザのジェスチャを採用することができる。例えば、クライアント11は、ユーザが首を細かく振りながら入力したり、右から左に首を振りながら入力したりした音声を入力レベル設定用音声と認識する。
また、入力レベルを負の値に設定できるようにしてもよい。例えば、入力レベル設定用音声の音量が情報入力用音声より小さいとき、その音量差に応じた負の値に入力レベルを設定するようにしてもよい。そして、クライアント11は、例えば、入力レベルが負の値の場合、表現力や情報量を下げるように入力情報を加工するようにしてもよい。例えば、クライアント11は、入力情報が”まじかっ”の場合、末尾の”っ”を削除して、”まじか”に加工する。
また、例えば、音声認識により入力される情報を利用するサービス等の環境に応じて、入力レベルを設定するようにしてもよい。例えば、ユーザが利用するSNSのチャットやコミュニティ等のサービスにおいて盛り上がりが検出された場合、その盛り上がりの程度に応じて入力レベルを設定するようにしてもよい。これにより、例えば、ユーザは、通常の文章を音声により入力するだけで、サービスの盛り上がりに応じた表現に自動的に加工された文章をサービスに投稿することができる。
さらに、入力レベル設定用音声の入力条件の1つである入力するタイミングを変更することも可能である。例えば、上述した例では、情報入力用音声の入力後、所定の時間内に入力レベル設定用音声を入力する条件を例に挙げたが、例えば、情報入力用音声の音声認識の結果を取得した後、所定の時間内に入力レベル設定用音声を入力するようにしてもよい。
<2-2.入力情報の加工に関する変形例>
以上の説明では、文字列を付加することにより入力情報を加工する例を示したが、他の方法により入力情報を加工するようにしてもよい。
以上の説明では、文字列を付加することにより入力情報を加工する例を示したが、他の方法により入力情報を加工するようにしてもよい。
例えば、入力情報が英語の文章の場合、砕けた表現となるように、例えば、"easy"から"ez"のように、入力情報内の単語を略語に変換するようにしてもよい。
また、例えば、入力情報が日本語の文章の場合、入力情報内の漢字の一部又は全部をひらがな又はカタカナに変換するようにしてもよい。
さらに、入力情報の視覚的な特徴を変更するようにしてもよい。例えば、入力情報を表示する際のフォント、文字サイズ、色等を変更するようにしてもよい。
また、例えば、ユーザが加工情報を手動で修正できるようにし、クライアント11が、入力情報及び入力レベルと、最終的な加工情報との組み合わせのログを記録する。そして、クライアント11は、そのログに基づいて、同じ入力情報及び入力レベルの組み合わせに対して、同じ加工情報を生成するようにしてもよい。或いは、クライアント11は、ログに基づいて、複数の加工情報の候補を提示するようにしてもよい。
さらに、例えば、加工情報がユーザの期待するものと異なる場合等に、簡単に元の入力情報に戻せるようにしてもよい。例えば、ユーザが、操作部22に対して所定の操作を行ったり、「戻れ」等の音声コマンドを入力したりすることにより、加工情報を元の入力情報に戻せるようにしてもよい。また、例えば、ユーザが、加工情報を提示したときに、「変な風になっちゃった」、「期待した結果と違う」等の音声を発した場合、その音声の意味を解析した結果に基づいて、加工情報を元の入力情報に戻すようにしてもよい。
<2-3.システムの構成に関する変形例>
図1の情報処理システム10の構成例は、その一例であり、必要に応じて変更することが可能である。
図1の情報処理システム10の構成例は、その一例であり、必要に応じて変更することが可能である。
例えば、クライアント11の機能の一部をサーバ12に設けたり、サーバ12の機能の一部をクライアント11に設けたりすることが可能である。
例えば、サーバ12が、入力レベル設定用音声に基づいて入力情報を加工し、その結果得られた加工情報を含むフィードバック情報をクライアント11に送信するようにしてもよい。
また、例えば、クライアント11が、情報入力用音声の音声認識を行うことにより入力情報を取得し、サーバ12は、入力レベルの設定のみを行い、入力レベルを含み、入力情報を含まないフィードバック情報をクライアント11に送信するようにしてもよい。
さらに、例えば、サーバ12は、クライアント11とは異なる装置にフィードバック情報を送信するようにしてもよい。例えば、サーバ12が、音声認識により得られたコマンド及び入力レベルを含むフィードバック情報を、そのコマンドにより操作する装置(例えば、ビデオレコーダ)に送信するようにしてもよい。なお、クライアント11とは異なる装置にフィードバック情報を送信する場合、音声認識により得られた入力情報ではなく、音声認識前の音声データをフィードバック情報に含めることも可能である。
また、例えば、サーバ12が、入力情報及び入力レベルに基づいて処理を行うようにしてもよい。
さらに、例えば、クライアント11とサーバ12を一体化し、1台の装置で上記の処理を行うことも可能である。
また、音声以外の方法により入力情報を与える場合にも、本技術を適用することができる。例えば、テキスト情報により与えられた入力情報を加工する場合にも、本技術を適用することができる。
<<3.応用例>>
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図16は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
バス304には、さらに、入出力インタフェース305が接続されている。入出力インタフェース305には、入力部306、出力部307、記憶部308、通信部309、及びドライブ310が接続されている。
入力部306は、キーボード、マウス、マイクロフォンなどよりなる。出力部307は、ディスプレイ、スピーカなどよりなる。記憶部308は、ハードディスクや不揮発性のメモリなどよりなる。通信部309は、ネットワークインタフェースなどよりなる。ドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア311を駆動する。
以上のように構成されるコンピュータでは、CPU301が、例えば、記憶部308に記憶されているプログラムを、入出力インタフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU301)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア311に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インタフェース305を介して、記憶部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記憶部308にインストールすることができる。その他、プログラムは、ROM302や記憶部308に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、複数のコンピュータが連携して上述した処理を行うようにしてもよい。そして、上述した処理を行う単数又は複数のコンピュータにより、コンピュータシステムが構成される。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
さらに、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
また、例えば、本技術は以下のような構成も取ることができる。
(1)
所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第1の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成部を
備える情報処理装置。
(2)
第2の音声を文字列に変換することにより前記入力情報を取得する音声認識部を
さらに備える前記(1)に記載の情報処理装置。
(3)
前記入力条件は、前記第2の音声の入力後に前記第1の音声が所定のタイミングで入力されることを含む
前記(2)に記載の情報処理装置。
(4)
前記入力条件は、前記第1の音声と前記第2の音声の音量差が所定の条件を満たすことを含む
前記(2)又は(3)に記載の情報処理装置。
(5)
前記入力条件は、前記第1の音声の特徴量が所定の条件を満たすことを含む
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記入力条件は、前記第1の音声において所定の音素が所定の長さ以上連続することを含む
前記(5)に記載の情報処理装置。
(7)
前記フィードバック情報生成部は、前記第1の音声の特徴量に基づいて、前記入力レベルを設定する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記フィードバック情報生成部は、前記第1の音声の継続時間に基づいて、前記入力レベルを設定する
前記(7)に記載の情報処理装置。
(9)
前記フィードバック情報生成部は、前記第1の音声の音量に基づいて、前記入力レベルを設定する
前記(7)又は(8)に記載の情報処理装置。
(10)
前記フィードバック情報生成部は、前記入力情報に文字列を付加することにより前記加工情報を生成する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記フィードバック情報生成部は、前記入力情報の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
前記(10)に記載の情報処理装置。
(12)
前記フィードバック情報生成部は、前記入力情報の所定の品詞の単語の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
前記(11)に記載の情報処理装置。
(13)
前記フィードバック情報生成部は、前記第1の音声の特徴量に基づいて、前記入力情報に付加する文字列の量を調整する
前記(10)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記フィードバック情報は、前記入力情報及び前記入力レベルを含む
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成ステップを
含む情報処理方法。
(16)
所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行部を
備える情報処理装置。
(17)
前記実行部は、前記入力レベルに応じたレベルで前記入力情報の加工を行う
前記(16)に記載の情報処理装置。
(18)
前記入力情報は、第2の音声により入力されるコマンドであり、
前記実行部は、前記コマンドに対応する処理を前記入力レベルに応じたレベルで実行する
前記(16)に記載の情報処理装置。
(19)
前記実行部は、前記入力情報に対して、前記入力レベルに応じたレベルで反応する
前記(16)に記載の情報処理装置。
(20)
所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行ステップを
含む情報処理方法。
所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第1の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成部を
備える情報処理装置。
(2)
第2の音声を文字列に変換することにより前記入力情報を取得する音声認識部を
さらに備える前記(1)に記載の情報処理装置。
(3)
前記入力条件は、前記第2の音声の入力後に前記第1の音声が所定のタイミングで入力されることを含む
前記(2)に記載の情報処理装置。
(4)
前記入力条件は、前記第1の音声と前記第2の音声の音量差が所定の条件を満たすことを含む
前記(2)又は(3)に記載の情報処理装置。
(5)
前記入力条件は、前記第1の音声の特徴量が所定の条件を満たすことを含む
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記入力条件は、前記第1の音声において所定の音素が所定の長さ以上連続することを含む
前記(5)に記載の情報処理装置。
(7)
前記フィードバック情報生成部は、前記第1の音声の特徴量に基づいて、前記入力レベルを設定する
前記(1)乃至(6)のいずれかに記載の情報処理装置。
(8)
前記フィードバック情報生成部は、前記第1の音声の継続時間に基づいて、前記入力レベルを設定する
前記(7)に記載の情報処理装置。
(9)
前記フィードバック情報生成部は、前記第1の音声の音量に基づいて、前記入力レベルを設定する
前記(7)又は(8)に記載の情報処理装置。
(10)
前記フィードバック情報生成部は、前記入力情報に文字列を付加することにより前記加工情報を生成する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
前記フィードバック情報生成部は、前記入力情報の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
前記(10)に記載の情報処理装置。
(12)
前記フィードバック情報生成部は、前記入力情報の所定の品詞の単語の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
前記(11)に記載の情報処理装置。
(13)
前記フィードバック情報生成部は、前記第1の音声の特徴量に基づいて、前記入力情報に付加する文字列の量を調整する
前記(10)乃至(12)のいずれかに記載の情報処理装置。
(14)
前記フィードバック情報は、前記入力情報及び前記入力レベルを含む
前記(1)乃至(13)のいずれかに記載の情報処理装置。
(15)
所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成ステップを
含む情報処理方法。
(16)
所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行部を
備える情報処理装置。
(17)
前記実行部は、前記入力レベルに応じたレベルで前記入力情報の加工を行う
前記(16)に記載の情報処理装置。
(18)
前記入力情報は、第2の音声により入力されるコマンドであり、
前記実行部は、前記コマンドに対応する処理を前記入力レベルに応じたレベルで実行する
前記(16)に記載の情報処理装置。
(19)
前記実行部は、前記入力情報に対して、前記入力レベルに応じたレベルで反応する
前記(16)に記載の情報処理装置。
(20)
所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行ステップを
含む情報処理方法。
10 情報処理システム, 11 クライアント, 12 サーバ, 21 音声入力部, 22 操作部, 23 表示部, 25 センサ部, 27 制御部, 41 入出力制御部, 42 提示制御部, 43 実行部, 62 制御部, 71 音処理部, 72 画像処理部, 73 自然言語処理部, 74 音声認識部, 75 ジェスチャ認識部, 76 操作認識部, 77 フィードバック情報生成部
Claims (20)
- 所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記第1の音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成部を
備える情報処理装置。 - 第2の音声を文字列に変換することにより前記入力情報を取得する音声認識部を
さらに備える請求項1に記載の情報処理装置。 - 前記入力条件は、前記第2の音声の入力後に前記第1の音声が所定のタイミングで入力されることを含む
請求項2に記載の情報処理装置。 - 前記入力条件は、前記第1の音声と前記第2の音声の音量差が所定の条件を満たすことを含む
請求項2に記載の情報処理装置。 - 前記入力条件は、前記第1の音声の特徴量が所定の条件を満たすことを含む
請求項1に記載の情報処理装置。 - 前記入力条件は、前記第1の音声において所定の音素が所定の長さ以上連続することを含む
請求項5に記載の情報処理装置。 - 前記フィードバック情報生成部は、前記第1の音声の特徴量に基づいて、前記入力レベルを設定する
請求項1に記載の情報処理装置。 - 前記フィードバック情報生成部は、前記第1の音声の継続時間に基づいて、前記入力レベルを設定する
請求項7に記載の情報処理装置。 - 前記フィードバック情報生成部は、前記第1の音声の音量に基づいて、前記入力レベルを設定する
請求項7に記載の情報処理装置。 - 前記フィードバック情報生成部は、前記入力情報に文字列を付加することにより前記加工情報を生成する
請求項1に記載の情報処理装置。 - 前記フィードバック情報生成部は、前記入力情報の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
請求項10に記載の情報処理装置。 - 前記フィードバック情報生成部は、前記入力情報の所定の品詞の単語の所定の文字又は記号を繰り返すことにより前記加工情報を生成する
請求項11に記載の情報処理装置。 - 前記フィードバック情報生成部は、前記第1の音声の特徴量に基づいて、前記入力情報に付加する文字列の量を調整する
請求項10に記載の情報処理装置。 - 前記フィードバック情報は、前記入力情報及び前記入力レベルを含む
請求項1に記載の情報処理装置。 - 所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベル、及び、前記音声に基づいて前記入力情報を加工した加工情報のうち少なくとも1つを含むフィードバック情報を生成するフィードバック情報生成ステップを
含む情報処理方法。 - 所定の入力条件を満たす第1の音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行部を
備える情報処理装置。 - 前記実行部は、前記入力レベルに応じたレベルで前記入力情報の加工を行う
請求項16に記載の情報処理装置。 - 前記入力情報は、第2の音声により入力されるコマンドであり、
前記実行部は、前記コマンドに対応する処理を前記入力レベルに応じたレベルで実行する
請求項16に記載の情報処理装置。 - 前記実行部は、前記入力情報に対して、前記入力レベルに応じたレベルで反応する
請求項16に記載の情報処理装置。 - 所定の入力条件を満たす音声に基づいて設定され、入力情報のレベルを示す入力レベルに基づいて、前記入力情報に対応する処理を実行する実行ステップを
含む情報処理方法。
Priority Applications (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| EP17863826.8A EP3534363A4 (en) | 2016-10-27 | 2017-10-13 | INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD |
| JP2018547553A JPWO2018079294A1 (ja) | 2016-10-27 | 2017-10-13 | 情報処理装置及び情報処理方法 |
| US16/329,324 US20190267028A1 (en) | 2016-10-27 | 2017-10-13 | Information processing apparatus and information processing method |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2016-210283 | 2016-10-27 | ||
| JP2016210283 | 2016-10-27 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2018079294A1 true WO2018079294A1 (ja) | 2018-05-03 |
Family
ID=62024866
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2017/037117 Ceased WO2018079294A1 (ja) | 2016-10-27 | 2017-10-13 | 情報処理装置及び情報処理方法 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US20190267028A1 (ja) |
| EP (1) | EP3534363A4 (ja) |
| JP (1) | JPWO2018079294A1 (ja) |
| WO (1) | WO2018079294A1 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109036405A (zh) * | 2018-07-27 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备及存储介质 |
| JP2023510444A (ja) * | 2020-03-13 | 2023-03-14 | グーグル エルエルシー | ビデオゲーム対話のための自然言語ダイアログシステム |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI672690B (zh) * | 2018-03-21 | 2019-09-21 | 塞席爾商元鼎音訊股份有限公司 | 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置 |
| CN113223533B (zh) * | 2021-05-31 | 2023-06-06 | 平安科技(深圳)有限公司 | 语音通话方法、装置、计算机设备及存储介质 |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004349851A (ja) * | 2003-05-20 | 2004-12-09 | Ntt Docomo Inc | 携帯端末、画像通信プログラム、及び画像通信方法 |
| JP2012053634A (ja) | 2010-08-31 | 2012-03-15 | Fujifilm Corp | 文書作成支援装置、文書作成支援方法、並びに文書作成支援プログラム |
| JP2015099253A (ja) * | 2013-11-19 | 2015-05-28 | 東芝テック株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
| JP2016062069A (ja) * | 2014-09-22 | 2016-04-25 | 株式会社日立製作所 | 音声認識方法、及び音声認識装置 |
| JP2016138993A (ja) * | 2015-01-27 | 2016-08-04 | パナソニックIpマネジメント株式会社 | 音声認識装置及び音声認識方法 |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| TWI484475B (zh) * | 2012-06-05 | 2015-05-11 | Quanta Comp Inc | 文字顯示方法與語音轉文字裝置以及電腦程式產品 |
| US9569424B2 (en) * | 2013-02-21 | 2017-02-14 | Nuance Communications, Inc. | Emotion detection in voicemail |
-
2017
- 2017-10-13 JP JP2018547553A patent/JPWO2018079294A1/ja active Pending
- 2017-10-13 WO PCT/JP2017/037117 patent/WO2018079294A1/ja not_active Ceased
- 2017-10-13 US US16/329,324 patent/US20190267028A1/en not_active Abandoned
- 2017-10-13 EP EP17863826.8A patent/EP3534363A4/en not_active Withdrawn
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2004349851A (ja) * | 2003-05-20 | 2004-12-09 | Ntt Docomo Inc | 携帯端末、画像通信プログラム、及び画像通信方法 |
| JP2012053634A (ja) | 2010-08-31 | 2012-03-15 | Fujifilm Corp | 文書作成支援装置、文書作成支援方法、並びに文書作成支援プログラム |
| JP2015099253A (ja) * | 2013-11-19 | 2015-05-28 | 東芝テック株式会社 | 音声認識装置、音声認識方法、音声認識プログラム |
| JP2016062069A (ja) * | 2014-09-22 | 2016-04-25 | 株式会社日立製作所 | 音声認識方法、及び音声認識装置 |
| JP2016138993A (ja) * | 2015-01-27 | 2016-08-04 | パナソニックIpマネジメント株式会社 | 音声認識装置及び音声認識方法 |
Non-Patent Citations (1)
| Title |
|---|
| See also references of EP3534363A4 |
Cited By (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109036405A (zh) * | 2018-07-27 | 2018-12-18 | 百度在线网络技术(北京)有限公司 | 语音交互方法、装置、设备及存储介质 |
| JP2023510444A (ja) * | 2020-03-13 | 2023-03-14 | グーグル エルエルシー | ビデオゲーム対話のための自然言語ダイアログシステム |
| JP7529773B2 (ja) | 2020-03-13 | 2024-08-06 | グーグル エルエルシー | ビデオゲーム対話のための自然言語ダイアログシステム |
Also Published As
| Publication number | Publication date |
|---|---|
| US20190267028A1 (en) | 2019-08-29 |
| JPWO2018079294A1 (ja) | 2019-09-12 |
| EP3534363A1 (en) | 2019-09-04 |
| EP3534363A4 (en) | 2019-11-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11727914B2 (en) | Intent recognition and emotional text-to-speech learning | |
| US11514886B2 (en) | Emotion classification information-based text-to-speech (TTS) method and apparatus | |
| CN112673421B (zh) | 训练和/或使用语言选择模型以自动确定用于口头话语的话音辨识的语言 | |
| CN109447234B (zh) | 一种模型训练方法、合成说话表情的方法和相关装置 | |
| US10777201B2 (en) | Voice enabled bot platform | |
| US20200279553A1 (en) | Linguistic style matching agent | |
| WO2022052481A1 (zh) | 基于人工智能的vr互动方法、装置、计算机设备及介质 | |
| US12198678B2 (en) | Electronic device and control method thereof | |
| KR20200056261A (ko) | 전자 장치 및 이의 제어 방법 | |
| US20210065582A1 (en) | Method and System of Providing Speech Rehearsal Assistance | |
| US12387711B2 (en) | Speech synthesis device and speech synthesis method | |
| CN109817244B (zh) | 口语评测方法、装置、设备和存储介质 | |
| JP7036015B2 (ja) | 対話制御装置および方法 | |
| JP2024508033A (ja) | 対話中のテキスト-音声の瞬時学習 | |
| WO2018079332A1 (ja) | 情報処理装置及び情報処理方法 | |
| US10950240B2 (en) | Information processing device and information processing method | |
| WO2018079294A1 (ja) | 情報処理装置及び情報処理方法 | |
| CN112785667A (zh) | 视频生成方法、装置、介质及电子设备 | |
| JPWO2018043138A1 (ja) | 情報処理装置および情報処理方法、並びにプログラム | |
| CN112151072B (zh) | 语音处理方法、装置和介质 | |
| US20240119930A1 (en) | Artificial intelligence device and operating method thereof | |
| CN112672207A (zh) | 音频数据处理方法、装置、计算机设备及存储介质 | |
| CN114267322B (zh) | 语音处理方法、装置、计算机可读存储介质及计算机设备 | |
| CN111445925A (zh) | 用于生成差异信息的方法和装置 | |
| US20250006177A1 (en) | Method for providing voice synthesis service and system therefor |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17863826 Country of ref document: EP Kind code of ref document: A1 |
|
| ENP | Entry into the national phase |
Ref document number: 2018547553 Country of ref document: JP Kind code of ref document: A |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| ENP | Entry into the national phase |
Ref document number: 2017863826 Country of ref document: EP Effective date: 20190527 |