WO2020003820A1 - 複数の処理を並列実行する情報処理装置 - Google Patents

複数の処理を並列実行する情報処理装置 Download PDF

Info

Publication number
WO2020003820A1
WO2020003820A1 PCT/JP2019/020276 JP2019020276W WO2020003820A1 WO 2020003820 A1 WO2020003820 A1 WO 2020003820A1 JP 2019020276 W JP2019020276 W JP 2019020276W WO 2020003820 A1 WO2020003820 A1 WO 2020003820A1
Authority
WO
WIPO (PCT)
Prior art keywords
user
instruction
information
information processing
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2019/020276
Other languages
English (en)
French (fr)
Inventor
鶴田 泰士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to US17/254,202 priority Critical patent/US20210271358A1/en
Priority to EP19827076.1A priority patent/EP3816774A4/en
Publication of WO2020003820A1 publication Critical patent/WO2020003820A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04803Split screen, i.e. subdividing the display area or the window area into separate subareas
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality

Definitions

  • the present disclosure relates to an information processing device, an information processing system, an information processing method, and a program. More specifically, the present invention relates to an information processing apparatus, an information processing system, an information processing method, and a program that perform processing and response based on a speech recognition result of a user utterance.
  • Devices that perform such voice recognition include mobile devices such as smartphones, smart speakers, agent devices, signage devices, and the like. In a configuration using smart speakers, agent devices, signage devices, and the like, there are many cases where many people are around these devices.
  • the voice recognition device needs to specify a speaker (speaking user) for the device and provide a service required by the speaker, specifically, for example, a process of displaying display information required by the speaker is required.
  • the agent device simultaneously processes the plurality of different instructions. Cannot be performed.
  • the agent device has no choice but to perform a process corresponding to one of the instructions.
  • two users give different instructions, it is necessary to wait until the processing for the instruction of one user ends, and then start the processing according to the instruction of another user.
  • the agent device cannot execute these two instructions simultaneously.
  • the device has to perform processing in accordance with only the instruction information of the utterance recognized first by the device, and after the processing of the instruction is completed, perform processing in accordance with the instruction of the next user. In this case, user convenience is impaired.
  • the present disclosure has been made, for example, in view of the above-described problems, and has been made capable of executing processing for different instructions of a plurality of users without delay, an information processing system, an information processing method, and The purpose is to provide the program.
  • a first aspect of the present disclosure is: For each of the instructions from a plurality of users to the information processing device, a user corresponding instruction analysis unit that generates user corresponding instruction information associated with the user who issued each instruction, An information processing apparatus includes a processing execution unit that executes a plurality of processes corresponding to each user instruction in parallel based on the user correspondence instruction information.
  • a second aspect of the present disclosure includes: An information processing system having an information processing terminal and a server, The information processing terminal, An audio input unit, an image input unit, An audio output unit, an image output unit, A voice acquired through the voice input unit, and a communication unit that transmits a captured image acquired through the image input unit to the server,
  • the server comprises: Based on the data received from the information processing terminal, A plurality of processes corresponding to respective instructions from a plurality of users for the information processing terminal are executed in parallel, and a processing result is transmitted to the information processing terminal, The information processing terminal, An information processing system outputs a processing result received from the server to at least one of the audio output unit and the image output unit.
  • a third aspect of the present disclosure includes: An information processing method executed in the information processing apparatus, A user-corresponding-instruction analyzing unit, for each instruction from a plurality of users to the information processing apparatus, generating a user-corresponding instruction information associated with the user who issued each instruction; An information processing method is provided in which the process execution unit executes a process execution step of executing a plurality of processes corresponding to each user instruction in parallel based on the user-associated instruction information.
  • a fourth aspect of the present disclosure includes: An information processing method executed in an information processing system having an information processing terminal and a server, The information processing terminal, The voice acquired via the voice input unit and the captured image acquired via the imaging unit are transmitted to the server,
  • the server comprises: Based on the data received from the information processing terminal, A plurality of processes corresponding to respective instructions from a plurality of users for the information processing terminal are executed in parallel, and a processing result is transmitted to the information processing terminal, The information processing terminal, An information processing method for outputting a processing result received from the server to at least one of an audio output unit and an image output unit.
  • a fifth aspect of the present disclosure includes: A program for executing information processing in the information processing apparatus, A user-corresponding instruction analysis step of causing the user-corresponding instruction analyzing unit to generate user-corresponding instruction information associated with the user who issued each instruction for each instruction from the plurality of users to the information processing apparatus; A process execution step of causing a process execution unit to execute a plurality of processes corresponding to each user instruction in parallel based on the user-associated instruction information, In the program to be executed.
  • the program of the present disclosure is, for example, a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • a program that can be provided by a storage medium or a communication medium provided in a computer-readable format to an information processing device or a computer system that can execute various program codes.
  • processing according to the program is realized on an information processing device or a computer system.
  • system refers to a logical set of a plurality of devices, and is not limited to a device having each component in the same housing.
  • an apparatus and a method that execute processes corresponding to respective instructions from a plurality of users to an information processing apparatus in parallel without delay are realized.
  • the processing execution unit executes a process of dividing the pointers and moving the plurality of pointers in directions indicated by each user.
  • FIG. 11 is a diagram illustrating a specific processing example of an information processing device that responds to a user utterance.
  • FIG. 2 is a diagram illustrating a configuration example and a usage example of an information processing device.
  • FIG. 1 is a diagram illustrating a configuration example of an information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present
  • FIG. 11 is a flowchart illustrating a sequence of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a diagram illustrating an example of a process performed by the information
  • FIG. 11 is a diagram illustrating an example of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a flowchart illustrating a sequence of a process performed by the information processing device according to the present disclosure.
  • FIG. 11 is a flowchart illustrating a sequence of a process performed by the information processing device according to the present disclosure.
  • FIG. 2 is a diagram illustrating a configuration example of an information processing system.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration of an information processing device.
  • FIG. 1 is a diagram illustrating a processing example of an information processing apparatus 10 that recognizes a user utterance uttered by a speaker 1 and responds.
  • the voice recognition processing of this user utterance is executed.
  • the information processing device 10 executes a process based on the speech recognition result of the user utterance.
  • the information processing apparatus 10 performs image display indicating weather information and performs the following system response.
  • System response "Tomorrow's weather in Osaka is fine in the afternoon, but there may be showers in the evening.”
  • the information processing device 10 executes a speech synthesis process (TTS: Text To Speech) to generate and output the above system response.
  • TTS Text To Speech
  • the information processing apparatus 10 generates and outputs a response using knowledge data acquired from a storage unit in the apparatus or knowledge data acquired via a network.
  • the information processing apparatus 10 illustrated in FIG. 1 includes an imaging unit 11, a microphone 12, a display unit 13, and a speaker 14, and has a configuration capable of performing audio input / output and image input / output.
  • the imaging unit 11 is, for example, an omnidirectional camera capable of capturing an image around 360 °.
  • the microphone 12 is configured as a microphone array including a plurality of microphones capable of specifying a sound source direction.
  • the display unit 13 uses a projector type display unit in the example shown in the figure. However, the display unit 13 may be a display-type display unit, or may be configured to output display information to a display unit such as a TV or a PC connected to the information processing apparatus 10.
  • the information processing apparatus 10 shown in FIG. 1 is called, for example, a smart speaker or an agent device.
  • the information processing apparatus 10 of the present disclosure is not limited to the agent device 10a, but may be various device forms such as a smartphone 10b, a PC 10c, or a signage device installed in a public place. It is possible.
  • the information processing apparatus 10 recognizes the utterance of the speaker 1 and performs a response based on the user's utterance.
  • the information processing apparatus 10 also controls an external device 30 such as a television and an air conditioner illustrated in FIG. 2 according to the user's utterance.
  • an external device 30 such as a television and an air conditioner illustrated in FIG. 2 according to the user's utterance.
  • the information processing apparatus 10 performs, based on the voice recognition result of the user utterance, A control signal (Wi-Fi, infrared light, etc.) is output to the external device 30 to execute control according to the user's utterance.
  • the information processing apparatus 10 is connected to the server 20 via a network, and can acquire, from the server 20, information necessary for generating a response to the user's utterance. Further, a configuration may be adopted in which the server performs voice recognition processing and semantic analysis processing.
  • FIG. 3 is a diagram illustrating a configuration example of the information processing apparatus 10 that recognizes a user utterance and performs a process and a response corresponding to the user utterance.
  • the information processing device 10 includes an input unit 110, an output unit 120, and a data processing unit 150.
  • the data processing unit 150 can be configured in the information processing device 10, but may not be configured in the information processing device 10 and may use a data processing unit of an external server.
  • the information processing apparatus 10 transmits input data input from the input unit 110 to the server via a network, receives a processing result of the data processing unit 150 of the server, and Output via.
  • the input unit 110 has a voice input unit (microphone) 111 and an image input unit (camera) 112.
  • the output unit 120 includes an audio output unit (speaker) 121 and an image output unit (display unit) 122.
  • the information processing device 10 has at least these components.
  • the voice input unit (microphone) 111 corresponds to the microphone 12 of the information processing device 10 shown in FIG.
  • the voice input unit (microphone) 111 is configured as a microphone array including a plurality of microphones capable of specifying a sound source direction.
  • the imaging unit 112 corresponds to the imaging unit 11 of the information processing device 10 illustrated in FIG. For example, it is an omnidirectional camera capable of capturing an image of approximately 360 ° around.
  • the audio output unit (speaker) 121 corresponds to the speaker 14 of the information processing device 10 illustrated in FIG.
  • the image output unit (display unit) 122 corresponds to the display unit 13 of the information processing device 10 illustrated in FIG. Note that the image output unit (display unit) 122 can be configured by, for example, a display such as a projector or a liquid crystal display unit, or can be configured to use a display unit of a television of an external device. is there.
  • the data processing unit 150 is configured as either the information processing device 10 or a server that can communicate with the information processing device 10 as described above.
  • the data processing unit 150 includes an input data analysis unit 160, a processing control unit 170, an output control unit 180, and a storage unit 190.
  • the input data analysis unit 160 has a voice analysis unit 161 and an image analysis unit 162.
  • the processing control section 170 includes a user identification section 171, a user information DB (database) 172, a user correspondence instruction analysis section 173, a processing execution section 174, and an application group 175.
  • the output control unit 180 has an output audio control unit 181 and a display information control unit 182.
  • the uttered voice of the user is input to a voice input unit 111 such as a microphone.
  • the voice input unit (microphone) 111 inputs the input user utterance voice to the voice analysis unit 161.
  • the voice analysis unit 161 has, for example, an ASR (Automatic Speech Recognition) function, and converts voice data into text data composed of a plurality of words. Further, utterance meaning analysis processing is performed on the text data.
  • the speech analysis unit 161 has a natural language understanding function such as NLU (Natural Language Understanding), for example, and based on text data, a user utterance intention (Intent) and a meaningful element (significant element) included in the utterance. ) Is estimated (entity: Entity).
  • NLU Natural Language Understanding
  • the information processing apparatus 10 can perform an accurate process on the user utterance.
  • the voice analysis unit 161 further performs a sound source direction estimation process.
  • the voice input unit (microphone) 111 is configured as a microphone array including a plurality of microphones capable of specifying a sound source direction.
  • the acquired sound of the microphone array is the acquired sound of a plurality of microphones arranged at a plurality of different positions.
  • the voice analysis unit 161 estimates the direction of the sound source based on the sounds acquired by the plurality of microphones.
  • Each microphone constituting the microphone array acquires a sound signal having a phase difference according to the sound source direction. This phase difference differs depending on the sound source direction.
  • the sound analysis unit 161 obtains the sound source direction by analyzing the phase difference between the sound signals acquired by each microphone.
  • the sound source direction information of the user utterance which is the analysis information of the voice analysis unit 161 is input to the user identification unit 171 of the processing control unit 170. Also, the analysis result of the speech meaning including the user's utterance intention (intent: Intent) and the entity information (entity: Entity), which are the analysis information of the voice analysis unit 161, are sent to the user-corresponding instruction analysis unit 173 of the processing control unit 170. Is entered.
  • the image input unit 112 captures images of the speaking user and the surrounding images, and inputs the images to the image analyzing unit 162.
  • the image analysis unit 162 analyzes the facial expression of the utterance user, the position information of the user, the behavior, the line of sight information, the surrounding information of the utterance user, and the like, and outputs the analysis result to the user identification unit 171 in the processing control unit 170. It outputs to the user correspondence instruction analysis unit 172.
  • the user identification unit 171 of the processing control unit 170 receives the analysis information from the voice analysis unit 161 and the image analysis unit 162 of the input data analysis unit 160, An identification process of a user in front of the device 10 is performed.
  • the user information DB 172 stores user information of users registered in advance. Specifically, a face image, face feature information, voice information, and other dependent information such as age and gender are recorded in association with a user identifier (user ID).
  • the user identification unit 171 compares and compares information input from the input data analysis unit 160 with information registered in the user information DB 172 to determine whether the user who has requested an instruction to the information processing apparatus 10 Of the user who is in the server.
  • the user-corresponding instruction analysis unit 173 is for the information processing apparatus 10 obtained based on the user identification information identified by the user identification unit 171, the voice analysis unit 161 of the input data analysis unit 160, and the analysis information from the image analysis unit 162.
  • the instruction information is linked, and the instruction information corresponding to each user is analyzed. For example, (1) User a's instruction a, (2) User B's instruction b, In this way, a process of determining which user has given each instruction is performed. Specifically, data in which a user ID and instruction information are associated with each other, that is, user-associated instruction information is generated and input to the processing execution unit 174.
  • the user-corresponding instruction analysis unit 173 includes, in addition to the user's utterance intention obtained by voice analysis of the user's utterance, the user's face direction, line of sight, An action (action) of the user such as pointing is analyzed to generate user corresponding instruction information.
  • the user correspondence instruction information generated by the user correspondence instruction analysis unit 173 is input to the processing execution unit 174.
  • the process execution unit 174 executes a process according to the user correspondence instruction information. Specifically, for example, an application that executes a process according to a user instruction is selected from the application group 175 and executed. Note that these applications are not limited to the applications stored in the storage unit in the information processing apparatus 10, but may be applications provided by an external server.
  • the processing result executed by the processing execution unit 174 is output via the output control unit 180.
  • the output control unit 180 has an output audio control unit 181 and a display information control unit 182.
  • the output voice control unit 181 generates a system utterance for the user based on the execution result of the application in the processing execution unit 174.
  • the response voice information generated by the output voice control unit 181 is output via a voice output unit 121 such as a speaker.
  • the display information control unit 182 performs processing such as generation and update of display information of the image output unit (display unit) 122 based on the execution result of the application in the processing execution unit 174. For example, when the user speaks to show the world map, the world map is displayed.
  • FIG. 4 illustrates an example of a display image 200 of the image output unit (display unit) 122 of the information processing device 10.
  • the information processing device 10 displays map data as the display image 200.
  • the display information 200 is display data generated by the map display application executed by the processing execution unit 174.
  • the information processing apparatus 10 outputs, for example, the following system utterance via the audio output unit (speaker) 121 in accordance with the map display application executed in the processing execution unit 174.
  • System utterance "Please specify destination"
  • the application of the processing execution unit 174 displays a pointer on the display unit via the display information control unit 182.
  • pointers $ t1, 201 shown in FIG. 4 are displayed on the map.
  • ⁇ t1 means display data at time t1.
  • the display image 200 shown in FIG. 4 is a display image at the time t1.
  • FIG. 5 shows an example of the display image 200 after the time t1 (t1 to t2).
  • user A makes the following user utterance.
  • User utterance of user A “Migi, Migi...”
  • the information processing device 10 recognizes that the user A has issued an instruction to move the pointer to the right based on the voice recognition result for the user utterance, and the processing execution unit 174 moves the pointer to the right of the display image 200. Perform the process of moving. As shown in FIG. 5, the pointer # t1, 201 at the time t1 is moved rightward to the position of the pointer @ t2, 202 at the time t2 and displayed. It is assumed that the user A's pointer movement request position is the “user A's pointer movement request position 211” shown in the right area of the display image 200 in FIG.
  • FIG. 6 shows an example of the display image 200 at the next time t2.
  • user B makes the following user utterance.
  • User utterance of user B “Ue, Ue...”
  • the user A also continuously performs the following user utterances.
  • User utterance of user A “Migi, Migi...”
  • the user B issues an instruction to move the pointer upward based on the voice recognition result for these user utterances, and the user A continuously issues an instruction to move the pointer right. To recognize.
  • the pointer is displayed at the position of pointer @ t2,202. It is also assumed that the user B's pointer movement request position is “user B's pointer movement request position 212” shown in the upper area of the display image 200 in FIG.
  • FIG. 7 shows an example of the display image 200 at the next time t3.
  • the users A and B have made the following user utterances after the time t2.
  • User utterance of user A “Migi, Migi...”
  • User utterance of user B “Ue, Ue...”
  • the user response instruction analysis unit 173 of the processing control unit 170 of the information processing device 10 recognizes that the following two different instructions are performed as the user response instruction to the information processing device 10.
  • User A correspondence instruction 1 User A's instruction to move the pointer to the right,
  • User B corresponding instruction 2 Instruction for moving up the pointer by the user B;
  • the user correspondence instruction analysis unit 173 of the processing control unit 170 of the information processing device 10 recognizes that these two different instructions are performed by two different users, and executes the two different user correspondence instruction information. Input to the section 174.
  • the process execution unit 174 executes a process according to two different user correspondence instructions analyzed by the user correspondence instruction analysis unit 173. That is, as shown in FIG. 7, the pointer $ t2 displayed at the pointer position at the time t2 is divided into two.
  • the pointer is divided, and two pointers, a pointer moving rightward and a pointer moving upward, are simultaneously displayed.
  • a pointer $ t3, 203 moved rightward in accordance with the instruction of the user A;
  • the divided pointer $ t3, 204 that has been moved upward according to the instruction of the user B;
  • These two pointers are displayed together on the display image 200.
  • the process execution unit 174 performs a process of identifying each of the displayed pointers as an object associated with the user, and moving each of the pointers according to the instruction of the corresponding user.
  • the information processing apparatus 10 individually recognizes instructions on a user-by-user basis and executes each instruction individually and in parallel.
  • the user's instruction to operate the pointer may be an utterance indicating a direction, such as the above-described upper, lower, left, and right directions, or east, west, north, and south.
  • the operation is not limited to the user's utterance, and may be an operation on an input unit configured as an input unit of the information processing apparatus 10, for example, an operation on an input unit such as 8 on the numeric keypad and 2 on the numeric keypad.
  • the action may be a user action, for example, a finger pointing action of the user.
  • the image analysis unit 162 analyzes a user action
  • the user correspondence instruction analysis unit 173 analyzes a user correspondence instruction corresponding to each user's action.
  • the process of determining whether or not to divide the pointer is performed by the process execution unit 174 according to the analysis result of the user correspondence instruction analysis unit 173.
  • the processing execution unit 174 divides the pointer when the user correspondence instruction input from the user correspondence instruction analysis unit 173 is a different instruction by two different users.
  • the determination as to whether or not the user who has given the instruction is a new user different from the user who has given the instruction so far is performed by the user-corresponding instruction analyzing unit 173 according to the identification result of the user identifying unit 171. become.
  • the user identification process of the user identification unit 171 includes the audio waveform information of the user utterance analyzed by the audio analysis unit 161, the audio direction, the user's face analyzed by the image analysis unit 162, the overall image of the user, the user's position, and the like. It is performed based on. This user identification process is performed using information registered in the user information DB 172.
  • the processing execution unit 174 divides the pointer and displays a plurality of pointers. Then, a plurality of movement processes according to the instruction of each user are performed, and a plurality of processes according to each user's intention are executed in parallel.
  • FIG. 8 A processing sequence for performing a process corresponding to a plurality of users by pointer division described with reference to FIGS. 4 to 7 will be described with reference to a flowchart shown in FIG. Note that the processing shown in the flow of FIG. 8 can be executed according to a program stored in a storage unit of the information processing apparatus 10, and can be executed as a program execution processing by a processor such as a CPU having a program execution function, for example. it can.
  • a processor such as a CPU having a program execution function, for example. it can.
  • processing of each step of the flow illustrated in FIG. 8 will be described.
  • Step S101 First, in step S101, a process of analyzing a user instruction issued to the information processing apparatus 10 is performed.
  • the analysis process of the user instruction is performed by the input data analysis unit 160 and the processing control unit 170.
  • the user instruction can be given by various user actions such as user utterance, pointing, movement of the face direction and line of sight.
  • the voice analysis unit 161 of the input data analysis unit 160 analyzes a user utterance input via the voice input unit (microphone) 111 and analyzes the presence or absence of a user instruction, the intention of the user instruction, and the like.
  • the image analysis unit 162 of the input data analysis unit 160 analyzes a user image input via the image input unit (camera) 112, and determines whether or not a user instruction is given based on a user action such as pointing, for example. Analyze intentions. This analysis information is input to the user identification unit 171 and the user instruction analysis unit 173 of the processing control unit 170.
  • Step S102 the input data analysis unit 160 determines whether or not the user instruction is a pointer movement instruction based on the analysis result. If the user instruction is a pointer movement instruction, the process proceeds to step S103. If the user instruction is not a pointer movement instruction, the process proceeds to step S111.
  • Step S111 is processing to be executed when the user instruction is not a pointer movement instruction in step S102.
  • step S111 processing according to the user instruction other than the pointer movement instruction is performed. This processing is executed by the processing execution unit 174 in accordance with the user correspondence instruction information analyzed by the user correspondence instruction analysis unit 173.
  • the user correspondence instruction analysis unit 173 is obtained based on the user identification information identified by the user identification unit 171 and the analysis information from the voice analysis unit 161 of the input data analysis unit 160 and the image analysis unit 162.
  • the instruction information for the information processing apparatus 10 is linked, and the instruction information corresponding to each user is analyzed. For example, (1) User a's instruction a, (2) User B's instruction b, In this way, a process of determining which user has given each instruction is performed. Specifically, data in which a user ID and instruction information are associated with each other, that is, user-associated instruction information is generated and input to the processing execution unit 174.
  • the processing execution unit 174 executes a process according to the user-corresponding instruction information analyzed by the user-corresponding instruction analyzing unit 173. Specifically, for example, an application that executes a process according to a user instruction is selected from the application group 175 and executed. Note that these applications are not limited to the applications stored in the storage unit in the information processing apparatus 10, but may be applications provided by an external server.
  • Step S103 is processing executed when the user's instruction is an instruction to move the pointer in step S102.
  • step S103 the user executing the pointer movement instruction is identified. This processing is executed by the user identification unit 171 and the user correspondence instruction analysis unit 173.
  • the user identification unit 171 inputs analysis information from the voice analysis unit 161 or the image analysis unit 162 of the input data analysis unit 160 and requests the user who has requested an instruction to the information processing apparatus 10 or the information processing apparatus 10. Perform the identification process of the user who is.
  • the user identification unit 171 compares and compares information input from the input data analysis unit 160 with information registered in the user information DB 172 to determine whether the user who has requested an instruction to the information processing apparatus 10 Of the user who is in the server.
  • This user identification information is input to the user-corresponding instruction analysis unit 173.
  • the user who has executed the pointer movement instruction by the user for the information processing apparatus 10 obtained based on the analysis information from the unit 162 is specified.
  • Step S104 the user correspondence instruction analysis unit 173 determines whether the execution user of the pointer movement instruction is a new user. That is, a determination process is performed to determine whether or not a new user has not performed a pointer operation, such as a pointer movement instruction, or has issued a different pointer operation, such as a new movement in a different direction.
  • a pointer operation such as a pointer movement instruction
  • the user correspondence instruction analysis unit 173 generates correspondence data between the user identification information identified by the user identification unit 171 and the user instruction information obtained based on the analysis information of the input data analysis unit 160. Then, based on this data, it is determined whether or not the executing user of the pointer movement instruction is a new user.
  • step S105 If it is determined that the execution user of the pointer movement instruction is not a new user, and is the same user who has performed the pointer operation so far, the process proceeds to step S105. On the other hand, if it is determined that the executing user of the pointer movement instruction is a new user different from the user who has performed the pointer operation, the process proceeds to step S106.
  • Step S105 is processing to be executed when it is determined in step S104 that the executing user of the pointer movement instruction is not a new user and is the same user who has performed the pointer operation so far.
  • step S105 the pointer is moved according to the user's instruction.
  • This process is a process executed by the process execution unit 174.
  • the processing execution unit 174 inputs the user corresponding instruction information analyzed by the user corresponding instruction analyzing unit 173, that is, the pointer movement instruction information by the same user as before, and executes the process according to the input instruction information.
  • a process command for changing the display position of the pointer is output to the display information control unit 182 of the output control unit 180 to perform a process of moving the pointer position in the direction indicated by the user.
  • Step S106 is processing to be executed when it is determined in step S104 that the executing user of the pointer movement instruction is a new user and a user different from the user who has performed the pointer operation so far.
  • step S106 the pointer is divided and the divided pointer is moved and displayed according to the instruction of the new user.
  • This processing corresponds to the processing described above with reference to FIG.
  • the process execution unit 174 inputs, for example, the following two user correspondence instruction information as the user correspondence instruction information analyzed by the user correspondence instruction analysis unit 173.
  • User A correspondence instruction 1 User A's instruction to move the pointer to the right,
  • User B corresponding instruction 2 Instruction for moving up the pointer by the user B;
  • the process execution unit 174 executes a process according to these two different user instructions. That is, as shown in FIG. 7, the pointer $ t2 displayed at the pointer position at the time t2 is divided into two, (User A correspondence instruction 1) User A's instruction to move the pointer to the right, In accordance with the instruction of the user A, the pointer is moved rightward to display one pointer as the pointer $ t3, 203. (User B corresponding instruction 2) Instruction for moving up the pointer by the user B; The pointer is moved upward according to the instruction of the user B, and one divided pointer is displayed as the divided pointer # t3, 204.
  • step S101 After the processes in steps S111, S105, and S106, the processes in and after step S101 are repeatedly executed according to the input of a new user instruction.
  • the information processing apparatus 10 individually recognizes instructions for each user, and individually executes each instruction in parallel. That is, it becomes possible to execute a plurality of processes according to each user's intention in parallel, and to provide each user with information and processes reflecting the request of each user.
  • update processing of display information of image output unit (display unit) In response to a user instruction to the information processing device 10, update of display information such as split display, enlarged display, or selective display processing of display information displayed on the image output unit (display unit) 122 is performed. A specific example will be described.
  • FIG. 9 shows an example of a display image 200 of the image output unit (display unit) 122 of the information processing device 10 at time t1.
  • the information processing apparatus 10 displays, as the display image 200, the representative images of the six resorts along with the index numbers 1 to 6 as the recommended values of the recommended resorts.
  • the display information 200 is display data generated by the sightseeing guide application executed by the processing execution unit 174.
  • the information processing device 10 outputs, for example, the following system utterance via the audio output unit (speaker) 121 according to the sightseeing guide application executed in the process execution unit 174.
  • System utterance "Please specify your favorite resort"
  • the user A issues an instruction to request the display of the detailed information of the third resort, and the user B receives the details of the fifth resort. It recognizes that the instruction to request the display of the information has been performed.
  • the user correspondence instruction analysis unit 173 of the processing control unit 170 of the information processing device 10 recognizes that the following two different instructions are performed as the user correspondence instruction to the information processing device 10.
  • (User A Corresponding Instruction 1) User A's instruction to display detailed information on the third resort,
  • (User B Correspondence Instruction 2) Instruction for displaying detailed information of the fifth resort by user B,
  • the user correspondence instruction analysis unit 173 of the processing control unit 170 of the information processing device 10 recognizes that these two different instructions are performed by two different users, and executes the two different user correspondence instruction information. Input to the section 174.
  • the process execution unit 174 executes a process according to two different user correspondence instructions analyzed by the user correspondence instruction analysis unit 173. That is, as shown in FIG. 10, the display area of the display image 200 is divided into two, and the detailed information of the third resort according to the instruction of the user A is displayed in the divided area on the right side of the user A. Then, the detailed information of the fifth resort area in accordance with the instruction of the user B is displayed in the section area on the left side of the user B.
  • a display image 200 shown in FIG. 10 is a display image at time t2.
  • the positions of the user A and the user B are obtained from the analysis result of the image analysis unit 162 based on the image captured by the image input unit (camera) 112.
  • the user correspondence instruction analysis unit 173 generates user correspondence instruction information including user position information and outputs the generated user correspondence instruction information to the processing execution unit 174. That is, specifically, for example, the following data sets (1) and (2) are generated as user correspondence instruction information and output to the processing execution unit 174.
  • the process execution unit 174 inputs the instruction information for each user including the position information for each user, determines the process to be executed, and executes the determined process. As a result, as shown in FIG. 10, the detailed information of the third resort is displayed in the right area where the user A is located, and the user B's instruction is displayed in the left area where the user B is located. 5 is displayed.
  • FIG. 11 is a diagram illustrating an example of the update processing of the display image 200 at the time t3.
  • user A and user B are making user utterances with the following actions.
  • the user-corresponding instruction analysis unit 173 acquires user action information such as the pointing of the user A and the user B, the face, and the line of sight from the analysis result of the image analysis unit 162 based on the captured image of the image input unit (camera) 112. Then, it generates user corresponding instruction information including user action information and outputs it to the processing execution unit 174. That is, specifically, for example, the following data sets (1) and (2) are generated as user correspondence instruction information and output to the processing execution unit 174. (1) Correspondence data of action information (pointing and direction) of user A and instruction information of user A, (2) Correspondence data between user B's action information (face, gaze direction) and user B's instruction information;
  • the following data sets (1) and (2) are generated as user correspondence instruction information and output to the processing execution unit 174.
  • the process execution unit 174 inputs the instruction information of each user including the action information of each user, determines the process to be executed, and executes the determined process. As a result, as shown in FIG. 11, the voting is performed on the voting item [I was glad] in the detailed information of the MM tower in the pointing direction of the user A, and the number of votes is counted up by one. Further, an image update is performed in which the picture displayed in the detailed information of the PP park in the direction in which the user B is looking at is switched to a new picture.
  • the information processing apparatus analyzes the position and action information of each user, and further executes processing according to the position and action of each user in parallel. By performing such processing, each user can immediately obtain information reflecting each instruction and execute processing without waiting for completion of processing of one user. It becomes.
  • FIG. 12 shows an example of the display image 200 at the time t1 of the image output unit (display unit) 122 of the information processing device 10 as in FIG. 9 described above.
  • the information processing apparatus 10 displays, as the display image 200, the representative images of the six resorts along with the index numbers 1 to 6 as the recommended values of the recommended resorts.
  • the display information 200 is display data generated by the sightseeing guide application executed by the processing execution unit 174.
  • the information processing device 10 outputs, for example, the following system utterance via the audio output unit (speaker) 121 according to the sightseeing guide application executed in the process execution unit 174.
  • System utterance "Please specify your favorite resort”
  • the two users A and B make the following utterances respectively.
  • User utterance of user A "Show 5"
  • User utterance of user B "Show me 5"
  • the user A issues an instruction to request the display of the detailed information of the fifth resort, and the user B also receives the details of the fifth resort. It recognizes that the instruction to request the display of the information has been performed.
  • the user correspondence instruction analysis unit 173 of the processing control unit 170 of the information processing device 10 recognizes that the following two instructions are performed as the user correspondence instruction to the information processing device 10.
  • the user correspondence instruction analysis unit 173 of the processing control unit 170 of the information processing apparatus 10 recognizes two different user instructions (the same instruction) and inputs the two user correspondence instruction information to the processing execution unit 174.
  • the process execution unit 174 executes a process according to the two user instructions (the same instruction) analyzed by the user correspondence instruction analysis unit 173. That is, as shown in FIG. 13, the detailed information of the fifth resort is displayed on the entire display area of the display image 200 in accordance with two user instructions (the same instruction).
  • a display image 200 shown in FIG. 13 is a display image at time t2.
  • the information processing apparatus 10 of the present disclosure executes one process reflecting the instructions of each user. That is, for example, a process of outputting one piece of information to the entire display area without dividing the display area and displaying the same information side by side is performed.
  • FIG. 14 shows an example of the display image 200 at the time t1 of the image output unit (display unit) 122 of the information processing device 10 as in FIG. 9 described above.
  • the display image 200 In front of the display image 200, there are six users A to F. These users are identified in the user identification unit 171. That is, the users A to D are all users registered in the user information DB 172, and the information processing apparatus 10 recognizes that the users viewing the display image 200 are the users A to F.
  • the user identification unit 171 associates the new user with a new user ID and outputs a face image and a position.
  • the information is registered in the user information DB 172 together with the information. The subsequent processing is executed using this registration information.
  • the information processing apparatus 10 displays, as the display image 200, representative images of six resorts along with index numbers 1 to 6 as candidate values of recommended resorts.
  • the display information 200 is display data generated by the sightseeing guide application executed by the processing execution unit 174.
  • the information processing device 10 outputs, for example, the following system utterance via the audio output unit (speaker) 121 according to the sightseeing guide application executed in the process execution unit 174.
  • System utterance "Please vote where you want to see”
  • the processing execution unit 174 further displays a bar indicator indicating the remaining time until the voting deadline on the display image 200 in accordance with the output of the system utterance, and reduces the display of the remaining time of the indicator as time elapses. Perform an indicator update process.
  • the six users A to F each perform the following utterances, that is, voting.
  • User utterance (voting) of user A "Show 3"
  • User utterance (voting) of user B “PP park”
  • User utterance (voting) of user A "Show 5th”
  • User utterance (voting) of user B “fifth”
  • User utterance (voting) of user A "Show second”
  • User utterance (voting) of user B "MM tower”
  • the information processing apparatus 10 analyzes the utterances of the users A to F, that is, the voting destinations, based on the voice recognition results for these user utterances, and counts the number of votes obtained for each of the resorts 1 to 6. Note that the voice recognition of each user's utterance is performed by the voice analysis unit 161, and the user-corresponding instruction analysis unit 173 analyzes which user has performed which utterance.
  • the process execution unit 174 counts the number of votes obtained for each of the resorts 1 to 6 by the process of the application being executed.
  • the information processing apparatus 10 of the present disclosure not only executes the processes according to the instructions of many users in parallel, but also selects the instructions issued by more users, and It is also possible to perform a process such as performing a process according to. These are realized by analyzing all the individual instructions of each user.
  • the processing shown in the flow of FIG. 16 can be executed according to a program stored in the storage unit of the information processing apparatus 10, and can be executed as a program execution processing by a processor such as a CPU having a program execution function, for example. it can.
  • a processor such as a CPU having a program execution function, for example. it can.
  • the processing of each step of the flow illustrated in FIG. 16 will be described.
  • Step S201 The processing of steps S201 to S205 is processing performed within the screen division processing allowable period defined by the application being executed by the processing execution unit 174.
  • Step S202 analysis processing of a user instruction executed on the information processing apparatus 10 is performed.
  • the analysis process of the user instruction is performed by the input data analysis unit 160 and the processing control unit 170.
  • the user instruction can be performed by various user actions such as user utterance, pointing, movement of the face direction and line of sight.
  • the voice analysis unit 161 of the input data analysis unit 160 analyzes a user utterance input via the voice input unit (microphone) 111 and analyzes the presence or absence of a user instruction, the intention of the user instruction, and the like.
  • the image analysis unit 162 of the input data analysis unit 160 analyzes a user image input via the image input unit (camera) 112, and determines whether or not a user instruction is given based on a user action such as pointing, for example. Analyze intentions. This analysis information is input to the user identification unit 171 and the user instruction analysis unit 173 of the processing control unit 170.
  • step S203 the input data analysis unit 160 determines whether the user instruction is an instruction to select an option, that is, an instruction to select a data item (item) being displayed, based on the analysis result.
  • the display image 200 described above with reference to FIG. That is, representative images of the six resorts are displayed together with the index numbers 1 to 6 as the recommended values of the recommended resorts.
  • the user can select the index numbers 1 to 6, the title of each image, and the like.
  • step S203 If it is determined in step S203 that the user instruction is an instruction for selecting an option, that is, an instruction for selecting a data item (item), the process proceeds to step S205. If it is determined that the user instruction is not a data item (item) selection instruction, the process proceeds to step S211.
  • Step S211 is processing executed when the user instruction is not a data item (item) selection instruction in step S203.
  • step S211 a process corresponding to the user instruction that is not a data item (item) selection instruction is performed. This processing is executed by the processing execution unit 174 in accordance with the user correspondence instruction information analyzed by the user correspondence instruction analysis unit 173.
  • the user correspondence instruction analysis unit 173 is obtained based on the user identification information identified by the user identification unit 171 and the analysis information from the voice analysis unit 161 of the input data analysis unit 160 and the image analysis unit 162.
  • the instruction information for the information processing apparatus 10 is linked, and the instruction information corresponding to each user is analyzed. For example, (1) User a's instruction a, (2) User B's instruction b, In this way, a process of determining which user has given each instruction is performed. Specifically, data in which a user ID and instruction information are associated with each other, that is, user-associated instruction information is generated and input to the processing execution unit 174.
  • the processing execution unit 174 executes a process according to the user-corresponding instruction information analyzed by the user-corresponding instruction analyzing unit 173. Specifically, for example, an application that executes a process according to a user instruction is selected from the application group 175 and executed. Note that these applications are not limited to the applications stored in the storage unit in the information processing apparatus 10, but may be applications provided by an external server.
  • Step S204 is processing executed when the user instruction is an instruction to select a data item (item) in step S203.
  • step S204 the number of data items (items) selected by the user instruction is counted.
  • Step S205 As described above, the processing of steps S201 to S205 is processing performed within the screen division processing allowable period defined by the application executed by the processing execution unit 174. During this period, an instruction to select a data item (item) is executed by one or more users viewing the display image of the information processing apparatus 10, and an instruction to select one or more data items (items) is input. The number of the selection destination is counted.
  • Step S206 When the processing period of steps S201 to S205 has elapsed, the process proceeds to step S206. In step S206, it is determined whether or not the user instruction executed during the processing period of steps S201 to S205 includes an instruction to select a plurality of data items (items).
  • the case where the instruction to select a plurality of data items (items) is included means that, for example, as described above with reference to FIG. 9, the users A and B respectively specify different index numbers (data items (items)). Is the case. The same applies to the example shown in FIG. 14, which corresponds to a case where an instruction to select a plurality of data items (items) is included.
  • the case where the user instruction does not include an instruction to select a plurality of data items (items) means that the users A and B have the same index number (data item (item), for example) as described above with reference to FIG. ) Is specified.
  • step S207 If the user instruction includes an instruction to select a plurality of data items (items), the process proceeds to step S207. On the other hand, when the user instruction does not include an instruction to select a plurality of data items (items), the process proceeds to step S208.
  • Step S207 In the determination processing of step S206, when the user instruction includes an instruction to select a plurality of data items (items), the process proceeds to step S207.
  • the processing execution unit 174 divides the display area of the display image into a plurality of areas, and displays information corresponding to each user's instruction in each of the divided areas.
  • the user correspondence instruction analysis unit 173 generates user correspondence instruction information including user position information obtained from an analysis result of the image analysis unit 162 based on a captured image of the image input unit (camera) 112 and outputs the generated information to the processing execution unit 174. I do.
  • the process execution unit 174 inputs the instruction information for each user including the position information for each user, determines the process to be executed, and executes the determined process. As a result, as shown in FIG. 10, information corresponding to the instruction of the user A is displayed in the right area where the user A is located, and information corresponding to the instruction of the user B is displayed in the left area where the user B is located.
  • a user instruction when a user instruction includes a large number of data items (items), the data items (items) are ranked higher than the large number of data items (items).
  • a configuration may be adopted in which only items are selected and displayed.
  • Step S208 The process of step S208 is executed when the user's instruction does not include an instruction to select a plurality of data items (items) in the determination process of step S206.
  • the processing execution unit 174 displays one piece of information according to the user's instruction without dividing the display area of the display image. This process corresponds to the process described above with reference to FIGS.
  • the processing shown in the flowchart shown in FIG. 17 can be executed according to a program stored in the storage unit of the information processing apparatus 10, and can be executed, for example, as a program execution processing by a processor such as a CPU having a program execution function. .
  • a processor such as a CPU having a program execution function.
  • Step S301 First, in step S301, analysis of a user position and a user action is performed. These analysis processes are executed by the image analysis unit 162 and the user instruction analysis unit 173. Note that the user action is the pointing operation by the user and the movement processing of the face and the line of sight described above with reference to FIG.
  • the image analysis unit 162 performs an image analysis based on the captured image of the image input unit (camera) 112, and the result of the analysis is input to the user instruction analysis unit 173.
  • the user correspondence instruction analysis unit 173 generates user correspondence instruction information including user position information and user action information, and outputs the generated user correspondence instruction information to the processing execution unit 174.
  • Step S302 analysis processing of a user instruction executed on the information processing apparatus 10 is performed.
  • the analysis process of the user instruction is performed by the input data analysis unit 160 and the processing control unit 170.
  • the user instruction can be performed by various user actions such as the pointing of the user analyzed in step SZ301, the movement of the face direction, the movement of the line of sight, and the like, in addition to the user utterance.
  • the voice analysis unit 161 of the input data analysis unit 160 analyzes a user utterance input via the voice input unit (microphone) 111 and analyzes the presence or absence of a user instruction, the intention of the user instruction, and the like.
  • the image analysis unit 162 of the input data analysis unit 160 analyzes a user image input via the image input unit (camera) 112, and determines whether or not a user instruction is given based on a user action such as pointing, for example. Analyze intentions. This analysis information is input to the user identification unit 171 and the user instruction analysis unit 173 of the processing control unit 170.
  • Step S303 Next, an execution process is determined. This process is a process executed by the user corresponding instruction analysis unit 173 and the process execution unit 174.
  • the user correspondence instruction analysis unit 173 generates user correspondence instruction information in which the user position, the user action, and the user instruction are associated with each other, and outputs the generated information to the processing execution unit 174.
  • the process execution unit 174 determines a process to be executed based on the user correspondence instruction information input from the user correspondence instruction analysis unit 173, that is, the user correspondence instruction information in which the user position, the user action, and the user instruction are associated.
  • the display position of each display information is determined based on the user position as described above with reference to FIG. Further, when the user action information is added with the user action information, as described above with reference to FIG. 11, the mode of the display information update process is determined based on the user action.
  • step S304 it is determined whether or not the display information update process is included in the execution process determined in step S303. If it is included, the process proceeds to steps S206 and S305. If it is included, the process proceeds to step S311.
  • Step S3111 is a process executed when the determined execution process does not include the update process of the display information in step S304.
  • step S311 a process according to a user instruction other than the update of the display information is performed. For example, there is output processing of a system utterance in response to a user instruction. This processing is executed by the processing execution unit 174 in accordance with the user correspondence instruction information analyzed by the user correspondence instruction analysis unit 173.
  • Step S305 is processing to be performed when the determined execution processing includes display information update processing in step S304.
  • step S305 a display information update process based on a user instruction is executed. Specifically, for example, as described above with reference to FIG. 10, division or image display in which the display position of each display information is set based on the user position is performed. Alternatively, as described above with reference to FIG. 11, the display information updating process is performed based on the user action.
  • the information processing apparatus analyzes the position and action information of each user, and further executes processing according to the position and action of each user in parallel. By performing such processing, each user can immediately obtain information reflecting each instruction and execute processing without waiting for completion of processing of one user. It becomes.
  • each component of the information processing apparatus 10 shown in FIG. 3 can be all configured in one apparatus, for example, an agent device owned by a user, or an apparatus such as a smartphone or a PC. It is also possible to adopt a configuration in which the unit is executed in a server or the like.
  • FIG. 18 illustrates an example of a system configuration for executing the processing of the present disclosure.
  • Information processing system configuration example 1 has almost all the functions of the information processing apparatus shown in FIG. 3 as one apparatus, for example, a smartphone or a PC owned by a user, or a voice input / output and image input / output function.
  • the information processing apparatus 410 is a user terminal such as an agent device.
  • the information processing device 410 corresponding to the user terminal executes communication with the application execution server 420 only when, for example, using an external application when generating a response sentence.
  • the application execution server 420 is, for example, a weather information providing server, a traffic information providing server, a medical information providing server, a sightseeing information providing server, or the like, and is configured by a group of servers capable of providing information for generating a response to a user utterance. .
  • FIG. 18 information processing system configuration example 2, a part of the functions of the information processing apparatus shown in FIG. This is an example of a system in which a part is executed by a data processing server 460 capable of communicating with an information processing apparatus.
  • the server executes the processing executed by the voice recognition unit 110, the image analysis unit 120, and the processing control unit 170 in the apparatus illustrated in FIG.
  • the acquired data of the voice input unit 101 and the imaging unit 102 of the information processing device 410 on the information processing terminal side is transmitted to the server, and the server performs processing for the user instruction. It is a setting to reply to.
  • An information processing system including an information processing terminal and a server, wherein the information processing terminal includes an audio input unit, an image input unit, an audio output unit, an image output unit, and a communication unit.
  • the server executes a plurality of processes corresponding to respective instructions from a plurality of users to the information processing terminal in parallel based on the data received from the information processing terminal, and transmits a processing result to the information processing terminal.
  • the information processing terminal outputs a processing result received from the server to an audio output unit and an image output unit.
  • the server for each of the instructions from the plurality of users to the information processing terminal, the server includes a user-corresponding instruction analyzing unit that generates user-corresponding instruction information associated with the user who issued each instruction; It has a process execution unit that inputs and executes a plurality of processes for each user's instruction in parallel based on the user's corresponding instruction information.
  • a user-corresponding instruction analyzing unit that generates user-corresponding instruction information associated with the user who issued each instruction
  • It has a process execution unit that inputs and executes a plurality of processes for each user's instruction in parallel based on the user's corresponding instruction information.
  • the functions of the information processing terminal such as a user terminal and the functions of the server can be set in various different manners, and a single function can be executed by both.
  • FIG. 19 is an example of the hardware configuration of the information processing apparatus described above with reference to FIG. 3, and also configures the data processing server 460 described with reference to FIG. 2 is an example of a hardware configuration of an information processing device.
  • the CPU (Central Processing Unit) 501 functions as a control unit and a data processing unit that execute various processes according to a program stored in a ROM (Read Only Memory) 502 or a storage unit 508. For example, the processing according to the sequence described in the above embodiment is executed.
  • a RAM (Random Access Memory) 503 stores programs executed by the CPU 501, data, and the like.
  • the CPU 501, the ROM 502, and the RAM 503 are mutually connected by a bus 504.
  • the CPU 501 is connected to an input / output interface 505 via a bus 504.
  • the input / output interface 505 is connected to an input unit 506 including various switches, a keyboard, a mouse, a microphone, a sensor, and the like, and an output unit 507 including a display, a speaker, and the like. Have been.
  • the CPU 501 executes various processes in response to a command input from the input unit 506, and outputs a processing result to, for example, the output unit 507.
  • the storage unit 508 connected to the input / output interface 505 includes, for example, a hard disk, and stores programs executed by the CPU 501 and various data.
  • the communication unit 509 functions as a transmission / reception unit for Wi-Fi communication, Bluetooth (registered trademark) (BT) communication, and other data communication via a network such as the Internet or a local area network, and communicates with an external device.
  • the drive 510 connected to the input / output interface 505 drives a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • a removable medium 511 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory such as a memory card to record or read data.
  • the technology disclosed in the present specification can have the following configurations. (1) for each instruction from a plurality of users to the information processing apparatus, a user-corresponding instruction analysis unit that generates user-corresponding instruction information associated with the user who issued each instruction; An information processing apparatus having a processing execution unit that executes a plurality of processes corresponding to each user instruction in parallel based on the user-associated instruction information.
  • the information processing apparatus further includes: A voice recognition unit that performs a process of analyzing a voice input through the voice input unit; An image analysis unit that executes analysis processing of a captured image input via the imaging unit, A user identification unit that performs user identification using at least one of the voice recognition unit and the image analysis unit, The user corresponding instruction analysis unit, The information processing apparatus according to (1), wherein the user correspondence instruction information is generated using the user identification information generated by the user identification unit.
  • Instructions from a plurality of users to the information processing device are: An instruction to move a pointer on a display image of the information processing device in a different direction,
  • the user corresponding instruction analysis unit As user correspondence instruction information, pointer movement instruction information in different directions for each user is generated,
  • the process execution unit includes: Based on the pointer movement instruction information in different directions for each user, a process of dividing the pointer on the display image and moving a plurality of pointers in the direction indicated by each user is executed (1) or (2).
  • the information processing device according to (1).
  • Instructions from a plurality of users to the information processing device are: It is a selection instruction of a different option to the information processing apparatus, The user corresponding instruction analysis unit, As user correspondence instruction information, selection instruction information of a different option for each user is generated,
  • the process execution unit includes: The information processing apparatus according to (1) or (2), wherein processing corresponding to each user's option is executed in parallel based on selection instruction information of a different option for each user.
  • the processing execution unit includes: The information processing apparatus according to (4), wherein a display image of the information processing apparatus is divided based on selection instruction information of a different option for each user, and information corresponding to each user's option is displayed in parallel.
  • the processing execution unit includes: The information processing apparatus according to (5), wherein the information processing apparatus executes a process of controlling an information display position according to a user position, and executes a control of displaying information selected by the user at a position close to the user position.
  • the processing execution unit includes: The information processing apparatus according to (4), wherein when the selection instruction information for each user is configured by the same option, only one piece of information corresponding to the same option is displayed.
  • the processing execution unit includes: Based on the selection instruction information of different options for each user, The information processing apparatus according to (4), wherein information corresponding to an option with a large number of selected users is preferentially selected and the process is executed.
  • the user corresponding instruction analysis unit includes: Generating user-associated instruction information that associates the user position with the user instruction;
  • the process execution unit includes: The information processing apparatus according to any one of (1) to (8), wherein information corresponding to the user's instruction is displayed at a position close to the user who has performed the instruction, based on the user position information included in the user corresponding instruction information. .
  • the user correspondence instruction analysis unit includes: Generate user corresponding instruction information that associates the user action with the user instruction
  • the process execution unit includes: The information processing apparatus according to any one of (1) to (9), wherein a processing target is determined based on user action information included in the user correspondence instruction information.
  • An information processing system having an information processing terminal and a server, The information processing terminal, An audio input unit, an image input unit, An audio output unit, an image output unit, A voice acquired through the voice input unit, and a communication unit that transmits a captured image acquired through the image input unit to the server,
  • the server comprises: Based on the data received from the information processing terminal, A plurality of processes corresponding to respective instructions from a plurality of users for the information processing terminal are executed in parallel, and a processing result is transmitted to the information processing terminal, The information processing terminal, An information processing system for outputting a processing result received from the server to at least one of the audio output unit and the image output unit.
  • the server For each instruction from a plurality of users to the information processing terminal, a user corresponding instruction analysis unit that generates user corresponding instruction information associated with the user who issued each instruction,
  • An information processing method executed in an information processing system having an information processing terminal and a server The information processing terminal, The voice acquired via the voice input unit and the captured image acquired via the imaging unit are transmitted to the server,
  • the server comprises: Based on the data received from the information processing terminal, A plurality of processes corresponding to respective instructions from a plurality of users for the information processing terminal are executed in parallel, and a processing result is transmitted to the information processing terminal, The information processing terminal, An information processing method for outputting a processing result received from the server to at least one of an audio output unit and an image output unit.
  • a program for causing the information processing device to execute information processing A user-corresponding instruction analysis step of causing the user-corresponding instruction analyzing unit to generate user-corresponding instruction information associated with the user who issued each instruction for each instruction from the plurality of users to the information processing apparatus; A process execution step of causing a process execution unit to execute a plurality of processes corresponding to each user instruction in parallel based on the user-associated instruction information, The program to be executed.
  • the series of processes described in the specification can be executed by hardware, software, or a combination of both.
  • the program recording the processing sequence is installed in a memory of a computer built in dedicated hardware and executed, or the program is stored in a general-purpose computer capable of executing various processing. It can be installed and run.
  • the program can be recorded in a recording medium in advance.
  • the program can be received via a network such as a LAN (Local Area Network) or the Internet and installed on a recording medium such as a built-in hard disk.
  • a system is a logical set configuration of a plurality of devices, and is not limited to a device having each configuration in the same housing.
  • an apparatus and a method that execute processes corresponding to respective instructions from a plurality of users to an information processing apparatus in parallel without delay are realized.
  • the processing execution unit executes a process of dividing the pointers and moving the plurality of pointers in directions indicated by each user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

情報処理装置に対する複数ユーザからの指示各々に対応する処理を遅滞なく並列に実行する装置、方法を実現する。情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、ユーザ対応指示情報に基づいて各ユーザ指示に対応の複数処理を並列に実行する処理実行部を有する。情報処理装置に対する複数ユーザからの指示がポインタの異なる方向への移動指示である場合、処理実行部はポインタを分割して、複数のポインタを各ユーザの指示する方向へ移動させる処理を実行する。ユーザ指示が異なる選択肢の選択指示の場合、各ユーザの選択肢に対応する情報を、表示領域を分割して並列に表示する。

Description

情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
 本開示は、情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。さらに詳細には、ユーザ発話の音声認識結果に基づく処理や応答を行う情報処理装置、情報処理システム、および情報処理方法、並びにプログラムに関する。
 昨今、ユーザ発話の音声認識を行い、認識結果に基づく様々な処理や応答を行う音声認識システムの利用が増大している。
 この音声認識システムにおいては、マイクを介して入力するユーザ発話を認識理解して、それに応じた処理を行う。
 例えばユーザが、「明日の天気を教えて」と発話した場合、天気情報提供サーバから天気情報を取得して、取得情報に基づくシステム応答を生成して、生成した応答をスピーカーから出力する。具体的には、例えば、
 システム発話=「明日の天気は晴れです。ただし、夕方、雷雨があるかもしれません」
 このようなシステム発話を出力する。
 このような音声認識を行う機器として、スマートフォン等のモバイル機器、スマートスピーカー、エージェント機器、サイネージ機器等がある。
 スマートスピーカー、エージェント機器、サイネージ機器等を利用した構成では、これらの機器の周囲に多くの人がいる場合が多い。
 音声認識機器は、機器に対する発話者(発話ユーザ)を特定し、その発話者の求めるサービスを提供すること、具体的には例えば発話者の求める表示情報を表示する等の処理が必要となる。
 発話者の求める表示情報の表示処理を開示した従来技術として、例えば特許文献1(特開2000-187553号公報)がある。この文献は、カメラ等によって撮影された画像から発話者の注視位置を検出して、検出結果に基づいて表示情報を制御する構成を開示している。
 しかし、例えば、エージェント機器の前に複数のユーザがおり、これらのユーザが機器に対してほぼ同時に異なる指示を行った場合、多くの場合、エージェント機器は、これらの複数の異なる指示に対する処理を同時に実行することができない。
 例えば、あるユーザがエージェント機器の表示画面に示されたポインタの操作指示として、例えば「もっと上」等の発話を行っているときに、別のユーザが別の場所を指し示したくなり、「左」と発話したとしても、エージェント機器はいずれか一方の指示に対応した処理を行うしかない。このように2人のユーザが異なる指示を行った場合、一方のユーザの指示に対する処理が終わるのを待って、別のユーザの指示に応じた処理を開始せざる得ない。
 このように、複数のユーザが別々の異なる指示をほぼ同時に発話した場合、エージェント機器は、これら2つの指示を同時に実行することができない。機器が先に認識した発話の指示情報のみに従った処理を行い、その指示の処理が完了した後、次のユーザの指示に応じた処理を行うといった処理を行わざる得ない。これでは、ユーザの利便性が損なわれる。
特開2000-187553号公報
 本開示は、例えば、上記問題点に鑑みてなされたものであり、複数のユーザの異なる指示に対する処理を遅滞なく実行することを可能とした情報処理装置、情報処理システム、および情報処理方法、並びにプログラムを提供することを目的とする。
 本開示の第1の側面は、
 情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、
 前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行する処理実行部を有する情報処理装置にある。
 さらに、本開示の第2の側面は、
 情報処理端末とサーバを有する情報処理システムであり、
 前記情報処理端末は、
 音声入力部と、画像入力部と、
 音声出力部と、画像出力部と、
 前記音声入力部を介して取得した音声と、前記画像入力部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
 前記サーバは、
 前記情報処理端末からの受信データに基づいて、
 前記情報処理端末に対する複数ユーザからの指示各々に対応する複数の処理を並列に実行し、処理結果を前記情報処理端末に送信し、
 前記情報処理端末は、
 前記サーバから受信した処理結果を前記音声出力部と前記画像出力部の少なくともいずれかに出力する情報処理システムにある。
 さらに、本開示の第3の側面は、
 情報処理装置において実行する情報処理方法であり、
 ユーザ対応指示解析部が、情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析ステップと、
 処理実行部が、前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行する処理実行ステップを実行する情報処理方法にある。
 さらに、本開示の第4の側面は、
 情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記情報処理端末は、
 音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
 前記サーバは、
 前記情報処理端末からの受信データに基づいて、
 前記情報処理端末に対する複数ユーザからの指示各々に対応する複数の処理を並列に実行し、処理結果を前記情報処理端末に送信し、
 前記情報処理端末は、
 前記サーバから受信した処理結果を音声出力部と画像出力部の少なくともいずれかに出力する情報処理方法にある。
 さらに、本開示の第5の側面は、
 情報処理装置において情報処理を実行させるプログラムであり、
 ユーザ対応指示解析部に、情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成させるユーザ対応指示解析ステップと、
 処理実行部に、前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行させる処理実行ステップを、
 実行させるプログラムにある。
 なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
 本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 本開示の一実施例の構成によれば、情報処理装置に対する複数ユーザからの指示各々に対応する処理を遅滞なく並列に実行する装置、方法が実現される。
 具体的には、例えば、情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、ユーザ対応指示情報に基づいて各ユーザ指示に対応の複数処理を並列に実行する処理実行部を有する。情報処理装置に対する複数ユーザからの指示がポインタの異なる方向への移動指示である場合、処理実行部はポインタを分割して、複数のポインタを各ユーザの指示する方向へ移動させる処理を実行する。ユーザ指示が異なる選択肢の選択指示の場合、各ユーザの選択肢に対応する情報を、表示領域を分割して並列に表示する。
 本構成により、情報処理装置に対する複数ユーザからの指示各々に対応する処理を遅滞なく並列に実行する装置、方法が実現される。
 なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
ユーザ発話に対する応答を行う情報処理装置の具体的な処理例について説明する図である。 情報処理装置の構成例と利用例について説明する図である。 本開示の情報処理装置の構成例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理の一例について説明する図である。 本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 本開示の情報処理装置の実行する処理のシーケンスについて説明するフローチャートを示す図である。 情報処理システムの構成例について説明する図である。 情報処理装置のハードウェア構成例について説明する図である。
 以下、図面を参照しながら本開示の情報処理装置、情報処理システム、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
 1.情報処理装置の実行する処理の概要について
 2.情報処理装置の構成例について
 3.画像出力部(表示部)に表示されたポインタの移動指示に対する処理例について
 4.画像出力部(表示部)の表示情報の更新処理の具体例について
 5.情報処理装置、および情報処理システムの構成例について
 6.情報処理装置のハードウェア構成例について
 7.本開示の構成のまとめ
  [1.情報処理装置の実行する処理の概要について]
 まず、図1以下を参照して、本開示の情報処理装置の実行する処理の概要についてについて説明する。
 図1は、発話者1の発するユーザ発話を認識して応答を行う情報処理装置10の一処理例を示す図である。
 情報処理装置10は、発話者1のユーザ発話、例えば、
 ユーザ発話=「大阪の明日、午後の天気を教えて」
 このユーザ発話の音声認識処理を実行する。
 さらに、情報処理装置10は、ユーザ発話の音声認識結果に基づく処理を実行する。
 図1に示す例では、ユーザ発話=「大阪の明日、午後の天気を教えて」に応答するためのデータを取得し、取得データに基づいて応答を生成して、生成した応答を、スピーカー14を介して出力する。
 図1に示す例では、情報処理装置10は、天気情報を示す画像表示を行うとともに、以下のシステム応答を行っている。
 システム応答=「大阪の明日、午後の天気は晴れですが、夕方、にわか雨がある可能性があります。」
 情報処理装置10は、音声合成処理(TTS:Text To Speech)を実行して上記のシステム応答を生成して出力する。
 情報処理装置10は、装置内の記憶部から取得した知識データ、またはネットワークを介して取得した知識データを利用して応答を生成して出力する。
 図1に示す情報処理装置10は、撮像部11、マイク12、表示部13、スピーカー14を有しており、音声入出力と画像入出力が可能な構成を有する。
 撮像部11は、例えば、ほぼ周囲360°の画像を撮影可能な全方位カメラである。また、マイク12は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
 表示部13は、図に示す例ではプロジェクタ型の表示部を用いた例を示している。ただし、表示部13は、ディスプレイ型の表示部としてもよいし、あるいは情報処理装置10に接続されたTV、PC等の表示部に表示情報を出力する構成としてもよい、
 図1に示す情報処理装置10は、例えばスマートスピーカーあるいはエージェント機器と呼ばれる。
 本開示の情報処理装置10は、図2に示すように、エージェント機器10aに限らず、スマホ10bやPC10c等、あるいは公共の場所に設置されたサイネージ機器のような様々な装置形態とすることが可能である。
 情報処理装置10は、発話者1の発話を認識して、ユーザ発話に基づく応答を行う他、例えば、ユーザ発話に応じて図2に示すテレビ、エアコン等の外部機器30の制御も実行する。
 例えばユーザ発話が「テレビのチャンネルを1に変えて」、あるいは「エアコンの設定温度を20度にして」といった要求である場合、情報処理装置10は、このユーザ発話の音声認識結果に基づいて、外部機器30に対して制御信号(Wi-Fi、赤外光など)を出力して、ユーザ発話に従った制御を実行する。
 なお、情報処理装置10は、ネットワークを介してサーバ20と接続され、サーバ20から、ユーザ発話に対する応答を生成するために必要となる情報を取得することが可能である。また、音声認識処理や意味解析処理をサーバに行わせる構成としてもよい。
  [2.情報処理装置の構成例について]
 次に、図3を参照して、情報処理装置の具体的な構成例について説明する。
 図3には、ユーザ発話を認識して、ユーザ発話に対応する処理や応答を行う情報処理装置10の一構成例を示す図である。
 図3に示すように、情報処理装置10は、入力部110、出力部120、データ処理部150を有する。
 なお、データ処理部150は、情報処理装置10内に構成することも可能であるが、情報処理装置10内に構成せず、外部サーバのデータ処理部を利用してもよい。サーバを利用した構成の場合、情報処理装置10は、入力部110から入力した入力データを、ネットワークを介してサーバに送信し、サーバのデータ処理部150の処理結果を受信して、出力部120を介して出力する。
 次に、図3に示す情報処理装置10の構成要素について説明する。
 入力部110は、音声入力部(マイク)111、画像入力部(カメラ)112を有する。
 出力部120は、音声出力部(スピーカー)121、画像出力部(表示部)122を有する。
 情報処理装置10は、最低限、これらの構成要素を有する。
 音声入力部(マイク)111は、図1に示す情報処理装置10のマイク12に対応する。音声入力部(マイク)111は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。
 撮像部112は、図1に示す情報処理装置10の撮像部11に対応する。例えば、ほぼ周囲360°の画像を撮影可能な全方位カメラである。
 音声出力部(スピーカー)121は、図1に示す情報処理装置10のスピーカー14に対応する。
 画像出力部(表示部)122は、図1に示す情報処理装置10の表示部13に対応する。
 なお、画像出力部(表示部)122は、例えば、プロジェクタや、液晶表示部等のディスプレイによって構成することが可能であり、また外部装置のテレビの表示部を利用した構成とすることも可能である。
 データ処理部150は、前述したように情報処理装置10、または情報処理装置10と通信可能なサーバのいずれかに構成される。
 データ処理部150は、入力データ解析部160、処理制御部170、出力制御部180、記憶部190を有する。
 入力データ解析部160は、音声解析部161、画像解析部162を有する。
 処理制御部170は、ユーザ識別部171、ユーザ情報DB(データベース)172、ユーザ対応指示解析部173、処理実行部174、アプリケーション群175を有する。
 出力制御部180は、出力音声制御部181、表示情報制御部182を有する。
 ユーザの発話音声はマイクなどの音声入力部111に入力される。
 音声入力部(マイク)111は、入力したユーザ発話音声を音声解析部161に入力する。
 音声解析部161は、例えばASR(Automatic Speech Recognition)機能を有し、音声データを複数の単語から構成されるテキストデータに変換する。
 さらに、テキストデータに対する発話意味解析処理を実行する。
 音声解析部161は、例えば、NLU(Natural Language Understanding)等の自然言語理解機能を有し、テキストデータからユーザ発話の意図(インテント:Intent)や、発話に含まれる意味のある要素(有意要素)である実体情報(エンティティ:Entity)を推定する。
 ユーザ発話から、意図(インテント)と、実体情報(エンティティ)を正確に推定、取得することができれば、情報処理装置10は、ユーザ発話に対する正確な処理を行うことができる。
 音声解析部161は、さらに、音源方向推定処理を行う。前述したように、音声入力部(マイク)111は、音源方向を特定可能とした複数のマイクロフォンから構成されるマイクロフォン・アレイとして構成されている。マイクロフォン・アレイの取得音は、複数の異なる位置に配置された複数のマイクの取得音である。音声解析部161は、この複数マイクの取得音に基づいて音源方向を推定する。マイクロフォン・アレイを構成する各マイクは音源方向に応じて位相差を持った音信号を取得する。この位相差は、音源方向に応じて異なるものとなる。音声解析部161は、各マイクの取得した音声信号の位相差を解析することで、音源方向を求める。
 音声解析部161の解析情報であるユーザ発話の音源方向情報は、処理制御部170のユーザ識別部171に入力される。
 また、音声解析部161の解析情報であるユーザ発話の意図(インテント:Intent)や、実体情報(エンティティ:Entity)を含む発話意味解析結果は、処理制御部170のユーザ対応指示解析部173に入力される。
 画像入力部112は、発話ユーザおよびその周囲の画像を撮影して、画像解析部162に入力する。
 画像解析部162は、発話ユーザの顔の表情やユーザの位置情報、行動、視線情報、発話ユーザの周囲情報等の解析を行い、この解析結果を、処理制御部170内のユーザ識別部171、ユーザ対応指示解析部172に出力する。
 処理制御部170のユーザ識別部171は、入力データ解析部160の音声解析部161や、画像解析部162からの解析情報を入力して、情報処理装置10に対する指示を要求したユーザや、情報処理装置10の前にいるユーザの識別処理を行う。
 ユーザ情報DB172には、予め登録されたユーザのユーザ情報が格納されている。具体的には、顔画像、顔特徴情報、音声情報や、その他、年齢、性別等の属来情報がユーザ識別子(ユーザID)に対応付けられて記録されている。
 ユーザ識別部171は、入力データ解析部160から入力する情報と、ユーザ情報DB172に登録された情報とを比較照合して、情報処理装置10に対する指示を要求したユーザや、情報処理装置10の前にいるユーザの識別処理を行う。
 ユーザ対応指示解析部173は、ユーザ識別部171が識別したユーザ識別情報と、入力データ解析部160の音声解析部161や、画像解析部162からの解析情報に基づいて得られる情報処理装置10に対する指示情報を結び付けて、各ユーザ対応の指示情報を解析する。
 例えば、
 (1)ユーザAの指示a、
 (2)ユーザBの指示b、
 このように各指示がどのユーザによるものかを判別する処理を行う。具体的にはユーザIDと指示情報とを対応付けたデータ、すなわちユーザ対応指示情報を生成して処理実行部174に入力する。
 なお、ユーザ対応指示解析部173は、ユーザ発話の音声解析によって得られたユーザの発話意図の他、画像入力部(カメラ)112の撮影した画像情報から得られたユーザの顔の向き、視線、指さし等のユーザのアクション(行動)を解析してユーザ対応指示情報を生成する。
 ユーザ対応指示解析部173が生成したユーザ対応指示情報は、処理実行部174に入力される。
 処理実行部174は、ユーザ対応指示情報に応じた処理を実行する。
 具体的には、例えば、アプリケーション群175からユーザ指示に応じた処理を実行するアプリケーションを選択して実行する。なお、これらのアプリケーションは情報処理装置10内の記憶部に格納されたアプリケーションに限らず、外部サーバの提供するアプリケーションである場合もある。
 処理実行部174において実行された処理結果は、出力制御部180を介して出力される。出力制御部180は、出力音声制御部181、表示情報制御部182を有する。
 出力音声制御部181は、処理実行部174におけるアプリケーションの実行結果に基づいて、ユーザに対するシステム発話を生成する。
 出力音声制御部181の生成した応答音声情報は、スピーカー等の音声出力部121を介して出力される。
 表示情報制御部182は、処理実行部174におけるアプリケーションの実行結果に基づいて、画像出力部(表示部)122の表示情報の生成、更新等のま処理を行う。例えばユーザが世界地図を見せてというユーザ発話を行った場合、世界地図を表示する。
 また、ユーザが画像出力部(表示部)122に表示されたポインタを上に移動させてといった指示を行った場合、ユーザ指示に応じてポインタを上に移動させる処理を実行する。
 また、ユーザが画像出力部(表示部)122に表示された複数のインデックス画像からの1つの画像の選択指示を行った場合、その選択無画像の拡大画像の表示や詳細情報の表示等の処理を行う。
 これらの具体的な処理例については以下において説明する。
  [3.画像出力部(表示部)に表示されたポインタの移動指示に対する処理例について]
 次に、ユーザの情報処理装置10に対する指示が、画像出力部(表示部)122に表示されたポインタの移動指示である場合に、情報処理装置101が実行する処理の具体例について説明する。
 図4には、情報処理装置10の画像出力部(表示部)122の表示画像200の一例を示している。
 表示画像200の前にはユーザA、ユーザBの2人のユーザがいる。
 これらのユーザは、ユーザ識別部171において識別されている。すなわち、ユーザA,Bともユーザ情報DB172に登録されたユーザであり、情報処理装置10は表示画像200を見ているユーザがユーザAとユーザBであることを認識している。
 情報処理装置10は、表示画像200として地図データを表示している。この表示情報200は、処理実行部174において実行されている地図表示アプリケーションが生成した表示データである。
 処理実行部174において実行されている地図表示アプリケーションに従って、情報処理装置10は、例えば以下のシステム発話を、音声出力部(スピーカー)121を介して出力する。
 システム発話=「目的地を指定してください」
 このシステム発話に併せて、処理実行部174のアプリケーションは表示情報制御部182を介して表示部にポインタを表示する。
 例えば図4に示すポインタ@t1,201が地図上に表示される。
 なお、@t1は時間t1の表示データであることを意味する。
 図4に示す表示画像200は、時間t1の表示画像である。
 次に、図5に時間t1以後(t1~t2)の表示画像200の例を示す。
 時間t1において、ユーザAが以下のユーザ発話を行う。
 ユーザAのユーザ発話=「みぎ、みぎ…」
 情報処理装置10は、このユーザ発話に対する音声認識結果に基づいて、ユーザAがポインタを右に移動させる指示を出していると認識し、処理実行部174は、ポインタを表示画像200の右方向に移動させる処理を行う。
 図5に示すように、時間t1のポインタ@t1,201は、時間t2において、ポインタ@t2,202の位置に右に移動して表示される。
 なお、ユーザAのポインタの移動要求位置は、図5の表示画像200の右領域に示す「ユーザAのポインタ移動要求位置211」であるとする。
 図6は、次の時間t2の表示画像200の例を示している。
 時間t2において、ユーザBが以下のユーザ発話を行う。
 ユーザBのユーザ発話=「うえ、うえ…」
 このとき、ユーザAも、以下のユーザ発話を継続して行っている。
 ユーザAのユーザ発話=「みぎ、みぎ…」
 情報処理装置10は、これらのユーザ発話に対する音声認識結果に基づいて、ユーザBがポインタを上に移動させる指示を出しており、ユーザAはポインタを右に移動させる指示を継続して出していると認識する。
 図6に示すように、時間t2において、ポインタは、ポインタ@t2,202の位置に表示されている。
 また、ユーザBのポインタの移動要求位置は、図6の表示画像200の上部領域に示す「ユーザBのポインタ移動要求位置212」であるとする。
 図7は、次の時間t3の表示画像200の例を示している。
 先の図6において説明したように、ユーザA,Bは、時間t2以降、以下のユーザ発話を行っている。
 ユーザAのユーザ発話=「みぎ、みぎ…」
 ユーザBのユーザ発話=「うえ、うえ…」
 このようにユーザA,Bは、それぞれ異なる方向へのポインタの移動指示を行っている。
 この場合、情報処理装置10の処理制御部170のユーザ対応指示解析部173は、情報処理装置10に対するユーザ対応指示として、以下の2つの異なる指示が行われていることを認識する。
 (ユーザA対応指示1)ユーザAによるポインタの右移動指示、
 (ユーザB対応指示2)ユーザBによるポインタの上移動指示、
 情報処理装置10の処理制御部170のユーザ対応指示解析部173は、これら2つの異なる指示が2人の異なるユーザによって行われていることを認識し、この2つの異なるユーザ対応指示情報を処理実行部174に入力する。
 処理実行部174は、ユーザ対応指示解析部173の解析した2つの異なるユーザ対応指示に応じた処理を実行する。
 すなわち、図7に示すように、時間t2におけるポインタ位置で表示されたポインタ@t2を2つに分割する。
 分割後は、以下の2つの処理を並列に実行する。
 (ユーザA対応指示1)ユーザAによるポインタの右移動指示、
 このユーザAの指示に従って、ポインタを右方向に移動させて、ポインタ@t3,203として1つのポインタを表示する。さらに、
 (ユーザB対応指示2)ユーザBによるポインタの上移動指示、
 このユーザBの指示に従ってポインタを上方向に移動させて、分割ポインタ@t3,204として1つの分割ポインタを表示する。
 すなわち、時間t2において、ポインタが分割され、右方向に移動するポインタと、上方向に移動するポインタの2つのポインタが同時に表示されることになる。
 時間t3では、
 ユーザAの指示に従って右方向に移動したポインタ@t3,203と、
 ユーザBの指示に従って上方向に移動した分割ポインタ@t3,204、
 これらの2つのポインタが表示画像200上に併せて表示された状態となる。
 この後、2つのポインタは、それぞれユーザAとユーザBの移動指示に従い、最終的には、それぞれ、図に示す「ユーザAのポインタ移動要求位置211」と、「ユーザBのポインタ移動要求位置212」の位置に到達することになる。
 処理実行部174は、表示されたポインタの各々について、ユーザと対応付けたオブジェクトとして識別し、各ポインタについて対応ユーザの指示に応じて移動させる処理を実行する。
 このように、本開示の情報処理装置10は、ユーザ単位の指示を個別に認識し、それぞれの指示を個別に並列に実行する。
 なお、ポインタを操作するユーザの指示は、方向を表す発話として、上述した上下左右の指示の他、東西南北の指示等も可能である。
 さらに、ユーザ発話に限らず、情報処理装置10の入力部として構成されているテンキーに対する操作、例えばテンキーを方向に見立てて8が上、2が下等の入力部に対する操作であってもよい。
 また、ユーザのアクション、例えば、ユーザの指差し動作などであってもよい。例えば、画像解析部162がユーザアクションを解析して、ユーザ対応指示解析部173が、各ユーザのアクションに応じたユーザ対応指示を解析する。
 ポインタを分割するか否かの判定処理は、処理実行部174がユーザ対応指示解析部173の解析結果に応じて実行する。
 処理実行部174は、ユーザ対応指示解析部173から入力するユーザ対応指示が、2人の異なるユーザによる異なる指示である場合にポインタを分割する。
 すなわち、これまでのポインタ移動を指示していたユーザと、異なる新しいユーザによって、異なる移動指示が行われたかどうかで、ポインタ分割を行うか否かを判定する。
 指示を行ったユーザが、これまでの指示を行っていたユーザと異なる新しいユーザであるか否かの判定は、ユーザ対応指示解析部173が、ユーザ識別部171の識別結果に応じて実行することになる。
 ユーザ識別部171のユーザ識別処理は、音声解析部161の解析するユーザ発話の音声波形情報や、音声方向、さらに、画像解析部162の解析したユーザの顔やユーザの全体像、ユーザの位置などに基づいて行われる。なお、このユーザ識別処理にはユーザ情報DB172に登録済みの情報を利用して行われる。
 ポインタの移動指示等のポインタ操作を行っていない、新たなユーザが新たな異なる方向への移動等、異なるポインタ操作を指示すると、処理実行部174は、ポインタを分割して、複数のポインタを表示して、各ユーザの指示に応じた複数の移動処理を行い、各ユーザの意図に応じた複数の処理を並列に実行する。
 図4~図7を参照して説明したポインタ分割による複数ユーザ対応の処理を行う処理シーケンスについて、図8に示すフローチャートを参照して説明する。
 なお、図8のフローに示す処理は、情報処理装置10の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
 以下、図8に示すフローの各ステップの処理について説明する。
  (ステップS101)
 まず、ステップS101において、情報処理装置10に対してなされたユーザ指示の解析処理を実行する。
 このユーザ指示の解析処理は、入力データ解析部160と、処理制御部170において行われる。
 ユーザ指示は、ユーザ発話、指さし、顔方向や視線の移動等、様々なユーザの行動によって行うことが可能である。
 入力データ解析部160の音声解析部161は、音声入力部(マイク)111を介して入力するユーザ発話を解析しユーザ指示の有無、ユーザ指示の意図等の解析を行う。
 また、入力データ解析部160の画像解析部162は、画像入力部(カメラ)112を介して入力するユーザの画像を解析し、例えば指さし等のユーザアクションに基づいてユーザ指示の有無、ユーザ指示の意図等の解析を行う。
 この解析情報は処理制御部170のユーザ識別部171、ユーザ対応指示解析部173に入力される。
  (ステップS102)
 ステップS102では、入力データ解析部160が解析結果に基づいてユーザ指示がポインタの移動指示であるか否かを判定する。
 ユーザ指示がポインタの移動指示である場合は、ステップS103に進む。
 ユーザ指示がポインタの移動指示でない場合は、ステップS111に進む。
  (ステップS111)
 先に、ステップS111の処理について説明する。
 ステップS111は、ステップS102において、ユーザ指示がポインタの移動指示でない場合に実行する処理である。
 ユーザ指示がポインタの移動指示でない場合は、ステップS111において、ポインタ移動指示以外のユーザ指示に応じた処理を実行する。
 この処理は、処理実行部174が、ユーザ対応指示解析部173の解析したユーザ対応指示情報に従って実行する。
 ユーザ対応指示解析部173は、前述したように、ユーザ識別部171が識別したユーザ識別情報と、入力データ解析部160の音声解析部161や、画像解析部162からの解析情報に基づいて得られる情報処理装置10に対する指示情報を結び付けて、各ユーザ対応の指示情報を解析する。
 例えば、
 (1)ユーザAの指示a、
 (2)ユーザBの指示b、
 このように各指示がどのユーザによるものかを判別する処理を行う。具体的にはユーザIDと指示情報とを対応付けたデータ、すなわちユーザ対応指示情報を生成して処理実行部174に入力する。
 処理実行部174は、ユーザ対応指示解析部173が解析したユーザ対応指示情報に応じた処理を実行する。
 具体的には、例えば、アプリケーション群175からユーザ指示に応じた処理を実行するアプリケーションを選択して実行する。なお、これらのアプリケーションは情報処理装置10内の記憶部に格納されたアプリケーションに限らず、外部サーバの提供するアプリケーションである場合もある。
  (ステップS103)
 次に、ステップS103の処理について説明する。
 ステップS103は、ステップS102において、ユーザ指示がポインタの移動指示である場合に実行する処理である。
 ユーザ指示がポインタの移動指示である場合は、ステップS103において、ポインタ移動指示を実行したユーザのユーザ識別を実行する。
 この処理は、ユーザ識別部171と、ユーザ対応指示解析部173の実行する処理である。
 ユーザ識別部171は、入力データ解析部160の音声解析部161や、画像解析部162からの解析情報を入力して、情報処理装置10に対する指示を要求したユーザや、情報処理装置10の前にいるユーザの識別処理を行う。
 ユーザ識別部171は、入力データ解析部160から入力する情報と、ユーザ情報DB172に登録された情報とを比較照合して、情報処理装置10に対する指示を要求したユーザや、情報処理装置10の前にいるユーザの識別処理を行う。
 このユーザ識別情報は、ユーザ対応指示解析部173に入力され、ユーザ対応指示解析部173は、ユーザ識別部171が識別したユーザ識別情報と、入力データ解析部160の音声解析部161や、画像解析部162からの解析情報に基づいて得られる情報処理装置10に対するユーザによるポインタ移動指示を実行したユーザを特定する。
  (ステップS104)
 さらに、ユーザ対応指示解析部173は、ステップS104において、ポインタ移動指示の実行ユーザが、新規ユーザであるか否かを判定する。
 すなわち、これまでポインタの移動指示等のポインタ操作を行っていない、新たなユーザが新たな異なる方向への移動等、異なるポインタ操作を指示したか否かの判定処理を行う。
 前述したように、ユーザ対応指示解析部173は、ユーザ識別部171が識別したユーザ識別情報と、入力データ解析部160の解析情報に基づいて得られるユーザ指示情報との対応データを生成しており、このデータに基づいてポインタ移動指示の実行ユーザが、新規ユーザであるか否かを判定する。
 ポインタ移動指示の実行ユーザが新規ユーザでなく、これまでポインタ操作を行っているユーザと同じユーザであると判定した場合は、ステップS105に進む。
 一方、ポインタ移動指示の実行ユーザがこれまで、ポインタ操作を行っていたユーザと異なる新規ユーザであると判定した場合は、ステップS106に進む。
  (ステップS105)
 ステップS105は、ステップS104で、ポインタ移動指示の実行ユーザが新規ユーザでなく、これまでポインタ操作を行っているユーザと同じユーザであると判定した場合に実行する処理である。
 この場合、ステップS105において、ユーザ指示に従ってポインタを移動する。
 この処理は、処理実行部174が実行する処理である。処理実行部174は、ユーザ対応指示解析部173の解析したユーザ対応指示情報、すなわちこれまでと同じユーザによるポインタ移動指示情報を入力して、この入力指示情報に従って処理を実行する。
 具体的には、アプリケーションの実行により、出力制御部180の表示情報制御部182に対してポインタの表示位置を変更させる処理コマンドを出力してポインタ位置をユーザの指示方向に移動させる処理を行う。
  (ステップS106)
 ステップS106は、ステップS104で、ポインタ移動指示の実行ユーザが新規ユーザであり、これまでポインタ操作を行っているユーザと異なるユーザであると判定した場合に実行する処理である。
 この場合、ステップS106において、ポインタを分割して新規ユーザの指示に従って分割ポインタを移動させて表示する。この処理は、先に図7を参照して説明した処理に相当する。
 先に図7を参照して説明したように、処理実行部174は、ユーザ対応指示解析部173の解析したユーザ対応指示情報として、例えば以下の2つのユーザ対応指示情報を入力する。
 (ユーザA対応指示1)ユーザAによるポインタの右移動指示、
 (ユーザB対応指示2)ユーザBによるポインタの上移動指示、
 処理実行部174は、これら2つの異なるユーザ対応指示に応じた処理を実行する。
 すなわち、図7に示すように、時間t2におけるポインタ位置で表示されたポインタ@t2を2つに分割し、1つは、
 (ユーザA対応指示1)ユーザAによるポインタの右移動指示、
 このユーザAの指示に従って、ポインタを右方向に移動させて、ポインタ@t3,203として1つのポインタを表示し、さらに、
 (ユーザB対応指示2)ユーザBによるポインタの上移動指示、
 このユーザBの指示に従ってポインタを上方向に移動させて、分割ポインタ@t3,204として1つの分割ポインタを表示する。
 なお、ステップS111、ステップS105、ステップS106の処理の後は、新たなユーザ指示の入力に応じてステップS101以下の処理を繰り返し実行する。
 このように、本開示の情報処理装置10は、ユーザ単位の指示を個別に認識し、それぞれの指示を個別に並列に実行する。すなわち、各ユーザの意図に応じた複数の処理を並列に実行することが可能となり、ユーザ各々に、各ユーザの要求を反映した情報や処理を提供することが可能となる。
  [4.画像出力部(表示部)の表示情報の更新処理の具体例について]
 次に、ユーザの情報処理装置10に対する指示に応じて、画像出力部(表示部)122に表示された表示情報の分割表示や拡大表示、あるいは選択表示処理等、表示情報の更新を実行する場合の具体例について説明する。
 図9には、情報処理装置10の画像出力部(表示部)122の時間t1における表示画像200の一例を示している。
 表示画像200の前にはユーザA、ユーザBの2人のユーザがいる。
 これらのユーザは、ユーザ識別部171において識別されている。すなわち、ユーザA,Bともユーザ情報DB172に登録されたユーザであり、情報処理装置10は表示画像200を見ているユーザがユーザAとユーザBであることを認識している。
 情報処理装置10は、表示画像200としておすすめ行楽地の候補値として6つの行楽地の代表画像をインデックス番号1~6とともに表示している。この表示情報200は、処理実行部174において実行されている観光ガイドアプリケーションが生成した表示データである。
 処理実行部174において実行されている観光ガイドアプリケーションに従って、情報処理装置10は、例えば以下のシステム発話を、音声出力部(スピーカー)121を介して出力する。
 システム発話=「お好きな行楽地を指定してください」
 このシステム発話に応じて、2人のユーザA,Bがそれぞれ以下の発話を行う。
 ユーザAのユーザ発話=「3番みせて」
 ユーザBのユーザ発話=「5番みせて」
 情報処理装置10は、これらのユーザ発話に対する音声認識結果に基づいて、ユーザAが3番の行楽地の詳細情報の表示を要求する指示を行っており、ユーザBが5番の行楽地の詳細情報の表示を要求する指示を行っていると認識する。
 すなわち、情報処理装置10の処理制御部170のユーザ対応指示解析部173は、情報処理装置10に対するユーザ対応指示として、以下の2つの異なる指示が行われていることを認識する。
 (ユーザA対応指示1)ユーザAによる3番の行楽地の詳細情報表示指示、
 (ユーザB対応指示2)ユーザBによる5番の行楽地の詳細情報表示指示、
 情報処理装置10の処理制御部170のユーザ対応指示解析部173は、これら2つの異なる指示が2人の異なるユーザによって行われていることを認識し、この2つの異なるユーザ対応指示情報を処理実行部174に入力する。
 処理実行部174は、ユーザ対応指示解析部173の解析した2つの異なるユーザ対応指示に応じた処理を実行する。
 すなわち、図10に示すように、表示画像200の表示領域を2つに区分して、ユーザA側の右側の区分領域に、ユーザAの指示に応じた3番の行楽地の詳細情報を表示し、ユーザB側の左側の区分領域に、ユーザBの指示に応じた5番の行楽地の詳細情報を表示する。図10に示す表示画像200は時間t2の表示画像である。
 なお、ユーザA,ユーザBの位置については、画像入力部(カメラ)112の撮影画像に基づく画像解析部162の解析結果から取得される。
 ユーザ対応指示解析部173は、ユーザ位置情報も含むユーザ対応指示情報を生成して処理実行部174に出力する。
 すなわち、具体的には、例えば、以下のようなデータセット(1),(2)をユーザ対応指示情報として生成して処理実行部174に出力する。
 (1)ユーザAの位置情報とユーザAの指示情報の対応データ、
 (2)ユーザBの位置情報とユーザBの指示情報の対応データ、
 処理実行部174は、これらのユーザ単位の位置情報を含むユーザ単位の指示情報を入力して、実行する処理を決定して決定した処理を実行する。
 この結果として、図10に示すように、ユーザAの位置する右側領域にユーザAの指示に応じた3番の行楽地の詳細情報を表示し、ユーザBの位置する左側領域にユーザBの指示に応じた5番の行楽地の詳細情報が表示される。
 さらに、図11は、時間t3における表示画像200の更新処理例を示した図である。
 時間t3においてユーザA、ユーザBは以下のアクションを伴うユーザ発話を行っている。
 ユーザA
 ユーザAアクション=左側に表示された「MMタワー」を指さしながら、
 ユーザA発話=「行ってよかった」
 ユーザB
 ユーザBアクション=右側に表示された「PP公園」を見ながら、
 ユーザB発話=「違う写真見せて」
 ユーザ対応指示解析部173は、ユーザA,ユーザBの指さしや、顔、視線方向等のユーザアクション情報を、画像入力部(カメラ)112の撮影画像に基づく画像解析部162の解析結果から取得して、ユーザアクション情報も含むユーザ対応指示情報を生成して処理実行部174に出力する。
 すなわち、具体的には、例えば、以下のようなデータセット(1),(2)をユーザ対応指示情報として生成して処理実行部174に出力する。
 (1)ユーザAのアクション情報(指さしとその方向)とユーザAの指示情報の対応データ、
 (2)ユーザBのアクション情報(顔、視線方向)とユーザBの指示情報の対応データ、
 具体的には、以下のようなデータセット(1),(2)をユーザ対応指示情報として生成して処理実行部174に出力する。
 (1)ユーザA=表示画像の左側方向の表示画像(MMタワーの詳細情報)を指さしながらユーザ発話=「行ってよかった」の投票指示、
 (2)ユーザB=表示画像の右側方向の表示画像(PP公園の詳細情報)を見ながらユーザ発話=「違う写真見せて」の指示、
 処理実行部174は、これらのユーザ単位のアクション情報を含むユーザ単位の指示情報を入力して、実行する処理を決定して決定した処理を実行する。
 この結果として、図11に示すように、ユーザAの指さし方向のMMタワーの詳細情報の投票項目[行ってよかった]に投票が行われ、投票数が1つカウントアップされる。
 また、ユーザBの見ている方向のPP公園の詳細情報に表示された写真が新たな写真に切り替える画像更新が実行される。
 このように、本開示の情報処理装置は、ユーザ各々の位置やアクション情報を解析し、さらに、ユーザ各々の位置やアクションに応じた処理を並列に実行する。このような処理を行うことで、各ユーザは、一方のユーザの処理の完了を待つといったことを行うことなく、即座に各々の指示を反映した情報の取得や処理の実行を行わせることが可能となる。
 次に、複数ユーザ各々の指示を反映させた処理を実行する実施例として、複数ユーザの指示が一致した場合の実施例について説明する。
 図12は、先に説明した図9と同様、情報処理装置10の画像出力部(表示部)122の時間t1における表示画像200の一例を示している。
 表示画像200の前にはユーザA、ユーザBの2人のユーザがいる。
 これらのユーザは、ユーザ識別部171において識別されている。すなわち、ユーザA,Bともユーザ情報DB172に登録されたユーザであり、情報処理装置10は表示画像200を見ているユーザがユーザAとユーザBであることを認識している。
 情報処理装置10は、表示画像200としておすすめ行楽地の候補値として6つの行楽地の代表画像をインデックス番号1~6とともに表示している。この表示情報200は、処理実行部174において実行されている観光ガイドアプリケーションが生成した表示データである。
 処理実行部174において実行されている観光ガイドアプリケーションに従って、情報処理装置10は、例えば以下のシステム発話を、音声出力部(スピーカー)121を介して出力する。
 システム発話=「お好きな行楽地を指定してください」
 このシステム発話に応じて、2人のユーザA,Bがそれぞれ以下の発話を行う。
 ユーザAのユーザ発話=「5番みせて」
 ユーザBのユーザ発話=「5番みせて」
 情報処理装置10は、これらのユーザ発話に対する音声認識結果に基づいて、ユーザAが5番の行楽地の詳細情報の表示を要求する指示を行っており、ユーザBも5番の行楽地の詳細情報の表示を要求する指示を行っていると認識する。
 すなわち、情報処理装置10の処理制御部170のユーザ対応指示解析部173は、情報処理装置10に対するユーザ対応指示として、以下の2つの指示が行われていることを認識する。
 (ユーザA対応指示1)ユーザAによる5番の行楽地の詳細情報表示指示、
 (ユーザB対応指示2)ユーザBによる5番の行楽地の詳細情報表示指示、
 情報処理装置10の処理制御部170のユーザ対応指示解析部173は、2人の異なるユーザの指示(同一の指示)を認識し、この2つのユーザ対応指示情報を処理実行部174に入力する。
 処理実行部174は、ユーザ対応指示解析部173の解析した2つのユーザ指示(同一の指示)に応じた処理を実行する。
 すなわち、図13に示すように、表示画像200の表示領域の全体に、2つのユーザ指示(同一の指示)に従って5番の行楽地の詳細情報を表示する。図13に示す表示画像200は時間t2の表示画像である。
 このように、本開示の情報処理装置10は、複数ユーザの指示が同じである場合、各ユーザの指示を反映した1つの処理を実行する。すなわち例えば表示領域を区分して同じ情報を並べて表示することなく、表示領域全体に1つの情報を出力する処理を行う。
 次に、複数ユーザ各々の指示を反映させた処理を実行する実施例として、複数ユーザの投票結果に基づく処理を行う実施例について説明する。
 図14は、先に説明した図9と同様、情報処理装置10の画像出力部(表示部)122の時間t1における表示画像200の一例を示している。
 表示画像200の前にはユーザA~ユーザFの6人のユーザがいる。
 これらのユーザは、ユーザ識別部171において識別されている。すなわち、ユーザA~Dは、いずれもユーザ情報DB172に登録されたユーザであり、情報処理装置10は表示画像200を見ているユーザがユーザA~ユーザFであることを認識している。
 ただし、必ずしもすべてのユーザが予めユーザ情報DB172に登録されたユーザであることは必要でない。例えば、ユーザ情報DB172に登録されていないユーザが画像入力部(カメラ)112の撮影画像から検出された場合、ユーザ識別部171は、その新規ユーザに新たなユーザIDを対応付けて顔画像や位置情報とともにユーザ情報DB172に登録する。この登録情報を用いてその後の処理を実行する。
 図14に示すように、情報処理装置10は、表示画像200としておすすめ行楽地の候補値として6つの行楽地の代表画像をインデックス番号1~6とともに表示している。この表示情報200は、処理実行部174において実行されている観光ガイドアプリケーションが生成した表示データである。
 処理実行部174において実行されている観光ガイドアプリケーションに従って、情報処理装置10は、例えば以下のシステム発話を、音声出力部(スピーカー)121を介して出力する。
 システム発話=「見たいところに投票してください」
 処理実行部174は、さらに、このシステム発話の出力に併せて、表示画像200上に投票締め切りまでの残り時間を示すバーインジケータを表示し、時間経過に併せてインジケータの残り時間の表示を減らしていくインジケータ更新処理を行う。
 システム発話に応じて、6人のユーザA~ユーザFがそれぞれ以下の発話、すなわち投票を行う。
 ユーザAのユーザ発話(投票)=「3番みせて」
 ユーザBのユーザ発話(投票)=「PP公園」
 ユーザAのユーザ発話(投票)=「5番みせて」
 ユーザBのユーザ発話(投票)=「5番」
 ユーザAのユーザ発話(投票)=「2番みせて」
 ユーザBのユーザ発話(投票)=「MMタワー」
 情報処理装置10は、これらのユーザ発話に対する音声認識結果に基づいて、ユーザA~ユーザFの発話、すなわち投票先を解析し、各行楽地1~6の得票数をカウントする。
 なお、各ユーザ発話の音声認識は、音声解析部161が実行し、どのユーザがどの発話を行ったかは、ユーザ対応指示解析部173が解析する。
 このユーザ対応指示解析部173の解析結果であるユーザ対応指示情報(=投票情報)が処理実行部174に入力される。
 処理実行部174は、実行中のアプリケーションの処理によって、各行楽地1~6に対する得票数のカウントを実行する。
 この得票数カウント処理の結果に応じて、処理実行部174は、図15に示すような表示画像の更新処理を行う。
 すなわち、図15に示すように、表示画像200の表示領域を2つに区分して、投票の多かった上位2つの行楽地の詳細情報を並べて表示する。さらに、この表示情報の更新処理に際して、以下のシステム発話を出力する。
 システム発話=投票が多かった上位2つを表示します。
 このように、本開示の情報処理装置10は、多数のユーザの指示に応じた処理をすべて並列に実行するのみならず、より多くのユーザが行った指示を選択して、その選択された指示に応じた処理を行うといった処理を行うこともできる。
 これらは、各ユーザの個別の指示をすべて解析することで実現されるものである。
 次に、図9~図15を参照して説明した処理の処理シーケンスについてフローチャートを参照して説明する。
 まず、図16に示すフローチャートを参照して、ユーザ指示に応じて画面分割を行い、各分割領域に各ユーザ指示に対応した情報を出力する処理シーケンスについて説明する。
 なお、図16のフローに示す処理は、情報処理装置10の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
 以下、図16に示すフローの各ステップの処理について説明する。
  (ステップS201)
 ステップS201~S205の処理は、処理実行部174において実行しているアプリケーションが規定する画面分割処理許容期間内に行われる処理である。
  (ステップS202)
 ステップS202において、情報処理装置10に対して実行されたユーザ指示の解析処理を行う。
 このユーザ指示の解析処理は、入力データ解析部160と、処理制御部170において行われる。
 ユーザ指示は、ユーザ発話、指さし、顔方向や視線の移動等、様々なユーザアクションによって行うことが可能である。
 入力データ解析部160の音声解析部161は、音声入力部(マイク)111を介して入力するユーザ発話を解析しユーザ指示の有無、ユーザ指示の意図等の解析を行う。
 また、入力データ解析部160の画像解析部162は、画像入力部(カメラ)112を介して入力するユーザの画像を解析し、例えば指さし等のユーザアクションに基づいてユーザ指示の有無、ユーザ指示の意図等の解析を行う。
 この解析情報は処理制御部170のユーザ識別部171、ユーザ対応指示解析部173に入力される。
  (ステップS203)
 ステップS203では、入力データ解析部160が解析結果に基づいてユーザ指示が選択肢の選択指示、すなわち表示中のデータ項目(アイテム)の選択指示であるか否かを判定する。
 例えば、先に図9を参照して説明した表示画像200である。すなわち、おすすめ行楽地の候補値として6つの行楽地の代表画像がインデックス番号1~6とともに表示されている。この場合、ユーザはインデックス番号1~6や、各画像のタイトル等を選択することができる。
 ステップS203において、ユーザ指示が選択肢の選択指示、すなわちデータ項目(アイテム)の選択指示であると判定した場合は、ステップS205に進む。
 ユーザ指示がデータ項目(アイテム)の選択指示でないと判定した場合は、ステップS211に進む。
  (ステップS211)
 先に、ステップS211の処理について説明する。
 ステップS211は、ステップS203において、ユーザ指示がデータ項目(アイテム)の選択指示でない場合に実行する処理である。
 ユーザ指示がデータ項目(アイテム)の選択指示でない場合は、ステップS211において、データ項目(アイテム)の選択指示でないユーザ指示に応じた処理を実行する。
 この処理は、処理実行部174が、ユーザ対応指示解析部173の解析したユーザ対応指示情報に従って実行する。
 ユーザ対応指示解析部173は、前述したように、ユーザ識別部171が識別したユーザ識別情報と、入力データ解析部160の音声解析部161や、画像解析部162からの解析情報に基づいて得られる情報処理装置10に対する指示情報を結び付けて、各ユーザ対応の指示情報を解析する。
 例えば、
 (1)ユーザAの指示a、
 (2)ユーザBの指示b、
 このように各指示がどのユーザによるものかを判別する処理を行う。具体的にはユーザIDと指示情報とを対応付けたデータ、すなわちユーザ対応指示情報を生成して処理実行部174に入力する。
 処理実行部174は、ユーザ対応指示解析部173が解析したユーザ対応指示情報に応じた処理を実行する。
 具体的には、例えば、アプリケーション群175からユーザ指示に応じた処理を実行するアプリケーションを選択して実行する。なお、これらのアプリケーションは情報処理装置10内の記憶部に格納されたアプリケーションに限らず、外部サーバの提供するアプリケーションである場合もある。
  (ステップS204)
 次に、ステップS204の処理について説明する。
 ステップS204は、ステップS203において、ユーザ指示がデータ項目(アイテム)の選択指示である場合に実行する処理である。
 ユーザ指示がデータ項目(アイテム)の選択指示である場合は、ステップS204において、ユーザ指示によって選択されたデータ項目(アイテム)の数をカウントする。
  (ステップS205)
 前述したようにステップS201~S205の処理は、処理実行部174において実行しているアプリケーションが規定する画面分割処理許容期間内に行われる処理である。
 この期間内に情報処理装置10の表示画像を見ている1人以上のユーザによって、データ項目(アイテム)の選択指示が実行され、1つ以上のデータ項目(アイテム)の選択指示が入力され、その選択先の数がカウントされている。
  (ステップS206)
 ステップS201~S205の処理期間が経過すると、ステップS206に進む。
 ステップS206において、ステップS201~S205の処理期間内に置いて実行されたユーザ指示に複数のデータ項目(アイテム)の選択指示が含まれるか否かを判定する。
 複数のデータ項目(アイテム)の選択指示が含まれる場合とは、例えば先に図9を参照して説明したようにユーザA,Bが各々別のインデックス番号(データ項目(アイテム))を指定した場合である。図14に示す例も同様であり、複数のデータ項目(アイテム)の選択指示が含まれる場合に相当する。
 一方、ユーザ指示に複数のデータ項目(アイテム)の選択指示が含まれない場合とは、例えば先に図12を参照して説明したようにユーザA,Bが同じインデックス番号(データ項目(アイテム))を指定した場合である。
 ユーザ指示に複数のデータ項目(アイテム)の選択指示が含まれる場合は、ステップS207に進む。一方、ユーザ指示に複数のデータ項目(アイテム)の選択指示が含まれない場合は、ステップS208に進む。
  (ステップS207)
 ステップS206の判定処理において、ユーザ指示に複数のデータ項目(アイテム)の選択指示が含まれる場合は、ステップS207に進む。
 ステップS207では、処理実行部174が、表示画像の表示領域を複数に分割して、各ユーザの指示に応じた情報をそれぞれの分割領域に表示する。
 なお、この表示処理に際しては、ユーザ位置を考慮して、ユーザ指示を行ったユーザに近い分割領域にそのユーザの指示に対応した情報を表示する。
 先に図10を参照して説明した処理である。ユーザ対応指示解析部173は、画像入力部(カメラ)112の撮影画像に基づく画像解析部162の解析結果から取得されるユーザ位置情報を含むユーザ対応指示情報を生成して処理実行部174に出力する。
 処理実行部174は、これらのユーザ単位の位置情報を含むユーザ単位の指示情報を入力して、実行する処理を決定して決定した処理を実行する。この結果として、図10に示すように、ユーザAの位置する右側領域にユーザAの指示に応じた情報、ユーザBの位置する左側領域にユーザBの指示に応じた情報が表示される。
 なお、先に図14、図15を参照して説明したように、ユーザ指示に多数のデータ項目(アイテム)が含まれる場合、これらの多数のデータ項目(アイテム)から上位のデータ項目(アイテム)項目のみを選択して表示する構成としてもよい。
  (ステップS208)
 ステップS208の処理は、ステップS206の判定処理において、ユーザ指示に複数のデータ項目(アイテム)の選択指示が含まれない場合に実行される。
 ステップS208では、処理実行部174が、表示画像の表示領域を分割することなく、ユーザ指示に応じた1つの情報を表示する。
 この処理は、先に図12、図13を参照して説明した処理に相当する。
 次に、図17に示すフローを参照して、ユーザ位置やユーザのアクションを解析して、表示画像等の出力情報の制御を行うシーケンスについて説明する。
 図17に示すフローチャートに示す処理は、情報処理装置10の記憶部に格納されたプログラムに従って実行することが可能であり、例えばプログラム実行機能を有するCPU等のプロセッサによるプログラム実行処理として行うことができる。
 以下、図17に示すフローの各ステップの処理について説明する。
  (ステップS301)
 まず、ステップS301において、ユーザ位置、ユーザアクションの解析を実行する。これらの解析処理は、画像解析部162とユーザ対応指示解析部173において実行される。
 なお、ユーザアクションとは、先に図11を参照して説明したユーザによる指さしや顔や視線方向の移動処理等である。
 画像解析部162は、画像入力部(カメラ)112の撮影画像に基づく画像解析を行い、この解析結果がユーザ対応指示解析部173に入力される。
 ユーザ対応指示解析部173は、ユーザ位置情報やユーザアクション情報を含むユーザ対応指示情報を生成して処理実行部174に出力する。
  (ステップS302)
 次に、ステップS3202において、情報処理装置10に対して実行されたユーザ指示の解析処理を行う。
 このユーザ指示の解析処理は、入力データ解析部160と、処理制御部170において行われる。
 ユーザ指示は、ユーザ発話の他、ステップSZ301で解析されているユーザの指さし、顔方向や視線の移動等の様々なユーザアクションによって行うことが可能である。
 入力データ解析部160の音声解析部161は、音声入力部(マイク)111を介して入力するユーザ発話を解析しユーザ指示の有無、ユーザ指示の意図等の解析を行う。
 また、入力データ解析部160の画像解析部162は、画像入力部(カメラ)112を介して入力するユーザの画像を解析し、例えば指さし等のユーザアクションに基づいてユーザ指示の有無、ユーザ指示の意図等の解析を行う。
 この解析情報は処理制御部170のユーザ識別部171、ユーザ対応指示解析部173に入力される。
  (ステップS303)
 次に、実行処理の決定を行う。この処理は、ユーザ対応指示解析部173と処理実行部174が実行する処理である。
 ユーザ対応指示解析部173は、ユーザ位置、ユーザアクション、ユーザ指示を対応付けたユーザ対応指示情報を生成して処理実行部174に出力する。
 処理実行部174は、ユーザ対応指示解析部173から入力するユーザ対応指示情報、すなわち、ユーザ位置、ユーザアクション、ユーザ指示を対応付けたユーザ対応指示情報に基づいて実行すべき処理を決定する。
 例えば、ユーザ対応指示情報にユーザ位置情報が付加されている場合は、先に図10を参照して説明したように、ユーザ位置に基づいて各表示情報の表示位置を決定する。
 また、ユーザ対応指示情報にユーザアクション情報が付加されている場合は、先に図11を参照して説明したように、ユーザアクションに基づいて表示情報の更新処理の態様を決定する。
  (ステップS304)
 次に、ステップS304において、ステップS303で決定した実行処理に表示情報の更新処理が含まれるか否かを判定する。
 含まれる場合は、ステップS206S305に進み、フクマレナイ場合はステップS311に進む。
  (ステップS311)
 先に、ステップS311の処理について説明する。
 ステップS311は、ステップS304において、決定した実行処理に表示情報の更新処理が含まれない場合に実行する処理である。
 この場合は、ステップS311において、表示情報更新以外のユーザ指示に応じた処理を実行する。
 例えばユーザ指示に応答するシステム発話の出力処理等である。この処理は、処理実行部174が、ユーザ対応指示解析部173の解析したユーザ対応指示情報に従って実行する。
  (ステップS305)
 次に、ステップS305の処理について説明する。
 ステップS305は、ステップS304において、決定した実行処理に表示情報の更新処理が含まれる場合に実行する処理である。
 この場合、ステップS305において、ユーザ指示に基づく表示情報更新処理を実行する。
 具体的には、例えば、先に図10を参照して説明したように、ユーザ位置に基づいて各表示情報の表示位置を設定した分割すか画像表示を行う。
 あるいは、先に図11を参照して説明したように、ユーザアクションに基づいて表示情報の更新処理を実行する。
 このように、本開示の情報処理装置は、ユーザ各々の位置やアクション情報を解析し、さらに、ユーザ各々の位置やアクションに応じた処理を並列に実行する。このような処理を行うことで、各ユーザは、一方のユーザの処理の完了を待つといったことを行うことなく、即座に各々の指示を反映した情報の取得や処理の実行を行わせることが可能となる。
  [5.情報処理装置、および情報処理システムの構成例について]
 図3に示す情報処理装置10の各構成要素の処理機能は、すべて一つの装置、例えばユーザの所有するエージェント機器、あるいはスマホやPC等の装置内に構成することも可能であるが、その一部をサーバ等において実行する構成とすることも可能である。
 図18に、本開示の処理を実行するためのシステム構成の例を示す。
 図18(1)情報処理システム構成例1は、図3に示す情報処理装置のほぼ全ての機能を一つの装置、例えばユーザの所有するスマホやPC、あるいは音声入出力と画像入出力機能を持つエージェント機器等のユーザ端末である情報処理装置410内に構成した例である。
 ユーザ端末に相当する情報処理装置410は、例えば応答文生成時に外部アプリを利用する場合にのみ、アプリ実行サーバ420と通信を実行する。
 アプリ実行サーバ420は、例えば天気情報提供サーバ、交通情報提供サーバ、医療情報提供サーバ、観光情報提供サーバ等であり、ユーザ発話に対する応答を生成するための情報を提供可能なサーバ群によって構成される。
 一方、図18(2)情報処理システム構成例2は、図3に示す情報処理装置の機能の一部をユーザの所有するスマホやPC、エージェント機器等の情報処理端末である情報処理装置410内に構成し、一部を情報処理装置と通信可能なデータ処理サーバ460において実行する構成としたシステム例である。
 例えば、図3に示す装置中の音声認識部110や画像解析部120、および処理制御部170で実行する処理をサーバ側で実行する構成等が可能である。情報処理端末側の情報処理装置410側の音声入力部101と撮像部102の取得データをサーバに送信してサーバ側でユーザ指示に対する処理を行い、処理結果を情報処理端末側の情報処理装置410に返信するといった設定である。
 具体的な構成例としては、例えば以下のような構成が可能である。情報処理端末とサーバを有する情報処理システムであり、情報処理端末は、音声入力部と、画像入力部と、音声出力部と、画像出力部と、通信部を有する。
 サーバは、情報処理端末からの受信データに基づいて、情報処理端末に対する複数ユーザからの指示各々に対応する複数の処理を並列に実行し、処理結果を情報処理端末に送信する。情報処理端末は、サーバから受信した処理結果を音声出力部と画像出力部に出力する。
 なお、この構成において、サーバは、情報処理端末に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、ユーザ対応指示情報を入力し、ユーザ対応指示情報に基づいて、各ユーザの指示に対する複数の処理を並列に実行する処理実行部を有する。
 例えば、このようなシステム構成が可能である。
 なお、ユーザ端末等の情報処理端末側の機能と、サーバ側の機能の機能分轄態様は、様々な異なる設定が可能であり、また、1つの機能を双方で実行する構成も可能である。
  [6.情報処理装置のハードウェア構成例について]
 次に、図19を参照して、情報処理装置のハードウェア構成例について説明する。
 図19を参照して説明するハードウェアは、先に図3を参照して説明した情報処理装置のハードウェア構成例であり、また、図18を参照して説明したデータ処理サーバ460を構成する情報処理装置のハードウェア構成の一例である。
 CPU(Central Processing Unit)501は、ROM(Read Only Memory)502、または記憶部508に記憶されているプログラムに従って各種の処理を実行する制御部やデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)503には、CPU501が実行するプログラムやデータなどが記憶される。これらのCPU501、ROM502、およびRAM503は、バス504により相互に接続されている。
 CPU501はバス504を介して入出力インタフェース505に接続され、入出力インタフェース505には、各種スイッチ、キーボード、マウス、マイクロフォン、センサーなどよりなる入力部506、ディスプレイ、スピーカーなどよりなる出力部507が接続されている。CPU501は、入力部506から入力される指令に対応して各種の処理を実行し、処理結果を例えば出力部507に出力する。
 入出力インタフェース505に接続されている記憶部508は、例えばハードディスク等からなり、CPU501が実行するプログラムや各種のデータを記憶する。通信部509は、Wi-Fi通信、ブルートゥース(登録商標)(BT)通信、その他インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部として機能し、外部の装置と通信する。
 入出力インタフェース505に接続されているドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア511を駆動し、データの記録あるいは読み取りを実行する。
  [7.本開示の構成のまとめ]
 以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
 なお、本明細書において開示した技術は、以下のような構成をとることができる。
 (1) 情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、
 前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行する処理実行部を有する情報処理装置。
 (2) 前記情報処理装置は、さらに、
 音声入力部を介して入力する音声の解析処理を実行する音声認識部と、
 撮像部を介して入力する撮影画像の解析処理を実行する画像解析部と、
 前記音声認識部と前記画像解析部の少なくともいずれかを用いてユーザ識別を実行するユーザ識別部を有し、
 前記ユーザ対応指示解析部は、
 前記ユーザ識別部の生成したユーザ識別情報を利用して、前記ユーザ対応指示情報を生成する(1)に記載の情報処理装置。
 (3) 前記情報処理装置に対する複数ユーザからの指示は、
 前記情報処理装置の表示画像上のポインタの異なる方向への移動指示であり、
 前記ユーザ対応指示解析部は、
 ユーザ対応指示情報として、各ユーザ単位の異なる方向へのポインタ移動指示情報を生成し、
 前記処理実行部は、
 各ユーザ単位の異なる方向へのポインタ移動指示情報に基づいて、前記表示画像上のポインタを分割して、複数のポインタを各ユーザの指示する方向へ移動させる処理を実行する(1)または(2)に記載の情報処理装置。
 (4) 前記情報処理装置に対する複数ユーザからの指示は、
 前記情報処理装置に対する異なる選択肢の選択指示であり、
 前記ユーザ対応指示解析部は、
 ユーザ対応指示情報として、各ユーザ単位の異なる選択肢の選択指示情報を生成し、
 前記処理実行部は、
 各ユーザ単位の異なる選択肢の選択指示情報に基づいて、各ユーザの選択肢に対応する処理を並列に実行する(1)または(2)に記載の情報処理装置。
 (5) 前記処理実行部は、
 各ユーザ単位の異なる選択肢の選択指示情報に基づいて、前記情報処理装置の表示画像を分割して、各ユーザの選択肢に対応する情報を並列に表示する(4)に記載の情報処理装置。
 (6) 前記処理実行部は、
 ユーザ位置に応じて情報表示位置を制御する処理を実行し、ユーザの選択した情報をそのユーザの位置に近い位置に表示する制御を実行する(5)に記載の情報処理装置。
 (7) 前記処理実行部は、
 各ユーザ単位の選択指示情報が同一の選択肢によって構成されている場合、その同一選択肢に対応する1つの情報のみを表示する(4)に記載の情報処理装置。
 (8) 前記処理実行部は、
 各ユーザ単位の異なる選択肢の選択指示情報に基づいて、
 選択ユーザの多い選択肢に対応する情報を優先的に選択して処理を実行する(4)に記載の情報処理装置。
 (9) 前記ユーザ対応指示解析部は、
 ユーザ位置とユーザ指示を対応付けたユーザ対応指示情報を生成し、
 前記処理実行部は、
 前記ユーザ対応指示情報に含まれるユーザ位置情報に基づいて、指示を実行したユーザに近い位置にそのユーザの指示に対応する情報を表示する(1)~(8)いずれかに記載の情報処理装置。
 (10) 前記ユーザ対応指示解析部は、
 ユーザアクションとユーザ指示を対応付けたユーザ対応指示情報を生成し、
 前記処理実行部は、
 前記ユーザ対応指示情報に含まれるユーザアクション情報に基づいて処理対象を決定するゅ(1)~(9)いずれかに記載の情報処理装置。
 (11) 情報処理端末とサーバを有する情報処理システムであり、
 前記情報処理端末は、
 音声入力部と、画像入力部と、
 音声出力部と、画像出力部と、
 前記音声入力部を介して取得した音声と、前記画像入力部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
 前記サーバは、
 前記情報処理端末からの受信データに基づいて、
 前記情報処理端末に対する複数ユーザからの指示各々に対応する複数の処理を並列に実行し、処理結果を前記情報処理端末に送信し、
 前記情報処理端末は、
 前記サーバから受信した処理結果を前記音声出力部と前記画像出力部の少なくともいずれかに出力する情報処理システム。
 (12) 前記サーバは、
 前記情報処理端末に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、
 前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行する処理実行部を有する(11)に記載の情報処理システム。
 (13) 情報処理装置において実行する情報処理方法であり、
 ユーザ対応指示解析部が、情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析ステップと、
 処理実行部が、前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行する処理実行ステップを実行する情報処理方法。
 (14) 情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
 前記情報処理端末は、
 音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
 前記サーバは、
 前記情報処理端末からの受信データに基づいて、
 前記情報処理端末に対する複数ユーザからの指示各々に対応する複数の処理を並列に実行し、処理結果を前記情報処理端末に送信し、
 前記情報処理端末は、
 前記サーバから受信した処理結果を音声出力部と画像出力部の少なくともいずれかに出力する情報処理方法。
 (15) 情報処理装置において情報処理を実行させるプログラムであり、
 ユーザ対応指示解析部に、情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成させるユーザ対応指示解析ステップと、
 処理実行部に、前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行させる処理実行ステップを、
 実行させるプログラム。
 また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
 なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
 以上、説明したように、本開示の一実施例の構成によれば、情報処理装置に対する複数ユーザからの指示各々に対応する処理を遅滞なく並列に実行する装置、方法が実現される。
 具体的には、例えば、情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、ユーザ対応指示情報に基づいて各ユーザ指示に対応の複数処理を並列に実行する処理実行部を有する。情報処理装置に対する複数ユーザからの指示がポインタの異なる方向への移動指示である場合、処理実行部はポインタを分割して、複数のポインタを各ユーザの指示する方向へ移動させる処理を実行する。ユーザ指示が異なる選択肢の選択指示の場合、各ユーザの選択肢に対応する情報を、表示領域を分割して並列に表示する。
 本構成により、情報処理装置に対する複数ユーザからの指示各々に対応する処理を遅滞なく並列に実行する装置、方法が実現される。
  10 情報処理装置
  11 撮像部
  12 マイク
  13 表示部
  14 スピーカー
  20 サーバ
  30 外部機器
 110 入力部
 111 音声入力部
 112 画像入力部
 120 出力部
 121 音声出力部
 122 画像出力部
 150 データ処理部
 160 入力データ解析部
 161 音声解析部
 162 画像解析部
 170 処理制御部
 171 ユーザ識別部
 172 ユーザ情報DB
 173 ユーザ対応指示解析部
 174 処理実行部
 175 アプリケーション群
 180 出力制御部
 181 出力音声制御部
 182 表示情報制御部
 410 情報処理装置
 420 アプリ実行サーバ
 460 データ処理サーバ
 501 CPU
 502 ROM
 503 RAM
 504 バス
 505 入出力インタフェース
 506 入力部
 507 出力部
 508 記憶部
 509 通信部
 510 ドライブ
 511 リムーバブルメディア

Claims (15)

  1.  情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、
     前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行する処理実行部を有する情報処理装置。
  2.  前記情報処理装置は、さらに、
     音声入力部を介して入力する音声の解析処理を実行する音声認識部と、
     撮像部を介して入力する撮影画像の解析処理を実行する画像解析部と、
     前記音声認識部と前記画像解析部の少なくともいずれかを用いてユーザ識別を実行するユーザ識別部を有し、
     前記ユーザ対応指示解析部は、
     前記ユーザ識別部の生成したユーザ識別情報を利用して、前記ユーザ対応指示情報を生成する請求項1に記載の情報処理装置。
  3.  前記情報処理装置に対する複数ユーザからの指示は、
     前記情報処理装置の表示画像上のポインタの異なる方向への移動指示であり、
     前記ユーザ対応指示解析部は、
     ユーザ対応指示情報として、各ユーザ単位の異なる方向へのポインタ移動指示情報を生成し、
     前記処理実行部は、
     各ユーザ単位の異なる方向へのポインタ移動指示情報に基づいて、前記表示画像上のポインタを分割して、複数のポインタを各ユーザの指示する方向へ移動させる処理を実行する請求項1に記載の情報処理装置。
  4.  前記情報処理装置に対する複数ユーザからの指示は、
     前記情報処理装置に対する異なる選択肢の選択指示であり、
     前記ユーザ対応指示解析部は、
     ユーザ対応指示情報として、各ユーザ単位の異なる選択肢の選択指示情報を生成し、
     前記処理実行部は、
     各ユーザ単位の異なる選択肢の選択指示情報に基づいて、各ユーザの選択肢に対応する処理を並列に実行する請求項1に記載の情報処理装置。
  5.  前記処理実行部は、
     各ユーザ単位の異なる選択肢の選択指示情報に基づいて、前記情報処理装置の表示画像を分割して、各ユーザの選択肢に対応する情報を並列に表示する請求項4に記載の情報処理装置。
  6.  前記処理実行部は、
     ユーザ位置に応じて情報表示位置を制御する処理を実行し、ユーザの選択した情報をそのユーザの位置に近い位置に表示する制御を実行する請求項5に記載の情報処理装置。
  7.  前記処理実行部は、
     各ユーザ単位の選択指示情報が同一の選択肢によって構成されている場合、その同一選択肢に対応する1つの情報のみを表示する請求項4に記載の情報処理装置。
  8.  前記処理実行部は、
     各ユーザ単位の異なる選択肢の選択指示情報に基づいて、
     選択ユーザの多い選択肢に対応する情報を優先的に選択して処理を実行する請求項4に記載の情報処理装置。
  9.  前記ユーザ対応指示解析部は、
     ユーザ位置とユーザ指示を対応付けたユーザ対応指示情報を生成し、
     前記処理実行部は、
     前記ユーザ対応指示情報に含まれるユーザ位置情報に基づいて、指示を実行したユーザに近い位置にそのユーザの指示に対応する情報を表示する請求項1に記載の情報処理装置。
  10.  前記ユーザ対応指示解析部は、
     ユーザアクションとユーザ指示を対応付けたユーザ対応指示情報を生成し、
     前記処理実行部は、
     前記ユーザ対応指示情報に含まれるユーザアクション情報に基づいて処理対象を決定する請求項1に記載の情報処理装置。
  11.  情報処理端末とサーバを有する情報処理システムであり、
     前記情報処理端末は、
     音声入力部と、画像入力部と、
     音声出力部と、画像出力部と、
     前記音声入力部を介して取得した音声と、前記画像入力部を介して取得した撮影画像を前記サーバに送信する通信部を有し、
     前記サーバは、
     前記情報処理端末からの受信データに基づいて、
     前記情報処理端末に対する複数ユーザからの指示各々に対応する複数の処理を並列に実行し、処理結果を前記情報処理端末に送信し、
     前記情報処理端末は、
     前記サーバから受信した処理結果を前記音声出力部と前記画像出力部の少なくともいずれかに出力する情報処理システム。
  12.  前記サーバは、
     前記情報処理端末に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析部と、
     前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行する処理実行部を有する請求項11に記載の情報処理システム。
  13.  情報処理装置において実行する情報処理方法であり、
     ユーザ対応指示解析部が、情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成するユーザ対応指示解析ステップと、
     処理実行部が、前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行する処理実行ステップを実行する情報処理方法。
  14.  情報処理端末とサーバを有する情報処理システムにおいて実行する情報処理方法であり、
     前記情報処理端末は、
     音声入力部を介して取得した音声と、撮像部を介して取得した撮影画像を前記サーバに送信し、
     前記サーバは、
     前記情報処理端末からの受信データに基づいて、
     前記情報処理端末に対する複数ユーザからの指示各々に対応する複数の処理を並列に実行し、処理結果を前記情報処理端末に送信し、
     前記情報処理端末は、
     前記サーバから受信した処理結果を音声出力部と画像出力部の少なくともいずれかに出力する情報処理方法。
  15.  情報処理装置において情報処理を実行させるプログラムであり、
     ユーザ対応指示解析部に、情報処理装置に対する複数ユーザからの指示各々について、各指示を行ったユーザに対応付けたユーザ対応指示情報を生成させるユーザ対応指示解析ステップと、
     処理実行部に、前記ユーザ対応指示情報に基づいて、各ユーザ指示に対応する複数の処理を並列に実行させる処理実行ステップを、
     実行させるプログラム。
PCT/JP2019/020276 2018-06-28 2019-05-22 複数の処理を並列実行する情報処理装置 Ceased WO2020003820A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US17/254,202 US20210271358A1 (en) 2018-06-28 2019-05-22 Information processing apparatus for executing in parallel plurality of pieces of processing
EP19827076.1A EP3816774A4 (en) 2018-06-28 2019-05-22 Information processing device for executing plurality of processes in parallel

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-122697 2018-06-28
JP2018122697 2018-06-28

Publications (1)

Publication Number Publication Date
WO2020003820A1 true WO2020003820A1 (ja) 2020-01-02

Family

ID=68986379

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/020276 Ceased WO2020003820A1 (ja) 2018-06-28 2019-05-22 複数の処理を並列実行する情報処理装置

Country Status (3)

Country Link
US (1) US20210271358A1 (ja)
EP (1) EP3816774A4 (ja)
WO (1) WO2020003820A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4044019A1 (en) * 2021-02-11 2022-08-17 Nokia Technologies Oy An apparatus, a method and a computer program for rotating displayed visual information

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102875308B1 (ko) * 2020-06-29 2025-10-23 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 애플릿의 음성 제어방법, 기기 및 저장매체

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187553A (ja) 1991-06-20 2000-07-04 Fuji Xerox Co Ltd 入力装置および入力装置用ヘッドマウントディスプレイ
JP2003330697A (ja) * 2002-05-14 2003-11-21 Takenaka Komuten Co Ltd 情報表示装置
US20120268372A1 (en) * 2011-04-19 2012-10-25 Jong Soon Park Method and electronic device for gesture recognition
JP2014120138A (ja) * 2012-12-19 2014-06-30 Fujitsu Ltd 異常原因推定プログラム、異常原因推定装置及び異常原因推定方法
JP2014153792A (ja) * 2013-02-06 2014-08-25 Mitsubishi Electric Corp 電子機器
JP2017182275A (ja) * 2016-03-29 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9256282B2 (en) * 2009-03-20 2016-02-09 Microsoft Technology Licensing, Llc Virtual object manipulation
KR102160736B1 (ko) * 2014-01-09 2020-09-28 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치의 표시 방법
US10558951B2 (en) * 2014-09-17 2020-02-11 Blucup Ltd. Method and arrangement for generating event data

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187553A (ja) 1991-06-20 2000-07-04 Fuji Xerox Co Ltd 入力装置および入力装置用ヘッドマウントディスプレイ
JP2003330697A (ja) * 2002-05-14 2003-11-21 Takenaka Komuten Co Ltd 情報表示装置
US20120268372A1 (en) * 2011-04-19 2012-10-25 Jong Soon Park Method and electronic device for gesture recognition
JP2014120138A (ja) * 2012-12-19 2014-06-30 Fujitsu Ltd 異常原因推定プログラム、異常原因推定装置及び異常原因推定方法
JP2014153792A (ja) * 2013-02-06 2014-08-25 Mitsubishi Electric Corp 電子機器
JP2017182275A (ja) * 2016-03-29 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3816774A4

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4044019A1 (en) * 2021-02-11 2022-08-17 Nokia Technologies Oy An apparatus, a method and a computer program for rotating displayed visual information
US12067321B2 (en) 2021-02-11 2024-08-20 Nokia Technologies Oy Apparatus, a method and a computer program for rotating displayed visual information

Also Published As

Publication number Publication date
US20210271358A1 (en) 2021-09-02
EP3816774A4 (en) 2022-01-05
EP3816774A1 (en) 2021-05-05

Similar Documents

Publication Publication Date Title
US12455877B1 (en) Identifying user content
US7177815B2 (en) System and method of context-sensitive help for multi-modal dialog systems
KR102002979B1 (ko) 사람-대-사람 교류들을 가능하게 하기 위한 헤드 마운티드 디스플레이들의 레버리징
CN107112014B (zh) 在基于语音的系统中的应用焦点
JP6440513B2 (ja) 音声認識機能を用いた情報提供方法および機器の制御方法
CN111295708B (zh) 语音识别设备及其操作方法
WO2016185809A1 (ja) 情報処理装置、情報処理方法およびプログラム
US10586528B2 (en) Domain-specific speech recognizers in a digital medium environment
WO2019107145A1 (ja) 情報処理装置、及び情報処理方法
KR20140014812A (ko) 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
CN112805662A (zh) 信息处理装置、信息处理方法和计算机程序
JP2014093778A (ja) 放送受信装置、サーバおよびその制御方法
WO2019026617A1 (ja) 情報処理装置、及び情報処理方法
US9772815B1 (en) Personalized operation of a mobile device using acoustic and non-acoustic information
KR102740121B1 (ko) 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
US20200388268A1 (en) Information processing apparatus, information processing system, and information processing method, and program
WO2020003820A1 (ja) 複数の処理を並列実行する情報処理装置
WO2019150708A1 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US11501208B2 (en) Rehearsal-based presentation assistance
US20210065708A1 (en) Information processing apparatus, information processing system, information processing method, and program
US20210020179A1 (en) Information processing apparatus, information processing system, information processing method, and program
JPWO2017175442A1 (ja) 情報処理装置、および情報処理方法
JP2021047507A (ja) 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム
US20210217412A1 (en) Information processing apparatus, information processing system, information processing method, and program
US12062362B2 (en) Information processing device, information processing system, and information processing method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19827076

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2019827076

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2019827076

Country of ref document: EP

Effective date: 20210128

NENP Non-entry into the national phase

Ref country code: JP