WO2015125329A1 - マルチモーダル情報処理装置 - Google Patents

マルチモーダル情報処理装置 Download PDF

Info

Publication number
WO2015125329A1
WO2015125329A1 PCT/JP2014/074673 JP2014074673W WO2015125329A1 WO 2015125329 A1 WO2015125329 A1 WO 2015125329A1 JP 2014074673 W JP2014074673 W JP 2014074673W WO 2015125329 A1 WO2015125329 A1 WO 2015125329A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
output
unit
input
abstract
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2014/074673
Other languages
English (en)
French (fr)
Inventor
啓吾 川島
貴弘 大塚
山浦 正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2016503921A priority Critical patent/JP6009121B2/ja
Priority to EP14883349.4A priority patent/EP3112982A4/en
Priority to US15/103,359 priority patent/US9899022B2/en
Priority to CN201480075709.6A priority patent/CN106030459B/zh
Publication of WO2015125329A1 publication Critical patent/WO2015125329A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/038Control and interface arrangements therefor, e.g. drivers or device-embedded control circuitry
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/2803Home automation networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/43615Interfacing a Home Network, e.g. for connecting the client to a plurality of peripherals
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a multimodal information processing apparatus for handling output information to a plurality of different output devices and output devices as unified information.
  • the apparatus described in Patent Document 1 includes a means for determining an output device and a means for converting the data format of the output information into a data format that can be processed by the output device.
  • the information processing apparatus since the information processing apparatus generates an output data format that can be processed by the output device or output device, when each output device or output device performs output in consideration of the current situation, the information processing apparatus It is necessary to design to acquire the status of each output device or output device and generate output information according to the acquired status. Therefore, there has been a problem that the information processing apparatus side needs to be redesigned every time the operation of any output device or output device is changed.
  • the present invention has been made to solve the above-described problems, and even when the output device or output device connected to the information processing apparatus is changed, multimodal information processing that does not require the information processing apparatus to be changed.
  • the object is to obtain a device.
  • the multimodal information processing device is an output for generating abstract output information that is independent of the type of the output unit corresponding to the input information in the multimodal information processing device in which the output unit performs processing based on the input information.
  • the multimodal information processing apparatus of the present invention generates abstracted output information irrelevant to the type of output unit corresponding to the input information, and the output unit abstracts based on the monitoring result of the operation status of the own output unit Since the realization information is generated from the output information and the corresponding processing is performed, even if the output device or output device connected to the information processing apparatus is changed, there is no need to change the information processing apparatus side.
  • FIG. 1 is a block diagram showing a multimodal information processing apparatus according to Embodiment 1 of the present invention.
  • the multimodal information processing apparatus shown in FIG. 1 includes an input unit 1, an output information generation unit 3, and output units 5a, 5b,.
  • the input unit 1 is a processing unit that receives input from a user or input from a device, and includes a plurality of input units 1a, 1b, 1c,. These input means 1a, 1b, 1c,... Are means for acquiring user input information and information from equipment, and the output of each of them is input information 2a, 2b, 2c,. 3 is output.
  • the output information generation unit 3 generates output information that does not depend on the output units 5a, 5b,... From the input information 2a, 2b, 2c,.
  • the processing unit includes an input information integration unit 31, an abstract output information output specification 33, and an abstract output information generation unit 34.
  • the input information integration unit 31 interprets one or more input information 2a, 2b, 2c,... Input from the input unit 1 and is an abstract input that is input information independent of the input means 1a, 1b, 1c,.
  • a processing unit that outputs the information 32.
  • the output specification 33 of the abstract output information is a database in which information indicating the relationship between the abstract input information 32 and the abstract output information 4 is described.
  • the abstract output information generation unit 34 is a processing unit that generates the abstract output information 4 from the abstract input information 32 with reference to the output specification 33 of the abstract output information.
  • the output units 5a, 5b,... Are output devices and output devices that generate and execute output information that can be processed based on the abstracted output information 4.
  • the output device means a device having relatively few components such as an audio output device or a display device to be described later or a device constituting an output device, and the output device is a comparison such as an air conditioner. It means something that has a lot of structural components or a collection of devices.
  • the status monitoring units 51a, 51b,... Monitor the operation status of the output units 5a, 5b,... And output the status information 52a, 52b,.
  • the interpretation specifications 53a, 53b,... Are databases in which the interpretation method of the abstract output information 4 and the situation information 52a, 52b,.
  • the semantic interpretation units 54a, 54b,... are realized output information that is output information that can be processed by the output device or output device from the abstract output information 4, the status information 52a, 52b,. This is a processing unit for generating 55a, 55b,.
  • the processing execution units 56a, 56b,... Are processing units that execute actual processing as output devices or output devices.
  • the input information 2a, 2b, 2c,... Acquired by the input means 1a, 1b, 1c,... In the input unit 1 is input hardware key input signals, mouse coordinate information, voice recognition text data, and so on. Any format including information usable for processing, such as an audio signal, an interpretation result of gesture recognition, an input image signal, and an operation completion signal of another device may be used.
  • the abstracted input information 32 generated by the input information integrating unit 31 of the output information generating unit 3 is input means 1a, 1b, 1c,..., Such as numerical data, text data, binary data, bit data, or a combination thereof. Any information or data format that can be interpreted by the abstracted output information generation unit 34 may be used.
  • the output specification 33 of the abstracted output information of the output information generating unit 3 is information for generating the abstracted output information 4 from the abstracted input information 32, and is described in a markup language such as tab-delimited text or XML.
  • the abstract output information generation unit 34 may interpret the external definition file / database as an external definition file database, or may be coded in the processing program of the abstract output information generation unit 34.
  • the abstract output information 4 generated by the abstract output information generation unit 34 of the output information generation unit 3 includes numerical data, text data, binary data, bit data, data that is a combination thereof, and the like. Any information or data format that can be generated as output information independent of the output units 5a, 5b,...
  • the status information 52a, 52b,... Output by the status monitoring units 51a, 51b,... Of the output units 5a, 5b, ... are output devices and output devices such as power status information, operating task information, and completed task information. It may be information on the state of itself, and may be information on the surrounding environment such as the temperature and humidity around the output device and the output device, and noise conditions.
  • the interpretation specifications 53a, 53b, ... of the output units 5a, 5b, ... are information for generating the embodied output information 55a, 55b, ... from the abstract output information 4 and the situation information 52a, 52b, ...
  • the semantic interpretation units 54a, 54b,... May be interpreted as an external definition file database described in a markup language such as delimited text or XML, and coded in the processing program of the semantic interpretation units 54a, 54b,. As long as the abstract output information 4 and the situation information 52a, 52b,... Can be associated with the semantic interpretation units 54a, 54b,.
  • the output information 55a, 55b,... Generated by the semantic interpreters 54a, 54b,... Of the output units 5a, 5b,... Is information that can be uniquely interpreted when the output device or output device performs processing. Any information corresponding to an output device or output device such as an audio signal, image data, or control signal may be used.
  • the input unit 1, the output information generation unit 3, and the output units 5a, 5b,... May exist on the same hardware, and are connected in a bidirectional or unidirectional manner to communicate. Also good.
  • FIG. 2 is a flowchart showing the operation of the multimodal information processing apparatus according to the first embodiment.
  • the input unit 1 accepts input information 2a, 2b, 2c,... To the multimodal information processing apparatus from one or more input means 1a, 1b, 1c,... And outputs it to the output information generation unit 3 (step ST1). ).
  • Input to the input means 1a, 1b, 1c,... May be direct input from the user such as keyboard input or mouse input, or input accompanied by interpretation of the user's action such as voice recognition or gesture recognition. It may be input from another system or apparatus.
  • the input information integration unit 31 of the output information generation unit 3 interprets the input intention from one or more input information 2a, 2b, 2c,. , 1b, 1c,...,
  • the abstracted input information 32 that is the abstracted input information is generated and output to the abstracted output information generating unit 34.
  • a method described in JP-A-11-24813 can be used.
  • An example of this document describes a method for converting input information into a generalized command script based on dictionary data.
  • a known method for obtaining one input result from one or more pieces of input information is used. good.
  • the abstracted input information 32 that can be interpreted without depending on the input means may be directly input from a predetermined input device.
  • the output information generating unit 3 and the output specification 33 of the abstracted output information are abstracted. What is necessary is just to be comprised from the output information generation part 34.
  • the abstract output information generation unit 34 refers to the output specification 33 of the abstract output information, generates the abstract output information 4 from the abstract input information 32, and outputs it to the output units 5a, 5b,. .
  • FIG. 3 is an explanatory diagram showing a process of generating the abstracted output information 4 of the output information generating unit 3.
  • the abstracted input information 32 and the abstracted output information 4 illustrated in FIG. 3 are composed of “object” indicating the object of information, “predicate” indicating the operation of the information, and “value” indicating the variable value of the information. It shall be configured information.
  • FIG. 3 shows an example in which input information 2a, 2b, 2c,... Is input from a plurality of input means (speech recognition, motion recognition, controller).
  • 3 is a case where the output units 5a, 5b,... Are air conditioners and this control is performed, as will be described later with reference to FIG.
  • the input information integration unit 31 converts the input information 2a, 2b, 2c,... Into the abstract input information 32.
  • the input information obtained by voice recognition of the user's “hot” utterance and the input information recognized by the motion recognition of the user ’s “blue” motion are the same abstracted input information 32, “room temperature”. ”And the value“ hot ”.
  • a “cooling ON” signal is directly input from the controller, conversion to abstract input information of the object “cooling” and the predicate “ON” is performed.
  • the abstract output information generation unit 34 refers to the output specification 33 of the abstract output information.
  • Corresponding abstracted output information 4 is generated.
  • any of the abstraction input information 32 is an output specification for performing the same processing, and is converted into the abstraction output information 4 of the object “room temperature” predicate “lower”.
  • the abstracted input information 32 and the abstracted output information 4 are represented by three pieces of information divided into roles of “object”, “predicate”, and “value”. Or other information such as an input device, an output device, and reliability. Further, the abstract input information 32 and the abstract output information 4 may be in different formats.
  • the output specification 33 of the abstract output information is information that associates the abstract input information 32 and the abstract output information 4 in pairs, but the output information is based on continuous input information such as state transitions. May be information that can be generated. This is the description of the process of generating the abstracted output information 4 of the output information generating unit 3 in step ST3 of FIG.
  • the abstracted input information 32 is not input from the input means 1a, 1b, 1c,..., But the output information generating unit 3 itself has received the fixed abstracted input information 32 at regular intervals, for example. It may be generated.
  • the multimodal information processing apparatus includes an output information generation unit 3 and output units 5a, 5b,..., And the output information generation unit 3 generates an output specification 33 of abstract output information and abstract output information generation. What is necessary is just to be comprised from the part 34.
  • the status monitoring units 51a, 51b,... Of each output unit 5a, 5b,... Acquire the current status of each output unit 5a, 5b,.
  • the operations common to the output units 5a, 5b,... are the status monitoring unit 51, status information 52, interpretation specification 53, semantic interpretation unit 54, embodied output information 55, and processing execution unit in the output unit 5.
  • the status information 52 may acquire an internal state such as a power source or an operation task of the output device or the output device, and uses various sensors such as a temperature sensor, an anemometer, and a noise meter, and the surrounding environment of the output device or the output device. May be acquired as long as it is a combination of one or more of them.
  • the semantic interpretation unit 54 of the output unit 5 refers to the interpretation specification 53 from the abstracted output information 4 input from the output information generation unit 3 and the status information 52 input from the status monitoring unit 51.
  • output information that can be executed by the output device or the output device is generated and output to the processing execution unit 56 as the embodied output information 55.
  • FIG. 4 is an explanatory diagram showing processing for generating the embodied output information 55 of the semantic interpretation unit 54.
  • the interpretation specification 53 illustrated in FIG. 4 represents a state transition in which the realization output information 55 corresponding to the state information 52 and the abstraction output information 4 can be set.
  • abstracted output information 4 for lowering the room temperature is input to the air conditioner that is the output unit 5, and the status information 52 that the air conditioner is in a standby state and the room temperature is 36 degrees is a semantic interpreter 54. It is an example when it is input to.
  • the semantic interpretation unit 54 Based on the state transition of the interpretation specification 53, the semantic interpretation unit 54 receives the abstract output information 4 (object “room temperature”, predicate “decrease”) and changes from “standby state” to “wind speed setting state”. . Further, upon receiving the status information 52 of the room temperature of 36 degrees, it enters a state of outputting “cooling activation with strong wind”, and outputs a signal indicating “cooling activation with strong wind” to the processing execution unit 56 as embodied output information 55.
  • the interpretation specification 53 is expressed as state transition that is information that can generate output information based on continuous input information, but other expression methods may be used.
  • Information that associates the embodied output information 55 in pairs may be used. This is the description of the process of generating the embodied output information 55 of the semantic interpretation unit 54 in step ST5 of FIG.
  • the semantic interpretation unit 54 may be configured to input user information instead of the situation information 52.
  • the user information may be information indicating a specific user such as an ID, or may be information indicating a group such as a man / woman or hot / cold, and there are many strong winds. / It may directly indicate the type of operation such as a lot of light wind.
  • the interpretation specification 53 expresses a state transition in which the realization output information 55 corresponding to the user information and the abstract output information 4 can be set, and the semantic interpretation unit 54 includes the abstract output information 4 and the user. By generating the embodied output information 55 according to the information, an operation / function according to the user to be used is possible.
  • the semantic interpretation unit 54 may be configured to input the situation information 52 and the user information.
  • the interpretation specification 53 is implemented according to the situation information 52, the user information, and the abstracted output information 4.
  • the state interpreter 54 represents a state transition in which the output information 55 can be set, and the semantic interpretation unit 54 uses the abstraction output information 4, the situation information 52, and the realization output information 55 corresponding to the user information to generate It is possible to operate and function according to the user and the situation.
  • an example of the operation when the semantic interpretation unit 54 inputs the status information 52 and the user information is as follows.
  • abstract output information 4 for lowering the temperature of the room is input to the air conditioner that is the output unit 5, the status information 52 that the air conditioner is in a standby state and the room temperature is 36 degrees, and strong winds are preferred at high temperatures.
  • the semantic interpretation unit 54 extracts the abstracted output information 4 (object “room temperature”, predicate “lower”) based on the state transition of the interpretation specification 53. ) To change from “standby state” to “wind speed setting state”.
  • the semantic interpretation unit 54 may input the status information 52 of another output unit 5, and if configured in this way, the operation and function according to the other output unit 5 can be performed. For example, when the coordinates of the device are set and displayed on the display unit, one abstracted output information 4 that means setting the coordinates is received, and the operating device that sets the coordinates is used as the status information 52 when the coordinate setting is completed. Completion information is output, and the display unit can perform coordinated operations such as displaying coordinates after receiving completion information from the operating device.
  • semantic interpretation unit 54 may perform processing only on the abstracted output information 4 defined in the interpretation specification 53.
  • step ST ⁇ b> 6 the process execution unit 56 of each output unit 5 executes the operation as the output unit 5 based on the embodied output information 55 input from the semantic interpretation unit 54.
  • FIG. 5 is an explanatory diagram showing processing when a plurality of output units 5a, 5b, 5c,... Are connected.
  • the output units 5a, 5b, 5c,... Illustrated in FIG. 5 include an output device 1 (audio output device), an output device 2 (display device), and an output device (air conditioner) that output different forms.
  • FIG. 5 shows an example in which abstracted output information 4 indicating that the room temperature is lowered is output from the output information generating unit 3.
  • the same abstracted output information 4 is input to the semantic interpretation units 54a, 54b, 54c,... Of the output units 5a, 5b, 5c,..., And the status information 52a, 5a, 5b, 5c,. 52b, 52c,... And interpretation specifications 53a, 53b, 53c,.
  • the output unit 5a monitors the audio reproduction state of the device and sets it as status information 52a.
  • the semantic interpreter 54a creates audio data “I will turn on the air” and uses it as the embodied output information 55a. However, if the device is in the process of outputting another audio, it is implemented so that the audio is output after completion.
  • the output information 55a is output. If the announcement has a high degree of urgency, the interpretation specification 53a can be designed and processed so that the current output is interrupted and the announcement is output.
  • the output unit 5b (output device 2 (display device)) generates and outputs the text “cooling setting” different from the output device 1 from the same abstracted output information 4 as embodied output information 55b.
  • the output unit 5c monitors the room temperature and sets it as the status information 52c.
  • the semantic interpretation unit 54c outputs the embodied output information 55c so as to cool the same abstracted output information 4, but in a situation where the room temperature is rapidly rising according to the interpretation specification 53c, a strong wind
  • the embodied output information 55c is output so as to be cooled, and in a situation where the room temperature hardly changes, the embodied output information 55c is output so as to be cooled by a weak wind.
  • the type is not related to the input information.
  • Output information generation unit that generates the abstract output information of the output, the output unit is embodied from the abstract output information based on the status monitoring unit that monitors the operation status of its own output unit and the monitoring result of the status monitoring unit Since the semantic interpretation unit for generating information and the processing execution unit for performing processing corresponding to the realization information are provided, the information processing device can be used even when the output device or output device connected to the information processing device is changed. There is no need to change the side.
  • the output information generation unit generates abstract output information that does not depend on the output device or output device from the abstract input information.
  • it is configured to generate and execute embodied output information that can be executed by each output device or output device.
  • the output information generation unit outputs each output as compared to the need to design the output information generation unit considering the status of all output devices and output devices. There is no need to consider the status and operation of the device or output device, and the design and control can be simplified.
  • the output information generation unit is configured to output the same abstract output information regardless of the type of output device or output device, it is necessary for the output information generation unit to hold information about the output destination device or device. In addition, there is an effect that processing for selecting an output destination device or device can be omitted.
  • each output device or output device performs processing only on the abstract output information for which the method of generating the materialized output information is defined, so that the output device or output device can output all abstract outputs. There is no need to define processing for information, and the design can be simplified.
  • the output unit includes an interpretation specification indicating the relationship between the abstracted output information and the realization information, and the semantic interpretation unit refers to the interpretation specification and is abstracted. Since the realization information is generated by interpreting the output information, it is possible to realize different operations and functions from the same output information compared to the case where the operation corresponding to the specific output signal is defined in advance. There is.
  • the semantic interpretation unit interprets the information including the operation status of the output unit of the user who uses the output unit. There exists an effect that operation
  • the semantic interpretation unit interprets based on the monitoring result from the status monitoring unit of the output unit different from the self-output unit. It is possible to realize operations / functions in which a plurality of output devices and output devices are linked from the abstract output information.
  • the output information generation unit includes an input information integration unit that generates abstract input information that is unrelated to the type of input information, and is based on the abstract input information. Therefore, any kind of input information can be handled.
  • each output unit performs processing according to the abstract output information output by the output information generation unit.
  • the output information generation unit displays the status of the output unit.
  • FIG. 6 is a configuration diagram of the multimodal information processing apparatus according to the second embodiment.
  • the multimodal information processing apparatus includes an input unit 1, an output information generation unit 30, and one or more output units 5a, 5b,.
  • the input unit 1 is the same as that of the first embodiment.
  • the input information integration unit 31 and the generated abstract input information 32 in the output information generation unit 30 are the same as those in the first embodiment, and thus the description thereof is omitted here.
  • the abstracted output information generating unit 340 of the output information generating unit 30 receives the abstracted status information 57 output from the status monitoring unit 51a of the output units 5a, 5b,. Based on the output specification 330, the abstracted output information 40 is generated.
  • the output specification 330 of the abstracted output information is a database that shows the relationship between these information and the abstracted output information 40 including the abstracted status information 57 in addition to the abstracted input information 32 of the first embodiment.
  • the basic configuration of the output units 5a, 5b,... Is the same as that of the first embodiment, and the situation monitoring units 51a, 51b,..., Interpretation specifications 53a, 53b,. A portion 56 is provided.
  • the abstracted status information 57 is output from the status monitoring units 51a, 51b,..., And in the example shown in FIG. 6, the abstracted from the status monitoring unit 51a of the output unit 5a.
  • the situation information 57 is configured to be output.
  • FIG. 7 is a flowchart illustrating the operation of the multimodal information processing apparatus according to the second embodiment.
  • the operation before step ST2 is the same as that of the flowchart of FIG. 2 in the first embodiment, the description thereof is omitted here.
  • the abstract output information generation unit 340 refers to the output specification 330 of the abstract output information, and the abstract input information 32 and the abstract status information Abstraction output information 40 is generated from 57 and output to the output units 5a, 5b,... (Step ST7).
  • Other operations are the same as those in step ST3 of the first embodiment.
  • the abstraction status information 57 is described in the same format as the abstraction input information 32 and is handled in the same manner. For example, the description is as follows.
  • Example 1 Only when the power of the device A is turned on, the abstract output information 40 in which the device A and another device cooperate is output according to the subsequent abstract input information 32.
  • Example 2) The abstraction status information 57 that the power of the device A is turned on is received, and the abstract output information 40 that the power of the device B is turned on is output.
  • step ST8 the status monitoring units 51a, 51b,... Of each output unit 5a, 5b,... Acquire the current status of the output units 5a, 5b,. 54a, 54b,...
  • the status information 52a is converted into abstract information that does not depend on the output units 5a, 5b,... In the same format as the abstract input information 32, and the abstract status information 57 is generated as the abstract status information 57.
  • the unit 34a To the unit 34a.
  • step ST5 and step ST6 are the same operations as those in the flowchart of FIG. 2 in the first embodiment, description thereof is omitted here.
  • the output units 5a, 5b,... are configured to create the abstract status information 57 and input it to the abstract output information generation unit 340.
  • the status information 52a, 52b is input to the input information integration unit 31. ,... May be input and handled as input information 2a, 2b, 2c,.
  • the abstraction status information 57 is output from one output unit 5a, but may be output from a plurality of output units 5a, 5b,.
  • the abstraction output information generation unit 340 generates one or a plurality of abstraction output information 40 based on the plurality of abstraction status information 57.
  • the abstraction output information generation unit 340 may generate a plurality of abstraction output information 40 from one abstraction status information 57.
  • the output information generation unit generates the abstract output information based on the monitoring result from the status monitoring unit of the output unit. There is an effect that the output information generation unit can generate abstract output information in consideration of the status of the output unit.
  • the output information generation unit receives the monitoring result from the status monitoring unit of the output unit as an input, and abstract status information described in the same format as the abstract input information Since the input information integration unit for generating the output information is generated based on the abstracted input information and the abstracted status information, any monitoring result from the status monitoring unit can be handled. be able to.
  • the multimodal information processing apparatus generates abstracted output information irrelevant to the type of the output unit corresponding to the input information, and the output unit is based on the monitoring result of the operation status of the own output unit. Since the realization information is generated from the computerized output information and the corresponding processing is performed, even if the output device or output device connected to the information processing device is changed, there is no need to change the information processing device side. It is suitable for use in an information output system that outputs information to a plurality of different output devices and output devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • User Interface Of Digital Computer (AREA)
  • Toys (AREA)

Abstract

 出力情報生成部3は、入力部1からの情報に対応して出力部5a,5b,…の種類とは無関係の抽象化出力情報4を生成する。出力部5a,5b,…の意味解釈部54a,54b,…は、自出力部の動作状況を監視する状況監視部51a,51b,…の監視結果に基づいて、抽象化出力情報4から具現化出力情報55a,55b,…を生成する。 処理実行部56a,56b,…は、具現化出力情報55a,55b,…に対応した処理を行う。

Description

マルチモーダル情報処理装置
 本発明は、複数の異なる出力機器や出力デバイスへの出力情報を統一的な情報として扱うためのマルチモーダル情報処理装置に関するものである。
 従来、同一の目的となる出力情報を、複数種類の出力機器や出力デバイス(例えば、ディスプレイや音声再生機など)で出力する場合、予め出力機器や出力デバイス毎の出力情報(テキストデータと音声データなど)を用意する方法があった。しかし、このような方法は、予め出力機器や出力デバイスの種類やその出力情報の形式を想定した設計が必要で、出力機器や出力デバイスが変わると設計し直す必要がある。
 そこで、この課題を解決するため、例えば特許文献1に記載された装置では、出力デバイスを決定する手段と、出力情報のデータ形式を変換する手段とを備え、出力デバイスが処理可能なデータ形式に変換して出力デバイスへ出力することで、予め複数の出力データの形式を考慮しなくても良い情報出力システムを実現していた。
特開2001-265370号公報
 今日では、出力機器や出力デバイスの多様化に伴い、情報処理装置で利用可能な出力機器や出力デバイスが多くなり、また、システム構築後にも変更される場合が増えている。
 しかしながら、例えば、特許文献1に示されたような、出力処理装置を決定する手段や出力情報のデータ形式を変換する手段を、情報処理装置側が持つ構成とした場合、接続可能な出力機器や出力デバイスの変更や、いずれかの出力機器や出力デバイスのデータ形式の変更がある度に、情報処理装置側を設計し直さなければならないという課題があった。
 また、情報処理装置側において出力機器や出力デバイスが処理可能な出力データ形式を生成する構成であるため、各出力機器や出力デバイスが現在の状況を考慮した出力を行う場合に、情報処理装置が各出力機器や出力デバイスの状況を取得し、取得した状況に応じた出力情報を生成するように設計する必要がある。そのため、いずれかの出力機器や出力デバイスの動作が変更される度に、情報処理装置側を設計し直す必要があるという課題があった。
 この発明は上記のような課題を解決するためになされたもので、情報処理装置に接続する出力機器や出力デバイスが変更された場合でも、情報処理装置側を変更する必要のないマルチモーダル情報処理装置を得ることを目的とする。
 この発明に係るマルチモーダル情報処理装置は、入力情報に基づき出力部が処理を行うマルチモーダル情報処理装置において、入力情報に対応して出力部の種類とは無関係の抽象化出力情報を生成する出力情報生成部を備え、出力部は、自出力部の動作状況を監視する状況監視部と、状況監視部の監視結果に基づいて、抽象化出力情報から具現化情報を生成する意味解釈部と、具現化情報に対応した処理を行う処理実行部とを有するものである。
 この発明のマルチモーダル情報処理装置は、入力情報に対応して出力部の種類とは無関係の抽象化出力情報を生成し、出力部は、自出力部の動作状況の監視結果に基づいて抽象化出力情報から具現化情報を生成して対応した処理を行うようにしたので、情報処理装置に接続する出力機器や出力デバイスが変更された場合でも、情報処理装置側を変更する必要がない。
この発明の実施の形態1によるマルチモーダル情報処理装置を示す構成図である。 この発明の実施の形態1によるマルチモーダル情報処理装置の動作を示すフローチャートである。 この発明の実施の形態1によるマルチモーダル情報処理装置の抽象化出力情報を生成する処理を示す説明図である。 この発明の実施の形態1によるマルチモーダル情報処理装置の具現化出力情報を生成する処理を示す説明図である。 この発明の実施の形態1によるマルチモーダル情報処理装置の複数の出力部が接続された場合の処理を示す説明図である。 この発明の実施の形態2によるマルチモーダル情報処理装置を示す構成図である。 この発明の実施の形態2によるマルチモーダル情報処理装置の動作を示すフローチャートである。
 以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、この発明の実施の形態1によるマルチモーダル情報処理装置を示す構成図である。
 図1に示すマルチモーダル情報処理装置は、入力部1と出力情報生成部3と出力部5a,5b,…を備えている。入力部1はユーザによる入力や機器からの入力を受け付ける処理部であり、複数の入力手段1a,1b,1c,…からなる。これら入力手段1a,1b,1c,…は、ユーザの入力情報を取得する手段や機器からの情報を取得する手段であり、それぞれの出力は入力情報2a,2b,2c,…として出力情報生成部3に出力される。
 出力情報生成部3は、入力情報2a,2b,2c,…から出力部5a,5b,…に依存しない出力情報を生成し、抽象化出力情報4として出力する情報処理装置における出力情報を生成する処理部であり、入力情報統合部31と、抽象化出力情報の出力仕様33と、抽象化出力情報生成部34とを備えている。入力情報統合部31は、入力部1から入力された1つ以上の入力情報2a,2b,2c,…を解釈し、入力手段1a,1b,1c,…に依存しない入力情報である抽象化入力情報32として出力する処理部である。また、抽象化出力情報の出力仕様33は、抽象化入力情報32と抽象化出力情報4との関係を示す情報が記述されたデータベースである。さらに、抽象化出力情報生成部34は、抽象化出力情報の出力仕様33を参照し、抽象化入力情報32から抽象化出力情報4を生成する処理部である。
 出力部5a,5b,…は、抽象化出力情報4に基づいて処理可能な出力情報を生成し実行する出力機器や出力デバイスであり、それぞれが、状況監視部51a,51b,…、解釈仕様53a,53b,…、意味解釈部54a,54b,…、処理実行部56a,56b,…を備えている。なお、ここで、出力デバイスとは、後述する音声出力器や表示器といった、比較的構成要素が少ないものや出力機器を構成する要素となるものを意味し、出力機器とは、例えばエアコンといった比較的構成要素が多いものやデバイスの集合体といったものを意味している。
 状況監視部51a,51b,…は、それぞれの出力部5a,5b,…の動作状況を監視し、状況情報52a,52b,…として出力する。解釈仕様53a,53b,…は、抽象化出力情報4と状況情報52a,52b,…との解釈方法が記述されたデータベースである。意味解釈部54a,54b,…は、抽象化出力情報4と状況情報52a,52b,…と解釈仕様53a,53b,…から、出力機器や出力デバイスが処理可能な出力情報である具現化出力情報55a,55b,…を生成する処理部である。処理実行部56a,56b,…は、出力機器や出力デバイスとして実際の処理を実行する処理部である。
 上記入力部1で各入力手段1a,1b,1c,…が取得する入力情報2a,2b,2c,…は、ハードウェアキーの入力信号やマウスの座標情報、音声認識のテキストデータや入力された音声信号、ジェスチャ認識の解釈結果や入力された画像信号、別の機器の動作完了信号など、処理に利用可能な情報を含む形式であればどのようなものであっても良い。
 出力情報生成部3の入力情報統合部31が生成する抽象化入力情報32は、数値データやテキストデータ、バイナリデータ、ビットデータ、それらを組み合わせたデータなど、入力手段1a,1b,1c,…に依らず抽象化出力情報生成部34が解釈可能な情報やデータ形式であればどのようなものであっても良い。
 出力情報生成部3の抽象化出力情報の出力仕様33は、抽象化入力情報32から抽象化出力情報4を生成するための情報であり、タブ区切りのテキストやXMLなどのマークアップ言語で記述された外部定義ファイル・データベースとして抽象化出力情報生成部34が解釈しても良く、抽象化出力情報生成部34の処理用プログラムにコーディングされていても良く、抽象化入力情報32と抽象化出力情報4とを関連付けることが可能な形式であればどのようなものであっても良い。
 出力情報生成部3の抽象化出力情報生成部34が生成する抽象化出力情報4は、数値データやテキストデータ、バイナリデータ、ビットデータ、それらを組み合わせたデータなど、抽象化出力情報生成部34が出力部5a,5b,…に依存しない出力情報として生成できる情報やデータ形式であればどのようなものであっても良い。
 出力部5a,5b,…の状況監視部51a,51b,…が出力する状況情報52a,52b,…は、電源の状態情報や動作中のタスク情報、完了したタスク情報などの出力機器や出力デバイス自体の状態に関する情報であれば良く、出力機器や出力デバイス周辺の気温や湿度、騒音状況などの周辺環境に関する情報であっても良い。
 出力部5a,5b,…の解釈仕様53a,53b,…は、抽象化出力情報4および状況情報52a,52b,…から具現化出力情報55a,55b,…を生成するための情報であり、タブ区切りのテキストやXMLなどのマークアップ言語で記述された外部定義ファイル・データベースとして意味解釈部54a,54b,…が解釈しても良く、意味解釈部54a,54b,…の処理用プログラムにコーディングされていても良く、抽象化出力情報4および状況情報52a,52b,…と意味解釈部54a,54b,…とを関連付けることが可能な形式であればどのようなものであっても良い。
 出力部5a,5b,…の意味解釈部54a,54b,…が生成する具現化出力情報55a,55b,…は、出力機器や出力デバイスが処理を行う上で一意に解釈可能な情報であり、音声信号や画像データ、制御信号など、出力機器や出力デバイスに対応した情報であれば良い。
 なお、入力部1と出力情報生成部3と出力部5a,5b,…は、同一のハードウェア上に存在しても良く、また、通信する術を持って双方向あるいは単方向で接続されても良い。
 次に、実施の形態1のマルチモーダル情報処理装置の動作について説明する。
 図2は、実施の形態1によるマルチモーダル情報処理装置の動作を示すフローチャートである。
 入力部1にて、1つ以上の入力手段1a,1b,1c,…からマルチモーダル情報処理装置への入力情報2a,2b,2c,…を受け付け、出力情報生成部3へ出力する(ステップST1)。入力手段1a,1b,1c,…への入力は、キーボード入力やマウス入力などのユーザからの直接的な入力や、音声認識やジェスチャ認識などのユーザの行動に対する解釈を伴う入力でも良く、また、別のシステムや装置からの入力であっても良い。
 続くステップST2において、出力情報生成部3の入力情報統合部31は、入力部1から入力された1つ以上の入力情報2a,2b,2c,…から、入力の意図を解釈し、入力手段1a,1b,1c,…に依存しない抽象化された入力情報である抽象化入力情報32を生成し、抽象化出力情報生成部34へ出力する。
 ステップST2の入力情報統合部31の動作については、例えば、特開平11-24813号公報に記載された方法を用いることができる。この文献の一例では、辞書データに基づき入力情報を一般化された指令スクリプトへ変換する方法が記載されており、その他、1つ以上の入力情報から1つの入力結果を得る公知の方法を用いれば良い。
 また、所定の入力デバイスから、入力手段に依らず解釈可能な抽象化入力情報32が直接入力されても良く、この場合、出力情報生成部3は、抽象化出力情報の出力仕様33と抽象化出力情報生成部34から構成されれば良い。
 続くステップST3において抽象化出力情報生成部34が抽象化出力情報の出力仕様33を参照して、抽象化入力情報32から抽象化出力情報4を生成し、出力部5a,5b,…へ出力する。
 図3は、出力情報生成部3の抽象化出力情報4を生成する処理を示す説明図である。
 図3に例示の抽象化入力情報32および抽象化出力情報4は、情報の対象を示す「目的語」と、情報の動作を示す「述語」と、情報の可変値を示す「値」とから構成される情報とする。
 図3は、複数の入力手段(音声認識、動作認識、コントローラ)から、入力情報2a,2b,2c,…が入力された場合の例である。また、図3の例は、図4を用いて後述するように、出力部5a,5b,…をエアコンとし、この制御を行うようにした場合である。
 入力情報統合部31では、入力情報2a,2b,2c,…から抽象化入力情報32への変換を行う。ユーザの「暑い」という発声を音声認識した入力情報と、動作認識がユーザの「あおいでいる」という動作を認識した入力情報とは、同一の抽象化入力情報32である目的語「部屋の温度」、値「暑い」と変換される。また、コントローラで直接「冷房ON」の信号が入力された場合には、目的語「冷房」、述語「ON」という抽象化入力情報への変換を行う。
 抽象化出力情報の出力仕様33は、抽象化入力情報32と抽象化出力情報4とを関連付けるデータベースであるため、抽象化出力情報生成部34は、抽象化出力情報の出力仕様33を参照して、対応する抽象化出力情報4を生成する。例では、いずれの抽象化入力情報32も、同じ処理を行う出力仕様であり、目的語「部屋の温度」述語「下げる」という抽象化出力情報4に変換されることを示している。
 なお、図3の例では、抽象化入力情報32および抽象化出力情報4を「目的語」、「述語」、「値」という役割ごとに分けた3つの情報で表現したが、単一の情報で表現しても良く、入力デバイスや出力デバイス、信頼度などの他の情報を含んでも良い。また、抽象化入力情報32と抽象化出力情報4が異なる形式であっても良い。また、図3の例では、抽象化出力情報の出力仕様33を抽象化入力情報32と抽象化出力情報4を対で関連付ける情報としているが、状態遷移などの連続した入力情報に基づいて出力情報を生成可能な情報であっても良い。
 ここまでが、図2のステップST3での出力情報生成部3の抽象化出力情報4を生成する処理の説明である。
 抽象化入力情報32は、入力手段1a,1b,1c,…から入力するのではなく、例えば一定時間ごとに固定の抽象化入力情報32を受理したことにするなど、出力情報生成部3自体が発生させても良い。この場合には、マルチモーダル情報処理装置は、出力情報生成部3及び出力部5a,5b,…から構成され、出力情報生成部3は、抽象化出力情報の出力仕様33と抽象化出力情報生成部34から構成されれば良い。
 続くステップST4において、各出力部5a,5b,…の状況監視部51a,51b,…は、各出力部5a,5b,…の現在の状況を取得し、状況情報52a,52b,…として意味解釈部54a,54b,…へ出力する。なお、以下、各出力部5a,5b,…に共通の動作については、出力部5における状況監視部51、状況情報52、解釈仕様53、意味解釈部54、具現化出力情報55、処理実行部56として説明する。
 状況情報52は、出力機器や出力デバイスの電源や動作タスクなどの内部状態を取得しても良く、温度センサや風力計、騒音計などの各種センサを利用して出力機器や出力デバイスの周辺環境に関する情報を取得しても良く、それらを1つ以上組み合わせたものであれば良い。
 続くステップST5において、出力部5の意味解釈部54は、出力情報生成部3から入力された抽象化出力情報4、および状況監視部51から入力された状況情報52から、解釈仕様53を参照して、出力機器や出力デバイスが実行可能な出力情報を生成し、具現化出力情報55として処理実行部56へ出力する。
 図4は、意味解釈部54の具現化出力情報55を生成する処理を示す説明図である。
 図4に例示の解釈仕様53は、状態情報52および抽象化出力情報4に応じた具現化出力情報55を設定可能な状態遷移を表現するものである。
 図4は、出力部5であるエアコンに、部屋の温度を下げる旨の抽象化出力情報4が入力され、エアコンが待機状態であり、室温が36度であるという状況情報52が意味解釈部54へ入力された場合の例である。意味解釈部54は、解釈仕様53の状態遷移に基づき、抽象化出力情報4(目的語「部屋の温度」、述語「下げる」)を受けて、「待機状態」から「風速設定状態」となる。さらに、室温36度という状況情報52を受けて、「強風で冷房起動」を出力する状態となり、「強風で冷房起動」を示す信号を具現化出力情報55として処理実行部56へ出力する。
 また、図4の例では、解釈仕様53を連続した入力情報に基づいて出力情報を生成可能な情報である状態遷移として表現しているが、他の表現方法でも良く、抽象化出力情報4と具現化出力情報55を対で関連付ける情報であっても良い。
 ここまでが、図2のステップST5での意味解釈部54の具現化出力情報55を生成する処理の説明である。
 なお、意味解釈部54が、状況情報52の代わりにユーザ情報を入力するように構成しても良い。ここで、ユーザ情報とは、IDなどの特定のユーザを示す情報であっても良く、また、男/女や暑がり/寒がりなどのグループを示す情報であっても良く、さらに、強風が多い/弱風が多いなどの動作の種類を直接示すものであっても良い。
 その場合、解釈仕様53は、ユーザ情報と抽象化出力情報4に応じた具現化出力情報55を設定可能な状態遷移を表現するものであり、意味解釈部54は、抽象化出力情報4とユーザ情報に応じた具現化出力情報55を生成することで、使用するユーザに応じた動作・機能が可能となる。
 また、意味解釈部54が状況情報52とユーザ情報を入力するように構成しても良く、その場合には、解釈仕様53は、状況情報52とユーザ情報および抽象化出力情報4に応じた具現化出力情報55を設定可能な状態遷移を表現するものであり、意味解釈部54は、抽象化出力情報4と状況情報52とユーザ情報に応じた具現化出力情報55を生成することで、使用するユーザと状況に応じた動作・機能が可能となる。
 例えば、意味解釈部54が状況情報52とユーザ情報を入力する場合の動作の一例としては次の通りである。すなわち、出力部5であるエアコンに、部屋の温度を下げる旨の抽象化出力情報4が入力され、エアコンが待機状態であり、室温が36度であるという状況情報52と、高温時には強風を好むというユーザ情報が意味解釈部54へ入力された場合の例において、意味解釈部54は、解釈仕様53の状態遷移に基づき、抽象化出力情報4(目的語「部屋の温度」、述語「下げる」)を受けて、「待機状態」から「風速設定状態」となる。さらに、室温36度という状況情報52と、高温時には強風を好むというユーザ情報を受けて、「強風で冷房起動」を出力する状態となり、「強風で冷房起動」を示す信号を具現化出力情報55として処理実行部56へ出力する。
 また、意味解釈部54が、別の出力部5の状況情報52を入力するようにしても良く、このように構成すれば、別の出力部5に応じた動作および機能が可能となる。例えば、機器の座標を設定し表示器に表示する場合に、座標を設定することを意味する1つの抽象化出力情報4を受け、座標を設定する操作機器は座標の設定完了時に状況情報52として完了情報を出力し、表示器は操作機器からの完了情報を受けた後に座標を表示する、などの連動した操作が可能となる。
 なお、意味解釈部54は、解釈仕様53で定義されている抽象化出力情報4に対してのみ処理を行うとしても良い。
 続くステップST6において、各出力部5の処理実行部56は、意味解釈部54から入力された具現化出力情報55に基づき、出力部5としての動作を実行する。
 図5は、複数の出力部5a,5b,5c,…が接続された場合の処理を示す説明図である。
 図5に例示の出力部5a,5b,5c,…は、異なる形態の出力がされる出力デバイス1(音声出力器)、出力デバイス2(表示器)、出力機器(エアコン)からなる。
 図5は、出力情報生成部3から部屋の温度を下げる旨を示す抽象化出力情報4が出力された場合の例である。各出力部5a,5b,5c,…の意味解釈部54a,54b,54c,…には、同一の抽象化出力情報4が入力され、各出力部5a,5b,5c,…の状況情報52a,52b,52c,…および解釈仕様53a,53b,53c,…に応じた出力を行う。
 出力部5a(出力デバイス1(音声出力器))は、機器の音声再生状態を監視し、状況情報52aとする。意味解釈部54aは、「冷房をつけます」という音声データを作成し具現化出力情報55aとするが、機器の状態が別の音声を出力中であれば、終了後に音声出力を行うように具現化出力情報55aを出力する。また、緊急度が高いアナウンスであれば、現在の出力を中断してアナウンスを出力するよう解釈仕様53aを設計し処理させることも可能である。
 出力部5b(出力デバイス2(表示器))は、同一の抽象化出力情報4から、出力デバイス1とは異なる「冷房設定」というテキストを具現化出力情報55bとして生成し、出力する。
 出力部5c(出力機器(エアコン))は、部屋の温度を監視し、状況情報52cとする。
 意味解釈部54cは、同一の抽象化出力情報4から冷房をつけるように具現化出力情報55cを出力するが、解釈仕様53cに従い、部屋の温度が急速に上昇している状況においては、強風で冷房をつけるように具現化出力情報55cを出力し、部屋の温度にあまり変化が見られない状況においては、弱風で冷房をつけるように具現化出力情報55cを出力する。
 以上のように、同一の抽象化出力情報4から、各出力部5a,5b,5c,…の状況および解釈仕様53a,53b,53c,…に応じた具現化出力情報55a,55b,55c,…が作成されることを示した。
 ここまでが、図5の複数の出力部5a,5b,5c,…が接続された場合の処理の説明である。
 以上説明したように、実施の形態1のマルチモーダル情報処理装置によれば、入力情報に基づき出力部が処理を行うマルチモーダル情報処理装置において、入力情報に対応して出力部の種類とは無関係の抽象化出力情報を生成する出力情報生成部を備え、出力部は、自出力部の動作状況を監視する状況監視部と、状況監視部の監視結果に基づいて、抽象化出力情報から具現化情報を生成する意味解釈部と、具現化情報に対応した処理を行う処理実行部とを有するようにしたので、情報処理装置に接続する出力機器や出力デバイスが変更された場合でも、情報処理装置側を変更する必要がない。
 また、実施の形態1のマルチモーダル情報処理装置では、出力情報生成部が抽象化入力情報から出力機器や出力デバイスに依存しない抽象化出力情報を生成し、各出力機器や出力デバイスにおいて、状況情報に応じて各出力機器や出力デバイスが実行可能な具現化出力情報を生成し、実行するように構成した。これにより、出力情報生成部が具現化出力情報を生成する場合はすべての出力機器や出力デバイスの状況を考慮した出力情報生成部の設計が必要になるのと比べ、出力情報生成部が各出力機器や出力デバイスの状況や動作を考慮しなくても良く、設計および制御を単純化することができるという効果がある。
 また、接続する出力機器や出力デバイスが変更されたり、出力機器や出力デバイスの動作が変更されたり、出力機器や出力デバイスの設置場所が移動して考慮する状況が変更されたりする場合にも、出力情報生成部の変更が不要であり、容易に出力機器や出力デバイスを変更することができるという効果がある。
 また、出力機器や出力デバイスの種類に依らず、出力情報生成部が同一の抽象化出力情報を出力するように構成したため、出力情報生成部が出力先の機器やデバイスの情報を保持する必要がなく、出力先の機器やデバイスを選択する処理を省略できるという効果がある。
 また、各出力機器や出力デバイスにおいて、具現化出力情報の生成方法が定義されている抽象化出力情報に対してのみ処理を行うようにすることで、出力機器や出力デバイスがすべての抽象化出力情報に対する処理を定義する必要がなく、設計を単純化することができるという効果がある。
 また、実施の形態1のマルチモーダル情報処理装置によれば、出力部は、抽象化出力情報と具現化情報との関係を示す解釈仕様を備え、意味解釈部は、解釈仕様を参照して抽象化出力情報を解釈し具現化情報を生成するようにしたので、予め特定の出力信号に対応する動作が規定されている場合と比べて、同一の出力情報から異なる動作及び機能を実現できるという効果がある。
 また、実施の形態1のマルチモーダル情報処理装置によれば、意味解釈部は、出力部を使用するユーザの出力部の動作状況に関する情報を含めて解釈を行うようにしたので、出力機器や出力デバイスを使用するユーザに応じた動作及び機能を実現できるという効果がある。
 また、実施の形態1のマルチモーダル情報処理装置によれば、意味解釈部は、自出力部とは別の出力部の状況監視部からの監視結果に基づいて解釈を行うようにしたので、同一の抽象化出力情報から複数の出力機器や出力デバイスが連動した動作・機能を実現することができる。
 また、実施の形態1のマルチモーダル情報処理装置によれば、出力情報生成部は、入力情報の種類とは無関係の抽象化入力情報を生成する入力情報統合部を備え、抽象化入力情報に基づいて抽象化出力情報を生成するようにしたので、どのような入力情報であっても対応することができる。
実施の形態2.
 上記実施の形態1は、出力情報生成部が出力した抽象化出力情報に応じて、各出力部が処理を行うようにしたものであるが、次に、出力情報生成部が出力部の状況を取得することで、出力部と連動した出力情報生成処理を行う例を実施の形態2として説明する。
 図6は、実施の形態2におけるマルチモーダル情報処理装置の構成図である。
 図示のように、マルチモーダル情報処理装置は、入力部1と、出力情報生成部30と、1つ以上の出力部5a,5b,…から構成される。ここで、入力部1は実施の形態1と同様である。また、出力情報生成部30における入力情報統合部31及び生成される抽象化入力情報32は、実施の形態1と同様であるため、ここでの説明は省略する。
 出力情報生成部30の抽象化出力情報生成部340は、抽象化入力情報32と共に出力部5a,5b,…の状況監視部51aから出力される抽象化状況情報57を受け取り、抽象化出力情報の出力仕様330に基づいて抽象化出力情報40を生成するよう構成されている。抽象化出力情報の出力仕様330は、実施の形態1の抽象化入力情報32に加えて抽象化状況情報57も含めて、これらの情報と抽象化出力情報40との関係を示すデータベースである。
 出力部5a,5b,…の基本的な構成は実施の形態1と同様であり、状況監視部51a,51b,…、解釈仕様53a,53b,…、意味解釈部54a,54b,…、処理実行部56を備えている。一方、実施の形態2では、状況監視部51a,51b,…から抽象化状況情報57が出力されるよう構成されており、図6に示す例では、出力部5aの状況監視部51aから抽象化状況情報57が出力されるよう構成されている。
 次に、実施の形態2のマルチモーダル情報処理装置の動作について説明する。
 図7は、実施の形態2におけるマルチモーダル情報処理装置の動作を示すフローチャートである。ここで、ステップST2以前は、実施の形態1における図2のフローチャートと同様の動作であるため、ここでの説明は省略する。
 ステップST2で入力情報統合部31が抽象化入力情報32を生成した後、抽象化出力情報生成部340が抽象化出力情報の出力仕様330を参照して、抽象化入力情報32と抽象化状況情報57から抽象化出力情報40を生成し、出力部5a,5b,…へ出力する(ステップST7)。その他の動作は、実施の形態1のステップST3と同じである。
 ここで、抽象化状況情報57は、抽象化入力情報32と同一の形式で記述したものであり、同様に扱う。例えば、以下のような記述である。
・電源をオンに変更したという状況
目的語:機器電源状況
 述語:オン
  値:機器名
・完了したタスクの情報
目的語:タスク
 述語:完了
  値:タスク名
 これにより、抽象化出力情報生成部34aの内部情報が変更され、以降の入力に対する動作が変更される。例えば、次のような動作変更が行われる。
例1)機器Aの電源がオンの場合のみ、以降の抽象化入力情報32に応じて、機器Aと他の機器が連携する抽象化出力情報40を出力する。
例2)機器Aの電源がオンになったという抽象化状況情報57を受け、機器Bの電源をオンにするという抽象化出力情報40を出力する。
 続くステップST8において、各出力部5a,5b,…の状況監視部51a,51b,…は、出力部5a,5b,…の現在の状況を取得し、状況情報52a,52b,…として意味解釈部54a,54b,…へ出力する。なお、この処理は、実施の形態1におけるステップST4の動作と同様である。また、実施の形態2では、状況情報52aを抽象化入力情報32と同じ形式の出力部5a,5b,…に依存しない抽象化情報に変換し、抽象化状況情報57として、抽象化出力情報生成部34aへ出力する。
 ステップST5及びステップST6は、実施の形態1における図2のフローチャートと同様の動作であるため、ここでの説明は省略する。
 なお、上記例では、出力部5a,5b,…が抽象化状況情報57を作成し、抽象化出力情報生成部340へ入力するように構成したが、入力情報統合部31へ状況情報52a,52b,…を入力し、入力情報統合部31の入力情報2a,2b,2c,…として扱うようにしても良い。
 また、上記例では、抽象化状況情報57が一つの出力部5aから出力されているが、複数の出力部5a,5b,…から出力されてもよい。この場合、抽象化出力情報生成部340は、複数の抽象化状況情報57に基づいて一つまたは複数の抽象化出力情報40を生成する。あるいは、抽象化出力情報生成部340は、一つの抽象化状況情報57から複数の抽象化出力情報40を生成するようにしてもよい。
 以上説明したように、実施の形態2のマルチモーダル情報処理装置によれば、出力情報生成部は、出力部の状況監視部からの監視結果に基づいて抽象化出力情報を生成するようにしたので、出力情報生成部が出力部の状況を考慮した抽象化出力情報を生成できるという効果がある。
 また、実施の形態2のマルチモーダル情報処理装置によれば、出力情報生成部は、出力部の状況監視部からの監視結果を入力として抽象化入力情報と同一の形式で記述した抽象化状況情報を生成する入力情報統合部を備え、抽象化入力情報と抽象化状況情報に基づいて抽象化出力情報を生成するようにしたので、どのような状況監視部からの監視結果であっても対応することができる。
 なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 この発明に係るマルチモーダル情報処理装置は、入力情報に対応して出力部の種類とは無関係の抽象化出力情報を生成し、出力部は、自出力部の動作状況の監視結果に基づいて抽象化出力情報から具現化情報を生成して対応した処理を行うようにしたので、情報処理装置に接続する出力機器や出力デバイスが変更された場合でも、情報処理装置側を変更する必要がなく、複数の異なる出力機器や出力デバイスに情報を出力する情報出力システムに用いるのに適している。
 1 入力部、1a,1b,1c 入力手段、2a,2b,2c 入力情報、3,30 出力情報生成部、31 入力情報統合部、32 抽象化入力情報、33,330 抽象化出力情報の出力仕様、34,340 抽象化出力情報生成部、4,40 抽象化出力情報、5a,5b,5c 出力部、51a,51b 状況監視部、52a,52b 状況情報、53a,53b 解釈仕様、54a,54b 意味解釈部、55a,55b 具現化出力情報、56a,56b 処理実行部。

Claims (7)

  1.  入力情報に基づき出力部が処理を行うマルチモーダル情報処理装置において、
     前記入力情報に対応して前記出力部の種類とは無関係の抽象化出力情報を生成する出力情報生成部を備え、
     前記出力部は、自出力部の動作状況を監視する状況監視部と、当該状況監視部の監視結果に基づいて、前記抽象化出力情報から具現化情報を生成する意味解釈部と、前記具現化情報に対応した処理を行う処理実行部とを有することを特徴とするマルチモーダル情報処理装置。
  2.  前記出力部は、前記抽象化出力情報と前記具現化情報との関係を示す解釈仕様を備え、前記意味解釈部は、前記解釈仕様を参照して前記抽象化出力情報を解釈し前記具現化情報を生成することを特徴とする請求項1記載のマルチモーダル情報処理装置。
  3.  前記意味解釈部は、前記出力部を使用するユーザの当該出力部の動作状況に関する情報を含めて解釈を行うことを特徴とする請求項1記載のマルチモーダル情報処理装置。
  4.  前記意味解釈部は、自出力部とは別の出力部の状況監視部からの監視結果に基づいて解釈を行うことを特徴とする請求項1記載のマルチモーダル情報処理装置。
  5.  前記出力情報生成部は、前記出力部の状況監視部からの監視結果に基づいて前記抽象化出力情報を生成することを特徴とする請求項1記載のマルチモーダル情報処理装置。
  6.  前記出力情報生成部は、前記入力情報の種類とは無関係の抽象化入力情報を生成する入力情報統合部を備え、当該抽象化入力情報に基づいて前記抽象化出力情報を生成することを特徴とする請求項1記載のマルチモーダル情報処理装置。
  7.  前記出力情報生成部は、前記出力部の状況監視部からの監視結果を入力として前記抽象化入力情報と同一の形式で記述した抽象化状況情報を生成する入力情報統合部を備え、前記抽象化入力情報と前記抽象化状況情報に基づいて前記抽象化出力情報を生成することを特徴とする請求項6記載のマルチモーダル情報処理装置。
PCT/JP2014/074673 2014-02-24 2014-09-18 マルチモーダル情報処理装置 Ceased WO2015125329A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2016503921A JP6009121B2 (ja) 2014-02-24 2014-09-18 マルチモーダル情報処理装置
EP14883349.4A EP3112982A4 (en) 2014-02-24 2014-09-18 Multimodal information processing device
US15/103,359 US9899022B2 (en) 2014-02-24 2014-09-18 Multimodal information processing device
CN201480075709.6A CN106030459B (zh) 2014-02-24 2014-09-18 多模态信息处理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014033102 2014-02-24
JP2014-033102 2014-02-24

Publications (1)

Publication Number Publication Date
WO2015125329A1 true WO2015125329A1 (ja) 2015-08-27

Family

ID=53877859

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/074673 Ceased WO2015125329A1 (ja) 2014-02-24 2014-09-18 マルチモーダル情報処理装置

Country Status (5)

Country Link
US (1) US9899022B2 (ja)
EP (1) EP3112982A4 (ja)
JP (1) JP6009121B2 (ja)
CN (1) CN106030459B (ja)
WO (1) WO2015125329A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023518261A (ja) * 2020-03-18 2023-04-28 2アーチェフトゥラ ソシエダ アノニマ ユーザ適合したサービスをユーザに提供する技術

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101925034B1 (ko) 2017-03-28 2018-12-04 엘지전자 주식회사 스마트 컨트롤링 디바이스 및 그 제어 방법
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US10455322B2 (en) 2017-08-18 2019-10-22 Roku, Inc. Remote control with presence sensor
US10777197B2 (en) 2017-08-28 2020-09-15 Roku, Inc. Audio responsive device with play/stop and tell me something buttons
US11062702B2 (en) * 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
KR102669100B1 (ko) 2018-11-02 2024-05-27 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110557681A (zh) * 2019-09-27 2019-12-10 海尔优家智能科技(北京)有限公司 多媒体信息播放控制方法及装置、多媒体播放系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991112A (ja) * 1995-07-19 1997-04-04 Toshiba Corp マルチモーダル対話装置及び対話方法
JPH1124813A (ja) * 1997-07-03 1999-01-29 Fujitsu Ltd マルチモーダル入力統合システム
JP2001100878A (ja) * 1999-09-29 2001-04-13 Toshiba Corp マルチモーダル入出力装置
JP2001265370A (ja) * 2000-03-15 2001-09-28 Omron Corp 情報出力システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
US6418424B1 (en) * 1991-12-23 2002-07-09 Steven M. Hoffberg Ergonomic man-machine interface incorporating adaptive pattern recognition based control system
US7904187B2 (en) * 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP2002044765A (ja) * 2000-07-28 2002-02-08 Matsushita Electric Ind Co Ltd 遠隔制御システムとゲートウェイ装置
JP3733322B2 (ja) * 2001-11-21 2006-01-11 キヤノン株式会社 マルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラム
JP4027269B2 (ja) * 2003-06-02 2007-12-26 キヤノン株式会社 情報処理方法及び装置
KR100703785B1 (ko) * 2005-08-26 2007-04-06 삼성전자주식회사 가전기기 제어 장치 및 방법
CN101923669A (zh) * 2008-07-18 2010-12-22 史迪芬·凯斯 智能的适应式设计

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991112A (ja) * 1995-07-19 1997-04-04 Toshiba Corp マルチモーダル対話装置及び対話方法
JPH1124813A (ja) * 1997-07-03 1999-01-29 Fujitsu Ltd マルチモーダル入力統合システム
JP2001100878A (ja) * 1999-09-29 2001-04-13 Toshiba Corp マルチモーダル入出力装置
JP2001265370A (ja) * 2000-03-15 2001-09-28 Omron Corp 情報出力システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3112982A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023518261A (ja) * 2020-03-18 2023-04-28 2アーチェフトゥラ ソシエダ アノニマ ユーザ適合したサービスをユーザに提供する技術
JP7655937B2 (ja) 2020-03-18 2025-04-02 2アーチェフトゥラ ソシエダ アノニマ ユーザ適合したサービスをユーザに提供する技術

Also Published As

Publication number Publication date
CN106030459B (zh) 2018-11-23
JP6009121B2 (ja) 2016-10-19
JPWO2015125329A1 (ja) 2017-03-30
EP3112982A4 (en) 2017-07-12
EP3112982A1 (en) 2017-01-04
CN106030459A (zh) 2016-10-12
US9899022B2 (en) 2018-02-20
US20160322047A1 (en) 2016-11-03

Similar Documents

Publication Publication Date Title
JP6009121B2 (ja) マルチモーダル情報処理装置
JP7832984B2 (ja) 複数のアシスタントデバイスにわたる同時音響イベント検出
TWI734142B (zh) 用於智慧型工業輔助的方法、系統、及電腦程式產品
US11204594B2 (en) Systems, methods, and apparatus to augment process control with virtual assistant
TWI801629B (zh) 用於與智慧型工業輔助及工業機器通訊的方法、系統、及電腦程式產品
US10657959B2 (en) Information processing device, information processing method, and program
CN118200349A (zh) 生成基于IoT的通知并提供命令的方法和系统
JP7566932B2 (ja) デバイス固有信号に基づいてアシスタントデバイスのためのセマンティック標識を推測すること
US10621172B2 (en) System and method for efficiently generating responses to queries
TWI731374B (zh) 用於智慧型工業輔助的基於角色及技能的權限的方法、系統、及電腦程式產品
KR20200048701A (ko) 사용자 특화 음성 명령어를 공유하기 위한 전자 장치 및 그 제어 방법
JP2022050309A (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
TWI801630B (zh) 以具有一組預定命令的智慧型工業輔助來協調工業機器的方法、系統及電腦程式產品
WO2025099957A1 (ja) 制御システム、制御方法、および制御プログラム
WO2020153146A1 (ja) 情報処理装置、及び情報処理方法
JP7595817B1 (ja) 制御システム、制御方法、および制御プログラム
US20220084540A1 (en) Electronic device and control method therefor
KR20210008696A (ko) 전자 장치 및 이의 음성 인식 방법
KR101694011B1 (ko) 복수 응용 소프트웨어에 대한 음성 대화 방법 및 장치
CN106104470A (zh) 动作设计装置以及动作设计程序
Loch et al. An adaptive speech interface for assistance in maintenance and changeover procedures
KR20200129346A (ko) 디스플레이 장치 및 이의 제어 방법
Rouillard et al. Facilitating the design of multi-channel interfaces for ambient computing
KR20190060157A (ko) 전자 장치 및 그 제어 방법
Iqbal et al. An Integrated AI Virtual Assistant Platform Featuring Smart Display and Automation Capabilities

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14883349

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016503921

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15103359

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2014883349

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014883349

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE