WO2005064592A1 - 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム - Google Patents

機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム Download PDF

Info

Publication number
WO2005064592A1
WO2005064592A1 PCT/JP2004/019426 JP2004019426W WO2005064592A1 WO 2005064592 A1 WO2005064592 A1 WO 2005064592A1 JP 2004019426 W JP2004019426 W JP 2004019426W WO 2005064592 A1 WO2005064592 A1 WO 2005064592A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
specifying
specified
information
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/JP2004/019426
Other languages
English (en)
French (fr)
Inventor
Yasushi Sato
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to US10/584,360 priority Critical patent/US8103510B2/en
Priority to JP2005516667A priority patent/JPWO2005064592A1/ja
Priority to EP04807782A priority patent/EP1699042B1/en
Priority to DE602004025616T priority patent/DE602004025616D1/de
Priority to CN2004800389368A priority patent/CN1898721B/zh
Publication of WO2005064592A1 publication Critical patent/WO2005064592A1/ja
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Definitions

  • Device control device voice recognition device, agent device, on-vehicle device control device, navigation device, audio device, device control method, voice recognition method, agent processing method, on-vehicle device control method, navigation method, audio device control method And programs
  • the present invention relates to a device control device, a voice recognition device, an agent device, a vehicle-mounted device control device, a navigation device, an audio device, a device control method, a voice recognition method, an agent processing method, a vehicle-mounted device control method, and a navigation device.
  • the present invention relates to a Yong method, an audio device control method, and a program. Background art
  • Patent Document 1 Japanese Patent Application Laid-Open No. 8-339288
  • the present invention has been made in view of the above situation, and has a device control device, a voice recognition device, an agent device, and a vehicle-mounted device control capable of appropriately controlling a device in response to an instruction issued by a human in the form of a language.
  • a device, a navigation device, an audio device, a device control method, a voice recognition method, an agent processing method, an in-vehicle device control method, a navigation method, and an audio device control method are provided to provide a program.
  • a device control device includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2);
  • the speech recognition means (2, 3) includes a part of speech specifying means (3) for specifying the part of speech of the specified phrase,
  • the specifying means (7) specifies the utterance content of the utterer of the voice based only on the words specified as a predetermined part of speech out of the words specified by the voice recognition means (2). .
  • the specifying means (7) determines whether a combination of a plurality of words specified as a predetermined part of speech among the words specified by the speech recognition means (2, 3) satisfies a predetermined condition. It may be determined whether or not the utterance content of the speaker of the voice is determined based on the determination result.
  • the specifying means (7) holds information for associating a word with one or more categories, and based on a category into which the word specified by the voice recognition means is classified, The content of the utterance may be specified.
  • the identification means (7) holds correspondence information for associating a plurality of words or categories having different meanings with each processing of the processing execution means (7).
  • the utterance content of the speaker of the voice may be specified based on the specified combination of words or categories and the correspondence information.
  • the specifying means (7) holds information for associating a word with one or more categories, and a plurality of words specified by the speech recognition means (2, 3) are commonly classified. Based on the category, the utterance content of the speaker of the voice may be specified. [0011] The specifying means (7) assigns and holds a plurality of words to each processing of the processing execution means (7), and the words specified by the speech recognition means (2, 3) When at least one of the words is a word assigned to the processing, the corresponding processing is executed.
  • the specifying means (7) may prompt the user to input the expression more easily when it is difficult to determine the meaning of the input voice.
  • An information acquisition means (7) for acquiring information from an external device is further provided,
  • the specifying means (7) may select an output content to be output based on the information obtained by the information obtaining means (7).
  • an apparatus control device includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • Processing specifying means (7) for specifying the content of control to be executed on the external device to be controlled based on the specified content
  • Information acquisition means (7) for acquiring information via predetermined communication means (74),
  • Audio output means (5) for outputting a voice
  • the voice output means (5) When the control specified by the process specifying means (7) is to output the information obtained by the information obtaining means (7), the voice output means (5) outputs a voice based on the information.
  • the voice recognition and recognition that is effective in the third aspect of the present invention is as follows.
  • Identification means (7) for identifying the contents Based on the phrase specified by the voice recognition means (2, 3), Identification means (7) for identifying the contents,
  • the voice recognition means (2, 3) includes a part of speech specifying means (3) for specifying the part of speech of the specified phrase,
  • the specifying means (7) specifies the utterance content of the utterer of the voice based only on the words specified by the speech recognition means (2, 3) as the predetermined parts of speech. May be used.
  • the specifying means (7) holds information for associating a phrase with one or more categories. Based on a category into which the phrase specified by the speech recognition means is classified, the identification means (7) may include: The content of the utterance may be specified.
  • the identification means (7) holds correspondence information for associating a plurality of words or categories having different meanings with each processing of the processing execution means (7).
  • the utterance content of the speaker of the voice may be specified based on a specified combination of words or categories and the correspondence information.
  • the specifying means (7) holds information for associating a word with one or more categories. Based on a category in which the plurality of words specified by the voice recognition means are classified in common, Thus, the content of the utterance of the speaker of the voice may be specified.
  • the specifying means (7) allocates and holds a plurality of words to each processing of the processing execution means (7), and stores the words and phrases specified by the speech recognition means (2, 3). When at least one of the words is a word assigned to the processing, the corresponding processing may be executed.
  • the specifying means (7) may be one that facilitates the discrimination and prompts the user to input an expression when the meaning of the input voice is too strong to be discriminated.
  • the apparatus further comprises information acquisition means (7) for acquiring information from an external device,
  • the specifying means (7) is based on the information obtained by the information obtaining means (7), You may select the output content to output! / ,.
  • the voice recognition device includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • the voice output unit (5) outputs a voice based on the information.
  • an agent device that is focused on the fifth aspect of the present invention includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • the speech recognition means (2, 3) includes a part-of-speech specifying means (3) for specifying the part of speech of the specified phrase,
  • the specifying means (7) specifies the utterance content of the speaker of the voice based only on the words specified by the voice recognition means (2, 3) as the predetermined parts of speech.
  • the specifying means (7) determines whether a combination of a plurality of words specified as a predetermined part of speech, among the words specified by the speech recognition means (2, 3), satisfies a predetermined condition. The determination may be made as to whether or not the content of the speaker of the voice is specified based on the determination result.
  • the specifying means (7) holds information for associating a phrase with one or more categories, and based on a category into which the phrase specified by the voice recognition means is classified, a speaker of the voice is described.
  • the content of the utterance may be specified.
  • the identification means (7) holds correspondence information for associating a plurality of words or categories having different meanings with each processing of the processing execution means (7).
  • the utterance content of the speaker of the voice may be specified based on the combination of the words or categories specified in 2, 3) and the correspondence information.
  • the specifying means (7) holds information for associating a word with one or more categories, and a plurality of words specified by the voice recognition means (2, 3) are commonly classified. The utterance content of the speaker of the voice may be specified based on the category.
  • the specifying means (7) assigns and holds a plurality of words to each processing of the processing execution means (7), and the words specified by the speech recognition means (2, 3) When at least one of the words is a word assigned to the processing, the corresponding processing may be executed.
  • the specifying means (7) may be one that facilitates the discrimination and prompts the user to input an expression when the input voice is too strong to determine the meaning of the input voice.
  • An information acquisition means (7) for acquiring information from an external device is further provided.
  • the specifying means (7) may select the output content to be output based on the information obtained by the information obtaining means (7)! /.
  • an agent device that is focused on the sixth aspect of the present invention includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • the voice output unit (5) outputs a voice based on the information.
  • the vehicle-mounted device control device includes:
  • An in-vehicle device control device that can be mounted on a vehicle equipped with external in-vehicle devices.
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • Processing execution means (7) for specifying the content of control to be executed on the on-vehicle device based on the specified content, and executing the control;
  • the speech recognition means (2, 3) includes a part of speech specifying means (3) for specifying the part of speech of the specified phrase,
  • the specifying means (7) is configured to output a predetermined item from the phrases specified by the voice recognition means (2, 3).
  • the utterance content of the speaker of the voice may be specified based only on the phrase specified as the lyric.
  • the specifying means (7) holds information for associating a word with one or more categories, and the sound is determined based on a category into which the word specified by the speech recognition means (2, 3) is classified. It may specify the utterance content of the speaker of the voice.
  • the specifying means (7) holds correspondence information for associating a plurality of words or categories having different meanings with each processing of the processing execution means (7).
  • the utterance content of the speaker of the voice may be specified based on a specified combination of words or categories and the correspondence information.
  • the specifying means (7) holds information for associating a word with one or more categories, and a plurality of words specified by the voice recognition means (2, 3) are commonly classified. The utterance content of the speaker of the voice may be specified based on the category.
  • the specifying means (7) assigns and holds a plurality of words to each processing of the processing execution means (7), and the words specified by the speech recognition means (2, 3) When at least one of the words is a word assigned to the processing, the corresponding processing may be executed.
  • the specifying means (7) may be configured to make it easier to determine the meaning of the input voice when it is difficult to determine the meaning of the input voice, and to prompt the user to input the expression.
  • An information acquisition means (7) for acquiring information from an external device is further provided.
  • the specifying means (7) may select the output content to be output based on the information obtained by the information obtaining means (7)! /.
  • the in-vehicle device control device includes:
  • An in-vehicle device control device that can be mounted on a vehicle equipped with external in-vehicle devices.
  • Voice recognition means (2, 3) for acquiring voice data representing a voice and performing voice recognition on the voice data to specify a phrase represented by the voice;
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3); Processing specifying means (7) for specifying the content of control to be performed on the on-vehicle device based on the specified content;
  • Information acquisition means (7) for acquiring information via predetermined communication means (74),
  • the voice output means (5) When the control specified by the process specifying means (7) is to output the information obtained by the information obtaining means (7), the voice output means (5) outputs a voice based on the information.
  • the navigation device includes:
  • a navigation device configured to be mounted on a vehicle
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • Processing execution means (7) for specifying the contents of the navigation processing to be executed based on the specified contents, and executing the navigation processing;
  • the speech recognition means (2, 3) includes a part-of-speech specifying means (3) for specifying the part of speech of the specified phrase.
  • the specifying means (7) specifies the utterance content of the speaker of the voice based only on the words specified by the voice recognition means (2, 3) as the predetermined parts of speech. May be used.
  • the specifying means (7) holds information for associating a phrase with one or more categories, and based on the category into which the phrase specified by the voice recognition means (2, 3) is classified, The content of the utterance of the speaker may be specified.
  • the identification means (7) holds correspondence information for associating a plurality of words or categories having different meanings with each processing of the processing execution means (7).
  • the utterance content of the speaker of the voice may be specified based on the combination of the words or categories specified in 2, 3) and the correspondence information.
  • the specifying means (7) holds information for associating a word with one or more categories, and a plurality of words specified by the speech recognition means (2, 3) are commonly classified. Based on the category, the speech content of the speaker of the voice may be specified.
  • the specifying means (7) assigns and retains a plurality of words to each processing of the processing execution means (7), and specifies the words and phrases specified by the voice recognition means (2, 3). When at least one of the words is a word assigned to the processing, the corresponding processing may be executed.
  • the specifying means (7) may be one that facilitates the discrimination and prompts the user to input an expression when the meaning of the input voice cannot be discriminated.
  • information acquisition means (7) for acquiring information from an external device
  • the specifying means (7) may select the output content to be output based on the information obtained by the information obtaining means (7)! /.
  • the navigation device includes:
  • a navigation device configured to be mounted on a vehicle
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • Information acquisition means (7) for acquiring information via predetermined communication means (74),
  • the voice output unit outputs a voice based on the information.
  • an audio device includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • the speech recognition means (2, 3) includes a part-of-speech specifying means (3) for specifying the part of speech of the specified phrase,
  • the specifying means (7) specifies the utterance content of the speaker of the voice based only on the words specified by the voice recognition means (2, 3) as the predetermined parts of speech. May be used.
  • the specifying means (7) holds information for associating a phrase with one or more categories, and based on the category into which the phrase identified by the speech recognition means (2, 3) is classified, It may specify the utterance content of the speaker of the voice.
  • the specifying means (7) holds correspondence information for associating a plurality of words or categories having different meanings with each processing of the processing execution means (7).
  • the utterance content of the speaker of the voice may be specified based on the combination of the words or categories specified in 2, 3) and the correspondence information.
  • the specifying means (7) holds information for associating a word with one or more categories, and a plurality of words specified by the voice recognition means (2, 3) are commonly classified. category Further, the content of the utterance of the speaker of the voice may be specified.
  • the specifying means (7) assigns and holds a plurality of words to each processing of the processing executing means (7), and the words specified by the speech recognition means (2, 3). When at least one of the words is a word assigned to the processing, the corresponding processing may be executed.
  • the specifying means (7) may be one that facilitates the discrimination and prompts the user to input an expression when a force that cannot determine the meaning of the input voice is applied.
  • An information acquisition means (7) for acquiring information from an external device is further provided,
  • the specifying means (7) may select the output content to be output based on the information obtained by the information obtaining means (7)! /.
  • an audio apparatus includes:
  • Processing specifying means (7) for specifying the content of the audio processing to be executed based on the specified content
  • Information acquisition means (7) for acquiring information via predetermined communication means (74),
  • the voice output means (5) When the voice processing specified by the processing specifying means (7) is to output the information obtained by the information obtaining means (7), the voice output means (5) outputs a voice based on the information. Output,
  • a device control method includes:
  • the device control method according to the fourteenth aspect of the present invention includes:
  • An information acquisition step of acquiring information via a predetermined communication device An information acquisition step of acquiring information via a predetermined communication device
  • the sound output step outputs a sound based on the information.
  • a voice recognition method includes:
  • a process execution step for specifying a process to be executed and executing the process Composed of
  • a voice recognition method includes:
  • the voice output step outputs a voice based on the information.
  • An agent processing method includes:
  • a process execution step for specifying a process to be executed and executing the process
  • An agent processing method includes:
  • the voice output step outputs a voice based on the information.
  • the vehicle-mounted device control method includes:
  • An on-vehicle device control method for controlling an on-vehicle device mounted on a vehicle comprising: obtaining voice data representing a voice, and performing voice recognition on the voice data to specify a phrase represented by the voice.
  • the vehicle-mounted device control method includes:
  • An on-vehicle device control method for controlling an on-vehicle device mounted on a vehicle comprising: obtaining voice data representing a voice, and performing voice recognition on the voice data to specify a phrase represented by the voice.
  • An information acquisition step of acquiring information via a predetermined communication device An information acquisition step of acquiring information via a predetermined communication device
  • the audio output step outputs an audio based on the information.
  • the navigation method according to the twenty-first aspect of the present invention includes:
  • the navigation method according to the twenty-second aspect of the present invention includes:
  • An information acquisition step of acquiring information via a predetermined communication device An information acquisition step of acquiring information via a predetermined communication device
  • the navigation processing power specified in the processing specifying step is to output the information obtained in the information obtaining step, and the voice output step outputs a voice based on the information.
  • the audio device control method includes:
  • the audio device control method includes:
  • An information acquisition step of acquiring information via a predetermined communication device An information acquisition step of acquiring information via a predetermined communication device
  • a program according to a twenty-fifth aspect of the present invention includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • a program according to a twenty-sixth aspect of the present invention includes:
  • Processing specifying means (7) for specifying the content of control to be executed on the external device to be controlled based on the specified content
  • Information acquisition means (7) for acquiring information via predetermined communication means (74),
  • Audio output means (5) for outputting a voice
  • the voice output means (5) When the control specified by the process specifying means (7) is to output the information obtained by the information obtaining means (7), the voice output means (5) outputs a voice based on the information.
  • a program according to a twenty-seventh aspect of the present invention includes:
  • a program according to a twenty-eighth aspect of the present invention includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • the voice output unit (5) outputs a voice based on the information.
  • a program according to a twenty-ninth aspect of the present invention includes:
  • Voice recognition means (2, 3) for specifying a phrase represented by the voice
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • a program according to a thirtieth aspect of the present invention includes:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • the voice output unit (5) outputs a voice based on the information.
  • a program according to a thirty-first aspect of the present invention includes:
  • An in-vehicle device control device that can be mounted on a vehicle equipped with external in-vehicle devices.
  • Voice recognition means (2, 3) for acquiring voice data representing voice and performing voice recognition on the voice data to specify a phrase represented by the voice;
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • Processing execution means (7) for specifying the content of control to be executed on the on-vehicle device based on the specified content, and executing the control;
  • a program according to a thirty-second aspect of the present invention includes:
  • An in-vehicle device control device that can be mounted on a vehicle equipped with external in-vehicle devices.
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • Information acquisition means (7) for acquiring information via predetermined communication means (74),
  • Audio output means (5) for outputting a voice
  • the voice output means (5) When the control specified by the process specifying means (7) is to output the information obtained by the information obtaining means (7), the voice output means (5) outputs a voice based on the information.
  • a program according to a thirty-third aspect of the present invention includes:
  • a navigation device configured to be mounted on a vehicle
  • Voice recognition means (2, 3) for specifying a phrase represented by the voice
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • Processing execution means (7) for specifying the contents of the navigation processing to be executed based on the specified contents, and executing the navigation processing;
  • a program according to a thirty-fourth aspect of the present invention includes:
  • a navigation device configured to be mounted on a vehicle
  • Voice recognition means for acquiring a voice data representing a voice and performing voice recognition on the voice data to specify a phrase represented by the voice;
  • Information acquisition means (7) for acquiring information via predetermined communication means (74),
  • the voice output unit (5) When the navigation process specified by the process specifying unit (7) is to output the information obtained by the information obtaining unit (7), the voice output unit (5) outputs a voice based on the information.
  • a program according to a thirty-fifth aspect of the present invention includes:
  • Voice recognition means (2, 3) for acquiring voice data representing voice and performing voice recognition on the voice data to specify a phrase represented by the voice;
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • a program according to a thirty-sixth aspect of the present invention is:
  • Specifying means (7) for specifying the utterance content of the speaker of the voice based on the phrase specified by the voice recognition means (2, 3);
  • Processing specifying means (7) for specifying the content of the audio processing to be executed based on the specified content
  • Information acquisition means (7) for acquiring information via predetermined communication means (74),
  • the voice output means (5) When the voice processing specified by the processing specifying means (7) is to output the information obtained by the information obtaining means (7), the voice output means (5) outputs a voice based on the information. Output,
  • a device control device a voice recognition device, an agent device, an in-vehicle device control device, a navigation device, and an audio device that can appropriately control a device in response to an instruction issued by a human in the form of a language.
  • Device control method, voice recognition method, agent processing method, in-vehicle device control method, navigation method, audio device control method or Program is realized.
  • FIG. 1 is a diagram showing an agent device according to an embodiment of the present invention.
  • FIG. 2 is a more detailed configuration diagram of an agent device according to this embodiment.
  • FIG. 4 is a diagram for explaining trigger acquisition processing.
  • FIG. 5 is a diagram for explaining a determination process.
  • FIG. 6 is a diagram for explaining a determination process with an inquiry.
  • FIG. 7 is a diagram for explaining output processing.
  • FIG. 8 is a view showing a wire.
  • FIG. 9 is a diagram showing a flow of a process item database and a wire database as a whole!
  • FIG. 10 is a diagram for describing setting of a weight coefficient.
  • FIG. 11 is a flowchart showing a process executed to guide a passenger to a meal place.
  • FIG. 12 is a continuation of the flowchart showing the processing executed to guide the occupant to a meal place.
  • FIG. 13 is a continuation of the flowchart showing the processing executed to guide the occupant to the meal place.
  • FIG. 14 is a continuation of the flowchart showing the processing executed to guide the occupant to the meal place.
  • FIG. 15 is a continuation of the flowchart showing the processing executed to guide the occupant to a meal place.
  • FIG. 16 is a continuation of the flowchart showing the processing executed to guide the occupant to the meal location.
  • FIG. 17 is a continuation of the flowchart showing the processing executed to guide the occupant to the meal place.
  • FIG. 18 is a diagram showing a data structure of a table. Explanation of reference numerals
  • the agent device performs processing by changing the state according to input information.
  • this agent device is assumed to function as an in-vehicle navigation device.
  • a part of the agent device functions as a voice recognition device.
  • FIG. 1 is a block diagram showing the configuration of this agent device.
  • the agent device includes a speech input unit 1, a speech recognition unit 2, a natural language analysis unit 3, a speech synthesis processing unit 4, a speech output unit 5, an input / output target device group 6, And an agent processing unit 7.
  • the voice input unit 1 inputs voice, generates voice data in a digital format, and supplies the voice data to the voice recognition unit 2.
  • the audio input unit 1 includes, for example, a microphone 11, an AF (Audio Frequency) amplifier 12, an AZD (Analog-to-Digital) converter 13 with a built-in sample-hold circuit, and the like. It consists of more.
  • the microphone 11 converts a voice into a voice signal and outputs it.
  • the AF amplifier 12 amplifies and outputs an audio signal from the microphone 11.
  • the AZD converter 13 samples the amplified audio signal from the AF amplifier 12 and performs AZD conversion. , And generates digital audio data and supplies it to the audio recognition unit 2.
  • the speech recognition unit 2, the natural language analysis unit 3, the speech synthesis processing unit 4, and the agent processing unit 7 each include, for example, a processor 21 including a CPU (Central Processing Unit) and the like. 31, 41, 71, and the processors 21, 31, 41, 71, a non-volatile memory such as a ROM (Read Only Memory) for storing a program to be executed or a hard disk device (the ROM will be described as an example in this embodiment). ) 22, 32, 42, and 72, and volatile memories 23, 33, 43, and 73 such as RAM (Random Access Memory) having a storage area serving as a work area for the processor.
  • a processor 21 including a CPU (Central Processing Unit) and the like. 31, 41, 71, and the processors 21, 31, 41, 71, a non-volatile memory such as a ROM (Read Only Memory) for storing a program to be executed or a hard disk device (the ROM will be described as an example in this embodiment).
  • ROM Read Only Memory
  • RAM Random Access
  • the speech recognition unit 2 the natural language analysis unit 3, the speech synthesis processing unit 4, and the agent processing unit 7 are implemented by one processor, one nonvolatile memory, and one volatile memory. It may be configured.
  • the voice recognition unit 2 performs voice recognition processing on the voice data supplied from the voice input unit 1.
  • the voice recognition unit 2 When supplied with the voice data from the voice input unit 1, the voice recognition unit 2 performs, for example, a process of removing noise included in the voice data, and then performs a word database D3 in the agent processing unit 7 described later. By performing a process of performing speech recognition on the voice data with reference to, all the word candidates that may be represented by the voice data and the likelihood (score) S of the candidate And identify.
  • the speech recognition unit 2 calculates, for example, the degree of matching between the input speech and all the words registered in the word database D3, that is, the likelihood (score) S, Recognize whether the word score S is the highest. For example, the sentence “Ei, ??? has been reduced” is expressed, but the audio data representing the sound that the "???" part can be recognized as “stomach” or "grave”. Is supplied, the score “S” for the word “?” Is 80%, the score S for the word “grave” is 65%, and so on. Calculate the score S for. Then, the “stomach” having the highest value is selected as a word representing the part “???”. Then, the voice recognition unit 2 generates a text character string (or a word ID (IDentifier)) indicating the recognition result of “Oh, I'm hungry,” and supplies it to the natural language analysis unit 3.
  • a text character string or a word ID (IDentifier)
  • the method of speech recognition performed by the speech recognition unit 2 is arbitrary. Also, if the value of score S is Words below the fixed value may not be selected as candidates. Further, a plurality of word candidates may be specified for one voice input. Then, it generates data indicating the identified candidate and the score s of the candidate (hereinafter, referred to as word data) and supplies it to the agent processing unit 7. Note that the word data may include the word information itself and the score S, but is actually advantageous in handling power data that includes the word ID and the score S.
  • the natural language analysis unit 3 performs a morphological analysis on the word data (or text data) supplied from the speech recognition unit 2, and thereby converts the word represented by the word data into a part of speech. Then, data indicating the classification result is attached to the word data and supplied to the agent processing unit 7. Note that the classification method performed by the natural language analysis unit 3 is arbitrary. For example, "ChaSen”, which is a Japanese morphological analysis method developed by Nara Institute of Science and Technology, may be used!
  • the non-volatile memory 42 of the speech synthesis processing unit 4 stores a speech unit database D1 for storing data representing a word waveform and a segment database D2 for storing data representing a waveform for forming a phoneme.
  • a speech unit database D1 for storing data representing a word waveform
  • a segment database D2 for storing data representing a waveform for forming a phoneme.
  • the speech unit database D1 stores data representing a word waveform.
  • the segment database D2 stores data representing a waveform for forming a phoneme.
  • the voice synthesis processing unit 4 generates digital voice data representing voice to read out the text data supplied from the agent processing unit 6 using the data stored in the voice unit databases D1 and Z or the voice unit database D2. .
  • the voice synthesis processing unit 4 supplies the generated voice data to the voice output unit 5.
  • the method of generating digital audio data is arbitrary, but for example, a recording-editing method and a rule-based synthesis method can be used.
  • a recording-editing method for example, an announcer must read the voice of each word or phrase in advance! ⁇ This is a method of connecting and outputting them.
  • a series of voices read out by the announcer may be stored by dividing them into word units or phrase units in a later process, and these may be connected and output.
  • the rule synthesis method connects relatively small units such as phonemes (consonants and vowels), kana, and further subdivided units such as phonemes and segments. This is a method of outputting the same.
  • the audio output unit 5 reproduces the audio represented by the digital audio data supplied from the audio synthesis processing unit 4. More specifically, as shown in FIG. 2, the audio output unit 5
  • It includes a converter 51, an AF amplifier 52, and a speaker 53.
  • the DZA converter 51 converts the digital audio data supplied from the audio synthesis processing section 4 into an analog audio signal by performing DZA conversion.
  • the AF amplifier 52 amplifies the analog audio signal.
  • the speaker 53 vibrates according to the analog audio signal, reproduces the audio represented by the analog audio data, and emits the sound.
  • the input / output target device group 6 includes, for example, a navigation unit 61, a clock 62, and the like.
  • the navigation section 61 is composed of a mobile station of a GPS (Global Positioning System), a display device such as a liquid crystal display, or a known car navigation system using a processor.
  • the navigation unit 61 stores map information representing a map, detects the current position of the vehicle in accordance with a control signal supplied by the agent processing unit 7, and indicates the position of the detected current position on the map.
  • the data is generated and supplied to the agent processing unit 7 together with map information indicating a map near the current position.
  • a map near the current position is displayed together with a figure indicating the current position.
  • the clock 62 is composed of, for example, a crystal oscillator, a counter circuit, etc., continuously generates data indicating the current time, and supplies the data to the agent processing unit 7.
  • the time information obtained from the GPS via the navigation unit 61 may be supplied.
  • the agent processing unit 7 includes a powerful communication control device 74 such as a modem or a packet communication terminal, and is described later via an external network (for example, the Internet via a wireless telephone line) via the communication control device. Connected to distribution server 100.
  • a powerful communication control device 74 such as a modem or a packet communication terminal, and is described later via an external network (for example, the Internet via a wireless telephone line) via the communication control device.
  • an external network for example, the Internet via a wireless telephone line
  • the non-volatile memory 72 of the agent processing section 7 stores a word database D3.
  • the word database D3 is a database that stores data of a plurality of words and a category dictionary for indicating the concept or category under which the words are grouped.
  • the category dictionary has a data structure shown in FIG. 3, for example. That is, the category dictionary is , Data indicating a word and data indicating a category to which the word belongs are stored in association with each other. For example, in the example shown in FIG. 3, the word “reduced” is associated with the category “meal”. Note that one word may belong to a plurality of categories. (For example, in the example shown in FIG. 3, the word “stomach” is associated with the categories “meal” and “hospital.”)
  • the agent apparatus treats only a category to which these words belong in common as a category to which these words belong, thereby It is possible to understand the intention of the word spoken according to the context. For example, in the example shown in Fig. 3, when a set of word data constituting the sentence "Hungry” is supplied from the natural language analysis unit 3 to the agent processing unit 7, the agent processing unit 7 And the category to which "reduced” belongs in common, that is, only “meal” can be treated as the power category to which the words "stomach” and "reduced” belong, as long as the processing relating to the sentence is performed.
  • the set of word data represents the user's utterance, “Going for a meal, now!”
  • the power category to which the words “Meal” and “Goed,” belong in common is the category “Meal”. As long as only the process related to the sentence “I want to go to a meal” is performed, it can be treated as a category to which the words “meal” and “go to” belong.
  • the agent processing unit 7 uses only the word data supplied from the natural language analysis unit 3 that represents a specific part of speech (for example, only nouns and verbs) in subsequent processing performed by itself. You may do so.
  • the category to which a word belongs does not necessarily need to be specified by the combination power of a plurality of words. For example, since the word “sui” is associated only with the category “meal”, when word data representing the word “sui” is supplied, the agent processing unit 7 performs the determination processing in combination with another word. Let's treat this word data as belonging to the category "meal".
  • the non-volatile memory of the agent processing unit 7 further stores a past experience database D6, a Japanese restaurant database D7, a Western restaurant database D8, and a Chinese restaurant database D9.
  • the agent processing unit 7 displays the position on the map in the navigation unit 61 or sets the destination as a destination.
  • This is a database that stores the names of restaurants.
  • the Japanese restaurant database D7, the Western restaurant database D8, and the Chinese restaurant database D9 are databases that store the names of Japanese restaurants, Western restaurants, and Chinese restaurants, respectively.
  • the non-volatile memory of the agent processing unit 7 further stores a processing item database D4 and a key database D5.
  • the processing item database D4 stores the contents of trigger acquisition processing (TGxx), discrimination processing (BRxx or QBxx) and input / output processing (SPxx or EXxx described later) performed by the agent processing unit 7 for each processing item (pointer).
  • This is a database that stores the data (process item data) described in.
  • XX is an identification number.
  • the data describing the content of the "trigger acquisition process (TGxx)" is the trigger data that specifies the trigger that starts these processes (the data acquired as a trigger).
  • the trigger data is optional, for example, data indicating the current position of the vehicle, supplied from the navigation unit 61, data indicating the current time, supplied from the clock 62, or supplied from the natural language analysis unit 3. This is the above-mentioned word data.
  • the trigger data may be data delivered from a process performed by the agent processing unit 7 itself. If the data acquired in the trigger acquisition process is word data, a category in which the word represented by the word data is grouped may be described instead of the word represented by the word data. However, the contents of the trigger acquisition process are described so that a plurality of trigger acquisition processes do not operate based on word data representing the same word or word data belonging to the same category. And If not described in this way, one would try to perform multiple actions with certain word data.
  • FIG. 4 (a) shows an example of the trigger acquisition process TGxx.
  • the trigger TG01 acquires the category “meal” as a trigger (the words grouped into the category “meal” (in the example of FIG. 3, the words “reduced”, “soo”, and “stomach”). ”,“ Eat ”,“ go ”,“ setting ”,“ somewhere ”,“ The transition constant k for determining whether or not to proceed (transition) to a process subsequent to that process is 0.8.
  • FIG. 4B shows a flowchart of the trigger acquisition process TG01.
  • Trigger acquisition process TGOO is a process to acquire the word “Tsunanna ⁇ ”.
  • Trigger acquisition processing TG51 is processing for acquiring the word "Japanese food”.
  • Trigger acquisition processing TG52 is processing for acquiring the word “Western food”.
  • Trigger acquisition process TG53 is a process for acquiring the word “China”.
  • the data describing the content of the "determination process (BRxx)" stored in the process item database D4 includes a determination condition, a list of possible results as a determination result, and a return direction transition constant described later. k and data described for each discrimination process.
  • the data describing the content of the determination process includes data describing a transition constant k for determining the traveling direction for each determination result.
  • Fig. 5 (a) shows an example of the determination process BRxx.
  • the determination process BR01 is “(a) Before 12:00, (b) After 12:00 and before 14:00, and (c) After 14:00.”
  • (a) The transition constant k for determining the force to proceed to the subsequent processing when it is determined to be before 12:00 is 0.4
  • (b) When it is determined to be after 12:00 and before 14:00, The transition constant k for determining whether or not to proceed to the processing to be performed is 0.3
  • the transition constant k is set to 0 to determine whether or not to proceed to the subsequent processing. 4
  • the flow chart of this example is shown in Fig. 5 (b).
  • the node BR01.1 shown in FIG. 5 (b) is a start point node indicating the processing start point, and the node BR01.2 is a node in the traveling direction when it is determined that (a) is before 12:00.
  • the constant k is 0.4.
  • the node BR01.3 is a node in the traveling direction when it is determined (b) after 12:00 and before 14:00, the transition constant k is 0.3, and the node BR01. c) The node in the traveling direction when it is determined to be after 14:00, and its transition constant k is 0.4.
  • the “determination process” it is assumed that data used for the determination may be obtained at an arbitrary acquisition power.
  • the acquisition source for example, other processes executed by the speech recognition unit 2, the natural language analysis unit 3, the agent processing unit 7, devices belonging to the input / output target device group 6, and other external devices are considered.
  • the data describing the content of the determination process may further include, for example, data specifying a source of data used for the determination. Yes.
  • predetermined data may be output to a predetermined output destination prior to the determination (in this case, a symbol indicating the process is, for example, QBxx).
  • a symbol indicating the process is, for example, QBxx.
  • the data describing the content of the determination process includes, for example, the content of the data to be output and the data specifying the output destination of this data. .
  • Fig. 6 (a) shows an example of the discrimination process QBxx.
  • the discrimination process QB01 asks the user “Going for a meal?”, And the transition constant k in the traveling direction when the response (user's answer) is “Yes” is 0.7.
  • a flowchart of this example is shown in FIG.
  • the node QB01.1 shown in FIG. 6 (b) is a start point node indicating the start point of the process, and the node QB01.2 is the progress when it is determined that "go to meal” is designated in response to the inquiry. It is a node in the direction, and its transition constant k is 0.7.
  • the node QB01.3 is a node in the traveling direction when it is determined that "don't go to eat” is specified, and its transition constant k is 0.4.
  • the discrimination process QB02 asks the user, "Well then go to the combination?", And when the response (user's answer) is "Yes", the transition constant k in the traveling direction is 0. 5.
  • the transition constant k in the traveling direction when “No” is 0.3.
  • the data that is stored in the processing item database D4 and that describes the contents of the "input / output processing" also includes the data capacity for specifying the contents of the data to be input or output.
  • the input data and the output data may have arbitrary contents.
  • the output data may be data representing the reading of a voice generated by the voice output unit 5 via the voice synthesis processing unit 4 or a control signal for controlling an external device.
  • the input data may be, for example, data to which external equipment power is also supplied.
  • FIG. 7 (a) shows an example of output processing EXxx.
  • the output process EX02 is an operation of “performing navigation guidance”, and the transition constant k in the traveling direction for performing the process after the operation is 0.8.
  • a flowchart of this example is shown in FIG.
  • the node E X01.1 shown in FIG. 7 (b) is a start node indicating the start point of the processing, and the node EX01.2 indicates the end of the processing. Node and the transition constant k is 0.8.
  • selection of a node indicating the end of the process without setting the transition constant k may be an essential process.
  • the wire database D5 is composed of a set of data (hereinafter, this transition definition data is referred to as a wire) that describes a transition between a plurality of processes (TG, BRxx, QBxx, SPxx, EXxx).
  • the wires are also composed of a data force described in a format as shown in FIG. 8, for example.
  • the wire Wn (Wl, W2 ) transitions from the preceding process X (From (X) to the subsequent process Y (To (Y)) (From (X) To (Y)).
  • This is data specifying the preceding process (X), the subsequent process (Y), and the weighting factor 3 ⁇ 4J given to the transition.
  • the transition constant k described in the above-described process item data may be rewritten by the agent processing unit 7 or the like according to the result of the execution of the transition indicated by the connected wire. For example, if the frequency at which the transition indicated by a specific wire is executed is greater than a predetermined amount, the agent processing unit 7 sets the transition constant described in the process item data indicating the process item of the transition source of the transition indicated by this wire. Rewriting the value of k to a larger value than before makes the transition shown by this wire more likely to occur, and so on. As a result, the probability that a response intended by the user is made increases as a result.
  • the agent processing section 7 executes a flow in which the processing item database D4 and the wire database D5 are represented as a whole.
  • the processing item database D4 and the wire database D5 can describe, for example, a flow as shown in FIG. 9 (a).
  • the processing power of the agent processing unit 7 will be described in detail with reference to FIG. 9 (a).
  • the agent processing unit 7 is defined by the wire W01 so as to execute the preceding first process P1 and transit to the subsequent second process P2. And execute a transition to the subsequent third process P3. Performs the following processing when defined by keyer W03.
  • process P1 is a process of determining whether word data representing the word "go" is supplied
  • process P2 is a process of determining whether word data representing the word "meal” is supplied
  • process P3 is a process of determining whether or not the force is obtained
  • the process P3 is a process of determining whether to acquire information indicating a position of a restaurant or a hospital from the navigation unit 61.
  • the transition constant k in each traveling direction is 0.5 for all of the processes P1 to P3.
  • the wire is defined, for example, as shown in FIG. 9 (b).
  • the agent processing unit 7 performs only word data representing words classified as nouns or verbs in the natural language analysis unit 3 out of the word data supplied to the natural language analysis unit 3 by the speech recognition unit 2. Shall be obtained.
  • the agent processing unit 7 calculates the weighting factor # ⁇ of each of the wires W01, W03, and W05, and outputs the calculation result to the wire W01. , W03 and W05. These values are determined by a transition constant k in the traveling direction set in advance for each process.
  • the weighting factor # ⁇ of wire W01 becomes the value of transition constant k relating to the wire of process P1, that is, 0.5.
  • the weighting factor # ⁇ of each wire when a certain process is set as a base point is calculated. Therefore, when the current state changes, the weighting factor J is calculated each time based on the current processing.
  • the weight factor # ⁇ of the wire W03 becomes 0.5, which is equal to the transition constant k of the wire W03 of the process ⁇ 2, and the weight of the wire W05
  • the product of the constant k 0.5, that is, 0.25.
  • the agent processing unit 7 also writes again the weighting factor # ⁇ of the wire W01 in the reverse direction, that is, the direction returning to the process P1.
  • the transition constant k 0 in the return direction of the process P2. Multiplied by 1, ie, 0.01.
  • Figure 9 (c) shows the change in the weighting factor # ⁇ for each wire Wn.
  • the calculation of the weighting factor # ⁇ is set for all the wires of all the flows, not only the processing of the related flow. Here, it is only necessary to assign a predetermined low count value to the wire, which is not related to the current processing. However, especially for a wire in which the trigger acquisition processing is the preceding processing, the weighting factor J is set to be somewhat high. By doing so, it is possible to jump to a conversation whose content is significantly different from the conversation that was held immediately before.
  • conditions are set for each wire.
  • the word “go” is set as a condition in W01
  • the word “meal” is set as a condition in W03.
  • a score S indicated by the word data is set for W01.
  • the score S indicated by the word data is set for W03.
  • a plurality of different words may be set as conditions for each wire. For example, a word “meal”, “meal” or the like meaning “meal” is assigned to one wire as a condition, and a word “go” or “do” etc. meaning “go” is assigned as a condition.
  • each score S is set for the wire. Then, the calculation result of the wire is obtained based on the set score S. In this case, the scores S may be added together, or an average value may be obtained.
  • the conditions set for each wire are not limited to the case where a single word is set for a certain meaning. For example, a plurality of different words representing the same meaning may be set as conditions. The setting of this condition is sufficient if the relationship between these words and the wires is stored, and the words for which the score S is to be calculated are stored in the above-mentioned word database D3.
  • the speech recognition unit 2 calculates a score S for all words registered in the word database D3 for the input speech, and It generates word data for the word for which the score was obtained, and outputs the word data to the agent processing unit 7 via the natural language analysis unit 3.
  • the agent processing unit 7 determines which wire the input word data is associated with, and sets a score S indicated by the word data to each associated wire. In this way, even when the same word is set as a condition for a plurality of wires, the calculation of the score S between the input voice signal and the word is sufficient only once. Then, the obtained score S of each word is set for the associated wire S.
  • a force that causes a case where a plurality of scores S can be obtained for one wire S. In this case, for example, the score S is selected as the highest value.
  • information from the input / output target device group 6 may be obtained as input information.
  • the processor 21 constituting the voice recognition unit 2 stores data indicating the state of each device related to the input / output target device group 6 (for example, the “word database D3” in the above-described nonvolatile memory). If the input information indicates which device and which state is determined by referring to the state database, and this and the score S are supplied to the agent processing unit 7 as state data. Good. Unlike the case of voice recognition, if the corresponding state is in the state database, the score S should be 100%. Then, the agent processing unit 7 indicates that the status data indicates What is necessary is just to determine the wires related to the state and set the score s for each wire.
  • the speech input unit 1, the speech recognition unit 2, and the natural language analysis unit 3 operate independently to capture and analyze speech, and provide word data to the agent processing unit 7.
  • the agent processing unit 7 When the word data (or state data) relating to the determination condition (one or more) is supplied from the natural language analysis unit 3 or the like, the agent processing unit 7 performs the following processing.
  • the supplied word is recognized (identified) (step S11), and it is determined whether or not the word corresponds to a word registered in the word database DB4 (step S12). If it has not been registered (step S12, No), the word input process ends.
  • Step S12 if it is registered (Step S12, Yes), the word or the “power category” to which the word belongs is a condition!
  • the product S ⁇ J of 3 ⁇ 4J is calculated (step S13).
  • the process pointer PP indicates the first process when the flow shown in FIG. 9A is being executed.
  • the weighting factor # ⁇ for each wire is as shown in Fig. 9 (c).
  • the word “go” is related to the determination condition
  • the word “meal” is related to the determination condition
  • the weighting factor # ⁇ of the wire W01 is 0.5
  • the word data indicating the word ⁇ meal '' is The weighting factor # ⁇ of the wire W03 whose input processing is the preceding processing is 0.25.
  • the product S'J of the likelihood S and the weighting factor # ⁇ obtained for the wires W51 and W53 is as shown in Expressions 1 and 2.
  • the agent processing unit 7 performs the above-described process of obtaining the product S'J of the score s and the weighting factor # ⁇ for all the wires included in the flow.
  • the agent processing unit 7 selects a wire having the largest calculated product S′J (Step S14 in FIG. 10).
  • the agent processing unit 7 advances the control to the processing subsequent to the selected wire (step S15). For example, if the product S′J obtained for the wire W01 indicates the highest value, the input word data is recognized as indicating the word “go”, and the second word that the wire W01 performs in subsequent processing is recognized. Transit to P2. Normally, the wire weighting factor # ⁇ is relatively large starting from the process currently being executed. For this reason, generally
  • a process corresponding to the word may be started. For example, in the above example, if the score S for "go" is 30% and the score S for "meal” is 80%, the respective products S'J are 15 and 20, and in this case In this case, the wire W03 is selected. This is particularly effective when the user of the agent device is familiar with the flow of the processing and skips the current processing to jump to another processing that is close to the processing.
  • the agent processing unit 7 recalculates the weight comfort of each wire based on the state after the transition (step S16).
  • step S17 the process proceeds according to the content of the process.
  • a second process P2 is executed.
  • a relatively high weighting factor # ⁇ may be set.
  • the process P1 is preceded by a trigger acquisition process for acquiring word data indicating the word “go”, and the trigger acquisition processing power is applied to the wire defining the transition to the process P1.
  • a weighting factor 3 ⁇ 4J 1.0 is given.
  • the user pronounces “go to a meal” and, for example, a word whose score S for the word “go” is 80% If the data is obtained, the product S'J of this score S and the weighting factor # ⁇ of this wire related to “determining whether or not the user has said“ go ”” is 80% X I. 80. If this value is larger than the determination result of the other wires, the input voice is recognized as “going”, and the processing of the agent processing unit 7 jumps to processing P1.
  • a transition in the return direction may occur.
  • the transition constant k in the return direction may be set to a lower value than the transition constant k in the traveling direction. Then, even if word data having a high score S with high input speech power can be obtained, the product S′J obtained by the wire in which the transition constant k in the return direction is written as the weighting factor J is low and the value Therefore, the possibility of transition in the return direction can be reduced.
  • the agent processing unit 7 executes a transition when the calculated value of the product S′J does not satisfy the predetermined condition (for example, a process where the value of the product S′J does not reach the predetermined value). You may treat it as excluding the ability to do it.
  • a wire defines a transition in the form of a transition from a processing item to a processing item.
  • a wire defines a transition in the form of a transition from a processing item to a processing item.
  • the processing items that become triggers are actually the score S of the word or the like (which may be a state for another input target device group 6) as a condition related to the connected wire and the weighting factor 3 ⁇ 4J. Since the determination result is calculated based on the trigger, the trigger acquisition processing item is not defined as the starting point of the wire in the definition of the wire, and the wire itself is defined as the transition source.
  • connection relation of each processing item is defined by a wire
  • a transition destination can be easily added. For example, if there are many occasions when the user inputs the voice of "Find a family restaurant" with the intention of taking a break after the voice input of "Hot", a wire is automatically set for the search processing item of the family restaurant. to add. Then, after the wires are automatically added, the weight of the wires connected to the family restaurant search processing item is increased to some extent to appropriately respond to the input “Search for family restaurant”. Will be able to (In this case, however, the agent The processing unit 7 stores, for example, map data including information indicating the position of the family restaurant, or accesses external map data. )
  • the automatic addition of the wire may be performed by counting the number of jumps from a certain processing item to a certain processing item (or wire), and automatically performing the counting when the number reaches a predetermined number.
  • the agent processing unit 7 receives word data indicating a word belonging to the category “meal” from the natural language analysis unit 3 in the trigger acquisition processing step TG1, This is obtained and passed to the discrimination processing step QB1.
  • Trigger acquisition process Step TG1 can be any word that is classified into the category of “meal” if it is a word that is classified into the category of “meal”.
  • the agent device executes the processing of the discrimination processing step QB1 and subsequent steps in response to various words.
  • the agent processing section 7 first supplies word data representing a sentence “Going to a meal?” To the speech synthesis processing section 4.
  • the voice synthesis processing unit 4 generates voice data representing voice to read out the text and supplies the voice data to the voice output unit 5, and the voice output unit 5 reproduces the voice represented by the voice data.
  • the agent processing unit 7 waits for supply of word data belonging to the category “affirmation” or “negation” from the natural language analysis unit 3, and when the corresponding word data is supplied, this data is referred to as “ It is determined whether it belongs to “positive” or “negative”. Then, when it is determined to belong to “yes”, the process proceeds to a determination process step QB3, and when it is determined to belong to “negative”, the process proceeds to a determination process step QB2.
  • the wire that defines the state transition from QB1 to QB3 For each wire that is not processed based on the category, for example, the wire that defines the state transition from QB1 to QB3, the words “Yes” and “Yes” are set as conditions, and the QB1 For the wire that defines the state transition from to QB2, the word “no” or “do not go” meaning negation may be set as a condition.
  • the score S of the word corresponding to the input speech from the natural language analysis unit 3 is directly set for the wire. For example, if the score S for the word “yes” in the input speech is 80%, this score S will be set for the wire that defines the state transition from QB1 to QB3.
  • the calculation result of the wire is obtained by multiplying each score S obtained here by the weighting factor 3 ⁇ 4J set for the wire, and the calculation result is The state transitions to the wire having the highest value.
  • the voice synthesis processing unit 4 If word data of a word belonging to the deviation category of “positive” or “negative” is not supplied, the sentence “Would you like to answer yes or no?” Is displayed in the speech synthesis processing unit 4. Supply word data.
  • the voice synthesis processing unit 4 generates voice data representing voice to read out the sentence, supplies the voice data to the voice output unit 5, and causes the voice output unit 5 to reproduce the voice represented by the voice data. Then, it waits for the supply of word data belonging to the category “affirmation” or “negation”, and when the word data belonging to either category is supplied, the discriminating processing step QB1 is performed according to the category of the word data. For each transition destination in the processing! The processing is shifted to the deviation (determination processing step QB6).
  • the agent processing unit 7 acquires the word data and passes it to the discrimination processing step QBO. Then, in the discrimination processing step QBO, it is determined which category the word “sorry” belongs to as a result of, for example, overlapping of the category belonging to another word. If it is determined that the word belongs to the category “meal”, the process proceeds to a determination process step QB3. If it is determined that the word belongs to another category, the word data is obtained by the trigger obtaining process for obtaining the word belonging to the corresponding category. Processing will continue as is.
  • the agent processing section 7 firstly asks the voice output section 5 via the voice synthesis processing section 4 in the same manner as in the above-described determination processing step QB1. Is played. Then, it waits for the word data belonging to the category “positive” or “negative” to be supplied from the natural language analysis unit 3, and when the corresponding word data is supplied, this is set to “positive” or “negative”. Determine if it belongs to a gap The Then, if it is determined to belong to "yes”, the process proceeds to the input / output processing step SP2, and if it is determined to belong to "no", the process proceeds to the input / output processing step SP3.
  • the voice output unit 5 causes the voice output unit 5 to reproduce a voice that reads a sentence such as “ha, ka, or kae?”. Waits for the supply of word data belonging to the category “positive” or “negative”, and according to the category of the supplied word data, determines whether or not each transition destination in the processing of the discrimination processing step QB2 is shifted. Transfer (determination processing step QB4).
  • the agent processing section 7 causes the voice output section 5 to reproduce a voice reading out a sentence "Guiding a convenience store" via the voice synthesis processing section 4, and enters the processing.
  • the navigation section 61 displays the current position on the map of the vehicle equipped with the agent device and information indicating the position of the combination on this map. Send a control signal.
  • the navigation section 61 displays the current position of the vehicle on the map and information indicating the position of the combination on the map, and starts providing guidance to the combination.
  • the agent processing unit 7 causes the voice output unit 5 to reproduce a voice reading out the sentence "Be careful about safe driving" via the voice synthesis processing unit 4, and perform the processing.
  • a control signal is sent to the navigation unit 61 to cause the navigation unit 61 to display the current position of the vehicle on the map.
  • the agent processing section 7 causes the voice output section 5 to read out a sentence "! It waits for word data belonging to ".” To be supplied, and when the corresponding word data is supplied, determines which category it belongs to. Then, when it is determined to belong to "yes”, the process proceeds to a determination process step QB7, and when it is determined to belong to "negative”, the process proceeds to a determination process step BR1.
  • the voice output unit 5 is caused to play a voice reading out the sentence "Have a no answer?" Wait for word data belonging to “negation” to be supplied Then, according to the category of the supplied word data, the processing is shifted to any one of the transition destinations in the processing of the determination processing step QB3.
  • the agent processing section 7 causes the voice output section 5 to read out the sentence "What is the name of the shop?" Via the voice synthesis processing section 4, and the word data is supplied.
  • the navigation section 61 searches for the restaurant indicated by the word data, and if there is a corresponding restaurant, the current position on the vehicle map and the corresponding location on the map are searched. Send a control signal to display information indicating the location of the restaurant. If there is a corresponding restaurant, the navigation unit 61 displays the current position of the vehicle on the map and information indicating the position of the restaurant on this map, and starts guiding to this restaurant ( Step EX100).
  • the navigation section 61 returns information to that effect to the agent processing section 7, and the agent processing section 7 shifts the processing to the input / output processing step SP5.
  • the agent processing section 7 causes the voice output section 5 to read the sentence "Not near”, and shifts the processing to the discrimination processing step BR1.
  • the agent processing unit 7 acquires data indicating the current time from the clock 62, and indicates the time force indicated by this data (a) before 12:00, and (b) after 12:00. To determine whether it is before 14:00 or (c) after 14:00.
  • the voice output unit 5 reads out the sentence “Morning,” (input / output processing step SP8), and moves the processing to the determination processing step QB10.
  • the voice output unit 5 If it is determined that the time is after 12:00 and before 14:00, the voice output unit 5 reads out the text "Lunch” (I / O processing step SP10), and moves the processing to the determination processing step QB12.
  • the voice output unit 5 reads the text “It is tea time.” (Input / output processing step SP9), and moves the processing to the determination processing step QB10.
  • the agent processing unit 7 causes the voice output unit 5 to read out the sentence "Do you want to search for a recommended shop?" It waits for the supply of the word data to which it belongs, and when the corresponding word data is supplied, determines which category it belongs to. Then, if it is determined to belong to “yes”, the process proceeds to the input / output processing step SP14, and if it is determined to belong to “negation”, the determination processing step Transfer processing to QB12.
  • the voice output unit 5 is caused to play a voice reading out a sentence “Have no answer?”, And the category “affirmation” or “ Wait for the word data belonging to ⁇ No '' to be supplied, and move the processing to! /, Which is the destination of each transition in the processing of discrimination processing step QB10, according to the category of the supplied word data (discrimination processing step QB 13).
  • the agent processing section 7 searches the navigation section 61 for a restaurant near the current position of the vehicle, supplies data indicating the name of the searched restaurant, and supplies the data on the map of the vehicle. , And a control signal instructing display of the current position of the restaurant and information indicating the position of the restaurant on this map. Then, when the name of the S restaurant is supplied to the navigation section 61, the agent processing section 7 makes the voice output section 5 read this name. On the other hand, the navigation section 61 displays the current position of the vehicle on the map and information indicating the position of the restaurant on this map, and starts guiding to this restaurant (step EX5).
  • the agent processing unit 7 causes the voice output unit 5 to read out a sentence "Do you want to search the past experience DB (database)?" It waits for the supply of word data belonging to "No” and, when the corresponding word data is supplied, determines which category it belongs to. Then, when it is determined to belong to “yes”, the process proceeds to the input / output processing step SP15, and when it is determined to belong to “negation”, the process proceeds to the determination process step QB11.
  • the voice output unit 5 is caused to play a voice reading out a sentence saying “Yes or no?” Or the word data belonging to “negation” is supplied, and the process is moved to one of the transition destinations in the processing of the discriminating processing step QB12 according to the category of the supplied word data (the discriminating processing step QB14).
  • the agent processing unit 7 searches the past experience database using, for example, the current position of the vehicle indicated by the information supplied by the navigation unit 61 as a search key, and searches for the name of the found restaurant. Make the audio output unit 5 read aloud. Then, the agent processing section 7 sends the current position of the vehicle on the map to the navigation section 61, And a control signal for instructing display of the information indicating the location of this restaurant on this map.
  • the navigation section 61 displays the current position of the vehicle on the map and information indicating the position of the restaurant on this map, and starts guiding to this restaurant (step EX6).
  • the agent processing unit 7 causes the voice output unit 5 to read out the sentence "Which one is better, Japanese food, Western food, Chinese food?", And outputs the words "Japanese food”, “Western food”, or “Chinese food”. It waits for the supply of word data representing "", and when the corresponding word data is supplied, it determines which word it is. If it is determined to be "Japanese food”, the processing is shifted to an input / output processing step EX51. If it is determined to be "Western food”, the processing is shifted to an input / output processing step EX52. If it is determined to be "Chinese food”, the processing is shifted to an input / output processing step EX53. .
  • the voice output unit 5 reproduces a voice reading out the sentence “Japanese food Z Western food Z Chinese?” , "Western food” or “Chinese” is waited for, and according to the power category of the supplied word data, each of the transition destinations in the processing of the discriminating process step QB11 is processed to be shifted. (Determination processing step QB 15).
  • the agent processing section 7 searches the Japanese restaurant database using, for example, the current position of the vehicle indicated by the information supplied by the navigation section 61 as a search key, and determines the processing. Move to step QB16. Note that the agent processing unit 7 also shifts the processing to the input / output processing step EX51 when acquiring the word data representing the word “Japanese food” in the trigger acquisition processing step TG51.
  • the western restaurant database is searched, and in the input / output processing step EX53, the Chinese restaurant database is searched in the same manner as the input / output processing step EX51. Or move to QB18.
  • the agent processing unit 7 also shifts the processing to the input / output processing step EX52 when the word data representing the word “Western food” is obtained in the trigger obtaining processing step TG52.
  • the processing is shifted to the input / output processing step EX53.
  • the agent processing unit 7 Processing step The name of the restaurant found in EX51, EX52 or EX53 and the text prompting confirmation are read out by the voice output unit 5, and the word data belonging to the category "positive” or “negative” is supplied. Wait for. Then, when the corresponding word data is supplied, it is determined which category the word data belongs to, and if it is determined that the word data belongs to “Yes”, the processing is shifted to the input / output processing step SP17, SP18 or SP19, and the processing is changed to “No”. If it is determined that they belong, the input / output processing proceeds to step SP16.
  • the voice output unit 5 is caused to play a voice reading out a sentence “Have no answer?”, And the category “affirmation” or “ Wait for the word data belonging to ⁇ negation '' to be supplied, and move the processing to one of the transition destinations in the discrimination processing step QB16, QB17 or QB18 according to the category of the supplied word data (discrimination processing step QB19, QB20 or QB21).
  • the agent processing section 7 causes the voice output section 5 to read out the text "I will guide you.”
  • a control signal is transmitted to instruct the display of the current position in and the information indicating the position on this map of the restaurant found in the input / output step EX51, EX52 or EX53.
  • the navigation section 61 displays the current position of the vehicle on the map and information indicating the position of the restaurant on the map, and starts providing guidance to the restaurant (step EX8, EX9 or EX10).
  • the agent processing section 7 causes the voice output section 5 to read out the sentence "Selfish. Try searching for restaurant information on the Web.” Then, the agent processing unit 7 accesses an external network via its own communication control device, and searches for information indicating the position of the restaurant based on the current position (input / output processing step EX7). When the corresponding information is retrieved, for example, the navigation unit 61 displays the current position of the vehicle on the map and information indicating the position of the restaurant on the map.
  • the word data supplied to the agent processing unit 7 includes the speech recognition unit.
  • a score is assigned by 2 and the process transition is performed according to the content indicated by the wire that maximizes the product S'J of the weight factor # ⁇ and the score S, so that the flow jumps and differs from the order described above. May be performed. Then, for a wire having a process item as a trigger as a preceding process item, if the transition constant k is set to a somewhat high value, the weight factor # ⁇ of this wire is also consequently increased. The higher the value, the easier it is for a jump to occur, so that the agent processing unit 7 can respond to sudden topic changes.
  • the processing item for acquiring the word data of the word “I am bored” The product s • j of the recognition score s of the word “sorry” set on the corresponding wire and the weighter # ⁇ is calculated, and the word set on the wire connected to the judgment process “go to meal?” The product s'j of the score s and the weighting factor 3 ⁇ 4j is also calculated (of course, for each of the other wires). As a result, if the product obtained for the word “sorry” indicates the largest value, the agent processing unit 7 jumps the processing flow to the processing item following the processing item for acquiring the word data of the word “sorry”. Transitions.
  • the configuration of the agent device is not limited to the above.
  • the word database D3 may store not only data indicating a word but also data indicating a phrase composed of a plurality of words as elements of the word database D3.
  • Data indicating phonemes may be stored as elements of the word database D3.
  • the data used for grouping is not necessarily in the form of a category dictionary.
  • the voice recognition unit 2 recognizes only a specific word and directly converts the recognized word. It may be supplied directly to the agent processing unit 7 (word spotting method). In this case, the agent device does not need to include the natural language analysis unit 3.
  • the agent processing unit 7 determines the category to which the plurality of words belong by using the plurality of words. May be determined based on what combination is included in the same sentence.
  • the agent processing unit 7 may store a table whose data structure is shown in FIG. 18, for example, and determine the category of a plurality of words forming a group by referring to this table.
  • the table illustrated in FIG. 18 indicates that, for example, when the word “stomach” and the word “reduced” are included in the same sentence, these two words are used as long as the processing related to this sentence is performed. Indicates that it is treated as belonging to the category "meal”. If the word “setting” and the word “destination” are included in the same sentence, these two words belong to the category “navigation setting” as long as the processing related to this sentence is performed. To be treated as
  • the agent processing unit 7 changes the transition constant k corresponding to the wire according to a predetermined criterion based on the number of times the transition represented by the wire has been executed in the past, and the weighting factor ⁇ J changes the transition constant after the change.
  • the wire may be rewritten to have a value calculated based on k. Specifically, for example, the number of times the transition represented by the wire is executed is stored in the wire database D5. Then, each time the transition is newly performed, the agent processing unit 7 increments the value of this number by one by rewriting the value of this number, and sets the transition constant k corresponding to each wire to, for example, Rewrite with a value proportional to the number of times stored for the wire.
  • the conditions set for the wires are the forces described as being set for each wire.
  • the conditions are not limited to these.
  • the condition of each wire may be described in the determination process. In this case, it is specified in advance which wire corresponds to each condition.
  • the agent processing unit 7 changes the data output in the discrimination processing or the input / output processing according to the data passed to these processings, the data input in accordance with these processings, or other arbitrary conditions. You can make it happen.
  • the agent device may include a display device (for example, a liquid crystal display) for outputting an image under the control of the agent processing unit 7.
  • the display device may be controlled so that a predetermined image is displayed for each process in the determination process.
  • the agent processing unit 7 includes a plurality of data processing devices connected to each other, which perform various processes such as a trigger acquisition process, a discrimination process, and an input / output process and a flow formed by wires as a whole. (For example, a computer).
  • each of the data processing devices constituting the agent processing unit 7 stores data representing a part that may be executed by itself in the entire flow that can be executed by the agent processing unit 7 into a processing item database or a wire. It is sufficient to store it as an element of the database.
  • the data stored in each data processing device is data that macro-defines the processing of the part executed by the data processing device! / ⁇ , distributed processing is performed to a plurality of data processing devices. It is also easy to make them.
  • the agent device may include a plurality of voice input units 1, a natural language analysis unit 3, and a plurality of voice output units 5.
  • the audio input unit 1 is provided, for example, with a recording medium (eg, a floppy (registered trademark) disk, a CD (Compact Disc), a MO (e.g., a floppy (registered trademark) disk, a CD (Compact Disc), a MO (a recording medium).
  • a recording medium eg, a floppy (registered trademark) disk, a CD (Compact Disc), a MO (A)
  • Magneto-Optical Disk and a recording medium drive (for example, a floppy (registered trademark) disk drive, CD-ROM drive, MO drive, etc.) that supplies waveform signals to the natural language analysis unit 3 Be prepared! / ⁇ .
  • a recording medium drive for example, a floppy (registered trademark) disk drive, CD-ROM drive, MO drive, etc.
  • the agent device is not limited to control of a car navigation system, for example, and may control other devices. Therefore, opening and closing windows that are opened and closed by the power of a motor that controls air conditioners such as air conditioners that control onboard equipment control devices, turning on and off lights, and starting and stopping electric wipers May be controlled.
  • Control of audio equipment includes, for example, control of radio tuning, recording medium drive for reproducing sound and images recorded on recording media such as CD (Compact Disc), MD (Mini Disc), and DVD (Digital Versatile Disc).
  • CD Compact Disc
  • MD Minute Disc
  • DVD Digital Versatile Disc
  • the present invention is applicable to the control of a switching device.
  • an expression for example, "Song" that may be used by a user who thinks that the music played by the CD player has changed the music is used.
  • Combination of words that make up “change”, “another song”, “different song”, etc. ) Is changed using the category dictionary.
  • a combination of words belonging to the power category “song change” is uttered, and the word data representing the corresponding word is spoken by the speech recognition unit.
  • the agent processing unit 7 responds to the request (specifically, a trigger process for acquiring word data belonging to the category “tune change”). (Transition to the processing item following the item), sending a control signal to the CD player instructing to change the track being played back, etc.
  • the words “change”, “different”, and “different” may be set as conditions for one wire together with the word “song”.
  • the score of the word corresponding to the input speech from the natural language analysis unit 3 is directly set for the wire.
  • the word data supplied from the natural language analysis unit 3 is the word “song” and the word “change”, respective scores are set for the wire.
  • the calculation result of the wire is obtained based on the set score.
  • the scores may be added together, or an average value may be obtained.
  • the calculation result of the wire is obtained by multiplying each score obtained here by the weight coefficient set for the wire, and the calculation result is the highest. The state is transited to the wire indicating the ⁇ value.
  • the agent processing unit 7 causes the audio output unit 5 to output a voice saying "Is this song correct?", And then outputs a word (" When word data of words belonging to the category of "un”, “," “OK”, etc.) or "negative” (e.g., "no,” “no,” “no,” “other,” etc.) is supplied, the supplied words It is conceivable to instruct the CD player to play or stop music according to the data category.
  • the user may utter an ambiguous expression.
  • the word “sorry” can be issued for various requests, such as “play music”, “change songs”, “shopping” or “meal”.
  • An agent device which specifies the intention of an instruction when such an ambiguous expression is issued, will be described.
  • the physical configuration of the agent device is substantially the same as the configuration of the first embodiment shown in FIG. 1, for example.
  • the input / output target device group 6 of the agent device includes a CD player in addition to the navigation unit 61 and the clock 62. It is assumed that at least a part of the category defined by the category dictionary is associated with at least one of the devices belonging to the input / output target device group 6.
  • the agent processor 7 searches for a category to which the word "sorry” belongs. As a result, for example, assuming that the device belongs to four categories of “music playback”, “change song”, “shopping”, and “meal”, next, the agent processing unit 7 Then, information indicating the current operation state of the device is acquired from the device associated with these categories.
  • the agent processing unit 7 may, for example, say "play music or go shopping or go for a meal?" Is generated in the audio output unit 5, so that one of the three categories of "music playback", “shopping", and “meal” excluding “song change” can be selected from the four categories described above. Prompt.
  • the agent processing unit 7 transitions to a process subsequent to the trigger acquisition process for acquiring the word data of the words belonging to the category "CD playback".
  • a sound "Play a CD” is generated in the sound output unit 5, and a control signal for instructing the CD player to reproduce the sound is sent.
  • the user utters a sentence containing the word "uta”, "I want to hear even some song”, or a sentence containing such a word, such as a word belonging to the power category "music",
  • the agent processing section 7 proceeds to the processing subsequent to the trigger acquisition processing for acquiring the word data of the word belonging to the category "music”. Transits.
  • the agent processing unit 7 transitions to a process subsequent to the trigger acquisition process for acquiring word data of a word belonging to the category “meal”.
  • the QB shown in Fig. 11 The state transitions to 3.
  • the agent processing unit 7 executes, for example, Change, or go shopping, or go to meal? ”In the audio output unit 5 to change“ Song change ”,“ Buy V, thing ”excluding“ Music playback ”among the above four categories. Encourage them to select one of the three categories of “meals”.
  • the agent device By performing the operations described above, the agent device according to the second embodiment of the present invention appropriately specifies the intention of the user based on the voice indicating the ambiguous instruction of the user.
  • the agent device accurately determines a user's request, and also controls the device by specifically guiding the user's request with ambiguous pointing power.
  • the user may need a talker who cannot simply judge the request he or she makes unilaterally. For example, it is considered that a user who drives a car alone often feels such a need. However, talking while using a mobile phone while driving a car is dangerous and there is also a problem that call charges are too high.
  • the physical configuration of the agent device is substantially the same as the configuration of the first embodiment, for example.
  • the input / output target device group 6 of the agent device receives the FM multiplex broadcast, extracts the character information, and supplies the character information to the agent processing unit 7 as needed, or the character information via an external communication line.
  • the terminal includes a terminal that obtains and supplies the information to the agent processing unit 7 as needed, and the agent processing unit 7 stores the character information supplied by the radio receiver or the terminal in its non-volatile memory. Accumulate. When reading out the stored character information, data indicating that the reading has been performed is generated and stored.
  • a trigger acquisition for acquiring word data representing the word "What's the news?"
  • a process described below is executed as a process subsequent to the trigger acquisition process.
  • the agent processing unit 7 sends a message informing the genre of the corresponding character information (for example, "Sports and socio-economics-there are youths" etc.) are output to the audio output unit 5.
  • the genre of the corresponding character information is specified based on the information indicating the classification in the received character information in advance, if any. If not, the agent processing unit 7 makes a determination based on the contents of the character information. Specifically, for example, character information that includes the content of “ ⁇ party executives are forced to be dismissed due to corruption” ⁇ ⁇ Judge as an article. Similarly, in the textual information that includes the statement “The stock price of the company risend due to the announcement of the earnings announced by ⁇ Co., Ltd.,” based on the words “financial announcement” and “stock price,” to decide. In addition, in the text information including the content that " ⁇ (the team name) of soccer won the match (when) and won the championship,” the words “sucker,” “match,” and “winner” Based on this, it is determined to be a sports article.
  • the agent processing unit 7 first reads out only a part of the character information (for example, the first paragraph), and the user reads the details of the character information. Wait for the voice you want (for example, asking "Do you have more information?"), And when you do, have the rest read aloud. May be.
  • the agent processing unit 7 searches the character information stored therein and determines whether or not the entire text has already been read out. Then, if it is determined that the text has been read out, the sound "No, this is only for now” is output, and if there is a detailed part, the sound "Yes, then the whole sentence is read out” is output. After that, a voice for reading the corresponding detailed portion may be output.
  • the agent processing unit 7 responds to the voice utterance and outputs the voice information among the text information stored therein. From there, a possible answer to the question may be searched out and the voice output unit 5 may read it out. For example, when a user asks the question "Which game did you win?", Search for text information that describes the result of the game, and if found, read out the text information. It is. Also, when asked "when is the next match?", It is sufficient to search for text information explaining the schedule of the next match, and read it out if found.
  • the agent processing unit 7 determines the "team name” or "game date” based on the conversation contents with the user so far! After the sound output unit 5 generates a sound, such as "I'll look into it a little bit,” it connects to a ticket sales site via an external network or the like, and queries whether there is a corresponding ticket.
  • the agent processing unit 7 asks, "Now it is okay.
  • the voice output unit 5 reads out the voice explaining the sales status of the ticket to prompt the user to answer.
  • the user utters a word that indicates affirmation, such as “buy”, “order”, “buy”, etc., responds to the word data representing this word and supports ticket purchase. (For example, a known process for supporting Internet payment or the like).
  • the agent processing unit 7 causes the voice output unit 5 to read a sentence such as "I'm sorry but I'm already full.” Then, a series of processes is terminated, and if there is any other character information yet to be output, the process proceeds to a process of outputting the corresponding character information.
  • the agent device realizes a conversation with the user that does not merely perform the control desired by the user.
  • the above-described conversation between the agent device and the user can be applied to an audio device.
  • an audio device acquires information based on artist conditions registered in advance by a user through the Internet or the like and stores the information. The information obtained is categorized based on artist conditions.
  • the agent device searches the contents of the memory and, if there is any information that has not been presented yet, presents it by voice output. Of course, at this time, it may be accompanied by video information.
  • the agent device further confirms the purchase of the album to the user, and when it is approved, proceeds to the Internet CD shop to purchase the album.
  • the agent device confirms the purchase of a ticket for the concert with the user, and when it is approved, the agent device performs a purchase procedure at the Internet ticket shop to purchase the ticket.
  • the category of the word data is treated as the meaning of the word data. 6. If the data acquired in the trigger acquisition process is word data, the condition set for the wire is that the word represented by the word data is grouped instead of the word represented by the word data, Describe.
  • the device control device embodying the present invention can be realized by using a normal computer system without using a dedicated system.
  • a program that causes a personal computer to perform the functions of the above-described agent device may be uploaded to, for example, a bulletin board (BBS) of a communication line and distributed via the communication line.
  • the carrier may be modulated by a signal representing the program, the resulting modulated wave may be transmitted, and the device receiving the modulated wave may demodulate the modulated wave and restore the program. Then, by starting this program and executing it in the same manner as other application programs under the control of the OS, the above-described processing can be executed.
  • the program excluding the part is stored in the recording medium. May be stored. Also in this case, in the present invention, it is assumed that the recording medium stores a program for executing each function or step executed by the computer.
  • the present invention can be used for various device control devices and the like that can control devices in response to instructions issued by a human in the form of a language.

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Traffic Control Systems (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

 音声認識部(2)は、音声入力部(1)が入力した話者の音声に音声認識を施して、この音声が表している可能性のある単語とそのスコアとを特定し、自然言語解析部(3)がこれらの単語の品詞を特定して、これらの単語を表す単語データをエージェント処理部(7)に供給する。エージェント処理部(7)は、単語データ等を取得するデータ取得処理や、判別処理、入出力処理を定義する処理項目データと、ひとつの処理から次の処理への遷移を定義しこの遷移に重み係数を与えるデータであるワイヤとを記憶しており、処理項目データとワイヤとが全体として表すフローを実行することにより、話者の要求を適切に把握し、この要求を満たすように、入出力対象機器群(6)に属する機器を制御する。

Description

明 細 書
機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、 ナビゲーシヨン装置、オーディオ装置、機器制御方法、音声認識方法、エージ ント処理方法、車載機器制御方法、ナビゲーシヨン方法、オーディオ装置制御方 法及びプログラム
技術分野
[0001] この発明は、機器制御装置、音声認識装置、エージェント装置、車載機器制御装 置、ナビゲーシヨン装置、オーディオ装置、機器制御方法、音声認識方法、エージェ ント処理方法、車載機器制御方法、ナビゲーシヨン方法、オーディオ装置制御方法 及びプログラムに関する。 背景技術
[0002] 近年、音声認識の技術を用いて音声を認識し、認識結果に応答して電気機器など を制御する手法が用いられている。この手法は、具体的には、入力した音声が表す 単語を識別し、識別された単語が所定のキーワードに合致するか否かを判別して、 判別結果に基づいて外部の機器を制御するものである(例えば、特許文献 1参照)。 特許文献 1:特開平 8- 339288号公報
発明の開示
発明が解決しょうとする課題
[0003] しかし、人間が言語の形で発する指示を完全に認識するのは困難である。このため 、上述の手法では、人間が言語の形で発する指示に適切に応答することができない 場合があった。
[0004] この発明は上記実状に鑑みてなされたものであり、人間が言語の形で発する指示 に適切に応答して機器を制御できる機器制御装置、音声認識装置、エージェント装 置、車載機器制御装置、ナビゲーシヨン装置、オーディオ装置、機器制御方法、音 声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーシヨン方法、ォー ディォ装置制御方法ある 、はプログラムを提供することを目的とする。 課題を解決するための手段
[0005] 上記目的を達成するため、この発明の第 1の観点にかかる機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2)が特定した語句に基づき、前記音声の発話者の発話内容 を特定する特定手段 (7)と、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定して、当該制御を実行する処理実行手段(7)と、
を備える、
ことを特徴とする。
[0006] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2)が特定した語句のうち、所定の品詞 であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定して ちょい。
[0007] 前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された複数の語句の組み合わせが所定の条件を満たしているか否か を判別し、判別結果に基づいて、前記音声の発話者の発話内容を特定してもよい。
[0008] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段が特定した語句が分類されるカテゴリに基づいて前記音声の発 話者の発話内容を特定してもよ ヽ。
[0009] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段が特定した語句若しくはカテゴリの組み合わせと前記対応情報に基づい て前記音声の発話者の発話内容を特定してもよ ヽ。
[0010] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテゴ リに基づ 、て、前記音声の発話者の発話内容を特定してもよ 、。 [0011] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行してちょい。
[0012] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす 、表現での入力を促してもょ 、。
[0013] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、出 力する出力内容を選択するようにしてもよ!、。
[0014] また、この発明の第 2の観点にかかる機器制御装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定する処理特定手段 (7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 ( 5)と、
を備え、
前記処理特定手段 (7)が特定した制御が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする。
[0015] また、この発明の第 3の観点に力かる音声認識認置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行手段 (7)と、
を備える、
ことを特徴とする。
[0016] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 するものであってもよい。
[0017] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段が特定した語句が分類されるカテゴリに基づいて前記音声の発 話者の発話内容を特定するものであってもよ 、。
[0018] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段が特定した語句若しくはカテゴリの組み合わせと前記対応情報に基づい て前記音声の発話者の発話内容を特定するものであってもよい。
[0019] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段が特定した複数の語句が共通して分類されているカテゴリに基 づ 、て、前記音声の発話者の発話内容を特定するものであってもよ 、。
[0020] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行するものであってもよ 、。
[0021] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす 、表現での入力を促すものであってもよ 、。
[0022] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択するものであってもよ!/、。
[0023] また、この発明の第 4の観点に力かる音声認識装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて実行すべき処理を特定する処理特定手段 (7)と、 所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段(
5)と、
を備え、
前記処理特定手段 (7)が特定した処理が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする。
[0024] また、この発明の第 5の観点に力かるエージェント装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行手段 (7)と、
を備える、
ことを特徴とする。
[0025] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 する、
ことを特徴とする。
[0026] 前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された複数の語句の組み合わせが所定の条件を満たしているか否か を判別し、判別結果に基づいて、前記音声の発話者の発話内容を特定するものであ つてもよい。
[0027] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段が特定した語句が分類されるカテゴリに基づいて前記音声の発 話者の発話内容を特定するものであってもよ 、。
[0028] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段(2, 3)が特定した語句若しくはカテゴリの組み合わせと前記対応情報に 基づ 、て前記音声の発話者の発話内容を特定するものであってもよ 、。
[0029] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテゴ リに基づ 、て、前記音声の発話者の発話内容を特定するものであってもよ ヽ。
[0030] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行するものであってもよ 、。
[0031] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす 、表現での入力を促すものであってもよ 、。
[0032] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択するものであってもよ!/、。
[0033] 前記処理実行手段(7)は、実行すべき処理として特定した処理が、外部から受信し た情報を発話者に提示する処理であるとき、当該情報を読み上げる音声を発生させ ることにより当該提示を実行する手段を備えるものであってもよい。 [0034] また、この発明の第 6の観点に力かるエージェント装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて実行すべき処理を特定する処理特定手段 (7)と、 所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段(
5)と、
を備え、
前記処理特定手段 (7)が特定した処理が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする。
[0035] また、この発明の第 7の観点にかかる車載機器制御装置は、
外部の車載機器を搭載した車両に搭載可能に構成された車載機器制御装置であ つて、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定し て、当該制御を実行する処理実行手段 (7)と、
を備える、
ことを特徴とする。
[0036] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 するものであってもよい。
[0037] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段(2, 3)が特定した語句が分類されるカテゴリに基づいて前記音 声の発話者の発話内容を特定するものであってもよ ヽ。
[0038] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段が特定した語句若しくはカテゴリの組み合わせと前記対応情報に基づい て前記音声の発話者の発話内容を特定するものであってもよい。
[0039] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテゴ リに基づ 、て、前記音声の発話者の発話内容を特定するものであってもよ ヽ。
[0040] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行するものであってもよ 、。
[0041] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす 、表現での入力を促すものであってもよ 、。
[0042] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択するものであってもよ!/、。
[0043] また、この発明の第 8の観点にかかる車載機器制御装置は、
外部の車載機器を搭載した車両に搭載可能に構成された車載機器制御装置であ つて、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、 特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定 する処理特定手段 (7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段(
5)と、
を備え、
前記処理特定手段 (7)が特定した制御が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする。
[0044] また、この発明の第 9の観点に力かるナビゲーシヨン装置は、
車両に搭載可能に構成されたナビゲーシヨン装置であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべきナビゲーシヨン処理の内容を特定して、当該 ナビゲーシヨン処理を実行する処理実行手段(7)と、
を備える、
ことを特徴とする。
[0045] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 するものであってもよい。
[0046] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、 前記音声認識手段(2, 3)が特定した語句が分類されるカテゴリに基づいて前記 音声の発話者の発話内容を特定するものであってもよ 、。 [0047] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段(2, 3)が特定した語句若しくはカテゴリの組み合わせと前記対応情報に 基づ 、て前記音声の発話者の発話内容を特定するものであってもよ 、。
[0048] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、 前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテ ゴリに基づ 、て、前記音声の発話者の発話内容を特定するものであってもよ 、。
[0049] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行するものであってもよ 、。
[0050] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす 、表現での入力を促すものであってもよ 、。
[0051] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択するものであってもよ!/、。
[0052] また、この発明の第 10の観点に力かるナビゲーシヨン装置は、
車両に搭載可能に構成されたナビゲーシヨン装置であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ!/、て、実行すべきナビゲーシヨン処理の内容を特定する処理 特定手段 (7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、 前記処理特定手段 (7)が特定したナビゲーシヨン処理が、前記情報取得手段 (7) で取得された情報を出力するものであるとき、前記音声出力手段は当該情報に基づ いて音声を出力する、
ことを特徴とする。
[0053] また、この発明の第 11の観点に力かるオーディオ装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべき音声処理の内容を特定して、当該音声処理 を実行し、又は外部の機器に実行させるよう当該外部の機器を制御する処理実行手 段 (7)と、
を備える、
ことを特徴とする。
[0054] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 するものであってもよい。
[0055] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段(2, 3)が特定した語句が分類されるカテゴリに基づいて前記音 声の発話者の発話内容を特定するものであってもよ ヽ。
[0056] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段(2, 3)が特定した語句若しくはカテゴリの組み合わせと前記対応情報に 基づ 、て前記音声の発話者の発話内容を特定するものであってもよ 、。
[0057] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテゴ 、て、前記音声の発話者の発話内容を特定するものであってもよ ヽ。
[0058] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行するものであってもよ 、。
[0059] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす 、表現での入力を促すものであってもよ 、。
[0060] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択するものであってもよ!/、。
[0061] また、この発明の第 12の観点に力かるオーディオ装置は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段と、
特定した内容に基づいて、実行すべき音声処理の内容を特定する処理特定手段( 7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定した音声処理が、前記情報取得手段 (7)で取得され た情報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音 声を出力する、
ことを特徴とする。
[0062] また、この発明の第 13の観点にかかる機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、 前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定して、当該制御を実行する処理実行ステップと、
より構成される、
ことを特徴とする。
[0063] また、この発明の第 14の観点にかかる機器制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定する処理特定ステップと、
所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップで特定した制御が、前記情報取得ステップで取得された情報 を出力するものであるとき、前記音声出力ステップでは当該情報に基づいて音声を 出力する、
ことを特徴とする。
[0064] また、この発明の第 15の観点に力かる音声認識方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行ステップと、 より構成される、
ことを特徴とする。
[0065] また、この発明の第 16の観点に力かる音声認識方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて実行すべき処理を特定する処理特定ステップと、 所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップで特定した処理が、前記情報取得ステップで取得された情報 を出力するものであるとき、前記音声出力ステップでは当該情報に基づいて音声を 出力する、
ことを特徴とする。
[0066] また、この発明の第 17の観点に力かるエージェント処理方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行ステップと、
より構成される、
ことを特徴とする。
[0067] また、この発明の第 18の観点に力かるエージェント処理方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、 前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて実行すべき処理を特定する処理特定ステップと、 所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップで特定した処理が、前記情報取得ステップで取得された情 報を出力するものであるとき、前記音声出力ステップでは当該情報に基づいて音声 を出力する、
ことを特徴とする。
[0068] また、この発明の第 19の観点にかかる車載機器制御方法は、
車両に搭載された車載機器を制御するための車載機器制御方法であって、 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定し て、当該制御を実行する処理実行ステップと、
より構成される、
ことを特徴とする。
[0069] また、この発明の第 20の観点にかかる車載機器制御方法は、
車両に搭載された車載機器を制御するための車載機器制御方法であって、 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定 する処理特定ステップと、
所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップが特定した制御が、前記情報取得手段で取得された情報を 出力するものであるとき、前記音声出力ステップは当該情報に基づいて音声を出力 する、
ことを特徴とする。
[0070] また、この発明の第 21の観点に力かるナビゲーシヨン方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、実行すべきナビゲーシヨン処理の内容を特定して、当該 ナビゲーシヨン処理を実行する処理実行ステップと、
より構成される、
ことを特徴とする。
[0071] また、この発明の第 22の観点に力かるナビゲーシヨン方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ!/、て、実行すべきナビゲーシヨン処理の内容を特定する処理 特定ステップと、
所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、 より構成され、
前記処理特定ステップで特定したナビゲーシヨン処理力 前記情報取得ステップで 取得された情報を出力するものであるとき、前記音声出力ステップでは当該情報に 基づいて音声を出力する、
ことを特徴とする。
[0072] また、この発明の第 23の観点に力かるオーディオ装置制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、実行すべき音声処理の内容を特定して、当該音声処理 を実行し、又は外部のオーディオ装置に実行させるよう当該外部のオーディオ装置 を制御する処理実行ステップと、
より構成される、
ことを特徴とする。
[0073] また、この発明の第 24の観点に力かるオーディオ装置制御方法は、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、外部のオーディオ装置に実行させるべき音声処理の内 容を特定する処理特定ステップと、
所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップで特定した音声処理が、前記情報取得ステップで取得され た情報を出力するものであるとき、前記音声出力ステップで当該情報に基づいて音 声を出力する、
ことを特徴とする。
[0074] また、この発明の第 25の観点にかかるプログラムは、
コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定して、当該制御を実行する処理実行手段(7)と、
を備える、
ことを特徴とする機器制御装置として機能させる。
[0075] また、この発明の第 26の観点にかかるプログラムは、
コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段と、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定する処理特定手段 (7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 ( 5)と、
を備え、
前記処理特定手段 (7)が特定した制御が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする機器制御装置として機能させる。 [0076] また、この発明の第 27の観点にかかるプログラムは、
コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段と、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行手段 (7)と、
を備える、
ことを特徴とする音声認識装置として機能させる。
[0077] また、この発明の第 28の観点にかかるプログラムは、
コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて実行すべき処理を特定する処理特定手段 (7)と、 所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定した処理が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする音声認識装置として機能させる。
[0078] また、この発明の第 29の観点にかかるプログラムは、
コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行手段 (7)と、
を備える、
ことを特徴とするエージェント装置として機能させる。
[0079] また、この発明の第 30の観点にかかるプログラムは、
コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて実行すべき処理を特定する処理特定手段 (7)と、 所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定した処理が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とするエージェント装置として機能させる。
[0080] また、この発明の第 31の観点にかかるプログラムは、
コンピュータを、
外部の車載機器を搭載した車両に搭載可能に構成された車載機器制御装置であ つて、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、 前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定し て、当該制御を実行する処理実行手段 (7)と、
を備える、
ことを特徴とする車載機器制御装置として機能させる。
[0081] また、この発明の第 32の観点にかかるプログラムは、
コンピュータを、
外部の車載機器を搭載した車両に搭載可能に構成された車載機器制御装置であ つて、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定 する処理特定手段と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 ( 5)と、
を備え、
前記処理特定手段 (7)が特定した制御が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする車載機器制御装置として機能させる。
[0082] また、この発明の第 33の観点にかかるプログラムは、
コンピュータを、
車両に搭載可能に構成されたナビゲーシヨン装置であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべきナビゲーシヨン処理の内容を特定して、当該 ナビゲーシヨン処理を実行する処理実行手段(7)と、
を備える、
ことを特徴とするナビゲーシヨン装置として機能させる。
[0083] また、この発明の第 34の観点にかかるプログラムは、
コンピュータを、
車両に搭載可能に構成されたナビゲーシヨン装置であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段と、
特定した内容に基づ!/、て、実行すべきナビゲーシヨン処理の内容を特定する処理 特定手段と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定したナビゲーシヨン処理が、前記情報取得手段 (7) で取得された情報を出力するものであるとき、前記音声出力手段 (5)は当該情報に 基づいて音声を出力する、
ことを特徴とするナビゲーシヨン装置として機能させる。
[0084] また、この発明の第 35の観点にかかるプログラムは、
コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、 前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべき音声処理の内容を特定して、当該音声処理 を実行し、又は外部の機器に実行させるよう当該外部の機器を制御する処理実行手 段 (7)と、
を備える、
ことを特徴とするオーディオ装置として機能させる。
[0085] また、この発明の第 36の観点にかかるプログラムは、
コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべき音声処理の内容を特定する処理特定手段( 7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定した音声処理が、前記情報取得手段 (7)で取得され た情報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音 声を出力する、
ことを特徴とするオーディオ装置として機能させる。
発明の効果
[0086] この発明によれば、人間が言語の形で発する指示に適切に応答して機器を制御で きる機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲ ーシヨン装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方 法、車載機器制御方法、ナビゲーシヨン方法、オーディオ装置制御方法あるいはプ ログラムが実現される。
図面の簡単な説明
圆 1]この発明の実施の形態に係るエージェント装置を示す図である。
[図 2]この実施の形態に係るエージェント装置のより詳細な構成図である。
圆 3]カテゴリ辞書の具体例を模式的に示す図である。
[図 4]トリガ取得処理を説明するための図である。
[図 5]判別処理を説明するための図である。
圆 6]問い合わせ付きの判別処理を説明するための図である。
圆 7]出力処理を説明するための図である。
[図 8]ワイヤを示す図である。
[図 9]処理項目データベース及びワイヤデータベースが全体として表して!/、るフロー を示す図である。
圆 10]重み係数の設定を説明するための図である。
[図 11]搭乗者を食事の場所に誘導するために実行する処理を表すフローチャートで ある。
[図 12]搭乗者を食事の場所に誘導するために実行する処理を表すフローチャートの 続きである。
[図 13]搭乗者を食事の場所に誘導するために実行する処理を表すフローチャートの 続きである。
[図 14]搭乗者を食事の場所に誘導するために実行する処理を表すフローチャートの 続きである。
[図 15]搭乗者を食事の場所に誘導するために実行する処理を表すフローチャートの 続きである。
[図 16]搭乗者を食事の場所に誘導するために実行する処理を表すフローチャートの 続きである。
[図 17]搭乗者を食事の場所に誘導するために実行する処理を表すフローチャートの 続きである。
[図 18]テーブルのデータ構造を示す図である。 符号の説明
[0088] 1 音声入力部
2 言語認識部
3 自然言語解析部
4 音声合成処理部
5 音声出力部
6 入出力対象機器群
61 ナビゲーシヨン部
62 クロック
7 エージェント処理部
発明を実施するための最良の形態
[0089] 以下、図面を参照して、この発明の実施の形態を説明する。
[第 1の実施の形態]
[0090] まず、本発明の第 1の実施の形態に係るエージェント装置を説明する。このエージ ェント装置は、入力情報に応じて状態を遷移させて処理を行うものである。また、以下 では、このエージェント装置は、車載用のナビゲーシヨン装置として機能するものとす る。また、このエージェント装置の一部は、音声認識装置として機能する。
[0091] 図 1は、このエージェント装置の構成を示すブロック図である。図示するように、この エージェント装置は、音声入力部 1と、音声認識部 2と、自然言語解析部 3と、音声合 成処理部 4と、音声出力部 5と、入出力対象機器群 6と、エージェント処理部 7とより構 成されている。
[0092] 音声入力部 1は、音声を入力し、入力した音声力 デジタル形式の音声データを生 成し、この音声データを音声認識部 2へと供給する。具体的には、音声入力部 1は、 図 2に示すように、例えば、マイクロフォン 11と、 AF (Audio Frequency)増幅器 12と、 サンプルホールド回路を内蔵する AZD (Analog-to-Digital)コンバータ 13などより構 成されている。マイクロフォン 11は音声を音声信号に変換して出力する。 AF増幅器 12は、マイクロフォン 11からの音声信号を増幅して出力する。 AZDコンバータ 13は 、 AF増幅器 12からの増幅された音声信号をサンプリング、 AZD変換することにより 、デジタル音声データを生成し、音声認識部 2へと供給する。
[0093] 音声認識部 2、自然言語解析部 3、音声合成処理部 4、及びエージェント処理部 7 は、図 2に示すように、それぞれ、例えば、 CPU (Central Processing Unit)等からなる プロセッサ 21、 31、 41、 71と、このプロセッサ 21、 31、 41、 71力 S実行するプログラム を記憶する ROM (Read Only Memory)やハードディスク装置等の不揮発性メモリ(本 実施の形態では ROMを例に説明する) 22、 32、 42、 72と、プロセッサのワークエリ ァとなる記憶領域を有する RAM (Random Access Memory)等の揮発性メモリ 23、 33 、 43、 73とより構成されている。
なお、音声認識部 2、自然言語解析部 3、音声合成処理部 4、及びエージェント処 理部 7の一部又は全部の機能を 1つのプロセッサや 1つの不揮発性メモリや 1つの揮 発性メモリで構成してもよ 、。
[0094] 音声認識部 2は、音声入力部 1より供給された音声データに音声認識処理を行う。
音声認識部 2は、音声入力部 1より音声データを供給されると、例えばこの音声デ ータに含まれる雑音を除去する処理等を行った後、後述するエージェント処理部 7内 の単語データベース D3を参照して、この音声データに音声認識を施す処理を行うこ とにより、この音声データが表している可能性のあるすベての単語の候補と、この候 補の尤度 (スコア) Sと、を特定する。
[0095] 音声認識部 2は、具体的には、例えば、入力された音声と単語データベース D3に 登録されるすべての単語とのマッチングの度合い、即ち尤度 (スコア) Sを算出して、 どの単語のスコア Sが最も高いかを認識する。例えば、「え一と、???が減ったよ」と いう文章を表しており、ただし「???」の部分が「お腹」とも「お墓」とも認識され得る ような音声を表す音声データが供給された場合は、「???」の部分については、単 語「お腹」に対するスコア Sが 80%、単語「お墓」に対するスコア Sが 65%、などと、そ れぞれの単語に対するスコア Sを計算する。そして、最も高い値を示した「お腹」を、 当該部分「???」が表す単語であるとして選択する。そして、音声認識部 2は、「え 一と、お腹が減ったよ」 、う認識結果を示すテキスト文字列 (若しくは単語 ID ( IDentifier) )を生成して、自然言語解析部 3に供給する。
[0096] なお、音声認識部 2が行う音声認識の手法は任意である。また、スコア Sの値が所 定値を下回る単語については、候補として選択しないようにしてもよい。さらに、 1つ の音声入力に対して単語の候補が複数特定されてもよい。そして、特定した候補及 び当該候補のスコア sを示すデータ(以下、単語データと呼ぶ)を生成し、エージェン ト処理部 7へと供給する。尚、単語データは、単語情報そのものとスコア Sを含むもの としても良いが、実際には単語 IDとスコア Sを含むものとした方力 データの取扱上 有利である。
[0097] 自然言語解析部 3は、音声認識部 2より供給された単語データ (若しくはテキストデ ータ)に形態素解析を施す処理を行うなどすることにより、この単語データが表してい る単語を品詞ごとに分類し、分類結果を示すデータを単語データに付してエージェ ント処理部 7へと供給する。なお、自然言語解析部 3が行う分類の手法は任意であり 、例えば、奈良先端科学技術大学で開発された日本語形態素解析の手法である" C haSen"などを用いればよ!、。
[0098] 音声合成処理部 4の不揮発性メモリ 42は、単語の波形を表すデータを記憶する音 片データベース D1と、音素を構成するための波形を表すデータを記憶する素片デ ータベース D2とを記憶する。
音片データベース D1は、単語の波形を表すデータを記憶する。素片データベース D2は、音素を構成するための波形を表すデータを記憶する。音声合成処理部 4は、 音片データベース D1及び Z又は素片データベース D2に格納されているデータを 用いて、エージェント処理部 6より供給された文章データを読み上げる音声を表すデ ジタル音声データを生成する。
音声合成処理部 4は、生成した音声データを音声出力部 5に供給する。 デジタル音声データを生成する手法は任意であるが、例えば、録音編集方式ゃ規 則合成方式 (Rule-based synthesis)を使用できる。なお、録音編集方式は、例えば、 単語単位若しくは文節単位の音声を予めアナウンサーに読んでもら!ヽ、それらをつ なぎあわせて出力する方式である。若しくは、アナウンサーが読み上げた一連の音声 を、後の処理で単語単位若しくは文節単位に区切って記憶し、それらをつなぎあわ せて出力するようにしてもよい。また、規則合成方式は、音韻 (子音や母音)や仮名、 更には、より細分化された単位の音素や素片のような比較的小さな単位をつなぎあ わせて出力する方式である。
[0099] 音声出力部 5は、音声合成処理部 4から供給されたデジタル音声データが表す音 声を再生する。より詳細には、音声出力部 5は、図 2に示すように、 D/A(
Digita卜 to- Analog)コンバータ 51、 AF増幅器 52及びスピーカ 53を備える。
DZAコンバータ 51は、音声合成処理部 4より供給されたデジタル音声データを D ZA変換して、アナログ音声信号に変換する。 AF増幅器 52は、アナログ音声信号を 増幅する。スピーカ 53は、アナログ音声信号に従って振動し、アナログ音声データが 表す音声を再生し、放音する。
[0100] 入出力対象機器群 6は、例えば、ナビゲーシヨン部 61や、クロック 62などより構成さ れている。
[0101] ナビゲーシヨン部 61は、 GPS (Global Positioning System)の移動局や液晶ディスプ レイ等の表示装置やプロセッサを用いた公知のカーナビゲーシヨンシステムなどより 構成されている。ナビゲーシヨン部 61は地図を表す地図情報を記憶しており、エージ ント処理部 7が供給する制御信号に従って車両の現在位置を検知し、検知した現 在位置が地図上でどの位置に当たる力を表すデータを生成して、現在位置近隣の 地図を表す地図情報と共にエージェント処理部 7に供給する。また、現在位置近隣 の地図を、現在位置を示す図形と共に表示する。
[0102] クロック 62は、例えば水晶発振器やカウンタ回路等より構成されており、現在の時 刻を示すデータを連続的に生成し、エージェント処理部 7へと供給する。なお、ナビ ゲーシヨン部 61を介して GPSから得られる時刻情報を供給するようにしてもよい。
[0103] エージェント処理部 7は、モデムやパケット通信端末等力 なる通信制御装置 74を 備え、この通信制御装置を介して外部のネットワーク(例えば、無線電話回線を介し たインターネット)を介して後述する配信サーバ 100に接続している。
[0104] エージェント処理部 7の不揮発性メモリ 72は、単語データベース D3を記憶する。単 語データベース D3は、複数の単語のデータと、この単語がどのような概念ないしカテ ゴリの下にグルーピングされているかを示すためのカテゴリ辞書とを格納するデータ ベースである。
[0105] カテゴリ辞書は、例えば図 3に示すデータ構造を有する。すなわち、カテゴリ辞書は 、単語を示すデータと、当該単語が属するカテゴリを示すデータとを、互いに対応付 けて格納している。例えば、図 3に示す例では、単語「減った」はカテゴリ「食事」に対 応付けられている。なお、 1個の単語が複数のカテゴリに属していてもよい。(例えば 図 3に示す例では、単語「お腹」は、カテゴリ「食事」及び「病院」に対応付けられてい る。)
[0106] そして、このエージェント装置は、複数の単語が同一の文章に含まれていた場合に 、これらの単語が共通して属するカテゴリのみを、これらの単語が属するカテゴリとし て扱うことにより、これらの単語が発話された意図を文脈に応じて把握することを可能 とする。例えば図 3に示す例では、「お腹が減った」という文章を構成する単語データ の集合が自然言語解析部 3からエージェント処理部 7に供給された場合、エージェン ト処理部 7が、単語「お腹」及び「減った」が共通して属するカテゴリ、すなわち「食事」 のみを、当該文章に係る処理を行う限りでは、単語「お腹」及び「減った」が属する力 テゴリとして扱うこととできる。同様に、単語データの集合が、ユーザの発話「食事に 行きた 、なあ」を表して!/、る場合は、単語「食事」及び「行きた 、」が共通して属する力 テゴリ「食事」のみを、文章「食事に行きたいなあ」に係る処理を行う限りでは、単語「 食事」及び「行きた 、」が属するカテゴリとして扱うこととできる。
[0107] また、エージェント処理部 7は、自然言語解析部 3から供給された単語データのうち 、特定の品詞を表すもののみ (例えば、名詞と動詞のみ)を、自己が行う後続の処理 に用いるようにしてもよい。
[0108] なお、単語が属するカテゴリは必ずしも複数の単語の組み合わせ力 特定される必 要はない。例えば、単語「すいた」はカテゴリ「食事」にのみ対応付けられているから、 単語「すいた」を表す単語データが供給された場合、エージェント処理部 7は、他の 単語と組み合わせて判別処理を行うまでもなぐこの単語データをカテゴリ「食事」に 属するものとして扱ってょ 、。
[0109] また、エージェント処理部 7の不揮発性メモリは、更に、過去経験データベース D6、 和食レストランデータベース D7、洋食レストランデータベース D8及び中華レストラン データベース D9を記憶している。過去経験データベース D6は、エージェント処理部 7が、ナビゲーシヨン部 61に地図上の位置を表示させたり、目的地として設定された レストランの名称を格納するデータベースである。和食レストランデータベース D7、洋 食レストランデータベース D8及び中華レストランデータベース D9は、それぞれ、和食 レストランの名称、洋食レストランの名称、及び中華レストランの名称を格納するデー タベースである。
[0110] エージェント処理部 7の不揮発性メモリは、更に、処理項目データベース D4及びヮ ィャデータベース D5を記憶して 、る。
[0111] 処理項目データベース D4は、エージェント処理部 7が行うトリガ取得処理 (TGxx) 、判別処理 (BRxx又は QBxx)及び入出力処理 (後述する SPxx又は EXxx)の内容 を、処理項目(ポインタ)毎に記述するデータ (処理項目データ)を格納したデータべ ースである。なお、「XX」は識別番号である。
[0112] 処理項目データベース D4に格納される処理項目のうち、「トリガ取得処理 (TGxx) 」の内容を記述するデータは、これらの処理を開始させるトリガを特定するトリガデー タ(トリガとして取得するデータの内容を指定するデータ)と、後述する進行方向決定 用の遷移定数 (その進行方向に遷移する程度を示すもので、後述する重み係 ¾Jの 算出基準となる定数)とを含む。トリガデータは任意であり、例えば、ナビゲーシヨン部 61より供給される、車両の現在位置を示すデータや、クロック 62より供給される、現 在時刻を示すデータや、自然言語解析部 3より供給される上述の単語データである。 あるいは、トリガデータは、エージェント処理部 7自身が行う処理から引き渡されるデ ータであってもよい。また、トリガ取得処理で取得されるデータが単語データである場 合は、当該単語データが表す単語に代えて、当該単語データが表す単語がグルー ビングされているカテゴリが記述されてもよい。ただし、トリガ取得処理の内容は、複 数のトリガ取得処理が互いに同一の単語を表す単語データや互いに同一のカテゴリ に属す単語データに基づ 、て動作することがな 、ように記述されるものとする。このよ うに記述しないと、ある単語データによって複数の動作を実行しょうとしてしまうことに なる。
図 4 (a)にトリガ取得処理 TGxxの例を示す。この例では、トリガ TG01は、トリガとし てのカテゴリ「食事」を取得する(カテゴリ「食事」にグルーピングされている単語(図 3 の例では、単語「減った」、「すいた」、「お腹」、「食べ」、「行く」、「設定」、「どこか」、「 どこに」、「食事」)を識別する)処理であり、その処理に後続する処理に進む (遷移す る)か否かを決定するための遷移定数 kは 0. 8である。図 4 (b)には、トリガ取得処理 TG01のフローチャートを示す。
トリガ取得処理 TGOOは単語「つまんな ヽ」を取得する処理である。トリガ取得処理 T G51は単語「和食」を取得する処理である。トリガ取得処理 TG52は単語「洋食」を取 得する処理である。トリガ取得処理 TG53は単語「中華」を取得する処理である。
[0113] 処理項目データベース D4に格納されて 、る「判別処理 (BRxx)」の内容を記述す るデータは、判別条件と、判別結果としてとり得る結果のリストと、後述する戻り方向の 遷移定数 kとを、判別処理別に記述したデータを含んでいる。判別処理の内容を記 述するデータは、進行方向を決定するための遷移定数 kを、判別結果毎に記述した データを含んでいる。
図 5 (a)に判別処理 BRxxの例を示す。この例では、判別処理 BR01は、「(a) 12時 より前、(b) 12時以降で 14時より前、(c) 14時以降、のいずれであるかを判別する」 である。 (a) 12時より前と判別したときに後続する処理に進む力否かを決定するため の遷移定数 kが 0. 4、(b) 12時以降で 14時より前と判別したときに後続する処理に 進むか否かを決定するための遷移定数 kが 0. 3、(c) 14時以降と判別したときにそれ に後続する処理に進むか否かを決定するため遷移定数 kが 0. 4である。この例のフ ローチャートを図 5 (b)に示す。図 5 (b)に示すノード BR01. 1は、処理の開始点を示 す始点ノード、ノード BR01. 2は、(a) 12時より前と判別したときの進行方向のノード であり、その遷移定数 kは 0. 4である。さらに、ノード BR01. 3は、(b) 12時以降で 14 時より前と判別したときの進行方向のノードであり、その遷移定数 kは 0. 3であり、ノー ド BR01. 4は、(c) 14時以降と判別したときの進行方向のノードであり、その遷移定 数 kは 0. 4である。
[0114] 「判別処理」は、判別に用いるデータを任意の取得源力 取得する場合があっても よいとする。取得源としては、例えば、音声認識部 2や、自然言語解析部 3、エージェ ント処理部 7が実行する他の処理や、入出力対象機器群 6に属する機器や、その他 外部の機器などが考えられる。そしてこの場合、判別処理の内容を記述するデータ は、例えば、判別に用いるデータの取得源を指定するデータを更に含んでいればよ い。
[0115] また、「判別処理」では、所定のデータを、判別に先立って所定の出力先に出力す るようにしてもよい (この場合は、処理を示す記号を例えば QBxxとする)。例えば、所 定の質問を表すデータを、判別に先立って音声合成処理部 4に引き渡す、等が考え られる。判別処理において所定のデータを判別に先立って所定のデータを出力する 場合、判別処理の内容を記述するデータは、例えば、出力するデータの内容と、この データの出力先とを指定するデータを含む。
図 6 (a)に判別処理 QBxxの例を示す。この例では、例えば、判別処理 QB01は、「 食事に行く?」と利用者に問い合わせ、その応答 (利用者の回答)が「はい」であった ときの進行方向の遷移定数 kが 0. 7、「いいえ」であったときの進行方向の遷移定数 k が 0. 4である。この例のフローチャートを図 6 (b)に示す。図 6 (b)に示すノード QB01 . 1は、処理の開始点を示す始点ノード、ノード QB01. 2は、問い合わせに対して、「 食事に行く」ことが指定されたことを判別したときの進行方向のノードであり、その遷移 定数 kは 0. 7である。さらに、ノード QB01. 3は、「食事に行かない」ことが指定された ことを判別したときの進行方向のノードであり、その遷移定数 kは 0. 4である。また、判 別処理 QB02は、「それじゃコンビ-に行く?」と利用者に問い合わせ、その応答 (利 用者の回答)が「はい」であったときの進行方向の遷移定数 kが 0. 5、「いいえ」であつ たときの進行方向の遷移定数 kが 0. 3である。
[0116] 処理項目データベース D4に格納されて 、る「入出力処理」の内容を記述するデー タは、入力あるいは出力するデータの内容を指定するデータ力も構成されている。入 力データ及び出力データは任意の内容を有していてよい。例えば、出力データは、 音声合成処理部 4を介して音声出力部 5に発生させる音声の読みを表すデータや外 部の機器を制御する制御信号であってもよい。また、入力データは、例えば、外部の 機器力も供給されるデータであってもよ 、。
図 7 (a)に出力処理 EXxxの例を示す。この例では、例えば、出力処理 EX02は、「 ナビゲーシヨン案内を行う」という動作であり、動作後の処理を行う進行方向の遷移定 数 kが 0. 8である。この例のフローチャートを図 7 (b)に示す。図 7 (b)に示すノード E X01. 1は、処理の開始点を示す始点ノード、ノード EX01. 2は、処理の終了を示す ノードであり、遷移定数 kは 0. 8である。尚、出力処理 EXxxについては、遷移定数 k の設定等を行わずに、処理の終了を示すノードの選択を必須の処理としてもょ 、。
[0117] ワイヤデータベース D5は、複数の処理 (TG、 BRxx、 QBxx、 SPxx、 EXxx)間の 遷移を記述するデータ(以下、この遷移定義データをワイヤと呼ぶ)の集合から構成 されている。ワイヤは、例えば図 8に示すような書式で記述されたデータ力も構成され ている。ワイヤ Wn (Wl、 W2...)は図示するように、先行する処理 X (From (X》から後 続する処理 Y(To(Y))への遷移 (From (X) To (Y))〖こついて、当該先行の処理 (X)と、 当該後続の処理 (Y)と、当該遷移に対して与えられた重み係 ¾Jと、を指定するデー タである。なお、先行の処理 Xが判別処理である場合は、当該判別処理のどの判別 結果からの遷移である力 まで記述される必要がある。具体的には、例えば、質問へ の回答を音声データに基づ 、て判別するような処理項目を先行の処理項目として有 する 1つのワイヤに対して、肯定を意味する単語「行く」「うん」「そうだね」が定義され、 また他のワイヤに対しては、否定を意味する単語「行かない」「いや」等が定義される 、等である。
[0118] なお、上述した処理項目データが記述する遷移定数 kが、接続されるワイヤが示す 遷移が実行された実績に従ってエージェント処理部 7等により書き換えられるようにし てもよい。例えば、特定のワイヤが示す遷移が実行される頻度が所定量より大きい場 合、エージェント処理部 7が、このワイヤが示す遷移の遷移元の処理項目を示す処理 項目データに記述されている遷移定数 kの値を従前より大きな値へと書き換えること によって、このワイヤが示す遷移が起こりやすくする、等である。こうすることより、結果 的にユーザの意図する応答がなされる確率が高くなる。
[0119] そして、エージェント処理部 7は、処理項目データベース D4及びワイヤデータべ一 ス D5が全体として表して!/、るフローを実行する。処理項目データベース D4及びワイ ャデータベース D5は、例えば図 9 (a)に示すようなフローを記述することができる。
[0120] ここで、エージェント処理部 7の処理力 具体的にどのように行われるかについて、 図 9 (a)を参照して詳述する。エージェント処理部 7は、図示するように、先行する第 1 の処理 P1を実行して後続の第 2の処理 P2に遷移するようにワイヤ W01により定義さ れており、また、第 2の処理 P2を実行して後続の第 3の処理 P3に遷移するようにワイ ャ W03によって定義されているとき、以下の処理を行う。
[0121] なお、図示するように、処理 P1は、単語「行く」を表す単語データが供給されたか否 かを判別する処理であるとし、処理 P2は、単語「食事」を表す単語データが供給され た力否かを判別する処理であるとし、処理 P3は、レストラン又は病院のどちらの位置 を示す情報をナビゲーシヨン部 61から取得するか否かを判別する処理であるとする。 なお、図示するように、処理 P1— P3のいずれについても、各進行方向の遷移定数 k はいずれも 0. 5であるものとする。この場合、ワイヤは、例えば、図 9 (b)に示すように 、定義される。また、エージェント処理部 7は、音声認識部 2が自然言語解析部 3に供 給した単語データのうち、自然言語解析部 3において、名詞又は動詞であると分類さ れた単語を表す単語データのみを取得するものとする。
[0122] まず、エージェント処理部 7が第 1の処理 P1に到達しているとき、エージェント処理 部 7は、ワイヤ W01、 W03及び W05のそれぞれの重み係 #αを計算し、計算結果を ワイヤ W01、 W03及び W05に書き込む。これら値は、各処理に予め設定されている 進行方向の遷移定数 kによって決定される。
[0123] 具体的には、処理 P1に処理が到達したとき、ワイヤ W01の重み係 #αは、処理 P1 のワイヤに係る遷移定数 kの値すなわち 0. 5となる。
処理 P2のワイヤ W03の重み係 #αは、処理 P1のワイヤ W01に係る遷移定数 k=0 . 5に処理 P2のワイヤ W03に係る遷移定数 k=0. 5を乗じた結果すなわち 0. 25とな る。
ワイヤ W05の重み係 #αは、処理 P1のワイヤ W01に係る遷移定数 k=0. 5に処理 P2のワイヤ W03に係る遷移定数 k=0. 5を乗じた結果に更に処理 P3のワイヤ W05 に係る遷移定数 k=0. 5を乗じた結果、すなわち 0. 125となる。
[0124] このようにして、ある処理を基点としたときのそれぞれのワイヤの重み係 #αが計算さ れる。よって、現在の状態が遷移すると、現在の処理を基点にしてその都度重み係 ¾Jが計算されること〖こなる。
[0125] 具体的には、現在の状態が処理 P2に遷移すると、ワイヤ W03の重み係 #αは、処 理 Ρ2のワイヤ W03に係る遷移定数 kに等しい値 0. 5となり、ワイヤ W05の重み係 #α は処理 Ρ2のワイヤ W03に係る遷移定数 k=0. 5と処理 P3のワイヤ W05に係る遷移 定数 k=0. 5との積すなわち 0. 25となる。またこのとき、エージェント処理部 7は、逆 方向、つまり処理 P1に戻る方向に係るワイヤ W01の重み係 #αも再度書き込まれる。 処理 Ρ2に遷移した場合では、ワイヤ W01に係る戻り方向の遷移定数 k=0. 1がその ままワイヤ W01の重み係 #αとなる。処理 Ρ3に遷移した場合は更に、ワイヤ W03に係 る戻り方向の遷移定数 k=0. 1がそのままワイヤ W03の重み係 #αとなる。そして、処 理 Ρ3に遷移した状態におけるワイヤ W01の重み係 #αは、処理 Ρ3に遷移した状態 におけるワイヤ W03の遷移定数 k=0. 1に、処理 P2の戻り方向の遷移定数 k=0. 1 を乗じた値すなわち 0. 01となる。
各ワイヤ Wnの重み係 #αの変化を図 9 (c)に示す。
[0126] 重み係 #αの計算は、関連するフローの処理のみではなぐすべてのフローのすべ てのワイヤにっ 、て設定される。ここで現在の処理に関連のな!、ワイヤにっ 、ては、 予め定められた低い計数値を割り当てるようにすればよい。しかし、特にトリガ取得処 理を先行の処理とするワイヤにっ ヽては、重み係 ¾Jをある程度高く設定するようにす る。こうすることによって、直前までなされていた会話と著しく異なる内容の会話にもジ ヤンプすることが可能になる。
[0127] なお、各ワイヤには条件がそれぞれ設定されている。具体的には、 W01には単語「 行く」が条件として設定され、 W03には単語「食事」が条件として設定される。そして、 自然言語解析部 3から単語データが供給されたとき、その単語データが単語「行く」 を示すものである場合には、当該単語データが示すスコア Sを W01に対して設定す る。また、自然言語解析部 3から供給された単語データが単語「食事」を示すものであ る場合には、当該単語データが示すスコア Sを W03に対して設定する。尚、各ワイヤ に対して異なる単語を複数、条件として設定してもよい。例えば、ある一つのワイヤに 対して、「食事」を意味する単語「食事」「めし」等を条件として割り当てると共に、「行く 」を意味する単語「行く」「する」等を条件として割り当てる。そして、自然言語解析部 3 カゝら供給された単語データが、単語「食事」と単語「行く」であった場合、それぞれの スコア Sが当該ワイヤに設定される。そして、この設定されたスコア Sに基づいて当該 ワイヤの算出結果を求める。この場合、各スコア Sを合算してもよいし、または平均値 を求めてもよい。 [0128] 更に、各ワイヤに設定される条件は、ある意味に対して単一の単語が設定される場 合に限られない。例えば、同一の意味を表す異なる複数の単語が条件として設定さ れるようにしてもよい。この条件の設定は、これらの単語とワイヤの関係が記憶されて いれば足り、スコア S算出の対象となる単語は前述の単語データベース D3に記憶さ れる。
[0129] 例えば、音声認識を行う場合に、入力された音声について、音声認識部 2は単語 データベース D3に登録されているすべての単語に対してスコア Sの計算を行い、少 なくとも所定以上のスコアが得られた単語に関する単語データを生成して、自然言語 解析部 3を介してエージェント処理部 7に単語データを出力する。次に、エージェント 処理部 7は、入力された各単語データ力 いずれのワイヤに関連付けられているかを 判別し、単語データが示すスコア Sを関連する各ワイヤに設定する。このようにすれば 、複数のワイヤに対して、同じ単語が条件として設定されている場合でも、入力された 音声信号と単語とのスコア Sの計算は一度で足りることになる。そして、得られた各単 語のスコア Sが、それぞれ関連付けられているワイヤ Sに対して設定される。なお、 1 つのワイヤ Sに対して複数のスコア Sが得られる場合が生じることになる力 この場合 には、例えば最も値が高 、スコア Sを選択するようにすればょ 、。
[0130] これによつて、例えば、「イエス」「はい」「そうだね」等、同一の意味を示す単語デー タがそれぞれ 1つのワイヤに対して設定されていれば、ユーザが「イエス」「はい」「そう だね」の 、ずれの音声で指示を出しても、音声認識のスコア Sとして適切な結果を得 ることがでさる。
[0131] また、判別処理によっては、入出力対象機器群 6からの情報が入力情報として得ら れる場合がある。この場合、例えば音声認識部 2を構成するプロセッサ 21が、上述の 不揮発性メモリ等に、入出力対象機器群 6に係る各機器の状態を示すデータを、(例 えば上述の「単語データベース D3」と同様の)状態データベースとして格納し、入力 情報がどの機器のどの状態を示すものかを状態データベースを参照して決定し、こ れとスコア Sとを状態データとしてエージェント処理部 7に供給すればよい。なお、音 声認識の場合と異なり、対応する状態が状態データベースにあれば、スコア Sは必ず 100%になるものとすればよい。そして、エージェント処理部 7は、状態データが示す 状態に関連するワイヤを判別し、各ワイヤに対してスコア sを設定すればよい。
[0132] 次に、このように構成されたシステム全体の動作を、図 10を参照して説明する。
音声入力部 1と音声認識部 2と自然言語解析部 3とは、独自に動作して、音声を取 り込み、解析し、単語データをエージェント処理部 7に提供する。
そして、エージェント処理部 7は、判別条件に係る(1個又は複数個の)単語データ( 若しくは状態データ)が自然言語解析部 3等より供給されると、以下の処理を行う。 供給された単語を認識 (識別)し (ステップ S11)、それが、単語データベース DB4 に登録されて ヽる単語に相当するか否かを判別する (ステップ S 12)。登録されて ヽ なければ (ステップ S12, No)、単語入力処理を終了する。
一方、登録されていれば (ステップ S 12, Yes)、その単語又はその単語の属す「力 テゴリ」が条件となって!/、る処理に関し、単語の尤度つまりスコア Sとワイヤの重み係 ¾Jの積 S · Jを計算する (ステップ S 13)。
例えば、図 9 (a)に示すフローを実行している場合において、処理ポインタ PPが第 1の処理を指示しているとする。この場合の、各ワイヤの重み係 #αは図 9 (c)に示すと おりである。
この状態で、スコア Sが 80%の単語「行く」と、スコア Sが 50%の単語「食事」を示す 単語データが入力されたと仮定する。
図 9 (a)と (b)に示す例では、第 1の処理 P1では、単語「行く」が判別条件に関連し 、第 3の処理 P3では、単語「食事」が判別条件に関連する。
図 9 (c - 1)示すように、単語「行く」を示す単語データを入力する処理を先行の処理 とするワイヤ W01の重み係 #αが 0. 5、単語「食事」を示す単語データを入力する処 理を先行の処理とするワイヤ W03の重み係 #αが 0. 25である。この場合、ワイヤ W5 1及び W53について求められる尤度 Sと重み係 #αの積 S'Jは、数式 1及び 2に示すと おりとなる。
[0133] (数 1) ワイヤ W01についての判別結果:「行く」に対するスコア S ( = 80%) Xワイヤ
W01の重み係衡( = 0. 5) =40
[0134] (数 2) ワイヤ W03についての判別結果:「食事」に対するスコア S ( = 50%) Xワイヤ
W03の重み係衡( = 0. 25) = 12. 5 [0135] エージェント処理部 7は、スコア sと重み係 #αとの積 S 'Jを求める上述の処理を、フ ローが有するすべてのワイヤについて行う。
続いて、エージェント処理部 7は、計算された積 S 'Jがもっとも大きいワイヤを選択す る(図 10のステップ S14)。エージェント処理部 7は、選択したワイヤに後続する処理 に制御を進める (ステップ S15)。例えばワイヤ W01について求めた積 S 'Jが最も高 い値を示した場合、入力された単語データは単語「行く」を示すものであつたと認識し て、ワイヤ W01が後続の処理としている第 2の処理 P2に遷移する。通常、現在の実 行中の処理を起点するとワイヤの重み係 #αが比較的大きい。このため、一般的には
、次の処理に移る力 従前と全く異なる単語で尤度 Sの高いものが入力された場合に は、その単語に対応する処理が開始されることもある。例えば、上述の例でいえば、「 行く」に対するスコア Sが 30%であり、「食事」に対するスコア Sが 80%であった場合、 それぞれの積 S 'Jは 15と 20になり、この場合には、ワイヤ W03が選択されることにな る。これは、当該エージェント装置のユーザが処理の流れを熟知しており、現在の処 理を飛ばして近接する他の処理にジャンプさせる場合などに特に有効である。
[0136] エージェント処理部 7は、処理が遷移すると、遷移後の状態に基づいて、各ワイヤ の重み係慰を再計算する (ステップ S 16)。
以後は、その処理の内容に従って処理を進める(ステップ S17)。この例では、第 2 の処理 P2を実行する。
[0137] なお、トリガ取得処理からの遷移に対しては、ある程度高い重み係 #αを設定してお くとよい。具体的には、例えば、処理 P1には「行く」という単語を示す単語データを取 得するトリガ取得処理が先行しているものとして、このトリガ取得処理力 処理 P1への 遷移を定義するワイヤに対しては、例えば重み係 ¾J= 1. 0を与えておく。そうすると 、例えばエージェント処理部 7の処理がこのトリガ取得処理に係るフローに係属してい る場合において、ユーザ力 ^食事に行く」と発音し、例えば単語「行く」に対するスコア Sが 80%である単語データが得られれば、このスコア Sと、「ユーザが「行く」と言った か否かの判断」に係るこのワイヤの重み係 #αとの積 S 'Jは、 80% X I. 0すなわち 80 となる。この値が他のワイヤの判別結果と比べて大きな値であれば、入力された音声 は「行く」であったと認識され、エージェント処理部 7の処理が処理 P1にジャンプされ る。一方で、他のワイヤの重み係 #αを極めて低く設定しておけば、これら他のワイヤ により定義されている処理にジャンプされる可能性は極めて低くなり、結果として、あ る程度想定される会話の流れに沿って認識率を向上させることができる。
[0138] この実施の形態では、戻り方向への遷移も起こり得る。しかし、現実的には会話を 戻すことは好ましくないことが多い。そこで、戻り方向の遷移定数 kは、進行方向の遷 移定数 kに比べて低い値に設定するようにすればよい。そうすると、入力された音声 力も高いスコア Sの単語データが仮に得られても、戻り方向の遷移定数 kが重み係数 Jとして書き込まれたワイヤにっ 、て求めた積 S 'Jは低 、値となるため、戻り方向への 遷移の可能性を低く抑えることができる。
また、エージェント処理部 7は、求めた積 S 'Jの値が所定の条件に合致しないような 処理 (たとえば、積 S 'Jの値が所定値に達しないような処理)は、遷移を実行する対象 力も除外するよう取り扱ってもよ 、。
[0139] なお、例えば図 8に示しているように、ワイヤは、処理項目から処理項目への遷移と いう形で遷移を定義する。そして、ワイヤを図 8に示すような形態で記述してデータべ ースに格納することにより、各処理項目同士の関係を、あた力もコンピュータのマクロ 処理のように定義することが可能になる。これによつて、各処理項目を容易に接続す ることがでさる。
[0140] また、トリガとなる処理項目は、実際には接続されるワイヤに係る条件としての単語 等 (他の入力対象機器群 6に対する状態の場合もあり得る)のスコア Sと重み係 ¾Jに 基づく判別結果の算出になるので、ワイヤの定義においてトリガ取得処理項目はワイ ャの開始点として定義されず、ワイヤそのものが遷移元として定義されることになる。
[0141] 更に、上述のように各処理項目の接続関係をワイヤによって定義して 、るので、簡 単に遷移先を追加することができる。例えば、「暑い」という音声入力の後に、ユーザ が休憩することを意図して「ファミリーレストランを探して」という音声を入力する機会が 多い場合、ファミリーレストランの検索処理項目に対して自動でワイヤを追加する。そ うすると、ワイヤが自動で追加された後には、ファミリーレストラン検索処理項目に接 続されたワイヤの重み係衡をある程度大きくすることで、当該入力「ファミリーレストラ ンを探して」に適切に対応することができるようになる。(ただしこの場合、エージェント 処理部 7は、例えばファミリーレストランの位置を示す情報を含んだ地図データ等を 記憶し、あるいは外部の地図データ等にアクセスするものとする。 )
このワイヤの自動追加は、ある処理項目からある処理項目(若しくはワイヤ)へのジ ヤンプの回数を計数し、これが所定回数に達したときに自動で行うようにすればよい。
[0142] 次に、このエージェント装置が、ユーザである搭乗者を食事の場所に誘導するため に実行する処理を、図 11一図 17を参照して説明する。以下では、処理項目データ ベース及びワイヤデータベースは、例えば、全体として図 11一図 17に示すようなフロ 一を記述して ヽるものとする。
[0143] 図 11一図 17に示すフローにおいては、エージェント処理部 7は、トリガ取得処理ス テツプ TG1ではカテゴリ「食事」に属する単語を示す単語データが自然言語解析部 3 より供給されると、これを取得して判別処理ステップ QB1に引き渡す。トリガ取得処理 ステップ TG1で取得される単語は「食事」のカテゴリに分類されて ヽる単語であれば よいので、例えば「ごはん」、「食べ物」など任意の単語をカテゴリ辞書によって「食事」 のカテゴリに分類しておけば、このエージェント装置は、様々な単語に応答して判別 処理ステップ QB1以下の処理を実行するようになる。
[0144] エージェント処理部 7は、判別処理ステップ QB1では、まず音声合成処理部 4に、「 食事に行く?」という文章を表す単語データを供給する。音声合成処理部 4は、この 文章を読み上げる音声を表す音声データを生成して音声出力部 5に供給し、音声出 力部 5は、この音声データが表す音声を再生する。そしてエージェント処理部 7は、自 然言語解析部 3から、カテゴリ「肯定」又は「否定」に属する単語データが供給される のを待機し、該当する単語データが供給されると、このデータが「肯定」又は「否定」 のいずれに属するかを判別する。そして、「肯定」に属すると判別すると判別処理ステ ップ QB3に処理を移し、「否定」に属すると判別すると判別処理ステップ QB2に処理 を移す。
尚、カテゴリに基づく処理ではなぐ各ワイヤ、例えば QB1から QB3への状態遷移 を定義するワイヤに対しては、肯定を意味する単語「はい」「そうだね」等を条件として 設定し、また、 QB1から QB2への状態遷移を定義するワイヤに対しては、否定を意 味する単語「いや」「行かない」等を条件として設定するようにしてもよい。これによつ て、自然言語解析部 3から入力音声に対応する単語のスコア Sが直接ワイヤに対して 設定される。例えば、入力音声の単語「そうだね」に対するスコア Sが 80%であれば、 このスコア Sが QB1から QB3への状態遷移を定義するワイヤに対して設定されること になる。
そして、上述のカテゴリに各単語を分類する場合でも同様だが、ここで得られた各ス コア Sとワイヤに設定される重み係 ¾Jとの乗算によってワイヤの算出結果が求められ 、この算出結果が最も高い値を示すワイヤに状態を遷移することになる。
また、「肯定」又は「否定」の 、ずれのカテゴリに属する単語の単語データも供給さ れな力つた場合は、音声合成処理部 4に、「はいかいいえで答えて?」という文章を 表す単語データを供給する。音声合成処理部 4は、この文章を読み上げる音声を表 す音声データを生成して音声出力部 5に供給し、音声出力部 5にこの音声データが 表す音声を再生させる。そして、カテゴリ「肯定」又は「否定」に属する単語データが 供給されるのを待機し、いずれかのカテゴリに属する単語データが供給されると、当 該単語データのカテゴリに従って、判別処理ステップ QB1の処理における各遷移先 の!、ずれかに処理を移す (判別処理ステップ QB6)。
[0145] あるいは、エージェント処理部 7は、トリガ取得処理ステップ TGOでは単語「つまん ない」を示す単語データが自然言語解析部 3より供給されると、これを取得して判別 処理ステップ QBOに引き渡す。そして、判別処理ステップ QBOでは、この単語「つま んない」が、他の単語との所属カテゴリの重なり合いなどの結果、どのカテゴリに属す るものとして扱われるかを判別する。そして、カテゴリ「食事」に属すると判別すると、 処理を判別処理ステップ QB3に移し、他のカテゴリに属すると判別すると、該当する カテゴリに属する単語を取得するトリガ取得処理で当該単語データが取得されたもの として処理を継続する。
[0146] エージェント処理部 7は、判別処理ステップ QB2では、まず上述の判別処理ステツ プ QB1と同様にして、音声合成処理部 4を介し、音声出力部 5に、「それじゃコンビ- 行く?」という文章を読み上げる音声を再生させる。そして、自然言語解析部 3から、 カテゴリ「肯定」又は「否定」に属する単語データが供給されるのを待機し、該当する 単語データが供給されると、これが「肯定」又は「否定」の 、ずれに属するかを判別す る。そして、「肯定」に属すると判別すると入出力処理ステップ SP2に処理を移し、「否 定」に属すると判別すると入出力処理ステップ SP3に処理を移す。また、これらのい ずれのカテゴリの単語の単語データも供給されなカゝつた場合は、音声出力部 5に、「 は 、か 、えで答えて?」と 、う文章を読み上げる音声を再生させ、カテゴリ「肯定」 又は「否定」に属する単語データが供給されるのを待機し、供給された単語データの カテゴリに従 、、判別処理ステップ QB2の処理における各遷移先の 、ずれかに処理 を移す (判別処理ステップ QB4)。
[0147] エージェント処理部 7は、入出力処理ステップ SP2では、音声合成処理部 4を介し、 音声出力部 5に、「コンビニを案内します。」という文章を読み上げる音声を再生させ、 処理を入出力処理ステップ EX2に移す。そして、入出力処理ステップ EX2では、ナ ピゲーシヨン部 61に、このエージェント装置が搭載されている車両の地図上における 現在位置と、この地図上でのコンビ-の位置を示す情報とを表示することを指示する 制御信号を送る。ナビゲーシヨン部 61は、この指示に従い、車両の地図上における 現在位置と、この地図上でのコンビ-の位置を示す情報とを表示し、このコンビ-へ の案内を開始する。
[0148] 入出力処理ステップ SP3でエージェント処理部 7は、音声合成処理部 4を介し、音 声出力部 5に、「安全運転に気をつけて。」という文章を読み上げる音声を再生させ、 処理を入出力処理ステップ EX3に移す。そして、入出力処理ステップ EX3では、ナ ピゲーシヨン部 61に制御信号を送ることにより、ナビゲーシヨン部 61に、車両の地図 上における現在位置を表示させる。
[0149] 一方、エージェント処理部 7は、判別処理ステップ QB3では、音声出力部 5に、「お 店は決まって 、ますか?」と!、う文章を読み上げさせ、カテゴリ「肯定」又は「否定」に 属する単語データが供給されるのを待機し、該当する単語データが供給されると、い ずれのカテゴリに属するかを判別する。そして、「肯定」に属すると判別すると判別処 理ステップ QB7に処理を移し、「否定」に属すると判別すると判別処理ステップ BR1 に処理を移す。また、これらのいずれのカテゴリの単語の単語データも供給されなか つた場合は、音声出力部 5に、「はいかいいえで答えて?」という文章を読み上げる音 声を再生させ、カテゴリ「肯定」又は「否定」に属する単語データが供給されるのを待 機し、供給された単語データのカテゴリに従い、判別処理ステップ QB3の処理にお ける各遷移先の ヽずれかに処理を移す。
[0150] エージェント処理部 7は、判別処理ステップ QB7では、音声合成処理部 4を介し、 音声出力部 5に、「お店の名前は?」という文章を読み上げさせて、単語データが供 給されるのを待機し、供給されると、ナビゲーシヨン部 61に、この単語データが示すレ ストランを検索し、該当するレストランがあれば、車両の地図上における現在位置と、 この地図上での当該レストランの位置を示す情報とを表示するよう指示する制御信号 を送る。そして、該当するレストランがあれば、ナビゲーシヨン部 61が、車両の地図上 における現在位置と、この地図上でのレストランの位置を示す情報とを表示し、このレ ストランへの案内を開始する (ステップ EX100)。一方、該当するレストランがなけれ ば、ナビゲーシヨン部 61がその旨の情報をエージェント処理部 7に返すなどして、ェ ージェント処理部 7は処理を入出力処理ステップ SP5に移す。入出力処理ステップ S P5でエージェント処理部 7は、音声出力部 5に、「近くにはありません。」という文章を 読み上げさせ、処理を判別処理ステップ BR1に移す。
[0151] エージェント処理部 7は、判別処理 BR1では、クロック 62より現在の時刻を示すデ ータを取得して、このデータが示す時刻力 (a) 12時より前、(b) 12時以降で 14時よ り前、(c) 14時以降、のいずれであるかを判別する。そして、(a) 12時より前であると 判別すると、音声出力部 5に「モーニングですね。」という文章を読み上げさせ (入出 力処理ステップ SP8)、処理を判別処理ステップ QB10に移す。(b) 12時以降で 14 時より前であると判別すると、音声出力部 5に「ランチですね。」という文章を読み上げ させ (入出力処理ステップ SP10)、処理を判別処理ステップ QB12に移す。(c) 14時 以降であると判別すると、音声出力部 5に「お茶の時間ですね。」という文章を読み上 げさせ (入出力処理ステップ SP9)、処理を判別処理ステップ QB 10に移す。
[0152] 一方、エージェント処理部 7は、判別処理ステップ QB10では、音声出力部 5に、「 おすすめのお店を検索しますか?」という文章を読み上げさせ、カテゴリ「肯定」又は 「否定」に属する単語データが供給されるのを待機し、該当する単語データが供給さ れると、いずれのカテゴリに属するかを判別する。そして、「肯定」に属すると判別する と入出力処理ステップ SP14に処理を移し、「否定」に属すると判別すると判別処理ス テツプ QB 12に処理を移す。また、これらのいずれのカテゴリの単語の単語データも 供給されなかった場合は、音声出力部 5に、「はいかいいえで答えて?」という文章を 読み上げる音声を再生させ、カテゴリ「肯定」又は「否定」に属する単語データが供給 されるのを待機し、供給された単語データのカテゴリに従い、判別処理ステップ QB1 0の処理における各遷移先の!/、ずれかに処理を移す (判別処理ステップ QB 13)。
[0153] エージェント処理部 7は、入出力処理ステップ SP14では、ナビゲーシヨン部 61に、 車両の現在位置近隣のレストランを検索し、索出したレストランの名称を示すデータ を供給し、車両の地図上における現在位置と、この地図上での当該レストランの位置 を示す情報とを表示するよう指示する制御信号を送る。そして、ナビゲーシヨン部 61 力 Sレストランの名称を供給すると、エージェント処理部 7はこの名称を音声出力部 5に 読み上げさせる。一方、ナビゲーシヨン部 61は、車両の地図上における現在位置と、 この地図上での当該レストランの位置を示す情報とを表示し、このレストランへの案内 を開始する (ステップ EX5)。
[0154] エージェント処理部 7は、判別処理ステップ QB12では、音声出力部 5に、「過去経 験 DB (データベース)を検索しますか?」と 、う文章を読み上げさせ、カテゴリ「肯定」 又は「否定」に属する単語データが供給されるのを待機し、該当する単語データが供 給されると、いずれのカテゴリに属するかを判別する。そして、「肯定」に属すると判別 すると入出力処理ステップ SP15に処理を移し、「否定」に属すると判別すると判別処 理ステップ QB 11に処理を移す。また、これらのいずれのカテゴリの単語の単語デー タも供給されな力つた場合は、音声出力部 5に、「はいかいいえで答えて?」という文 章を読み上げる音声を再生させ、カテゴリ「肯定」又は「否定」に属する単語データが 供給されるのを待機し、供給された単語データのカテゴリに従い、判別処理ステップ QB12の処理における各遷移先のいずれかに処理を移す (判別処理ステップ QB14
) o
[0155] エージェント処理部 7は、入出力処理ステップ SP15では過去経験データベースを 、例えばナビゲーシヨン部 61が供給する情報が示す車両の現在位置を検索キーとし て検索し、索出したレストランの名称を音声出力部 5に読み上げさせる。そしてエージ ェント処理部 7は、ナビゲーシヨン部 61に、車両の地図上における現在位置と、索出 したレストランのこの地図上での位置を示す情報とを表示するよう指示する制御信号 を送る。ナビゲーシヨン部 61は、車両の地図上における現在位置と、この地図上での 当該レストランの位置を示す情報とを表示し、このレストランへの案内を開始する (ス テツプ EX6)。
[0156] エージェント処理部 7は、判別処理ステップ QB11では、音声出力部 5に、「それじ や和食 ·洋食 ·中華どれがいい?」という文章を読み上げさせ、単語「和食」、「洋食」 又は「中華」を表す単語データが供給されるのを待機し、該当する単語データが供給 されると、いずれの単語かを判別する。そして、「和食」と判別すると入出力処理ステツ プ EX51に処理を移し、「洋食」と判別すると入出力処理ステップ EX52に処理を移し 、「中華」と判別すると入出力処理ステップ EX53に処理を移す。また、これらのいず れの単語の単語データも供給されな力つた場合は、音声出力部 5に、「和食 Z洋食 Z中華で答えて?」という文章を読み上げる音声を再生させ、単語「和食」、「洋食」 又は「中華」を表す単語データが供給されるのを待機し、供給された単語データの力 テゴリに従 、、判別処理ステップ QB11の処理における各遷移先の 、ずれかに処理 を移す (判別処理ステップ QB 15)。
[0157] エージェント処理部 7は、入出力処理ステップ EX51では和食レストランデータべ一 スを、例えばナビゲーシヨン部 61が供給する情報が示す車両の現在位置を検索キ 一として検索し、処理を判別処理ステップ QB 16に移す。なお、エージェント処理部 7 は、トリガ取得処理ステップ TG51で単語「和食」を表す単語データを取得したときも、 入出力処理ステップ EX51に処理を移すものとする。
また、入出力処理ステップ EX52では洋食レストランデータベースを、入出力処理ス テツプ EX53では中華レストランデータベースを、入出力処理ステップ EX51と同様に して検索し、図示するように、処理を判別処理ステップ QB 17又は QB 18に移す。な お、エージェント処理部 7は、トリガ取得処理ステップ TG52で単語「洋食」を表す単 語データを取得したときも入出力処理ステップ EX52に処理を移すものとする。トリガ 取得処理ステップ TG53で単語「中華」を表す単語データを取得したときも入出力処 理ステップ EX53に処理を移すものとする。
[0158] 判別処理ステップ QB16、 QB17又は QB18で、エージェント処理部 7は、入出力 処理ステップ EX51、 EX52又は EX53で索出したレストランの名称と、確認を促す文 章とを、音声出力部 5に読み上げさせて、カテゴリ「肯定」又は「否定」に属する単語 データが供給されるのを待機する。そして、該当する単語データが供給されると、い ずれのカテゴリに属するかを判別し、「肯定」に属すると判別すると入出力処理ステツ プ SP17、 SP18又は SP19に処理を移し、「否定」に属すると判別すると入出力処理 ステップ SP 16に処理を移す。また、これらのいずれのカテゴリの単語の単語データも 供給されなかった場合は、音声出力部 5に、「はいかいいえで答えて?」という文章を 読み上げる音声を再生させ、カテゴリ「肯定」又は「否定」に属する単語データが供給 されるのを待機し、供給された単語データのカテゴリに従い、判別処理ステップ QB1 6、 QB17又は QB18の処理における各遷移先のいずれかに処理を移す (判別処理 ステップ QB19、 QB20又は QB21)。
[0159] そしてエージェント処理部 7は、入出力処理ステップ SP17、 SP18又は SP19では 、音声出力部 5に、「ご案内します。」という文章を読み上げさせ、ナビゲーシヨン部 61 に、車両の地図上における現在位置と、入出力ステップ EX51、 EX52又は EX53で 索出したレストランのこの地図上での位置を示す情報とを表示するよう指示する制御 信号を送る。ナビゲーシヨン部 61は、車両の地図上における現在位置と、この地図 上での当該レストランの位置を示す情報とを表示し、このレストランへの案内を開始す る(ステップ EX8、 EX9又は EX10)。
[0160] 一方、入出力処理ステップ SP16で、エージェント処理部 7は、音声出力部 5に、「 わがままね。 Webでレストラン情報を検索してみるね。」という文章を読み上げさせる。 そして、エージェント処理部 7は、自己の通信制御装置を介して外部のネットワークに アクセスし、現在位置を基準にしてレストランの位置を示す情報の検索を行う(入出力 処理ステップ EX7)。そして、該当する情報を索出すると、例えば、ナビゲーシヨン部 61に、車両の地図上における現在位置と、この地図上での当該レストランの位置を 示す情報とを表示させる。
[0161] なお、上述の通り、エージェント処理部 7に供給される単語データには音声認識部
2によってスコアが付され、処理の遷移は、重み係 #αとスコア Sとの積 S 'Jが最大とな るワイヤが示す内容に従って行われるので、フローがジャンプして上述した順序と異 なる処理が行われる場合があり得る。そして、トリガとなる処理項目を先行処理項目と して有するワイヤに対しては、遷移定数 kがある程度高 、値に設定されて 、るものと すれば、結果としてこのワイヤの重み係 #αも高い値となり、ジャンプが起きやすくなつ て、エージェント処理部 7は突然の話題転換にも対応できるようになる。例えば、「お 腹減った」という音声入力を認識し、「食事に行く?」と質問した後に、「つまんない」と ユーザが発話した場合、単語「つまんない」の単語データを取得する処理項目に対 応するワイヤに設定されている単語「つまんない」の認識スコア sと重み係 #αとの積 s •jが算出され、また、判断処理「食事に行く?」に連なるワイヤに設定される単語のス コア sと重み係 ¾jとの積 s'jも計算される (もちろん、他のワイヤに対してもそれぞれ 計算される)。結果として、単語「つまんない」について求めた積が最も大きな値を示 せば、エージェント処理部 7は処理のフローをジャンプし、単語「つまんない」の単語 データを取得する処理項目に後続する処理項目へと遷移する。
[0162] 以上説明したこのエージェント装置は、処理の内容を示すデータやワイヤが適切に 記述されれば、ユーザの自然な発話に応答して、ユーザの欲求を満たすためにどの 機器にどのような制御を加えればよいかを適切に判断して、判断結果に従った制御 を機器に加えることができるようになる。
[0163] なお、このエージェント装置の構成は上述のものに限られない。
例えば、単語データベース D3は、必ずしも単語を示すデータのみならず、複数の 単語からなる語句を示すデータを単語データベース D3の要素として記憶するように してもょ 、し、単語の一部ある 、は音素を示すデータを単語データベース D3の要素 として記憶するようにしてもよい。また、単語等は必ずしも特定の概念の下にグルーピ ングされている必要はなぐグルーピングを行う場合も、グルーピングを行うために用 V、られるデータは、必ずしもカテゴリ辞書の形をとつて 、なくてもよ!、。
[0164] また、音声認識部 2は、ユーザが発話した音声のすべてを認識した結果を自然言 語解析部 3に供給する代わりに、ある特定の単語のみを認識して、認識した単語を直 接にエージェント処理部 7へと供給するようにしてもょ 、 (ワードスポッティング方式)。 この場合、このエージェント装置は、自然言語解析部 3を備えている必要はない。
[0165] また、エージェント処理部 7は、複数の単語が属するカテゴリを、これら複数の単語 がどのような組み合わせで同一の文章に含まれているかに基づいて決定してもよい。 この場合、エージェント処理部 7は、例えば図 18にデータ構造を示すようなテーブル を記憶し、このテーブルを参照することにより、組をなす複数の単語のカテゴリを決定 すればよい。なお、図 18に例示するテーブルは、例えば、単語「お腹」と単語「減った 」が同一の文章中に含まれていた場合は、これら 2個の単語は、この文章に係る処理 を行う限りではカテゴリ「食事」に属するものとして扱われることを示す。また、単語「設 定」と単語「目的地」が同一の文章中に含まれていた場合は、これら 2個の単語は、こ の文章に係る処理を行う限りではカテゴリ「ナビ設定」に属するものとして扱われること を示す。
[0166] また、エージェント処理部 7は、ワイヤに対応する遷移定数 kを、過去に当該ワイヤ が表す遷移を実行した数などに基づき所定の基準に従って変化させ、重み係 ¾Jが 変化後の遷移定数 kに基づ 、て計算された値となるようにワイヤを書き換えてもよ 、。 具体的には、例えば、ワイヤデータベース D5に、それぞれのワイヤについて、当該 ワイヤが表す遷移が実行された回数を記憶しておく。そしてエージェント処理部 7は、 当該遷移が新たに行われる毎に、この回数の値を書き換えることにより、この回数の 値を 1ずつインクリメントし、それぞれのワイヤに対応する遷移定数 kを、例えば、当該 ワイヤについて記憶された回数に比例した値と書き換える。
なお、上述の実施例では、ワイヤに設定される条件は、それぞれのワイヤに対して 設定されるとして説明した力 これには限られない。例えば、判別処理の中に各ワイ ャの条件を記述するようにしてもよい。この場合、各条件がいずれのワイヤに対応す るものかを予め特定しておく。
[0167] また、エージェント処理部 7は、判別処理や入出力処理において出力するデータを 、これらの処理に引き渡されたデータや、これらの処理に伴って入力したデータや、 その他任意の条件に従って変化させるようにしてもょ 、。
[0168] また、このエージェント装置は、エージェント処理部 7の制御に従って画像を出力す るための表示装置 (例えば、液晶ディスプレイ等)を備えていてもよぐエージェント処 理部 7は、入出力処理や判別処理において、処理毎に所定の画像を表示させるよう この表示装置を制御してもよ 、。 [0169] また、エージェント処理部 7は、トリガ取得処理、判別処理、入出力処理等の各種処 理とワイヤとが全体として形成するフローを分担して行う、互いに接続された複数の データ処理装置 (例えば、コンピュータ等)から構成されていてもよい。この場合、ェ ージェント処理部 7を構成するそれぞれのデータ処理装置は、エージェント処理部 7 が実行し得るフロー全体のうち、自己が実行する可能性がある部分を表すデータを、 処理項目データベースやワイヤデータベースの要素として記憶すれば十分である。 そして、それぞれのデータ処理装置が記憶するデータが、当該データ処理装置が実 行する部分の処理をマクロ定義するようなデータとなって!/ヽれば、複数のデータ処理 装置に分散処理を行わせることも容易である。
[0170] また、このエージェント装置は、音声入力部 1や自然言語解析部 3あるいは音声出 力部 5も複数備えていてよい。
また、音声入力部 1は、たとえば、音声を表すデータが記録された記録媒体 (たとえ ば、フロッピー(登録商標)ディスクや、 CD (Compact Disc)や、 MO (
Magneto-Optical Disk)など)から波形信号を読み出して自然言語解析部 3に供給す る記録媒体ドライブ装置 (たとえば、フロッピー (登録商標)ディスクドライブや、 CD-R OMドライブや、 MOドライブなど)を備えて 、てもよ!/ヽ。
[0171] また、このエージェント装置は、例えば、カーナビゲーシヨンシステムの制御に限ら れず、他の機器の制御を行ってもよい。従って、車載機器の制御装置を制御してもよ ぐエアコン等の空調機器を制御してもよぐモーターの動力により開閉する窓の開閉 や、ライトの点灯 Z消灯や、電動ワイパーの始動 Z停止を制御してもよい。
[0172] また、オーディオ機器を制御してもよ!/、。オーディオ機器の制御としては、例えば、 ラジオのチューニングの制御、 CD (Compact Disc)や MD (Mini Disc)、 DVD (Digital Versatile Disc)等の記録媒体に記録された音声や画像を再生する記録媒体ドライ ブ装置の制御に適用可能である。
[0173] オーディオ機器の制御の具体的な態様としては、例えば、 CDプレーヤにより再生 されて 、る楽曲を変えた 、と思ったユーザが指示のために用いる可能性のある表現( 例えば、「曲を変えて」「別の曲」「違う曲」等)を構成する単語の組み合わせ (例えば、 「曲」と「変えて」、「別」と「曲」、「違う」と「曲」、等)を、カテゴリ辞書を用いて「曲変更」 というカテゴリに分類しておき、 CDプレーヤが CDに記録された楽曲の再生中に、力 テゴリ「曲変更」に属する単語の組み合わせが発声され、該当する各単語を表す単 語データが音声認識部 2から自然言語解析部 3を経てエージェント処理部 7に供給さ れたとき、エージェント処理部 7がこれに応答して (具体的には、カテゴリ「曲変更」に 属する単語データを取得するトリガ処理項目の後続の処理項目に遷移して)、 CDプ レーャに、再生中のトラックを変更することを指示する制御信号を送る、等が考えられ る。尚、「曲」という単語と共に、「変えて」「別」「違う」の単語を 1つのワイヤに条件とし て設定するようにしてもよい。これによつて、自然言語解析部 3から入力音声に対応 する単語のスコアが直接ワイヤに対して設定される。自然言語解析部 3から供給され た単語データが、単語「曲」と単語「変えて」であった場合、それぞれのスコアが当該 ワイヤに設定される。そして、この設定されたスコアに基づいて当該ワイヤの算出結 果を求める。この場合、各スコアを合算してもよいし、または平均値を求めてもよい。 そして、上述のカテゴリに各単語を分類する場合でも同様だが、ここで得られた各ス コアとワイヤに設定される重み係数との乗算によってワイヤの算出結果が求められ、 この算出結果が最も高 ヽ値を示すワイヤに状態を遷移することになる。
[0174] また、他の具体例としては、エージェント処理部 7が、音声出力部 5に「この曲でい い?」と 、う音声を出力させ、その後、「肯定」のカテゴリに属する単語 (「うん」「 、」「 OK」等)又は「否定」のカテゴリに属する単語 (例えば「いや」「ちがう」「だめ」「別の」 等)の単語データが供給されたとき、供給された単語データのカテゴリに従って、 CD プレーヤに楽曲の再生や停止を指示することが考えられる。
[第 2の実施の形態]
[0175] 場合によって、ユーザはあいまいな表現を発することがある。例えば、「つまんない」 という単語は、「音楽再生」「曲変更」「買い物」あるいは「食事」など、様々な要求を意 図して発せられ得る。このようなあいまいな表現の指示が発せられたときにこの指示 の意図を特定する本発明の第 2の実施の形態のエージェント装置を説明する。
[0176] このエージェント装置の物理的構成は、例えば、図 1に示す第 1の実施の形態の構 成と実質的に同一である。ただし、このエージェント装置の入出力対象機器群 6には 、ナビゲーシヨン部 61やクロック 62に加え、 CDプレーヤが含まれているものとする。 また、カテゴリ辞書により定義されているカテゴリの少なくとも一部は、入出力対象機 器群 6に属する少なくとも 、ずれかの機器と対応付けられて ヽるものとする。
[0177] このエージェント装置のエージェント処理部 7に、単語「つまんない」を表す単語デ ータが供給された場合、エージェント処理部 7は、単語「つまんない」が属するカテゴ リを検索する。その結果、例えば「音楽再生」「曲変更」「買い物」「食事」の 4つのカテ ゴリに属していたとして、次に、エージェント処理部 7は、入出力対象機器群 6に属す る機器のうち、これらのカテゴリに対応付けられている機器から、当該機器の現在の 動作状態を示す情報を取得する。
[0178] 取得した情報力 CDプレーヤが何ら音声を再生して 、な 、ことを示して 、る場合、 エージェント処理部 7は、例えば「音楽でもかける?それとも買い物にいく?食事にで もいく?」という音声を音声出力部 5に発生させることにより、上述の 4つのカテゴリのう ち「曲変更」を除く「音楽再生」「買い物」「食事」の 3つのカテゴリのいずれかを選択す るよう促す。
[0179] そして、「CDをかけて」、あるいはその他、カテゴリ「CD再生」に属する単語な!/、し そのような単語を含む文章をユーザが発声し、カテゴリ「CD再生」に属する単語の単 語データがエージェント処理部 7に供給されると、エージェント処理部 7は、カテゴリ「 CD再生」に属する単語の単語データを取得するトリガ取得処理に後続する処理へと 遷移する。この結果、例えば「CDを再生するね」という音声を音声出力部 5に発生さ せ、 CDプレーヤに音声の再生を指示する制御信号を送る。
[0180] また、単語「うた」を含む文章「なんか"うた"でも聞きたいなあ」、あるいはその他、力 テゴリ「音楽」に属する単語な 、しそのような単語を含む文章をユーザが発声し、カテ ゴリ「音楽」に属する単語の単語データがエージェント処理部 7に供給されると、エー ジェント処理部 7は、カテゴリ「音楽」に属する単語の単語データを取得するトリガ取得 処理に後続する処理へと遷移する。
同様に、カテゴリ「食事」に属する単語な 、しそのような単語を含む文章をユーザが 発声し、カテゴリ「食事」に属する単語の単語データがエージェント処理部 7に供給さ れると、エージェント処理部 7は、カテゴリ「食事」に属する単語の単語データを取得 するトリガ取得処理に後続する処理へと遷移する。この場合、例えば図 11に示す QB 3に状態を遷移することとなる。
[0181] なお、入出力対象機器群 6に属する機器の現在の動作状態を示す情報が、 CDプ レーャが音声を再生していることを示している場合、エージェント処理部 7は、例えば 「曲を変える?それとも買い物にいく?食事にでもいく?」という音声を音声出力部 5 に発生させることにより、上述の 4つのカテゴリのうち「音楽再生」を除く「曲変更」「買 V、物」「食事」の 3つのカテゴリの 、ずれかを選択するよう促す。
[0182] 以上説明した動作を行うことによって、本発明の第 2の実施の形態のエージェント装 置は、ユーザのあいまいな指示を示す音声に基づいて、ユーザの意図を適切に特 定する。
[第 3の実施の形態]
[0183] 上述の各実施の形態のエージェント装置は、ユーザの要求を的確に判断し、また、 あいまいな指示力ももユーザの要求を具体的に導いて、機器の制御を行う。しかし、 ユーザとしては、単に自らが一方的に発する要求を判断することだけでなぐ話し相 手を必要とする場合もあり得る。例えば、一人で車を運転するユーザは、そのような必 要を感じる場合が多いと考えられる。しかし、車の運転中であれば、携帯電話を使用 して会話をするのは危険が伴うし、また、通話料金が力さんでしまうという問題もある。
[0184] このような問題は、エージェント装置がユーザの話し相手になれば解決する。以下 では、ユーザとの会話を達成する、本発明の第 3の実施の形態に係るエージェント装 置を説明する。
[0185] このエージェント装置の物理的構成は、例えば、上述した第 1の実施の形態の構成 と実質的に同一である。ただし、このエージェント装置の入出力対象機器群 6は、 FM 多重放送を受信し文字情報を抽出してエージェント処理部 7に随時供給するラジオ 受信機、あるいは、外部の通信回線を介して文字情報を取得しエージェント処理部 7 に随時供給する端末を含んで 、る受信機を含んで 、るものとし、エージェント処理部 7は、このラジオ受信機あるいは端末が供給する文字情報を自己の不揮発性メモリに 蓄積するものとする。そして、蓄積した文字情報を読み出す際は、読み出しを行った ことを示すデータを生成して格納するものとする。
[0186] そして、例えば単語「なんかニュースない?」を表す単語データを取得するトリガ取 得処理が実行されると、このトリガ取得処理に後続する処理として、例えば以下説明 する処理を実行する。
[0187] 例えば、エージェント処理部 7は、自己の不揮発性メモリに蓄積された文字情報のう ち、まだ読み出されていないものがあると、該当する文字情報のジャンルを知らせるメ ッセージ (例えば、「スポーツと、社会経済に関する-ユースがあります」等)を読み上 げる音声を音声出力部 5に発生させる。
[0188] なお、該当する文字情報のジャンルは、受信された文字情報に予め分類を示す情 報があればこれに基づいて特定する。ない場合には、エージェント処理部 7が当該文 字情報の内容に基づいて判断する。具体的には、例えば「〇〇党の幹部が汚職によ り更迭を余儀なくされ' · ·」等の内容を含む文字情報では、「〇〇党」「汚職」の単語 に基づいて、社会面記事と判断する。同様に、「〇〇株式会社が発表した決算発表 によって同社の株価が高騰し' · ·」との内容を含む文字情報では、「決算発表」「株価 」の単語に基づいて、経済面記事と判断する。また「サッカーの〇〇(チーム名)が〇 〇(いつの)試合で勝利し、優勝に王手をかけた」との内容を含む文字情報では、「サ ッカー」「試合」「優勝」の単語に基づいて、スポーツ面記事と判断する。
[0189] そして、ユーザが発した「スポーツの-ユースを教えて」 t 、う文章を表す単語デー タの集合が供給されると、エージェント処理部 7は、自ら蓄積している文字情報のうち 、まだ読み出されていないスポーツ面記事を反映した文章 (例えば、「サッカーの〇 〇(チーム名)が〇〇(いつの)試合で勝利し、優勝に王手をかけたんだって」等)を 読み上げる音声を音声出力部 5に発生させる。
[0190] なお、ニュース等で受信する文字情報は文末に「一した」等の表現が使われること が多ぐ通常の会話にはそぐわない。そこで、文字情報をそのまま読み上げるように せず、上述のように、文章の語尾を「んだって」等、友人同士での会話の語尾に使わ れそうな言葉に置換して読み上げるようにするとよ 、。
[0191] また、エージェント処理部 7は、音声出力部 5に文字情報を読み上げさせる際、文 字情報の一部 (例えば、冒頭の段落)のみをまず読み上げさせ、ユーザが当該文字 情報の詳細を求める音声 (例えば、「もっと詳しい情報ある?」と問い掛ける音声)を 発するのを待機し、発したとき、これに応答して残りの部分を読み上げさせるようにし てもよい。
[0192] また、エージェント処理部 7は、ユーザが当該文字情報の詳細を求める音声を発し たことに応答して、自ら蓄積している文字情報を検索し、既に全文を読み上げたか否 かを判別して、読み上げたと判別した場合には、「ううん、今のところこれだけだね」と いう音声を出力させ、また、詳細部分がある場合には「あるよ、じゃあ全文読み上げる ね」という音声を出力させた後に、該当する詳細部分を読み上げる音声を出力させる ようにしてもよい。
[0193] また、エージェント処理部 7は、音声出力部 5に読み上げさせた文字情報に対する 質問を含んだ音声をユーザが発したとき、これに応答して、自らが蓄積している文字 情報のうちから、当該質問への回答となり得るものを索出して音声出力部 5に読み上 げさせてもよい。例えばユーザが、「どことの試合で勝ったの?」という質問を発した場 合、当該試合の結果を解説する文字情報を検索し、索出されれば、この文字情報を 読み上げさせる、等である。また、「次の試合はいつ?」と質問された場合も、次の試 合のスケジュールを解説する文字情報を検索し、索出されればこれを読み上げさせ る等すればよい。
[0194] そして、その結果ユーザが更に、「チケット取れる?」等と質問すると、エージェント 処理部 7は、これまでのユーザとの会話内容に基づ!/、て「チーム名」や「試合日」を特 定し、例えば「ちょっと調べてみるね」という音声を音声出力部 5に発生させた後に、 外部のネットワーク等を通じてチケット販売サイトに接続し、該当するチケットの有無を 照会する。
[0195] その結果、当該チケットがまだ購入可能であるとの回答が得られた場合、エージェ ント処理部 7は、「今ならまだ大丈夫。〇席で〇〇円だけど、購入する?」などとチケッ トの販売状況を説明する音声を音声出力部 5に読み上げさせることにより、ユーザの 回答を促す。これに対してユーザ力 ^購入する」「注文して」「買う」等、肯定を意味す る単語を発声した場合、この単語を表す単語データに応答して、チケットの購入を支 援する処理 (例えば、ネット決済等を支援する公知の処理)へと移行する。
[0196] 一方、チケットが既に完売になっているとの回答が得られた場合、エージェント処理 部 7は、「残念だけど、もう満席みたい。」等の文章を音声出力部 5に読み上げさせて 、一連の処理を終了し、その他に、まだ未出力の文字情報があれば、該当する文字 情報を出力する処理に移行する。
[0197] 以上説明した動作を行うことによって、本発明の第 3の実施の形態のエージェント装 置は、単にユーザの所望する制御を行うのみでなぐユーザとの会話を実現する。尚 、上述のエージェント装置とユーザの会話は、オーディオ装置に対しても適用するこ とが可能である。例えば、オーディオ装置は、インターネット等を通じて予めユーザが 登録したアーティスト条件に基づ 、て情報を取得してメモリする。取得された情報は、 アーティスト条件に基づいて分類される。そして、ユーザが「新着情報ない?」等を問 い掛けると、エージェント装置はメモリ内容を検索し、まだ提示していない情報があれ ば、音声出力によってこれを提示する。もちろんこのとき、映像情報を伴うものであつ てもよい。例えばこの新着情報が新しいアルバムに関する情報であれば、更にエー ジェント装置はこのアルバムの購入をユーザに確認し、了解が取れるとこれを購入す るようにインターネット CDショップに購入手続きをとる。また同様に、コンサート情報で あれば、エージェント装置はこのコンサートのチケットの購入をユーザに確認し、了解 が取れるとこれを購入するようにインターネットチケットショップに購入手続きをとる。尚 、これらの音声認識処理等は上述の実施例に基づ 、て行われる。
[0198] 以上、この発明の実施の形態を説明したが、上述の実施の形態に示されるような以 下のいずれかの処理を、又は組み合わせて施すことによって、ユーザが発話する様 々な表現の音声を適切に認識して、対応する処理を実行することが可能になる。
1.各ワイヤに対して、当該ワイヤにおいて同じ意味として取り扱われる単語を複数 条件として設定する。
2.各ワイヤに対して、一若しくは複数の単語が分類されるカテゴリを設定する。
3.各ワイヤに対して、異なる意味の単語若しくはカテゴリを複数条件として設定す る。
4.複数の単語が同一の文章 (入力音声)に含まれていた場合に、これらの単語が 共通して属するカテゴリのみを、これらの単語が属するカテゴリとして扱うことにより、こ れらの単語が発話された意図を文脈に応じて把握することを可能とする。
5.単語データが有するカテゴリを、当該単語データの意味として扱う。 6.トリガ取得処理で取得されるデータが単語データである場合は、ワイヤに設定さ れる条件は、当該単語データが表す単語に代えて、当該単語データが表す単語が グルーピングされて 、るカテゴリを記述する。
7.入力された音声の意味が判別できな力つたとき、より判別しやすい表現での入 力を促すようにする。
8.外部から取得した情報に基づいて、ユーザに提示する内容を変更する。
尚、この発明に力かる機器制御装置は、専用のシステムによらず、通常のコンビュ ータシステムを用いて実現可能である。
例えば、入出力対象機器群 6に接続されたパーソナルコンピュータに上述の音声 入力部 1、 自然言語解析部 3、音声合成処理部 4、音声出力部 5及びエージェント処 理部 7の動作を実行させるためのプログラムを格納した記録媒体力 該プログラムを インストールすることにより、上述の処理を実行するエージェント装置を構成すること ができる。そして、このプログラムを実行するパーソナルコンピュータ力 図 1のエージ ェント装置の動作に相当する処理として、例えば、図 9 (a)に示すフローを実行するも のとする。
[0199] なお、パーソナルコンピュータに上述のエージェント装置の機能を行わせるプロダラ ムは、例えば、通信回線の掲示板 (BBS)にアップロードし、これを通信回線を介して 配信してもよぐまた、このプログラムを表す信号により搬送波を変調し、得られた変 調波を伝送し、この変調波を受信した装置が変調波を復調してこのプログラムを復元 するようにしてもよい。そして、このプログラムを起動し、 OSの制御下に、他のアプリケ ーシヨンプログラムと同様に実行することにより、上述の処理を実行することができる。
[0200] なお、 OSが処理の一部を分担する場合、あるいは、 OSが本願発明の 1つの構成 要素の一部を構成するような場合には、記録媒体には、その部分を除いたプログラム を格納してもよい。この場合も、この発明では、その記録媒体には、コンピュータが実 行する各機能又はステップを実行するためのプログラムが格納されているものとする
[0201] 本発明 ίま、 2003年 12月 26曰【こ出願された、特願 2003— 436976【こ基づさ、その 明細書、特許請求の範囲、図面および要約書を含む。上記出願における開示は、本 明細書中にその全体が参照として含まれる。
産業上の利用可能性
本発明は、人間が言語の形で発する指示に適切に応答して機器を制御できる種々 の機器制御装置等に利用可能である。

Claims

請求の範囲
[1] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2)が特定した語句に基づき、前記音声の発話者の発話内容 を特定する特定手段 (7)と、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定して、当該制御を実行する処理実行手段(7)と、
を備える、
ことを特徴とする機器制御装置。
[2] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2)が特定した語句のうち、所定の品詞 であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定する ことを特徴とする請求項 1に記載の機器制御装置。
[3] 前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された複数の語句の組み合わせが所定の条件を満たしているか否か を判別し、判別結果に基づいて、前記音声の発話者の発話内容を特定する、 ことを特徴とする請求項 2に記載の機器制御装置。
[4] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、前記音声認識手段(2, 3)が特定した語句が分類されるカテゴリに基づいて前記音 声の発話者の発話内容を特定する、
ことを特徴とする請求項 1に記載の機器制御装置。
[5] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段(2, 3)が特定した語句若しくはカテゴリの組み合わせと前記対応情報に 基づいて前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 1に記載の機器制御装置。
[6] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテゴ リに基づいて、前記音声の発話者の発話内容を特定する
ことを特徴とする請求項 1に記載の機器制御装置。
[7] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行する、
ことを特徴とする請求項 1に記載の機器制御装置。
[8] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす!/、表現での入力を促す、
ことを特徴とする請求項 1に記載の機器制御装置。
[9] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、出 力する出力内容を選択する、
ことを特徴とする請求項 1に記載の機器制御装置。
[10] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定する処理特定手段 (7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 ( 5)と、
を備え、
前記処理特定手段 (7)が特定した制御が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする機器制御装置。
[11] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行手段 (7)と、
を備える、
ことを特徴とする音声認識装置。
[12] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 する、
ことを特徴とする請求項 11に記載の音声認識装置。
[13] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、前記音声認識手段が特定した語句が分類されるカテゴリに基づいて前記音声の発 話者の発話内容を特定する、
ことを特徴とする請求項 11に記載の音声認識装置。
[14] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段が特定した語句若しくはカテゴリの組み合わせと前記対応情報に基づい て前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 11に記載の音声認識装置。
[15] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、前記音声認識手段が特定した複数の語句が共通して分類されているカテゴリに基 づいて、前記音声の発話者の発話内容を特定する ことを特徴とする請求項 11に記載の音声認識装置。
[16] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行する、
ことを特徴とする請求項 11に記載の音声認識装置。
[17] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす!/、表現での入力を促す、
ことを特徴とする請求項 11に記載の音声認識装置。
[18] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択する、
ことを特徴とする請求項 11に記載の音声認識装置。
[19] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて実行すべき処理を特定する処理特定手段 (7)と、 所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定した処理が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする音声認識装置。
[20] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、 前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行手段 (7)と、
を備える、
ことを特徴とするエージェント装置。
[21] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 する、
ことを特徴とする請求項 20に記載のエージェント装置。
[22] 前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された複数の語句の組み合わせが所定の条件を満たしているか否か を判別し、判別結果に基づいて、前記音声の発話者の発話内容を特定する、 ことを特徴とする請求項 21に記載のエージェント装置。
[23] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、前記音声認識手段が特定した語句が分類されるカテゴリに基づいて前記音声の発 話者の発話内容を特定する、
ことを特徴とする請求項 20に記載のエージェント装置。
[24] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段(2, 3)が特定した語句若しくはカテゴリの組み合わせと前記対応情報に 基づいて前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 20に記載のエージェント装置。
[25] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテゴ リに基づいて、前記音声の発話者の発話内容を特定する、 ことを特徴とする請求項 20に記載のエージェント装置。
[26] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行する、
ことを特徴とする請求項 20に記載のエージェント装置。
[27] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす!/、表現での入力を促す、
ことを特徴とする請求項 20に記載のエージェント装置。
[28] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択する、
ことを特徴とする請求項 20に記載のエージェント装置。
[29] 前記処理実行手段 (7)は、実行すべき処理として特定した処理が、外部から受信し た情報を発話者に提示する処理であるとき、当該情報を読み上げる音声を発生させ ることにより当該提示を実行する手段を備える、
ことを特徴とする請求項 20に記載のエージェント装置。
[30] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて実行すべき処理を特定する処理特定手段 (7)と、 所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段(
5)と、
を備え、
前記処理特定手段 (7)が特定した処理が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とするエージェント装置。
[31] 外部の車載機器を搭載した車両に搭載可能に構成された車載機器制御装置であ つて、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定し て、当該制御を実行する処理実行手段 (7)と、
を備える、
ことを特徴とする車載機器制御装置。
[32] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 する、
ことを特徴とする請求項 31に記載の車載機器制御装置。
[33] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、前記音声認識手段(2, 3)が特定した語句が分類されるカテゴリに基づいて前記音 声の発話者の発話内容を特定する、
ことを特徴とする請求項 31に記載の車載機器制御装置。
[34] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段が特定した語句若しくはカテゴリの組み合わせと前記対応情報に基づい て前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 31に記載の車載機器制御装置。
[35] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテゴ リに基づいて、前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 31に記載の車載機器制御装置。
[36] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行する、
ことを特徴とする請求項 31に記載の車載機器制御装置。
[37] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす!/、表現での入力を促す、
ことを特徴とする請求項 31に記載の車載機器制御装置。
[38] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択する、
ことを特徴とする請求項 31に記載の車載機器制御装置。
[39] 外部の車載機器を搭載した車両に搭載可能に構成された車載機器制御装置であ つて、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定 する処理特定手段 (7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 ( 5)と、
を備え、
前記処理特定手段 (7)が特定した制御が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする車載機器制御装置。
[40] 車両に搭載可能に構成されたナビゲーシヨン装置であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべきナビゲーシヨン処理の内容を特定して、当該 ナビゲーシヨン処理を実行する処理実行手段(7)と、
を備える、
ことを特徴とするナビゲーシヨン装置。
[41] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 する、
ことを特徴とする請求項 40に記載のナビゲーシヨン装置。
[42] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、 前記音声認識手段(2, 3)が特定した語句が分類されるカテゴリに基づいて前記 音声の発話者の発話内容を特定する、
ことを特徴とする請求項 40に記載のナビゲーシヨン装置。
[43] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段(2, 3)が特定した語句若しくはカテゴリの組み合わせと前記対応情報に 基づいて前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 40に記載のナビゲーシヨン装置。
[44] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており 、 前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテ ゴリに基づいて、前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 40に記載のナビゲーシヨン装置。
[45] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行する、
ことを特徴とする請求項 40に記載のナビゲーシヨン装置。
[46] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす!/、表現での入力を促す、
ことを特徴とする請求項 40に記載のナビゲーシヨン装置。
[47] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択する、
ことを特徴とする請求項 40に記載のナビゲーシヨン装置。
[48] 車両に搭載可能に構成されたナビゲーシヨン装置であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ!/、て、実行すべきナビゲーシヨン処理の内容を特定する処理 特定手段 (7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定したナビゲーシヨン処理が、前記情報取得手段 (7) で取得された情報を出力するものであるとき、前記音声出力手段は当該情報に基づ いて音声を出力する、
ことを特徴とするナビゲーシヨン装置。
[49] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべき音声処理の内容を特定して、当該音声処理 を実行し、又は外部の機器に実行させるよう当該外部の機器を制御する処理実行手 段 (7)と、
を備える、
ことを特徴とするオーディオ装置。
[50] 前記音声認識手段 (2, 3)は、特定した語句の品詞を特定する品詞特定手段 (3)を 備え、
前記特定手段 (7)は、前記音声認識手段 (2, 3)が特定した語句のうち、所定の品 詞であると特定された語句のみに基づいて、前記音声の発話者の発話内容を特定 する、
ことを特徴とする請求項 49に記載のオーディオ装置。
[51] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、前記音声認識手段(2, 3)が特定した語句が分類されるカテゴリに基づいて前記音 声の発話者の発話内容を特定する、
ことを特徴とする請求項 49に記載のオーディオ装置。
[52] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、異なる 意味の語句若しくはカテゴリを複数個対応付ける対応情報を保持しており、前記音 声認識手段(2, 3)が特定した語句若しくはカテゴリの組み合わせと前記対応情報に 基づいて前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 49に記載のオーディオ装置。
[53] 前記特定手段(7)は、語句を 1個以上のカテゴリに対応付ける情報を保持しており
、前記音声認識手段 (2, 3)が特定した複数の語句が共通して分類されているカテゴ リに基づいて、前記音声の発話者の発話内容を特定する、
ことを特徴とする請求項 49に記載のオーディオ装置。
[54] 前記特定手段(7)は、前記処理実行手段(7)のそれぞれの処理に対して、複数の 語句を割り当てて保持しており、前記音声認識手段 (2, 3)が特定した語句のうち少 なくとも一つが前記処理に対して割り当てられた語句であるとき、対応する処理を実 行する、
ことを特徴とする請求項 49に記載のオーディオ装置。
[55] 前記特定手段(7)は、入力された音声の意味が判別できな力つたとき、より判別し やす!/、表現での入力を促す、
ことを特徴とする請求項 49に記載のオーディオ装置。
[56] 外部機器からの情報を取得する情報取得手段 (7)を更に備え、
前記特定手段 (7)は、前記情報取得手段 (7)によって得られた情報に基づいて、 出力する出力内容を選択する、
ことを特徴とする請求項 49に記載のオーディオ装置。
[57] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段と、
特定した内容に基づいて、実行すべき音声処理の内容を特定する処理特定手段( 7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定した音声処理が、前記情報取得手段 (7)で取得され た情報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音 声を出力する、
ことを特徴とするオーディオ装置。
[58] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定して、当該制御を実行する処理実行ステップと、
より構成される、
ことを特徴とする機器制御方法。
[59] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定する処理特定ステップと、
所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、より構成され、
前記処理特定ステップで特定した制御が、前記情報取得ステップで取得された情 報を出力するものであるとき、前記音声出力ステップでは当該情報に基づいて音声 を出力する、
ことを特徴とする機器制御方法。
[60] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行ステップと、より構成される、
ことを特徴とする音声認識方法。
[61] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて実行すべき処理を特定する処理特定ステップと、 所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップで特定した処理が、前記情報取得ステップで取得された情 報を出力するものであるとき、前記音声出力ステップでは当該情報に基づいて音声 を出力する、
ことを特徴とする音声認識方法。
[62] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行ステップと、
より構成される、
ことを特徴とするエージェント処理方法。
[63] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて実行すべき処理を特定する処理特定ステップと、 所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップで特定した処理が、前記情報取得ステップで取得された情 報を出力するものであるとき、前記音声出力ステップでは当該情報に基づいて音声 を出力する、
ことを特徴とするエージェント処理方法。
[64] 車両に搭載された車載機器を制御するための車載機器制御方法であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定し て、当該制御を実行する処理実行ステップと、
より構成される、
ことを特徴とする車載機器制御方法。
[65] 車両に搭載された車載機器を制御するための車載機器制御方法であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定 する処理特定ステップと、
所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップが特定した制御が、前記情報取得ステップで取得された情 報を出力するものであるとき、前記音声出力ステップは当該情報に基づいて音声を 出力する、
ことを特徴とする車載機器制御方法。
[66] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、実行すべきナビゲーシヨン処理の内容を特定して、当該 ナビゲーシヨン処理を実行する処理実行ステップと、
より構成される、
ことを特徴とするナビゲーシヨン方法。
[67] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づ!/、て、実行すべきナビゲーシヨン処理の内容を特定する処理 特定ステップと、
所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップで特定したナビゲーシヨン処理力 前記情報取得ステップで 取得された情報を出力するものであるとき、前記音声出力ステップでは当該情報に 基づいて音声を出力する、
ことを特徴とするナビゲーシヨン方法。
[68] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、 特定した内容に基づいて、実行すべき音声処理の内容を特定して、当該音声処理 を実行し、又は外部のオーディオ装置に実行させるよう当該外部のオーディオ装置 を制御する処理実行ステップと、
より構成される、
ことを特徴とするオーディオ装置制御方法。
[69] 音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識ステップと、
前記音声認識ステップで特定した語句に基づき、前記音声の発話者の発話内容を 特定する特定ステップと、
特定した内容に基づいて、外部のオーディオ装置に実行させるべき音声処理の内 容を特定する処理特定ステップと、
所定の通信装置を介して情報を取得する情報取得ステップと、
前記情報取得ステップで取得した情報に基づいて音声を出力する音声出カステツ プと、
より構成され、
前記処理特定ステップで特定した音声処理が、前記情報取得ステップで取得され た情報を出力するものであるとき、前記音声出力ステップで当該情報に基づいて音 声を出力する、
ことを特徴とするオーディオ装置制御方法。
[70] コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定して、当該制御を実行する処理実行手段(7)と、
を備える、
ことを特徴とする機器制御装置として機能させるためのプログラム。
[71] コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段と、
特定した内容に基づ 、て、制御の対象である外部の機器に対して実行すべき制御 の内容を特定する処理特定手段 (7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 ( 5)と、
を備え、
前記処理特定手段 (7)が特定した制御が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする機器制御装置として機能させるためのプログラム。
[72] コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段と、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行手段 (7)と、
を備える、
ことを特徴とする音声認識装置として機能させるためのプログラム。
[73] コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて実行すべき処理を特定する処理特定手段 (7)と、 所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定した処理が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする音声認識装置として機能させるためのプログラム。
[74] コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づ!/ヽて実行すべき処理を特定して、当該処理を実行する処理実 行手段 (7)と、
を備える、
ことを特徴とするエージェント装置として機能させるためのプログラム。
[75] コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて実行すべき処理を特定する処理特定手段 (7)と、 所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、 を備え、
前記処理特定手段 (7)が特定した処理が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とするエージェント装置として機能させるためのプログラム。
[76] コンピュータを、
外部の車載機器を搭載した車両に搭載可能に構成された車載機器制御装置であ つて、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定し て、当該制御を実行する処理実行手段 (7)と、
を備える、
ことを特徴とする車載機器制御装置として機能させるためのプログラム。
[77] コンピュータを、
外部の車載機器を搭載した車両に搭載可能に構成された車載機器制御装置であ つて、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、前記車載機器に対して実行すべき制御の内容を特定 する処理特定手段と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 ( 5)と、 を備え、
前記処理特定手段 (7)が特定した制御が、前記情報取得手段 (7)で取得された情 報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音声を 出力する、
ことを特徴とする車載機器制御装置として機能させるためのプログラム。
[78] コンピュータを、
車両に搭載可能に構成されたナビゲーシヨン装置であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべきナビゲーシヨン処理の内容を特定して、当該 ナビゲーシヨン処理を実行する処理実行手段(7)と、
を備える、
ことを特徴とするナビゲーシヨン装置として機能させるためのプログラム。
[79] コンピュータを、
車両に搭載可能に構成されたナビゲーシヨン装置であって、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段と、
特定した内容に基づ!/、て、実行すべきナビゲーシヨン処理の内容を特定する処理 特定手段と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定したナビゲーシヨン処理が、前記情報取得手段 (7) で取得された情報を出力するものであるとき、前記音声出力手段 (5)は当該情報に 基づいて音声を出力する、
ことを特徴とするナビゲーシヨン装置として機能させるためのプログラム。
[80] コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべき音声処理の内容を特定して、当該音声処理 を実行し、又は外部の機器に実行させるよう当該外部の機器を制御する処理実行手 段 (7)と、
を備える、
ことを特徴とするオーディオ装置として機能させるためのプログラム。
[81] コンピュータを、
音声を表す音声データを取得し、当該音声データに音声認識を施すことにより、当 該音声が表す語句を特定する音声認識手段 (2, 3)と、
前記音声認識手段 (2, 3)が特定した語句に基づき、前記音声の発話者の発話内 容を特定する特定手段 (7)と、
特定した内容に基づいて、実行すべき音声処理の内容を特定する処理特定手段( 7)と、
所定の通信手段 (74)を介して情報を取得する情報取得手段 (7)と、
前記情報取得手段 (7)が取得した情報に基づ!/、て音声を出力する音声出力手段 (
5)と、
を備え、
前記処理特定手段 (7)が特定した音声処理が、前記情報取得手段 (7)で取得され た情報を出力するものであるとき、前記音声出力手段 (5)は当該情報に基づいて音 声を出力する、
ことを特徴とするオーディオ装置として機能させるためのプログラム。
PCT/JP2004/019426 2003-12-26 2004-12-24 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム Ceased WO2005064592A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US10/584,360 US8103510B2 (en) 2003-12-26 2004-12-24 Device control device, speech recognition device, agent device, on-vehicle device control device, navigation device, audio device, device control method, speech recognition method, agent processing method, on-vehicle device control method, navigation method, and audio device control method, and program
JP2005516667A JPWO2005064592A1 (ja) 2003-12-26 2004-12-24 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム
EP04807782A EP1699042B1 (en) 2003-12-26 2004-12-24 Device control device, method and program
DE602004025616T DE602004025616D1 (de) 2003-12-26 2004-12-24 Einrichtungssteuereinrichtung, -verfahren und -programm
CN2004800389368A CN1898721B (zh) 2003-12-26 2004-12-24 设备控制装置以及设备控制方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2003436976 2003-12-26
JP2003-436976 2003-12-26

Publications (1)

Publication Number Publication Date
WO2005064592A1 true WO2005064592A1 (ja) 2005-07-14

Family

ID=34737099

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2004/019426 Ceased WO2005064592A1 (ja) 2003-12-26 2004-12-24 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム

Country Status (6)

Country Link
US (1) US8103510B2 (ja)
EP (1) EP1699042B1 (ja)
JP (1) JPWO2005064592A1 (ja)
CN (1) CN1898721B (ja)
DE (1) DE602004025616D1 (ja)
WO (1) WO2005064592A1 (ja)

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP2009211629A (ja) * 2008-03-06 2009-09-17 National Institute Of Information & Communication Technology 対話装置、重み情報学習装置、対話方法、重み情報学習方法、およびプログラム
JP2011049885A (ja) * 2009-08-27 2011-03-10 Kyocera Corp 携帯電子機器
JP2013168179A (ja) * 2013-05-17 2013-08-29 National Institute Of Information & Communication Technology 対話装置、重み情報学習装置、対話方法、重み情報学習方法、およびプログラム
WO2013190957A1 (ja) * 2012-06-19 2013-12-27 株式会社エヌ・ティ・ティ・ドコモ 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
JP2014222509A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
KR20190034964A (ko) * 2017-09-25 2019-04-03 현대자동차주식회사 음성 인식 제어 장치, 그를 포함한 시스템 및 그 방법
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
JP2022033841A (ja) * 2020-06-23 2022-03-02 株式会社ユピテル システム及びプログラム
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification

Families Citing this family (171)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100590710C (zh) * 2003-12-05 2010-02-17 株式会社建伍 设备控制装置及设备控制方法
WO2007008248A2 (en) * 2005-07-11 2007-01-18 Voicedemand, Inc. Voice control of a media player
EP1902906B1 (en) * 2006-09-22 2017-07-26 Harman Becker Automotive Systems GmbH Add-on module for externally controlling a speech dialog system
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4315211B2 (ja) * 2007-05-01 2009-08-19 ソニー株式会社 携帯情報端末及び制御方法、並びにプログラム
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8423362B2 (en) * 2007-12-21 2013-04-16 General Motors Llc In-vehicle circumstantial speech recognition
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9978365B2 (en) * 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US8326637B2 (en) * 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
DE112010000947T5 (de) * 2009-03-02 2012-06-14 Borys Evgenijovich Panchenko Verfahren zur völlig modifizierbaren Framework-Datenverteilung im Data-Warehouse unter Berücksichtigung der vorläufigen etymologischen Separation der genannten Daten
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US8560311B2 (en) * 2009-09-23 2013-10-15 Robert W. Williams System and method for isolating uncertainty between speech recognition and natural language processing
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8700405B2 (en) * 2010-02-16 2014-04-15 Honeywell International Inc Audio system and method for coordinating tasks
EP2586026B1 (en) 2010-06-24 2016-11-16 Honda Motor Co., Ltd. Communication system and method between an on-vehicle voice recognition system and an off-vehicle voice recognition system
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US9160837B2 (en) 2011-06-29 2015-10-13 Gracenote, Inc. Interactive streaming content apparatus, systems and methods
US8515766B1 (en) * 2011-09-30 2013-08-20 Google Inc. Voice application finding and user invoking applications related to a single entity
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR101914708B1 (ko) * 2012-06-15 2019-01-14 삼성전자주식회사 서버 및 서버의 제어 방법
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9646610B2 (en) 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9144028B2 (en) 2012-12-31 2015-09-22 Motorola Solutions, Inc. Method and apparatus for uplink power control in a wireless communication system
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9431008B2 (en) * 2013-05-29 2016-08-30 Nuance Communications, Inc. Multiple parallel dialogs in smart phone applications
JP2016521948A (ja) 2013-06-13 2016-07-25 アップル インコーポレイテッド 音声コマンドによって開始される緊急電話のためのシステム及び方法
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US9783137B2 (en) * 2013-10-30 2017-10-10 Powervoice Co., Ltd. Sound QR system for vehicular services
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) * 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
DE102014210716A1 (de) * 2014-06-05 2015-12-17 Continental Automotive Gmbh Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
WO2016044290A1 (en) 2014-09-16 2016-03-24 Kennewick Michael R Voice commerce
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
EP3207467A4 (en) 2014-10-15 2018-05-23 VoiceBox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9294425B1 (en) * 2015-02-06 2016-03-22 Snapchat, Inc. Storage and processing of ephemeral messages
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN106486114A (zh) * 2015-08-28 2017-03-08 株式会社东芝 改进语言模型的方法和装置以及语音识别方法和装置
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
JP6428954B2 (ja) * 2016-02-18 2018-11-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
CN107490971B (zh) * 2016-06-09 2019-06-11 苹果公司 家庭环境中的智能自动化助理
US10331784B2 (en) 2016-07-29 2019-06-25 Voicebox Technologies Corporation System and method of disambiguating natural language processing requests
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
CN106828372A (zh) * 2017-01-22 2017-06-13 斑马信息科技有限公司 车载声音控制系统及方法
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. Multi-modal interfaces
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
DE102018208707A1 (de) * 2018-06-04 2019-12-05 Audi Ag Verfahren zum Betreiben einer Schallausgabeeinrichtung eines Kraftfahrzeugs, Sprachanalyse- und Steuereinrichtung, Kraftfahrzeug, und kraftfahrzeugexterne Servereinrichtung
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
JP2020135110A (ja) * 2019-02-14 2020-08-31 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
JP7198122B2 (ja) * 2019-03-07 2022-12-28 本田技研工業株式会社 エージェント装置、エージェント装置の制御方法、およびプログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
JP7287258B2 (ja) * 2019-12-10 2023-06-06 トヨタ自動車株式会社 エージェント管理装置、プログラムおよびエージェント管理方法
US11590929B2 (en) * 2020-05-05 2023-02-28 Nvidia Corporation Systems and methods for performing commands in a vehicle using speech and image recognition
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
ES3057527T3 (en) * 2021-08-19 2026-03-03 Merlin Labs Inc Advanced flight processing system and/or method
US20240061644A1 (en) * 2022-08-17 2024-02-22 Jpmorgan Chase Bank, N.A. Method and system for facilitating workflows via voice communication
US12573309B2 (en) 2022-10-11 2026-03-10 Merlin Labs, Inc. System and/or method for pilot attention monitoring

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4827520A (en) 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
JPH08339288A (ja) 1995-06-14 1996-12-24 Canon Inc 情報処理装置及びその制御方法
JP2000020086A (ja) * 1998-07-01 2000-01-21 Denso Corp 音声認識装置、その装置を用いたナビゲーションシステム及び自動販売システム
JP2000330588A (ja) 1999-05-20 2000-11-30 Toshiba Corp 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
US20030065427A1 (en) 2001-09-28 2003-04-03 Karsten Funk Method and device for interfacing a driver information system using a voice portal server

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3530591B2 (ja) * 1994-09-14 2004-05-24 キヤノン株式会社 音声認識装置及びこれを用いた情報処理装置とそれらの方法
US5729659A (en) * 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
JP3794597B2 (ja) 1997-06-18 2006-07-05 日本電信電話株式会社 話題抽出方法及び話題抽出プログラム記録媒体
US6411926B1 (en) * 1999-02-08 2002-06-25 Qualcomm Incorporated Distributed voice recognition system
US6542868B1 (en) * 1999-09-23 2003-04-01 International Business Machines Corporation Audio notification management system
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
US20020067839A1 (en) * 2000-12-04 2002-06-06 Heinrich Timothy K. The wireless voice activated and recogintion car system
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
DE10344007A1 (de) 2002-12-24 2004-07-08 Robert Bosch Gmbh Informationssystem für Fahrzeuge und Verfahren zur Sprachsteuerung
US7698138B2 (en) * 2003-01-15 2010-04-13 Panasonic Corporation Broadcast receiving method, broadcast receiving system, recording medium, and program
EP1493993A1 (en) 2003-06-30 2005-01-05 Harman Becker Automotive Systems GmbH Method and device for controlling a speech dialog system
US20050096913A1 (en) * 2003-11-05 2005-05-05 Coffman Daniel M. Automatic clarification of commands in a conversational natural language understanding system
JP4040573B2 (ja) * 2003-12-12 2008-01-30 キヤノン株式会社 音声認識装置および方法
US7542903B2 (en) * 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US7689410B2 (en) * 2004-04-23 2010-03-30 Microsoft Corporation Lexical semantic structure
US20060074658A1 (en) * 2004-10-01 2006-04-06 Siemens Information And Communication Mobile, Llc Systems and methods for hands-free voice-activated devices
US8036876B2 (en) * 2005-11-04 2011-10-11 Battelle Memorial Institute Methods of defining ontologies, word disambiguation methods, computer systems, and articles of manufacture

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4827520A (en) 1987-01-16 1989-05-02 Prince Corporation Voice actuated control system for use in a vehicle
JPH08339288A (ja) 1995-06-14 1996-12-24 Canon Inc 情報処理装置及びその制御方法
JP2000020086A (ja) * 1998-07-01 2000-01-21 Denso Corp 音声認識装置、その装置を用いたナビゲーションシステム及び自動販売システム
JP2000330588A (ja) 1999-05-20 2000-11-30 Toshiba Corp 音声対話処理方法、音声対話処理システムおよびプログラムを記憶した記憶媒体
JP2001249686A (ja) * 2000-03-08 2001-09-14 Matsushita Electric Ind Co Ltd 音声認識方法、音声認識装置、およびナビゲーション装置
JP2002341892A (ja) * 2001-05-16 2002-11-29 Matsushita Electric Ind Co Ltd 音声認識装置
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
US20030065427A1 (en) 2001-09-28 2003-04-03 Karsten Funk Method and device for interfacing a driver information system using a voice portal server

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP1699042A4

Cited By (89)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9646614B2 (en) 2000-03-16 2017-05-09 Apple Inc. Fast, language-independent method for user authentication by voice
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
JP2008064885A (ja) * 2006-09-05 2008-03-21 Honda Motor Co Ltd 音声認識装置、音声認識方法、及び音声認識プログラム
JP2009211629A (ja) * 2008-03-06 2009-09-17 National Institute Of Information & Communication Technology 対話装置、重み情報学習装置、対話方法、重み情報学習方法、およびプログラム
US9626955B2 (en) 2008-04-05 2017-04-18 Apple Inc. Intelligent text-to-speech conversion
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011049885A (ja) * 2009-08-27 2011-03-10 Kyocera Corp 携帯電子機器
US9548050B2 (en) 2010-01-18 2017-01-17 Apple Inc. Intelligent automated assistant
JP2014222510A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US12087308B2 (en) 2010-01-18 2024-09-10 Apple Inc. Intelligent automated assistant
US12431128B2 (en) 2010-01-18 2025-09-30 Apple Inc. Task flow identification based on user intent
JP7498402B2 (ja) 2010-01-18 2024-06-12 アップル インコーポレイテッド インテリジェント自動アシスタント
JP2022163036A (ja) * 2010-01-18 2022-10-25 アップル インコーポレイテッド インテリジェント自動アシスタント
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
JP2014222509A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
US12165635B2 (en) 2010-01-18 2024-12-10 Apple Inc. Intelligent automated assistant
JP2014222514A (ja) * 2010-01-18 2014-11-27 アップル インコーポレイテッド インテリジェント自動アシスタント
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10102359B2 (en) 2011-03-21 2018-10-16 Apple Inc. Device access using voice authentication
US9798393B2 (en) 2011-08-29 2017-10-24 Apple Inc. Text correction processing
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
WO2013190957A1 (ja) * 2012-06-19 2013-12-27 株式会社エヌ・ティ・ティ・ドコモ 機能実行指示システム、機能実行指示方法及び機能実行指示プログラム
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
JP2013168179A (ja) * 2013-05-17 2013-08-29 National Institute Of Information & Communication Technology 対話装置、重み情報学習装置、対話方法、重み情報学習方法、およびプログラム
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
US9633674B2 (en) 2013-06-07 2017-04-25 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9620104B2 (en) 2013-06-07 2017-04-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9966068B2 (en) 2013-06-08 2018-05-08 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10185542B2 (en) 2013-06-09 2019-01-22 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US9668024B2 (en) 2014-06-30 2017-05-30 Apple Inc. Intelligent automated assistant for TV user interactions
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
KR102474804B1 (ko) 2017-09-25 2022-12-06 현대자동차주식회사 음성 인식 제어 장치, 그를 포함한 시스템 및 그 방법
KR20190034964A (ko) * 2017-09-25 2019-04-03 현대자동차주식회사 음성 인식 제어 장치, 그를 포함한 시스템 및 그 방법
JP7403171B2 (ja) 2020-06-23 2023-12-22 株式会社ユピテル システム及びプログラム
JP2022033841A (ja) * 2020-06-23 2022-03-02 株式会社ユピテル システム及びプログラム

Also Published As

Publication number Publication date
JPWO2005064592A1 (ja) 2007-12-20
US20080048908A1 (en) 2008-02-28
DE602004025616D1 (de) 2010-04-01
EP1699042B1 (en) 2010-02-17
EP1699042A1 (en) 2006-09-06
US8103510B2 (en) 2012-01-24
CN1898721A (zh) 2007-01-17
EP1699042A4 (en) 2007-08-08
CN1898721B (zh) 2011-12-07

Similar Documents

Publication Publication Date Title
WO2005064592A1 (ja) 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム
US11887596B2 (en) Multiple skills processing
JP4260788B2 (ja) 音声認識機器制御装置
EP1693829B1 (en) Voice-controlled data system
JP4533845B2 (ja) オーディオ機器制御装置、オーディオ機器制御方法及びプログラム
US10417336B1 (en) Systems and methods for identifying a set of characters in a media file
US11295745B1 (en) Multi-tasking and skills processing
CN115244617B (zh) 生成事件输出
US12499883B2 (en) Interactive content output
US11977816B1 (en) Time-based context for voice user interface
US11579841B1 (en) Task resumption in a natural understanding system
US20240257808A1 (en) Cross-assistant command processing
JP2001272991A (ja) 音声対話方法及び音声対話装置
JP2001117581A (ja) 感情認識装置
JP4461047B2 (ja) ナビゲーション装置、av装置、アシスタント表示方法、アシスタント表示用プログラム、および電子機器システム
US20250201230A1 (en) Sending media comments using a natural language interface
US20250182757A1 (en) Data processing in a multi-assistant system
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
US12175976B2 (en) Multi-assistant device control
US11947913B1 (en) Multi-stage entity resolution
JP2005167866A (ja) データ記録装置及びデータ記録方法

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200480038936.8

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2005516667

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2004807782

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

WWW Wipo information: withdrawn in national office

Ref document number: DE

WWP Wipo information: published in national office

Ref document number: 2004807782

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 10584360

Country of ref document: US

WWP Wipo information: published in national office

Ref document number: 10584360

Country of ref document: US