WO2023144573A1 - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
WO2023144573A1
WO2023144573A1 PCT/IB2022/000040 IB2022000040W WO2023144573A1 WO 2023144573 A1 WO2023144573 A1 WO 2023144573A1 IB 2022000040 W IB2022000040 W IB 2022000040W WO 2023144573 A1 WO2023144573 A1 WO 2023144573A1
Authority
WO
WIPO (PCT)
Prior art keywords
state
vehicle
speech recognition
input signal
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/IB2022/000040
Other languages
English (en)
French (fr)
Other versions
WO2023144573A8 (ja
Inventor
充伸 神沼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renault SAS
Nissan Motor Co Ltd
Original Assignee
Renault SAS
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renault SAS, Nissan Motor Co Ltd filed Critical Renault SAS
Priority to CN202280089504.8A priority Critical patent/CN118613865A/zh
Priority to JP2023576247A priority patent/JP7722475B2/ja
Priority to US18/832,374 priority patent/US20250104711A1/en
Priority to EP22922555.2A priority patent/EP4470842A4/en
Priority to PCT/IB2022/000040 priority patent/WO2023144573A1/ja
Publication of WO2023144573A1 publication Critical patent/WO2023144573A1/ja
Anticipated expiration legal-status Critical
Publication of WO2023144573A8 publication Critical patent/WO2023144573A8/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Definitions

  • the present invention relates to a speech recognition method and a speech recognition device.
  • Patent Document 1 describes an in-vehicle system in which, when a warning light on a meter panel lights up, an explanation of the content of the warning related to the warning light that is lit and a countermeasure are displayed on a display device.
  • An object of the present invention is to improve the accuracy of estimating an object mentioned in the utterance in voice recognition for acquiring the utterance of a vehicle user and estimating the object mentioned in the utterance. .
  • a speech recognition method for acquiring the utterance content of a vehicle user and estimating an object mentioned in the utterance content.
  • the speech recognition method at least one of a control signal of a device mounted on a vehicle and an output signal of a sensor mounted on the vehicle is obtained as an input signal, an expression representing a state or a position is recognized from the utterance content, and an input signal is recognized. to detect the state or position of the object candidate based on the utterance content, and presume the object candidate that matches the state or position recognized from the utterance content as the object mentioned in the utterance content.
  • FIG. 1 is a schematic configuration diagram of an example of a vehicle equipped with a speech recognition device according to an embodiment
  • FIG. 1 is a block diagram showing an example of a functional configuration of a speech recognition device
  • FIG. 4 is a schematic diagram of an example of a command list
  • FIG. 4 is a schematic diagram of an example of a response list
  • 4 is a flow chart of an example of a speech recognition method according to an embodiment
  • FIG. 1 is a schematic configuration diagram of an example of a vehicle equipped with a speech recognition device according to an embodiment.
  • the vehicle 1 includes an in-vehicle device 2 , an in-vehicle device controller 3 , an in-vehicle sensor 4 , an external sensor 5 , a human machine interface (hereinafter referred to as “HMI”) 6 , and a speech recognition device 7 .
  • the in-vehicle devices 2 are various devices mounted on the vehicle 1 .
  • the in-vehicle device 2 may be, for example, an instrument panel in the driver's seat of the vehicle 1 or a warning light arranged near the A pillar.
  • a warning light is an example of a visual information presentation device that is provided inside the vehicle 1 and presents visual information to the user.
  • the in-vehicle device 2 may be an alarm device that outputs an alarm sound to the user of the vehicle 1, for example.
  • a warning device is an example of an auditory information presentation device that is provided inside a vehicle and presents auditory information to a user.
  • the in-vehicle device 2 may be a window provided on the door of the vehicle 1, an engine of the vehicle 1, or a braking device.
  • the vehicle-mounted device controller 3 is an electronic control unit (ECU) that controls the operation of the vehicle-mounted device 2 and generates a control signal for controlling the vehicle-mounted device 2 .
  • the in-vehicle device controller 3 includes, for example, a processor and peripheral components such as a storage device.
  • the processor may be, for example, a CPU (Central Processing Unit) or an MPU (Micro-Processing Unit).
  • the storage device may comprise a semiconductor storage device, a magnetic storage device, an optical storage device, or the like.
  • the storage device may include memories such as registers, cache memory, ROM (Read Only Memory) and RAM (Random Access Memory) used as main storage devices.
  • the in-vehicle device controller 3 may be formed of dedicated hardware for executing each information processing described below.
  • the in-vehicle device controller 3 may have a functional logic circuit set in a general-purpose semiconductor integrated circuit.
  • the in-vehicle equipment controller 3 may have a programmable logic device (PLD: Programmable Logic Device) such as a field programmable gate array (FPGA: Field-Programmable Gate Array).
  • PLD Programmable Logic Device
  • FPGA Field-Programmable Gate Array
  • the in-vehicle sensor 4 is a sensor that detects the state of the interior of the vehicle 1 .
  • the in-vehicle sensor 4 may be an in-vehicle camera that captures the interior of the vehicle, or may be a pressure sensor or a seatbelt sensor provided in the seat for determining whether or not the occupant is seated. It may be a biosensor for detecting biometric information, or a microphone for detecting sound generated from the vehicle 1 .
  • the external sensor 5 is a sensor that detects objects existing around the vehicle 1 .
  • the in-vehicle sensor 4 may be, for example, an external camera that captures the surrounding environment of the vehicle 1, and is a ranging sensor such as a laser range finder (LRF), radar, or LiDAR (Light Detection and Ranging) laser radar. good too.
  • LRF laser range finder
  • radar radar
  • LiDAR Light Detection and Ranging
  • the HMI 6 is an interface device that exchanges information between the speech recognition device 7 and the user.
  • the HMI 6 includes a display device (for example, a display screen of a navigation system) visible to the user of the vehicle 1, and a speaker and buzzer for outputting warning sounds, notification sounds, and audio information.
  • the HMI 6 also includes a voice input device (for example, a microphone) for obtaining voice input from the user.
  • the speech recognition device 7 is an ECU (Electronic Control Unit) that operates as a controller that executes speech recognition for recognizing the contents of speech made by the user of the vehicle 1 .
  • the speech recognition device 7 estimates the object referred to in the user's utterance content, outputs information related to the object from the HMI 6, and provides the user with the information.
  • the speech recognition device 7 operates the object mentioned in the content of the user's utterance.
  • the speech recognition device 7 includes a processor 8 and peripheral components such as a storage device 9 and the like.
  • the processor 8 may be, for example, a CPU or MPU.
  • the storage device 9 may include a semiconductor storage device, a magnetic storage device, an optical storage device, or the like.
  • the storage device 9 may include memories such as registers, cache memories, and ROMs and RAMs used as main storage devices.
  • the functions of the speech recognition device 7 described below are realized by the processor 8 executing a computer program stored in the storage device 9, for example.
  • the speech recognition device 7 may be formed of dedicated hardware for executing each information processing described below.
  • the speech recognition device 7 may comprise functional logic circuits implemented in general-purpose semiconductor integrated circuits.
  • speech recognizer 7 may comprise a programmable logic device such as a field programmable gate array.
  • FIG. 2 is a block diagram showing an example of the functional configuration of the speech recognition device 7.
  • the speech recognition device 7 operates as a speech recognition unit 10 , a natural language understanding unit 11 , an input signal acquisition unit 12 , an analysis unit 13 and a response generation unit 14 .
  • the voice recognition unit 10 recognizes voice input from the user acquired by the HMI 6 and converts it into language information such as text.
  • the voice recognition unit 10 outputs linguistic information generated by converting voice input to the voice recognition unit 10 .
  • the natural language understanding unit 11 analyzes the language information output from the speech recognition unit 10 by natural language processing, and extracts the user's utterance intention and keywords related to the utterance intention. For example, the natural language understanding unit 11 extracts a keyword indicating the state or position of the object mentioned in the utterance content. Moreover, the natural language understanding unit 11 may additionally extract a keyword indicating the aspect (shape, color, position) of the target object.
  • keywords and their synonyms may be defined in advance, and the synonyms included in the user's utterance content may be converted into keywords. For example, when the user utters "What is that red car lamp that just came on?" in order to ask about the meaning of the warning light, the natural language understanding unit 11 extracts "meaning inquiry” as the utterance intention, and uses the keyword , extract “red”, “lighting”, and "car”.
  • the user's utterance intention extracted by the natural language understanding unit 11 includes "inquiry about the state” of asking about the state of the in-vehicle device 2, and an operation instruction (for example, "open the window") to instruct the operation of the in-vehicle device 2. ), ⁇ inquiry about the cause of abnormal sound'' to ask about the cause of the abnormal sound generated from the vehicle 1, and ⁇ inquiry about the surrounding situation'' to ask about the surroundings of the vehicle 1.
  • the natural language understanding unit 11 outputs the extracted utterance intention information and the extracted keyword information to the analysis unit 13 .
  • the input signal acquisition unit 12 acquires the control signal for the vehicle-mounted device 2 generated by the vehicle-mounted device controller 3 as an input signal.
  • the control signal may be an on/off signal for a warning light.
  • the control signal may be a signal instructing output and stop of an alarm sound by an alarm device.
  • the input signal acquisition unit 12 acquires the output signals of the in-vehicle sensor 4 and the external sensor 5 as input signals.
  • the input signal acquisition unit 12 converts the acquired control signals of the in-vehicle device 2 and the acquired output signals of the in-vehicle sensor 4 and the external sensor 5 into a predetermined specific data format for expressing the detected situation.
  • the input signal acquisition unit 12 may convert the control signal into flag information and set the value of the flag according to the control state of the in-vehicle device 2 .
  • the value of the flag F1 may be set to "True” when an EV (Electric Vehicle) system warning light is on, and the value of the flag F1 may be set to "False” when it is not on.
  • the value of the flag F3 may be set to "True” when the alarm device operates and outputs an alarm sound, and the value of the flag F3 may be set to "False” when the alarm sound is not output. .
  • the input signal acquisition unit 12 converts the output signals of the in-vehicle sensor 4 and the external sensor 5 into flag information, and sets the value of the flag according to the state and position of the object detected by the in-vehicle sensor 4 and the external sensor 5.
  • a flag corresponding to the position of the user in the vehicle detected based on the output signal of the in-vehicle sensor 4 such as an in-vehicle camera, a pressure sensor, a seat belt sensor, and a biosensor may be set.
  • the value of the flag F4 may be set to "True" when the user is sitting in the driver's seat, and the value of the flag F4 may be set to "False" when the user is sitting in the passenger's seat.
  • the input signal acquisition unit 12 may set a flag corresponding to the position of an object around the vehicle 1 detected based on the output signal of the external sensor 5 such as an external camera or a distance measuring sensor.
  • the value of the flag F6 is set to "True” when another vehicle is approaching at the right rear of the vehicle 1, and the value of the flag F6 is set to "False” when no other vehicle is approaching. good.
  • the value of the flag F6 is set to "True” when the speed of another vehicle running on the right rear side of the vehicle 1 exceeds the threshold value Vth, and is set to "False” when it does not exceed the threshold value Vth.
  • the input signal acquisition unit 12 analyzes the sound information output by the microphone of the in-vehicle sensor 4, and based on the characteristics of the sound information, the on-vehicle device 2, which is the source of the abnormal sound generated from the vehicle 1, and the abnormal sound. You may presume the cause of The input signal acquisition unit 12 may set a flag based on the in-vehicle device 2 that is the sound source and the cause of the abnormal sound. For example, when it is estimated that the source of the abnormal sound is the engine of the vehicle 1 and the cause of the abnormal sound is lack of engine oil, the value of the flag F5 is set to "True" and the abnormal sound is not detected. The value of flag F5 may be set to "False".
  • a flag may be similarly set for an abnormal sound generated from the braking device. Further, flags may be set separately for each of a plurality of different causes of abnormal sounds generated by the same vehicle-mounted device 2 .
  • the input signal acquisition unit 12 performs frequency analysis on the sound information acquired from the microphone of the in-vehicle sensor 4 and the sound information in the normal state of the in-vehicle equipment stored in advance, and performs a predetermined frequency analysis. or a parameter pattern including the frequency pattern is detected, it may be determined to be abnormal.
  • the sound information of the lack of engine oil is stored in advance, and frequency analysis is performed between the sound information obtained from the microphone and the frequency of the normal engine sound source. If different frequency features are obtained beyond a certain range compared to the pattern, it may be determined that the cause is lack of engine oil.
  • the input signal acquisition unit 12 may convert the control signal of the in-vehicle device 2 and the output signal of the in-vehicle sensor 4 and the output signal of the external sensor 5 into numerical data, identification information, text data, etc. indicating the extracted information. good. For example, numerical data such as distance information (e.g., "10 m") and speed information (e.g., "60 km/h") to other vehicles detected based on the output signal of the external sensor 5, identification information indicating the vehicle type, and text data. may be converted.
  • the input signal acquisition unit 12 outputs the converted input signal (hereinafter simply referred to as “input signal”) to the analysis unit 13 .
  • the analysis unit 13 receives the input signal output from the input signal acquisition unit 12 and the utterance intention information and keyword information output from the natural language understanding unit 11 . Based on the input signal output from the input signal acquisition unit 12, the analysis unit 13 detects the state or position of the target object candidate mentioned in the user's utterance content. For example, the analysis unit 13 detects the control state of the in-vehicle device 2 based on the control signal as the candidate state of the object. For example, the analysis unit 13 may detect whether the warning light is on or off (that is, the visual information display state of the visual information presentation device).
  • the analysis unit 13 refers to the command list 15 stored in the storage device 9 when detecting the state or position of the target object candidate.
  • FIG. 3 is a schematic diagram of an example of the command list 15. As shown in FIG. The command list 15 stores records of multiple lines. Each record contains a command ID, information on a candidate object, a keyword related to the candidate object, and information designating an input signal used to detect the state or position of the candidate object. . That is, in the command list 15, command IDs, information on candidate objects, keywords, and information specifying input signals are recorded in association with each other. Note that keywords indicating the state or position of the candidate object are recorded as the keyword relating to the candidate object. A keyword indicating the aspect of the object may be recorded by the object candidate.
  • the record on the first line designates the input signal flag F1 as input information indicating the state of an EV system warning light, which is an example of a warning light.
  • the analysis unit 13 detects whether the EV system warning light is on or off based on the flag F1. Further, for example, the analysis unit 13 detects whether the warning device is in an output state or a stopped state (that is, the auditory information notification state by the auditory information presentation device).
  • the record on the third line of the command list 15 designates the input signal flag F3 as the input information indicating the state of the alarm device. The analysis unit 13 detects whether the alarm device is in an output state or a stopped state based on the flag F3.
  • the analysis unit 13 detects the vehicle-mounted device 2 arranged at a specific position as a target object candidate mentioned in the user's utterance content. That is, the position of the in-vehicle device 2, which is a candidate for the object, is detected.
  • the record on the fourth line of the command list 15 designates the flag F4 of the input signal as information indicating whether or not the window that is the candidate for the object is the driver's seat window.
  • the flag F4 is set to "True" when the user is sitting in the driver's seat, and is set to "False" when the user is not sitting.
  • the analysis unit 13 detects that the driver's seat window is an object candidate window when the flag F4 is "True”, and detects that the driver's seat window is an object candidate window when the flag F4 is "False”. Detect if it is not a window.
  • the analysis unit 13 may detect whether or not the sound source of the abnormal sound generated from the vehicle 1 is a specific vehicle-mounted device 2 . That is, whether or not the vehicle-mounted device 2, which is a candidate for the object, is the source of the abnormal sound may be detected as the state of the candidate for the object.
  • the analysis unit 13 may also estimate the cause of the abnormal sound.
  • the record on the fifth line of the command list 15 designates the input signal flag F5 as information indicating whether or not the target candidate engine is the sound source of the abnormal sound.
  • the flag F5 is "True”
  • the analysis unit 13 estimates that the engine is the source of the abnormal sound and that the cause of the abnormal sound is lack of engine oil.
  • the flag F5 is "False" it is detected that the engine is not the source of the abnormal sound.
  • the analysis unit 13 may detect the state or position of an object around the vehicle 1 as the state or position of a target object candidate.
  • the record on the sixth line of the command list 15 designates the input signal flag F6 as information indicating whether or not another vehicle is approaching on the right rear of the vehicle 1 .
  • the analysis unit 13 detects that another vehicle is approaching on the right rear side when the flag F6 is "True”, and determines that another vehicle is not approaching on the right rear side when the flag F6 is "False”.
  • the distance to another vehicle running on the right rear side of the vehicle 1 may be detected based on the distance information (for example, "10 m") included in the input signal.
  • the speed of the other vehicle running to the right rear of the vehicle 1 may be detected based on the speed information (for example, "60 km/h") included in the input signal.
  • the analysis unit 13 may store the received input signal in the storage device 9 .
  • the analysis unit 13 may detect the state or position of the candidate object based on the input signal stored in the storage device 9 in addition to or instead of the input signal currently being input.
  • the state or position of the target object candidate may be detected based on the time series of the input signal input in the past and the input signal currently input.
  • An input signal input in the past may be stored, and the state of the target object candidate may be estimated by detecting the difference (the difference between True and False) from the current input signal.
  • the distance information to the other vehicle on the right rear included in the past input signal is stored, and when the current distance information becomes smaller than the past distance information, the other vehicle on the right rear may be detected. It can be assumed that they are close.
  • the analysis unit 13 selects object candidates that match the state or position indicated by the keyword information output from the natural language understanding unit 11 (that is, the state or position of the object mentioned in the user's utterance content), Presume that it is the object mentioned in the content of the utterance. Specifically, if the state or position indicated by the information of the keyword output from the natural language understanding unit 11 matches the state or position of the target object candidate detected from the input signal, the target object candidate is assumed to be the object mentioned in the utterance content.
  • the analysis unit 13 refers to the command list 15, and extracts the first row record (EV system warning light) and the second row record that contain the same keyword as the keyword “lighting” extracted by the natural language understanding unit 11. Select (water temperature warning light).
  • the analysis unit 13 determines whether or not the EV system warning light is on based on the flag F1 specified in the record on the first line. That is, the analysis unit 13 determines whether or not the state of the candidate for the object is the same as the keyword “lighting” indicating the state of the candidate for the object included in the command list 15 . When the state of the object candidate is the same as the keyword "lighting” included in the command list 15, the analysis unit 13 determines the state of the object mentioned in the user's utterance content and the state of the EV system warning light. matches, and it is estimated that the object mentioned in the utterance content is an EV system warning light.
  • the analysis unit 13 outputs the command ID “id0001” of the record on the first line to the response generation unit 14 . Since the command ID is associated with information on candidate objects, keywords related to candidate objects, and input signals, the object mentioned in the user's utterance content and the state and position of the object can be detected based on the command ID. can be identified. The analysis unit 13 also outputs information on the utterance intention output from the natural language understanding unit 11 to the response generation unit 14 .
  • the analysis unit 13 may determine the target mentioned in the utterance content by using the keywords “red” and “car” that indicate the mode of the target as supplementary information.
  • the analysis unit 13 refers to the command list 15 and selects the record (alarm device) in the third row that includes the same keyword as the keyword “beep” extracted by the natural language understanding unit 11 .
  • the analysis unit 13 determines whether or not the alarm device is in the output state based on the flag F3 specified in the record on the second line. That is, the analysis unit 13 determines whether or not the state of the candidate for the object is the same state (operating state) as the keyword “beep” indicating the state of the candidate for the object included in the command list 15 . If the state of the object candidate is the same as the state of the keyword included in the command list 15, the analysis unit 13 determines that the state of the object mentioned in the user's utterance matches the state of the alarm device. and presumes that the object mentioned in the utterance content is an alarm device. The analysis unit 13 outputs the command ID “id0003” of the record on the third line and the utterance intention information output from the natural language understanding unit 11 to the response generation unit 14 .
  • the analysis unit 13 refers to the command list 15 and selects the record (driver's seat window) in the fourth row that includes the same keyword as the keyword “here” extracted by the natural language understanding unit 11 .
  • the analysis unit 13 determines that the position of the target object candidate (driver's seat window) (that is, the vicinity of the driver's seat) is the target object candidate included in the command list 15. It is determined whether or not it is the same as the keyword "here” indicating the state of , that is, the vicinity of the user's seat. If the flag F4 is "True", it is determined that the position of the object candidate is the same as the position of the keyword included in the command list 15 because the user is seated in the driver's seat.
  • the analysis unit 13 determines that the position of the object mentioned in the user's utterance matches the position of the driver's seat window. Then, the object mentioned in the utterance content is estimated to be the driver's seat window.
  • the analysis unit 13 outputs the command ID “id0004” of the record on the third line and the utterance intention information output from the natural language understanding unit 11 to the response generation unit 14 .
  • the natural language understanding unit 11 extracts the keyword “strange sound” indicating the state of the target object candidate.
  • the analysis unit 13 refers to the command list 15 and selects the record (engine) on the fifth line containing the same keyword as the keyword “strange sound” extracted by the natural language understanding unit 11 .
  • the analysis unit 13 determines whether or not the engine is the source of the abnormal sound based on the flag F5 specified in the record on the fifth line. That is, the analysis unit 13 determines whether the state of the object candidate (engine) is the same as the keyword “strange sound (state of making)” indicating the state of the object candidate included in the command list 15. determine whether or not When the state of the object candidate is the same as the state of the keyword included in the command list 15, the analysis unit 13 determines that the state of the object mentioned in the user's utterance matches the state of the engine. , presumes that the object mentioned in the utterance content is the engine. In addition, it is estimated that the cause of the abnormal noise is lack of engine oil. The analysis unit 13 outputs the command ID “id0005” of the record on the third line and the utterance intention information output from the natural language understanding unit 11 to the response generation unit 14 .
  • the analysis unit 13 refers to the command list 15 and selects the sixth row record (right rear vehicle) containing the same keyword as the keyword “approaching” extracted by the natural language understanding unit 11 .
  • the analysis unit 13 determines whether or not the right rear vehicle is approaching the vehicle 1 based on the flag F6 specified in the record on the sixth line. That is, the analysis unit 13 determines whether or not the state of the object candidate (right rear vehicle) is the same as the keyword "approaching" indicating the state of the object candidate included in the command list 15. . The analysis unit 13 may determine whether or not the right rear vehicle is approaching the vehicle 1 based on the position information and speed information specified in the record on the sixth line. When the state of the object candidate is the same as the state of the keyword included in the command list 15, the analysis unit 13 determines that the state of the object referred to in the content of the user's utterance matches the state of the right rear vehicle.
  • the analysis unit 13 outputs to the response generation unit 14 the command ID “id0006” of the record on the third line and the utterance intention information output from the natural language understanding unit 11 .
  • the response generation unit 14 generates a response message and a response based on the utterance intention information extracted by the natural language understanding unit 11 and input via the analysis unit 13 and the command ID output from the analysis unit 13. Output command.
  • a response message is a voice signal or text information of a message presented to the user in response to the content of the user's utterance.
  • the response command is an instruction signal that causes the HMI 6 to output a response message in response to the content of the user's utterance, or causes the in-vehicle device 2 to perform a predetermined operation.
  • the response generation unit 14 refers to the response list 16 stored in the storage device 9 when generating response messages and response commands.
  • FIG. 4 is a schematic diagram of an example of the response list 16. As shown in FIG.
  • the response list 16 stores records of multiple lines. Each record contains utterance intention information, a command ID, a response message, and a response command. That is, in the response list 16, the information on the utterance intention, the command ID, the response message, and the response command are recorded in association with each other.
  • the natural language understanding unit 11 extracts "meaning inquiry” as the utterance intention as described above.
  • the analysis unit 13 outputs the command ID "id0001".
  • the response generation unit 14 extracts the record in the first line that matches the utterance intention "meaning inquiry” and the command ID "id0001".
  • the response generation unit 14 outputs to the HMI 6 the response command "command C001" for notifying the meaning of the warning light stored in the record on the first line, and the response message "meaning that an abnormality has occurred in the EV system.
  • the voice information or text information of "Desu” is emitted from the speaker of the HMI 6 or displayed on the display device.
  • the command C001 is an instruction signal that causes the HMI 6 to output a response message, and so are the commands C0002, C003, C005 and C006 shown in FIG.
  • the response generation unit 14 extracts the record in the second line that matches the utterance intention "state inquiry" and the command ID "id0002".
  • the response generation unit 14 outputs to the HMI 6 a response message “the temperature of the engine cooling water is high” and a response command “command C002” for notifying the state of the radiator stored in the record on the second line.
  • a response message regarding the state of the object may be stored in association with the utterance intention "meaning inquiry”.
  • the response generation unit 14 can output a response message regarding the state of the object in response to the utterance of the utterance intention "meaning inquiry”.
  • a response message regarding a coping method according to the state of the object may be stored in association with the utterance intention "meaning inquiry".
  • the record on the third line stores the utterance intention "meaning inquiry” and the command ID "id0003".
  • the response generator 14 selects the record on the third line, and outputs the response message "Please stop the car in a safe place” and the response command "command C003" to the HMI 6. It notifies how to deal with the case where the temperature of the engine cooling water is high.
  • the natural language understanding unit 11 outputs the utterance intention "open the window”
  • the analysis unit 13 outputs the command ID "id0004".
  • the response generation unit 14 extracts the record on the fourth line that matches the utterance intention "open window” and the command ID "id0004".
  • the response generation unit 14 outputs a response command “command C004”, which is a command signal for opening the driver's seat window, to the in-vehicle equipment controller 3 .
  • the in-vehicle device controller 3 opens the driver's seat window, which is an example of the in-vehicle device 2, according to the response command "command C004".
  • the response generation unit 14 may output a response command to close the driver's seat window to the in-vehicle device controller 3 when the user utters "close this window.”
  • the user utters "I am making a strange sound but it is okay”
  • the natural language understanding unit 11 extracts the utterance intention “inquire about the cause of the abnormal sound”
  • the analysis unit 13 outputs the command ID "id0005".
  • the response generation unit 14 extracts the record on the fifth line that matches the utterance intention "inquiry about the cause of abnormal sound” and the command ID "id0005".
  • the response generation unit 14 outputs to the HMI 6 the response message "engine oil seems to be insufficient” notifying the cause of the abnormal sound stored in the record on the fifth line, and the response command "command C005".
  • the user utters "What is approaching at a great speed?"
  • the natural language understanding unit 11 extracts the utterance intention "inquire about the surrounding situation”
  • the analysis unit 13 outputs the command ID "id0006”.
  • the response generation unit 14 extracts the record on the sixth line that matches the utterance intention "inquire about the surrounding situation” and the command ID "id0006”.
  • the response generation unit 14 outputs to the HMI 6 the response message "A vehicle is approaching on the right rear” and the response command "command C006", which is stored in the record on the sixth line and notifies the surrounding situation.
  • FIG. 5 is a flow chart of an example of the speech recognition method of the embodiment.
  • the input signal acquisition unit 12 acquires the control signal of the vehicle-mounted device 2 generated by the vehicle-mounted device controller 3 and the output signals of the in-vehicle sensor 4 and the external sensor 5 as input signals.
  • the speech recognition unit 10 recognizes the speech input from the user acquired by the HMI 6 and converts it into language information such as text.
  • the natural language understanding unit 11 analyzes the language information output from the speech recognition unit 10 by natural language processing, and extracts the user's utterance intention.
  • step S ⁇ b>3 the natural language understanding unit 11 extracts keywords related to the utterance intention from the language information output from the speech recognition unit 10 .
  • step S ⁇ b>4 the analysis unit 13 detects the state or position of the target object candidate mentioned in the utterance content of the user based on the input signal acquired by the input signal acquisition unit 12 .
  • step S5 the analysis unit 13, based on the information of the keywords extracted by the natural language understanding unit 11, identifies the target object candidate that matches the state or position recognized from the speech content as the target object mentioned in the speech content.
  • step S ⁇ b>6 the response generation unit 14 outputs a response message according to the utterance intention extracted by the natural language understanding unit 11 and the object estimated by the analysis unit 13 .
  • the in-vehicle device 2 is operated.
  • the voice recognition device 7 acquires the contents of the speech of the vehicle user and estimates the object mentioned in the contents of the speech.
  • the speech recognition device 7 acquires at least one of a control signal of a device mounted on the vehicle 1 and an output signal of a sensor mounted on the vehicle 1 as an input signal, recognizes an expression representing a state or a position from the utterance content, The state or position of the candidate object is detected based on the input signal, and the candidate object that matches the state or position recognized from the utterance content is estimated as the object mentioned in the utterance content. This makes it possible to improve the accuracy of estimating the object mentioned in the utterance content in voice recognition for acquiring the utterance content of the vehicle user and estimating the target object mentioned in the utterance content.
  • a target object candidate may be a device controlled by a control signal acquired as an input signal.
  • the speech recognition device 7 may detect the control state by the control signal as the candidate state of the object. Thereby, the state of the target object candidate can be determined based on the control signal for controlling the device.
  • the input signal may be a control signal of a visual information presentation device provided inside the vehicle 1 to present visual information to the user, and the control state may be a display state of the visual information.
  • the state of the visual information presentation device can be determined as a target object candidate.
  • the visual information presentation device may be a warning light
  • the control state may be the ON state or the OFF state of the warning light. As a result, the state of the warning light can be determined as a candidate for the object.
  • the input signal may be a control signal of an auditory information presentation device provided in the vehicle 1 to present auditory information to the user, and the control state may be an auditory information notification state.
  • the state of the auditory information presentation device can be determined as a target object candidate.
  • the auditory information presentation device may be an alarm device, and the control state may be an alarm output state or a stop state. As a result, the state of the alarm device can be determined as a candidate for the object.
  • the speech recognition device 7 may store the acquired input signal and detect the state or position of the target object candidate based on the stored past input signal and the currently acquired input signal. As a result, even if the state or position of the object changes before the user speaks, the object can be estimated based on the past state or position before the user speaks.
  • the speech recognition device 7 may output information about the object mentioned in the utterance content, and may output information about the state of the object mentioned in the utterance content.
  • the speech recognition device 7 may store a coping method according to the state of the target object candidate in a predetermined storage device, and output information on the coping method according to the state of the object referred to in the utterance content. . This makes it possible to provide information about the object mentioned in the content of the user's utterance.
  • a candidate object may be a device mounted on the vehicle 1 .
  • the speech recognition device 7 may acquire the output signal of a sensor that detects the state inside the vehicle 1 as an input signal, and detect the state or position of the device based on the acquired output signal. Accordingly, the state or position of the equipment mounted on the vehicle 1 can be determined based on the output signal of the sensor that detects the state inside the vehicle 1 .
  • the speech recognition device 7 acquires, as an input signal, the output signal of a sensor that detects the seating position of the occupant of the vehicle 1, and detects that the window that is a candidate for the object is the window near the seating position.
  • an expression representing the position of the window to be opened is recognized from the speech content including the opening instruction for opening the window of the vehicle 1, and the position of the window recognized from the speech content indicates the vicinity of the seating position.
  • the window near the seating position may be estimated as the object. From the output signal of the sensor that detects the seating position of the occupant and the utterance content including the opening instruction for opening the window of the vehicle 1, it can be estimated that the window to be opened is the window near the seating position of the user. .
  • the speech recognition device 7 acquires, as an input signal, an output signal from a sensor that detects sound information of an abnormal sound from the vehicle 1, and based on the sound information, estimates a device that is the source of the abnormal sound.
  • object candidates may be objects around the vehicle 1 .
  • the speech recognition device 7 may acquire the output signal of a sensor that detects surrounding objects as an input signal, and detect the state or position of the surrounding object based on the acquired output signal.
  • the speech recognition device 7 may acquire a captured image generated by a camera that captures the surroundings of the vehicle 1 as an input signal, and recognize an object approaching the vehicle 1 as a target object candidate based on the captured image. .
  • the state or position of the object around the vehicle 1 can be determined based on the output signal of the sensor that detects the object around the vehicle 1 .
  • the sensors may include pressure sensors, seat belt sensors, cameras, ranging sensors, microphones, and biosensors. This makes it possible to detect the states and positions of various object candidates inside or outside the vehicle.
  • SYMBOLS 1... Vehicle, 2... On-vehicle equipment, 3... On-vehicle equipment controller, 4... In-vehicle sensor, 5... External sensor, 6... Human-machine interface, 7... Voice recognition device, 8... Processor, 9... Storage device, 10... Voice recognition Unit 11 Natural language understanding unit 12 Input signal acquisition unit 13 Analysis unit 14 Response generation unit 15 Command list 16 Response list

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Emergency Alarm Devices (AREA)
  • Navigation (AREA)

Abstract

車両の利用者の発話内容を取得して発話内容で言及された対象物を推定する音声認識方法では、車両に搭載された機器の制御信号又は車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し(S1)、発話内容から状態又は位置を表す表現を認識し(S3)、入力信号に基づいて対象物の候補の状態又は位置を検出し(S5)、発話内容から認識された状態又は位置に適合する対象物の候補を、発話内容で言及された対象物と推定する(S6)。

Description

音声認識方法及び音声認識装置
 本発明は、音声認識方法及び音声認識装置に関する。
 下記特許文献1には、メータパネルの警告灯が点灯すると、その点灯している警告灯に関する警告の内容説明や対処方法が表示装置に表示される車載システムが記載されている。
特開2006−193138号公報
 近年、音声認識を用いて利用者からの質問に応答したり機器の操作を行う入力システムが提案されている。このようなシステムでは、システムに対して利用者が入力することを意図した指示を、利用者の発話内容から推定する。
 この場合に入力システムが正確に指示を特定するためには、いくつかのキーワードを正確に発話する必要がある。しかしながら全てのシーンで利用者が正確に指示を発話することは困難である。例えば、車両の運転をしている場合のように利用者が他の作業をしながら音声入力システムを利用する場合、指示を実行するためのキーワードを想像することが困難である。
 本発明では、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する音声認識において、発話内容で言及された対象物の推定精度を向上することを目的とする。
 本発明の一態様によれば、車両の利用者の発話内容を取得して発話内容で言及された対象物を推定する音声認識方法が与えられる。音声認識方法では、車両に搭載された機器の制御信号又は前記車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し、発話内容から状態又は位置を表す表現を認識し、入力信号に基づいて前記対象物の候補の状態又は位置を検出し、発話内容から認識された状態又は位置に適合する前記対象物の候補を、発話内容で言及された対象物と推定する。
 本発明によれば、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する音声認識において、発話内容で言及された対象物の推定精度を向上できる。
 本発明の目的及び利点は、特許請求の範囲に示した要素及びその組合せを用いて具現化され達成される。前述の一般的な記述及び以下の詳細な記述の両方は、単なる例示及び説明であり、特許請求の範囲のように本発明を限定するものでないと解するべきである。
実施形態の音声認識装置を備えた車両の一例の概略構成図である。 音声認識装置の機能構成の一例を示すブロック図である。 コマンドリストの一例の模式図である。 応答リストの一例の模式図である。 実施形態の音声認識方法の一例のフローチャートである。
 (構成)
 図1は、実施形態の音声認識装置を備えた車両の一例の概略構成図である。車両1には、車載機器2と、車載機器コントローラ3と、車内センサ4と、外部センサ5と、ヒューマンマシンインタフェース(以下「HMI」と表記する)6と、音声認識装置7を備える。
 車載機器2は、車両1に搭載されている各種機器である。車載機器2は、例えば、車両1の運転席のインストルメントパネルやAピラー付近に配置された警告灯であってよい。警告灯は、車両1の車内に設けられて利用者に視覚情報を提示する視覚情報提示機器の一例である。
 また例えば、車載機器2は、例えば車両1の利用者に警報音を出力する警報装置であってもよい。警報装置は、車両の車内に設けられて利用者に聴覚情報を提示する聴覚情報提示機器の一例である。
 また例えば、車載機器2は、車両1のドアに設けられた窓や、車両1のエンジン、制動装置であってもよい。
 車載機器コントローラ3は、車載機器2の動作を制御する電子制御ユニット(ECU:Electronic Control Unit)であり、車載機器2を制御するための制御信号を生成する。車載機器コントローラ3は、例えばプロセッサと、記憶装置等の周辺部品とを含む。プロセッサは、例えばCPU(Central Processing Unit)やMPU(Micro−Processing Unit)であってよい。
 記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリを含んでよい。
 なお、車載機器コントローラ3を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、車載機器コントローラ3は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば車載機器コントローラ3はフィールド・プログラマブル・ゲート・アレイ(FPGA:Field−Programmable Gate Array)等のプログラマブル・ロジック・デバイス(PLD:Programmable Logic Device)等を有していてもよい。
 車内センサ4は、車両1の車内の状態を検出するセンサである。例えば車内センサ4は、車内を撮影する車内カメラであってもよく、座席に設けられて乗員が着座しているか否かを判定するための圧力センサやシートベルトセンサであってもよく、乗員の生体情報を検出する生体センサであってもよく、車両1から発生する音を検出するためのマイクロフォンであってよい。
 外部センサ5は、車両1の周囲に存在する物体を検出するセンサである。例えば車内センサ4は、例えば車両1の周囲環境を撮影する外部カメラであってもよく、レーザレンジファインダ(LRF)やレーダ、LiDAR(Light Detection and Ranging)のレーザレーダなどの測距センサであってもよい。
 HMI6は、音声認識装置7と利用者との間で情報を授受するインタフェース装置である。HMI6は、車両1の利用者が視認可能な表示装置(例えば、ナビゲーションシステムの表示画面)や、警報音や通知音、音声情報を出力するためのスピーカやブザーを備える。
 またHMI6は、利用者からの音声入力を取得する音声入力装置(例えばマイクロフォン)を備える。
 音声認識装置7は、車両1の利用者の発話内容を認識する音声認識を実行するコントローラとして動作する(ECU:Electronic Control Unit)である。音声認識装置7は、利用者の発話内容で言及された対象物を推定して、対象物に関連する情報をHMI6から出力して利用者に提供する。または音声認識装置7は、利用者の発話内容で言及された対象物を操作する。
 音声認識装置7は、プロセッサ8と、記憶装置9等の周辺部品とを含む。プロセッサ8は、例えばCPUやMPUであってよい。
 記憶装置9は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置9は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM及びRAM等のメモリを含んでよい。以下に説明する音声認識装置7の機能は、例えばプロセッサ8が、記憶装置9に格納されたコンピュータプログラムを実行することにより実現される。
 なお、音声認識装置7を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声認識装置7は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声認識装置7はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。
 図2は、音声認識装置7の機能構成の一例を示すブロック図である。音声認識装置7は、音声認識部10と、自然言語理解部11と、入力信号取得部12と、分析部13と、応答生成部14として動作する。
 音声認識部10は、HMI6が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。音声認識部10は、音声入力を変換して生成した言語情報を音声認識部10に出力する。
 自然言語理解部11は、音声認識部10から出力された言語情報を自然言語処理によって解析し、利用者の発話意図と、発話意図に関連するキーワードを抽出する。例えば自然言語理解部11は、発話内容で言及された対象物の状態又は位置を示すキーワードを抽出する。また自然言語理解部11は、対象物の態様(形状、色、位置)を示すキーワードを補助的に抽出してもよい。
 例えば、キーワードとその類義語を予め定義しておき、利用者の発話内容に含まれている類義語をキーワードに変換してよい。
 例えば、利用者が警告灯の意味を質問するために「今ついた赤い車のランプ何?」と発話した場合に、自然言語理解部11は発話意図として「意味の照会」を抽出し、キーワードとして「赤」、「点灯」、「車」を抽出する。
 この場合、例えばキーワード「赤」の類義語として「赤い」、「赤」、「red」、「朱色」等を予め定義し、キーワード「車」の類義語として「車」、「Car」、「自動車」、「乗用車」等を予め定義し、キーワード「点灯」の類義語として「ついた」、「今ついた」、「点灯」、「ついている」等を予め定義しておけばよい。
 また自然言語理解部11が抽出する利用者の発話意図には、車載機器2の状態を質問する「状態の照会」や、車載機器2の操作を指示する操作指示(例えば「窓の開放」など)や、車両1から発生する異常音の原因を質問する「異常音の原因の照会」や、車両1の周囲の状況を質問する「周囲状況の質問」など様々な発話意図が含まれる。
 自然言語理解部11は、抽出した発話意図の情報と抽出したキーワードの情報を分析部13へ出力する。
 入力信号取得部12は、車載機器コントローラ3が生成した車載機器2の制御信号を入力信号として取得する。例えば制御信号は、警告灯のオンオフ信号であってもよい。また例えば制御信号は、警報装置による警報音の出力及び停止を指示する信号であってよい。
 また、入力信号取得部12は、車内センサ4及び外部センサ5の出力信号を入力信号として取得する。
 入力信号取得部12は、取得した車載機器2の制御信号と車内センサ4及び外部センサ5の出力信号を、検出した状況を表現するために予め定めた特定のデータ形式に変換する。
 例えば入力信号取得部12は、制御信号をフラグ情報に変換し、車載機器2の制御状態に応じてフラグの値を設定してよい。例えば、EV(Electric Vehicle)システム警告灯が点灯している場合にフラグF1の値を「True」に設定し、点灯していない場合にフラグF1の値を「False」に設定してよい。
 また例えば、警報装置が動作して警報音を出力したときにフラグF3の値を「True」に設定し、警報音を出力していない場合にフラグF3の値を「False」に設定してよい。
 また例えば入力信号取得部12は、車内センサ4及び外部センサ5の出力信号をフラグ情報に変換し、車内センサ4及び外部センサ5が検出した物体の状態や位置に応じてフラグの値を設定してよい。
 例えば、車内カメラ、圧力センサ、シートベルトセンサ、生体センサなどの車内センサ4の出力信号に基づいて検出した車内の利用者の位置に応じたフラグを設定してよい。例えば、利用者が運転席に座っている場合にフラグF4の値を「True」に設定し、助手席に座っている場合にフラグF4の値を「False」に設定してよい。
 また例えば入力信号取得部12は、外部カメラや測距センサなどの外部センサ5の出力信号に基づいて検出した車両1の周囲の物体の位置に応じたフラグを設定してよい。例えば、車両1の右後方において他車両が接近している場合にフラグF6の値を「True」に設定し、他車両が接近していない場合にフラグF6の値を「False」に設定してよい。また例えば、車両1の右後方に他車両が走行している車両の速度が閾値Vthを超える場合にフラグF6の値を「True」に設定し、閾値Vthを超えない場合に「False」に設定してもよい。
 また例えば入力信号取得部12は、車内センサ4のマイクロフォンが出力した音情報を解析し、音情報の特徴に基づいて、車両1から発生する異常音の音源となる車載機器2と、この異常音の原因を推定してもよい。入力信号取得部12は、音源となる車載機器2と異常音の原因とに基づいてフラグを設定してよい。例えば、異常音の音源が車両1のエンジンであり、異常音の原因がエンジンオイルの不足であると推定された場合にフラグF5の値を「True」に設定し、異常音を検出しない場合にフラグF5の値を「False」に設定してよい。制動装置から発生した異常音についても同様にフラグを設定してもよい。また、同一の車載機器2が発生する複数の異なる原因の異常音について、それぞれフラグを別個に設定してもよい。ここで、異常音の原因の推定には、入力信号取得部12が、車内センサ4のマイクロフォンから取得した音情報と、予め記憶された車載機器の正常状態の音情報とを周波数解析し、所定の周波数パターンまたは当該周波数パターンを含むパラメータのパターンが検出された場合には異常であると判定してもよい。また、異常音の音源がエンジンの場合、予めエンジンオイルが不足した状態の音情報を記憶しておき、マイクロフォンから取得した音情報との間で周波数解析を行うことにより、通常のエンジン音源の周波数パターンと比較し一定の範囲を超えた異なる周波数的特徴が得られた場合、原因がエンジンオイルの不足であることを判定してもよい。
 また入力信号取得部12は、車載機器2の制御信号や車内センサ4及び外部センサ5の出力信号を、これらの抽出される情報を示す数値データや、識別情報、テキストデータ等に変換してもよい。例えば外部センサ5の出力信号に基づいて検出した他車両までの距離情報(例えば「10m」)や速度情報(例えば「60km/h」)などの数値データや、車種を示す識別情報やテキストデータに変換してもよい。
 入力信号取得部12は、変換後の入力信号(以下、単に「入力信号」と表記する)を分析部13へ出力する。
 分析部13は、入力信号取得部12から出力された入力信号と、自然言語理解部11から出力された発話意図の情報とキーワードの情報を受信する。
 分析部13は、入力信号取得部12から出力された入力信号に基づいて、利用者の発話内容で言及された対象物の候補の状態又は位置を検出する。
 例えば、分析部13は、対象物の候補の状態として制御信号による車載機器2の制御状態を検出する。例えば分析部13は、警告灯が点灯状態であるか消灯状態であるか(すなわち視覚情報提示機器による視覚情報の表示状態)を検出してよい。
 分析部13は、対象物の候補の状態又は位置を検出する場合に、記憶装置9に格納されたコマンドリスト15を参照する。図3は、コマンドリスト15の一例の模式図である。
 コマンドリスト15には、複数行のレコードが格納されている。各々のレコードには、コマンドIDと、対象物の候補の情報と、対象物の候補に関するキーワードと、対象物の候補の状態又は位置の検出に用いる入力信号を指定する情報とが記録されている。すなわち、コマンドリスト15には、コマンドIDと、対象物の候補の情報と、キーワードと、入力信号を指定する情報とが関連付けて記録されている。なお、対象物の候補に関するキーワードとしては、対象物の候補の状態又は位置を示すキーワードが記録されている。対象物の候補によって対象物の態様を示すキーワードを記録してもよい。
 例えば第1行目のレコードは、警告灯の一例であるEVシステム警告灯の状態を示す入力情報として入力信号のフラグF1を指定している。分析部13は、フラグF1に基づいてEVシステム警告灯が点灯状態であるか消灯状態であるかを検出する。
 また例えば分析部13は、警報装置による警報の出力状態であるか停止状態であるか(すなわち聴覚情報提示機器による聴覚情報の報知状態)を検出する。
 例えばコマンドリスト15の第3行目のレコードは、警報装置の状態を示す入力情報として入力信号のフラグF3を指定している。分析部13はフラグF3に基づき警報装置が出力状態であるか停止状態であるかを検出する。
 また例えば分析部13は、利用者の発話内容で言及された対象物の候補として特定の位置に配置された車載機器2を検出する。すなわち、対象物の候補となる車載機器2の位置を検出する。
 例えばコマンドリスト15の第4行目のレコードは、対象物の候補となる窓が運転席窓であるか否かを示す情報として入力信号のフラグF4を指定している。フラグF4は利用者が運転席に座っている場合に「True」に設定され、座っていない場合に「False」に設定される。分析部13は、フラグF4が「True」である場合に運転席窓が対象物の候補の窓であると検出し、フラグF4が「False」である場合に運転席窓が対象物の候補の窓でないと検出する。
 また例えば分析部13は、車両1から発生する異常音の音源が特定の車載機器2であるか否かを検出してよい。すなわち対象物の候補である車載機器2が異常音の音源であるか否かを、対象物の候補の状態として検出してもよい。分析部13は、異常音の原因についても推定してよい。
 例えばコマンドリスト15の第5行目のレコードは、対象物の候補のエンジンが異常音の音源であるか否かを示す情報として入力信号のフラグF5を指定している。分析部13は、フラグF5が「True」である場合にエンジンが異常音の音源であり、異常音の原因がエンジンオイルの不足である推定する。フラグF5が「False」である場合にエンジンが異常音の音源でないと検出する。
 また例えば分析部13は、車両1の周囲の物体の状態や位置を対象物の候補の状態又は位置として検出してよい。
 例えばコマンドリスト15の第6行目のレコードは、車両1の右後方において他車両が接近するか否かを示す情報として、入力信号のフラグF6を指定している。分析部13は、フラグF6が「True」である場合に右後方において他車両が接近していると検出し、「False」である場合に右後方において他車両が接近していないと判定する。
 また、入力信号に含まれている距離情報(例えば「10m」)に基づいて車両1の右後方を走行する他車両までの距離(すなわち他車両の位置)を検出してもよい。また入力信号に含まれている速度情報(例えば「60km/h」)に基づいて車両1の右後方を走行する他車両の速度(すなわち他車両の速度)を検出してもよい。
 なお、分析部13は、受信した入力信号を記憶装置9に記憶してもよい。分析部13は、現在入力されている入力信号に加えて又は代えて記憶装置9に記憶された入力信号に基づいて対象物の候補の状態又は位置を検出してもよい。また例えば、過去に入力された入力信号と現在入力されている入力信号との時系列に基づいて対象物の候補の状態又は位置を検出してもよい。過去に入力された入力信号を記憶しておき、現在の入力信号との差分(TrueとFalseの違い)を検出することにより対象物の候補の状態を推定してもよい。また、例えば過去の入力信号に含まれている右後方の他車両までの距離情報を記憶しておき、現在の距離情報が過去の距離情報よりも小さくなった場合に、右後方において他車両が接近していると推定してもよい。
 分析部13は、自然言語理解部11から出力されたキーワードの情報(すなわち、利用者の発話内容で言及された対象物の状態又は位置)が示す状態又は位置に適合する対象物の候補を、発話内容で言及された対象物であると推定する。
 具体的には、自然言語理解部11から出力されたキーワードの情報が示す状態又は位置と、入力信号から検出した対象物の候補の状態又は位置と、が適合する場合に、この対象物の候補を発話内容で言及された対象物であると推定する。
 例えば、利用者が「今ついた赤い車のランプ何?」と発話し、自然言語理解部11が対象物の候補の状態を示すキーワード「点灯」と、対象物の態様(形状、色、位置)を示すキーワード「赤」、「車」を抽出した場合を想定する。
 分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「点灯」と同一のキーワードを含む第1行目のレコード(EVシステム警告灯)と第2行目のレコード(水温警告灯)を選択する。
 分析部13は、第1行目のレコードで指定されたフラグF1に基づいて、EVシステム警告灯が点灯状態であるか否かを判定する。すなわち分析部13は、対象物の候補の状態が、コマンドリスト15に含まれる対象物の候補の状態を示すキーワード「点灯」と同じ状態であるか否かを判定する。
 対象物の候補の状態がコマンドリスト15に含まれるキーワード「点灯」と同じ状態である場合に、分析部13は、利用者の発話内容で言及された対象物の状態とEVシステム警告灯の状態とが適合すると判定し、発話内容で言及された対象物はEVシステム警告灯であると推定する。
 分析部13は、第1行目のレコードのコマンドID「id0001」を応答生成部14へ出力する。コマンドIDは、対象物の候補の情報、対象物の候補に関するキーワード、入力信号と関連付けられているため、コマンドIDに基づいて利用者の発話内容で言及された対象物と対象物の状態や位置を特定できる。
 また分析部13は、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
 なお、EVシステム警告灯に加えて水温警告灯も点灯状態である場合を想定する。すると水温警告灯の状態も、コマンドリスト15に含まれるキーワード「点灯」と同じ状態になるため、対象物の候補の状態を示すキーワード「点灯」のみでは、発話内容で言及された対象物がEVシステム警告灯であるか水温警告灯であるかを区別できない。
 この場合には、分析部13は、対象物の態様を示すキーワード「赤」、「車」を補助的に用いて、発話内容で言及された対象物を判定してよい。
 次に利用者が「今、ピッと鳴ったのは何?」と発話し、自然言語理解部11が、対象物の候補の状態を示すキーワード「ピッと鳴る」を抽出した場合を想定する。分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「ピッと鳴る」と同一のキーワードを含む第3行目のレコード(警報装置)を選択する。
 分析部13は、第2行目のレコードで指定されたフラグF3に基づいて、警報装置が出力状態であるか否かを判定する。すなわち分析部13は、対象物の候補の状態が、コマンドリスト15に含まれる対象物の候補の状態を示すキーワード「ピッと鳴る」と同じ状態(動作状態)であるか否かを判定する。
 対象物の候補の状態がコマンドリスト15に含まれるキーワードと同じ状態である場合に、分析部13は、利用者の発話内容で言及された対象物の状態と警報装置の状態とが適合すると判定し、発話内容で言及された対象物は警報装置であると推定する。
 分析部13は、第3行目のレコードのコマンドID「id0003」と、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
 また例えば、利用者が「ここの窓開けて」と発話し、自然言語理解部11が、対象物の候補の位置を示すキーワード「ここ」を抽出した場合を想定する。
 分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「ここ」と同一のキーワードを含む第4行目のレコード(運転席窓)を選択する。
 分析部13は、第4行目のレコードで指定されたフラグF4に基づいて、対象物の候補(運転席窓)の位置(すなわち運転席近傍)が、コマンドリスト15に含まれる対象物の候補の状態を示すキーワード「ここ」、すなわち利用者の着座近傍と同じであるか否かを判定する。フラグF4が「True」の場合、利用者の着座位置は運転席であるため対象物の候補の位置がコマンドリスト15に含まれるキーワードと同じ位置であると判定する。
 対象物の候補の位置がコマンドリスト15に含まれるキーワードと同じ位置である場合に、分析部13は、利用者の発話内容で言及された対象物の位置と運転席窓の位置とが適合すると判定し、発話内容で言及された対象物は運転席窓であると推定する。
 分析部13は、第3行目のレコードのコマンドID「id0004」と、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
 また例えば、利用者が「変な音出ているけど大丈夫」と発話し、自然言語理解部11が、対象物の候補の状態を示すキーワード「変な音」を抽出した場合を想定する。
 分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「変な音」と同一のキーワードを含む第5行目のレコード(エンジン)を選択する。
 分析部13は、第5行目のレコードで指定されたフラグF5に基づいて、エンジンが異常音の音源となっているか否かを判定する。すなわち分析部13は、対象物の候補(エンジン)の状態が、コマンドリスト15に含まれる対象物の候補の状態を示すキーワード「変な音(を出している状態)」と同じ状態であるか否かを判定する。
 対象物の候補の状態がコマンドリスト15に含まれるキーワードと同じ状態である場合に、分析部13は、利用者の発話内容で言及された対象物の状態とエンジンの状態とが適合すると判定し、発話内容で言及された対象物はエンジンであると推定する。また、異常音の原因がエンジンオイルの不足であると推定する。
 分析部13は、第3行目のレコードのコマンドID「id0005」と、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
 また例えば、利用者が「すごいスピードで近づいてくるのは何?」と発話し、自然言語理解部11が、対象物の候補の状態を示すキーワード「近づいてくる」を抽出した場合を想定する。
 分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「近づいてくる」と同一のキーワードを含む第6行目のレコード(右後方車両)を選択する。
 分析部13は、第6行目のレコードで指定されたフラグF6に基づいて、右後方車両が車両1に接近しているか否かを判定する。すなわち分析部13は、対象物の候補(右後方車両)の状態が、コマンドリスト15に含まれる対象物の候補の状態を示すキーワード「近づいてくる」と同じ状態であるか否かを判定する。分析部13は、第6行目のレコードで指定された位置情報や速度情報に基づいて右後方車両が車両1に接近しているか否かを判定してもよい。
 対象物の候補の状態がコマンドリスト15に含まれるキーワードと同じ状態である場合に、分析部13は、利用者の発話内容で言及された対象物の状態と右後方車両の状態とが適合すると判定し、発話内容で言及された対象物は右後方車両であると推定する。
 分析部13は、第3行目のレコードのコマンドID「id0006」と、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
 図2を参照する。応答生成部14は、自然言語理解部11が抽出して分析部13を経由して入力された発話意図の情報と、分析部13から出力されたコマンドIDと、に基づいて、応答メッセージと応答コマンドを出力する。
 応答メッセージは、利用者の発話内容に対して利用者に提示されるメッセージの音声信号やテキスト情報である。応答コマンドは、利用者の発話内容に対してHMI6に応答メッセージを出力させたり、車載機器2の所定の動作を実行させる命令信号である。
 応答生成部14は、応答メッセージと応答コマンドを生成する際に、記憶装置9に格納された応答リスト16を参照する。図4は、応答リスト16の一例の模式図である。
 応答リスト16には、複数行のレコードが格納されている。各々のレコードには、発話意図の情報と、コマンドIDと、応答メッセージと、応答コマンドとが記録されている。すなわち応答リスト16には、発話意図の情報と、コマンドIDと、応答メッセージと、応答コマンドとが関連付けて記録されている。
 例えば利用者が「今ついた赤い車のランプ何?」と発話した場合、上記のように自然言語理解部11は、発話意図として「意味の照会」を抽出する。分析部13は、コマンドID「id0001」を出力する。応答生成部14は、発話意図「意味の照会」とコマンドID「id0001」に合致する第1行目のレコードを抽出する。
 応答生成部14は、第1行目のレコードに記憶されていた警告灯の意味を通知するための応答コマンド「コマンドC001」をHMI6に出力し、応答メッセージ「EVシステムに異常が発生したという意味です」の音声情報やテキスト情報を、HMI6のスピーカから放音または表示装置に表示させる。このように、コマンドC001はHMI6に応答メッセージを出力させる命令信号であり、図4に示したコマンドC0002、C003、C005及びC006も同様である。
 また例えば利用者が「赤い温度計がついたけどどうしたの?」と発話した場合に、自然言語理解部11が発話意図「状態の照会」を抽出し、分析部13がコマンドID「id0002」を出力した場合を想定する。応答生成部14は、発話意図「状態の照会」とコマンドID「id0002」に合致する第2行目のレコードを抽出する。
 応答生成部14は、第2行目のレコードに記憶されていたラジエターの状態を通知する応答メッセージ「エンジン冷却水の温度が高いです」と、応答コマンド「コマンドC002」をHMI6に出力する。
 なお応答リスト16に、発話意図「意味の照会」に対して対象物の状態に関する応答メッセージを対応付けて記憶してもよい。この場合に応答生成部14は、発話意図「意味の照会」の発話に対して、対象物の状態に関する応答メッセージを出力することができる。
 同様に、発話意図「意味の照会」に対して、対象物の状態に応じた対処方法に関する応答メッセージを対応付けて記憶してもよい。
 例えば、第3行目のレコードには、発話意図「意味の照会」とコマンドID「id0003」とが記憶されている。例えば利用者が「今ついた赤い温度計のランプ何?」と発話した場合に、自然言語理解部11が発話意図「意味の照会」を抽出し、分析部13がコマンドID「id0002」を出力した場合を想定する。
 この場合に、応答生成部14は第3行目のレコードを選択して、応答メッセージ「車を安全な場所に停車して下さい」と、応答コマンド「コマンドC003」をHMI6に出力することにより、エンジン冷却水の温度が高い場合に応じた対処方法を通知する。
 また、例えば利用者が「ここの窓開けて」と発話した場合に、自然言語理解部11が発話意図「窓の開放」を出力し、分析部13がコマンドID「id0004」を出力した場合を想定する。応答生成部14は、発話意図「窓の開放」とコマンドID「id0004」に合致する第4行目のレコードを抽出する。
 応答生成部14は、運転席窓を開放する命令信号である応答コマンド「コマンドC004」を車載機器コントローラ3へ出力する。車載機器コントローラ3は、応答コマンド「コマンドC004」に従って車載機器2の一例である運転席窓を開放する。なお、応答生成部14は、利用者が「ここの窓閉めて」と発話した場合に、運転席窓を閉める応答コマンドを車載機器コントローラ3へ出力してもよい。
 また、利用者が「変な音出ているけど大丈夫」と発話し、自然言語理解部11が発話意図「異常音の原因の照会」を抽出し、分析部13がコマンドID「id0005」を出力した場合を想定する。応答生成部14は、発話意図「異常音の原因の照会」とコマンドID「id0005」に合致する第5行目のレコードを抽出する。
 応答生成部14は、第5行目のレコードに記憶されていた異常音の原因を通知する応答メッセージ「エンジンオイルが足りないようです」と、応答コマンド「コマンドC005」をHMI6に出力する。
 また、利用者が「すごいスピードで近づいてくるのは何?」と発話し、自然言語理解部11が発話意図「周囲状況の照会」を抽出し、分析部13がコマンドID「id0006」を出力した場合を想定する。応答生成部14は、発話意図「周囲状況の照会」とコマンドID「id0006」に合致する第6行目のレコードを抽出する。
 応答生成部14は、第6行目のレコードに記憶されていた周囲状況を通知する応答メッセージ「右後方に車両が接近しています」と、応答コマンド「コマンドC006」をHMI6に出力する。
 (動作)
 図5は、実施形態の音声認識方法の一例のフローチャートである。
 ステップS1において入力信号取得部12は、車載機器コントローラ3が生成した車載機器2の制御信号や、車内センサ4及び外部センサ5の出力信号を入力信号として取得する。
 ステップS2において音声認識部10は、HMI6が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。自然言語理解部11は、音声認識部10から出力された言語情報を自然言語処理によって解析し、利用者の発話意図を抽出する。ステップS3において自然言語理解部11は、音声認識部10から出力された言語情報から、発話意図に関連するキーワードを抽出する。
 ステップS4において分析部13は、入力信号取得部12かが取得した入力信号に基づいて、利用者の発話内容で言及された対象物の候補の状態又は位置を検出する。
 ステップS5において分析部13は、自然言語理解部11が抽出したキーワードの情報に基づいて、発話内容から認識された状態又は位置に適合する対象物の候補を、発話内容で言及された対象物と推定する。
 ステップS6において応答生成部14は、自然言語理解部11が抽出した発話意図と、分析部13が推定した対象物に応じて、応答メッセージを出力する。または車載機器2を動作させる。
 (実施形態の効果)
(1)音声認識装置7は、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する。音声認識装置7は、車両1に搭載された機器の制御信号又は車両1に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し、発話内容から状態又は位置を表す表現を認識し、入力信号に基づいて対象物の候補の状態又は位置を検出し、発話内容から認識された状態又は位置に適合する対象物の候補を、発話内容で言及された対象物と推定する。
 これにより、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する音声認識において、発話内容で言及された対象物の推定精度を向上できる。
 (2)例えば対象物の候補は、入力信号として取得した制御信号に制御される機器であってよい。音声認識装置7は、制御信号による制御状態を対象物の候補の状態として検出してよい。これにより、機器を制御する制御信号に基づいて対象物の候補の状態を判定できる。
 (3)例えば入力信号は、車両1の車内に設けられて利用者に視覚情報を提示する視覚情報提示機器の制御信号であってよく、制御状態は、視覚情報の表示状態であってよい。これにより、対象物の候補として視覚情報提示機器の状態を判定できる。
 (4)例えば視覚情報提示機器は警告灯であってよく、制御状態は警告灯の点灯状態又は消灯状態であってよい。これにより、対象物の候補として警告灯の状態を判定できる。
 (5)例えば入力信号は、車両1の車内に設けられて利用者に聴覚情報を提示する聴覚情報提示機器の制御信号であってよく、制御状態は、聴覚情報の報知状態であってよい。これにより対象物の候補として聴覚情報提示機器の状態を判定できる。
(6)例えば聴覚情報提示機器は警報装置であってよく、制御状態は警報の出力状態又は停止状態であってよい。これにより対象物の候補として警報装置の状態を判定できる。
 (7)音声認識装置7は、取得した入力信号を記憶し、記憶した過去の入力信号と現在取得している入力信号とに基づいて対象物の候補の状態又は位置を検出してもよい。これにより、利用者が発話する前に対象物の状態や位置が変化しても、発話前の過去の状態や位置に基づいて対象物を推定できる。
 (8)音声認識装置7は、発話内容で言及された対象物に関する情報を出力してもよく、発話内容で言及された対象物の状態に関する情報を出力してもよい。音声認識装置7は、対象物の候補の状態に応じた対処方法を所定の記憶装置に記憶して、発話内容で言及された対象物の状態に応じた対処方法に関する情報を出力してもよい。
 これにより、利用者の発話内容で言及された対象物についての情報を提供できる。
 (9)対象物の候補は、車両1に搭載された機器であってよい。音声認識装置7は、入力信号として車両1の車内の状態を検出するセンサの出力信号を取得して、取得した出力信号に基づいて機器の状態又は位置を検出してよい。
 これにより、車両1の車内の状態を検出するセンサの出力信号に基づいて車両1に搭載された機器の状態又は位置を判定できる。
 (10)音声認識装置7は、入力信号として、車両1の乗員の着座位置を検出するセンサの出力信号を取得し、対象物の候補となる窓が、着座位置の近傍の窓であると検出し、車両1の窓を開放するための開放指示を含んだ発話内容から、開放すべき窓の位置を表す表現を認識し、発話内容から認識された窓の位置が着座位置の近傍を示す場合に、着座位置の近傍の窓を対象物として推定してよい。
 乗員の着座位置を検出するセンサの出力信号と車両1の窓を開放するための開放指示を含んだ発話内容から、開放する対象の窓が利用者の着座位置の近傍の窓であると推定できる。
 (11)音声認識装置7は、入力信号として、車両1からの異常音の音情報を検出するセンサの出力信号を取得し、音情報に基づいて、異常音の音源となる機器を推定することにより、対象物の候補となる機器が異常音を発生している状態を検出してもよい。これにより、音情報を検出するセンサの出力信号に基づいて、車両1に搭載された機器の状態を推定できる。
 (12)例えば対象物の候補は、車両1の周囲の物体であってもよい。音声認識装置7は、入力信号として、周囲の物体を検出するセンサの出力信号を取得して、取得した出力信号に基づいて周囲の物体の状態又は位置を検出してもよい。
 例えば音声認識装置7は、入力信号として車両1の周囲を撮影するカメラが生成する撮像画像を取得し、撮像画像に基づいて、車両1に接近する物体を対象物の候補として認識してもよい。
 これにより、車両1の周囲の物体を検出するセンサの出力信号に基づいて車両1の周囲の物体の状態又は位置を判定できる。
 (13)例えばセンサは、圧力センサ、シートベルトセンサ、カメラ、測距センサ、マイクロフォン、生体センサのいずれかを含んでもよい。これにより、車内又は車外のさまざまな対象物の候補の状態や位置を検出できる。
 ここに記載されている全ての例及び条件的な用語は、読者が、本発明と技術の進展のために発明者により与えられる概念とを理解する際の助けとなるように、教育的な目的を意図したものであり、具体的に記載されている上記の例及び条件、並びに本発明の優位性及び劣等性を示すことに関する本明細書における例の構成に限定されることなく解釈されるべきものである。本発明の実施例は詳細に説明されているが、本発明の精神及び範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であると解すべきである。
 1…車両、2…車載機器、3…車載機器コントローラ、4…車内センサ、5…外部センサ、6…ヒューマンマシンインタフェース、7…音声認識装置、8…プロセッサ、9…記憶装置、10…音声認識部、11…自然言語理解部、12…入力信号取得部、13…分析部、14…応答生成部、15…コマンドリスト、16…応答リスト

Claims (17)

  1.  車両の利用者の発話内容を取得して、前記発話内容で言及された対象物を推定する音声認識方法であって、
     前記車両に搭載された機器の制御信号又は前記車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し、
     前記発話内容から状態又は位置を表す表現を認識し、
     前記入力信号に基づいて前記対象物の候補の状態又は位置を検出し、
     前記発話内容から認識された状態又は位置に適合する前記対象物の候補を、前記発話内容で言及された対象物と推定する、
     ことを特徴とする音声認識方法。
  2.  前記対象物の候補は、前記入力信号として取得した前記制御信号に制御される機器であり、
     前記制御信号による制御状態を前記対象物の候補の状態として検出する、ことを特徴とする請求項1に記載の音声認識方法。
  3.  前記入力信号は、前記車両の車内に設けられて前記利用者に視覚情報を提示する視覚情報提示機器の制御信号であり、
     前記制御状態は、前記視覚情報の表示状態である、
     ことを特徴とする請求項2に記載の音声認識方法。
  4.  前記視覚情報提示機器は警告灯であり、前記制御状態は前記警告灯の点灯状態又は消灯状態であることを特徴とする請求項3に記載の音声認識方法。
  5.  前記入力信号は、前記車両の車内に設けられて前記利用者に聴覚情報を提示する聴覚情報提示機器の制御信号であり、
     前記制御状態は、前記聴覚情報の報知状態である、
     ことを特徴とする請求項2に記載の音声認識方法。
  6.  前記聴覚情報提示機器は警報装置であって、前記制御状態は警報の出力状態又は停止状態であることを特徴とする鵜請求項5に記載の音声認識方法。
  7.  取得した前記入力信号を記憶し、
     記憶した過去の前記入力信号と現在取得している前記入力信号とに基づいて前記対象物の候補の状態又は位置を検出する、
     ことを特徴とする請求項1~6のいずれか一項に記載の音声認識方法。
  8.  前記発話内容で言及された対象物に関する情報を出力することを特徴とする請求項1~7のいずれか一項に記載の音声認識方法。
  9.  前記発話内容で言及された対象物の状態に関する情報を出力することを特徴とする請求項1~7のいずれか一項に記載の音声認識方法。
  10.  前記対象物の候補の状態に応じた対処方法を所定の記憶装置に記憶し、
     前記発話内容で言及された対象物の状態に応じた前記対処方法に関する情報を出力することを特徴とする請求項1~7のいずれか一項に記載の音声認識方法。
  11.  前記対象物の候補は、前記車両に搭載された機器であり、
     前記入力信号として前記車両の車内の状態を検出するセンサの出力信号を取得して、取得した前記出力信号に基づいて前記機器の状態又は位置を検出する、ことを特徴とする請求項1に記載の音声認識方法。
  12.  前記入力信号として、前記車両の乗員の着座位置を検出するセンサの出力信号を取得し、
     前記対象物の候補となる窓が、前記着座位置の近傍の窓であると検出し、
     前記車両の窓を開閉するための開閉指示を含んだ前記発話内容から、開閉すべき窓の位置を表す表現を認識し、
     前記発話内容から認識された窓の位置が前記着座位置の近傍を示す場合に、前記着座位置の近傍の窓を前記対象物として推定する、
     ことを特徴とする請求項11に記載の音声認識方法。
  13.  前記入力信号として、前記車両からの異常音の音情報を検出するセンサの出力信号を取得し、
     前記音情報に基づいて、前記異常音の音源となる機器を推定することにより、前記対象物の候補となる前記機器が前記異常音を発生している状態を検出する、
     ことを特徴とする請求項11に記載の音声認識方法。
  14.  前記対象物の候補は、前記車両の周囲の物体であり、
     前記入力信号として、前記周囲の物体を検出するセンサの出力信号を取得して、取得した前記出力信号に基づいて前記周囲の物体の状態又は位置を検出する、ことを特徴とする請求項1に記載の音声認識方法。
  15.  前記入力信号として前記車両の周囲を撮影するカメラが生成する撮像画像を取得し、
     前記撮像画像に基づいて、前記車両に接近する物体を前記対象物の候補として認識する、
     ことを特徴とする請求項14に記載の音声認識方法。
  16.  前記センサは、圧力センサ、シートベルトセンサ、カメラ、測距センサ、マイクロフォン、生体センサのいずれかを含むことを特徴とする請求項1~15のいずれか一項に記載の音声認識方法。
  17.  車両の利用者の発話内容を取得して、前記発話内容で言及された対象物を推定する音声認識装置であって、
     前記車両に搭載された機器の制御信号又は前記車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得する処理と、
     前記発話内容から状態又は位置を表す表現を認識する処理と、
     前記入力信号に基づいて前記対象物の候補の状態又は位置を検出する処理と、
     前記発話内容から認識された状態又は位置に適合する前記対象物の候補を、前記発話内容で言及された対象物と推定する処理と、
     を実行するコントローラを備えることを特徴とする音声認識装置。
PCT/IB2022/000040 2022-01-26 2022-01-26 音声認識方法及び音声認識装置 Ceased WO2023144573A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202280089504.8A CN118613865A (zh) 2022-01-26 2022-01-26 声音识别方法和声音识别装置
JP2023576247A JP7722475B2 (ja) 2022-01-26 2022-01-26 音声認識方法及び音声認識装置
US18/832,374 US20250104711A1 (en) 2022-01-26 2022-01-26 Voice recognition method and voice recognition device
EP22922555.2A EP4470842A4 (en) 2022-01-26 2022-01-26 SPEECH RECOGNITION METHOD AND SPEECH RECOGNITION DEVICE
PCT/IB2022/000040 WO2023144573A1 (ja) 2022-01-26 2022-01-26 音声認識方法及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2022/000040 WO2023144573A1 (ja) 2022-01-26 2022-01-26 音声認識方法及び音声認識装置

Publications (2)

Publication Number Publication Date
WO2023144573A1 true WO2023144573A1 (ja) 2023-08-03
WO2023144573A8 WO2023144573A8 (ja) 2024-08-29

Family

ID=87470979

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2022/000040 Ceased WO2023144573A1 (ja) 2022-01-26 2022-01-26 音声認識方法及び音声認識装置

Country Status (5)

Country Link
US (1) US20250104711A1 (ja)
EP (1) EP4470842A4 (ja)
JP (1) JP7722475B2 (ja)
CN (1) CN118613865A (ja)
WO (1) WO2023144573A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119389232A (zh) * 2024-10-28 2025-02-07 广州汽车集团股份有限公司 车外环境感知方法、车载终端、服务器及计算机程序产品
CN119517023A (zh) * 2024-10-09 2025-02-25 岚图汽车科技有限公司 车辆语音控制方法、装置、设备及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20250048974A (ko) * 2023-10-04 2025-04-11 현대자동차주식회사 차량 헤드 유닛 시스템에서 음성인식을 위한 장치 및 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343829A (ja) * 2005-06-07 2006-12-21 Denso Corp 車両周辺撮影装置および車両周辺撮影方法
JP2010281855A (ja) * 2009-06-02 2010-12-16 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2015089697A (ja) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
JP2019127192A (ja) * 2018-01-25 2019-08-01 トヨタ自動車株式会社 車載装置
JP2019183504A (ja) * 2018-04-10 2019-10-24 株式会社デンソー 車両用ドア制御装置
JP2020126166A (ja) * 2019-02-05 2020-08-20 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101977090B1 (ko) * 2015-07-22 2019-05-10 엘지전자 주식회사 차량 제어 장치 및 이를 구비한 차량의 제어방법
CN110914129B (zh) * 2017-10-03 2021-06-15 谷歌有限责任公司 使用基于传感器的验证的车辆功能控制
JP7084158B2 (ja) * 2018-02-23 2022-06-14 トヨタ自動車株式会社 情報処理方法、プログラム、情報処理装置、及び情報処理システム
US11590929B2 (en) * 2020-05-05 2023-02-28 Nvidia Corporation Systems and methods for performing commands in a vehicle using speech and image recognition
KR20220060627A (ko) * 2020-11-04 2022-05-12 현대자동차주식회사 차량 제어 시스템 및 차량 제어 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006343829A (ja) * 2005-06-07 2006-12-21 Denso Corp 車両周辺撮影装置および車両周辺撮影方法
JP2010281855A (ja) * 2009-06-02 2010-12-16 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2015089697A (ja) * 2013-11-05 2015-05-11 トヨタ自動車株式会社 車両用音声認識装置
JP2019127192A (ja) * 2018-01-25 2019-08-01 トヨタ自動車株式会社 車載装置
JP2019183504A (ja) * 2018-04-10 2019-10-24 株式会社デンソー 車両用ドア制御装置
JP2020126166A (ja) * 2019-02-05 2020-08-20 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP4470842A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119517023A (zh) * 2024-10-09 2025-02-25 岚图汽车科技有限公司 车辆语音控制方法、装置、设备及介质
CN119389232A (zh) * 2024-10-28 2025-02-07 广州汽车集团股份有限公司 车外环境感知方法、车载终端、服务器及计算机程序产品

Also Published As

Publication number Publication date
EP4470842A4 (en) 2025-01-22
US20250104711A1 (en) 2025-03-27
JPWO2023144573A1 (ja) 2023-08-03
EP4470842A1 (en) 2024-12-04
WO2023144573A8 (ja) 2024-08-29
JP7722475B2 (ja) 2025-08-13
CN118613865A (zh) 2024-09-06

Similar Documents

Publication Publication Date Title
JP7722475B2 (ja) 音声認識方法及び音声認識装置
US11404075B1 (en) Vehicle voice user interface
JP2021033048A (ja) 車載装置、発声を処理する方法およびプログラム
US9311930B2 (en) Audio based system and method for in-vehicle context classification
JPWO2023144573A5 (ja)
US11996099B2 (en) Dialogue system, vehicle, and method of controlling dialogue system
JP6677126B2 (ja) 車両用対話制御装置
WO2018233300A1 (zh) 语音识别方法和语音识别装置
US11021147B2 (en) Vehicles and methods for determining objects of driver focus
KR20240035003A (ko) 점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법
US11273778B1 (en) Vehicle voice user interface
US20210097727A1 (en) Computer apparatus and method implementing sound detection and responses thereto
US10207584B2 (en) Information providing apparatus for vehicle
KR102132058B1 (ko) 자동차에 내장된 양방향 음성 커뮤니케이션 시스템
US12406667B2 (en) Method of processing dialogue, user terminal, and dialogue system
US20250145097A1 (en) Voice recognition method and voice recognition device
JP2024132462A (ja) 音声対話方法及び音声対話装置
JP2024045996A (ja) 音声認識方法及び音声認識装置
JP2019014392A (ja) 車両の走行記録装置及び閲覧装置
US20150039312A1 (en) Controlling speech dialog using an additional sensor
US20250326402A1 (en) Driving support device
JP2024045997A (ja) 音声認識方法及び音声認識装置
JP2019174757A (ja) 音声認識装置
US20250269790A1 (en) Vehicle communications
CN121708895A (zh) 车内外语音交互方法、系统、设备以及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22922555

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023576247

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 202280089504.8

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 18832374

Country of ref document: US

REG Reference to national code

Ref country code: BR

Ref legal event code: B01A

Ref document number: 112024014943

Country of ref document: BR

WWE Wipo information: entry into national phase

Ref document number: 202447061938

Country of ref document: IN

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2022922555

Country of ref document: EP

Effective date: 20240826

ENP Entry into the national phase

Ref document number: 112024014943

Country of ref document: BR

Kind code of ref document: A2

Effective date: 20240719

WWP Wipo information: published in national office

Ref document number: 18832374

Country of ref document: US