WO2023144573A1 - 音声認識方法及び音声認識装置 - Google Patents
音声認識方法及び音声認識装置 Download PDFInfo
- Publication number
- WO2023144573A1 WO2023144573A1 PCT/IB2022/000040 IB2022000040W WO2023144573A1 WO 2023144573 A1 WO2023144573 A1 WO 2023144573A1 IB 2022000040 W IB2022000040 W IB 2022000040W WO 2023144573 A1 WO2023144573 A1 WO 2023144573A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- state
- vehicle
- speech recognition
- input signal
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Definitions
- the present invention relates to a speech recognition method and a speech recognition device.
- Patent Document 1 describes an in-vehicle system in which, when a warning light on a meter panel lights up, an explanation of the content of the warning related to the warning light that is lit and a countermeasure are displayed on a display device.
- An object of the present invention is to improve the accuracy of estimating an object mentioned in the utterance in voice recognition for acquiring the utterance of a vehicle user and estimating the object mentioned in the utterance. .
- a speech recognition method for acquiring the utterance content of a vehicle user and estimating an object mentioned in the utterance content.
- the speech recognition method at least one of a control signal of a device mounted on a vehicle and an output signal of a sensor mounted on the vehicle is obtained as an input signal, an expression representing a state or a position is recognized from the utterance content, and an input signal is recognized. to detect the state or position of the object candidate based on the utterance content, and presume the object candidate that matches the state or position recognized from the utterance content as the object mentioned in the utterance content.
- FIG. 1 is a schematic configuration diagram of an example of a vehicle equipped with a speech recognition device according to an embodiment
- FIG. 1 is a block diagram showing an example of a functional configuration of a speech recognition device
- FIG. 4 is a schematic diagram of an example of a command list
- FIG. 4 is a schematic diagram of an example of a response list
- 4 is a flow chart of an example of a speech recognition method according to an embodiment
- FIG. 1 is a schematic configuration diagram of an example of a vehicle equipped with a speech recognition device according to an embodiment.
- the vehicle 1 includes an in-vehicle device 2 , an in-vehicle device controller 3 , an in-vehicle sensor 4 , an external sensor 5 , a human machine interface (hereinafter referred to as “HMI”) 6 , and a speech recognition device 7 .
- the in-vehicle devices 2 are various devices mounted on the vehicle 1 .
- the in-vehicle device 2 may be, for example, an instrument panel in the driver's seat of the vehicle 1 or a warning light arranged near the A pillar.
- a warning light is an example of a visual information presentation device that is provided inside the vehicle 1 and presents visual information to the user.
- the in-vehicle device 2 may be an alarm device that outputs an alarm sound to the user of the vehicle 1, for example.
- a warning device is an example of an auditory information presentation device that is provided inside a vehicle and presents auditory information to a user.
- the in-vehicle device 2 may be a window provided on the door of the vehicle 1, an engine of the vehicle 1, or a braking device.
- the vehicle-mounted device controller 3 is an electronic control unit (ECU) that controls the operation of the vehicle-mounted device 2 and generates a control signal for controlling the vehicle-mounted device 2 .
- the in-vehicle device controller 3 includes, for example, a processor and peripheral components such as a storage device.
- the processor may be, for example, a CPU (Central Processing Unit) or an MPU (Micro-Processing Unit).
- the storage device may comprise a semiconductor storage device, a magnetic storage device, an optical storage device, or the like.
- the storage device may include memories such as registers, cache memory, ROM (Read Only Memory) and RAM (Random Access Memory) used as main storage devices.
- the in-vehicle device controller 3 may be formed of dedicated hardware for executing each information processing described below.
- the in-vehicle device controller 3 may have a functional logic circuit set in a general-purpose semiconductor integrated circuit.
- the in-vehicle equipment controller 3 may have a programmable logic device (PLD: Programmable Logic Device) such as a field programmable gate array (FPGA: Field-Programmable Gate Array).
- PLD Programmable Logic Device
- FPGA Field-Programmable Gate Array
- the in-vehicle sensor 4 is a sensor that detects the state of the interior of the vehicle 1 .
- the in-vehicle sensor 4 may be an in-vehicle camera that captures the interior of the vehicle, or may be a pressure sensor or a seatbelt sensor provided in the seat for determining whether or not the occupant is seated. It may be a biosensor for detecting biometric information, or a microphone for detecting sound generated from the vehicle 1 .
- the external sensor 5 is a sensor that detects objects existing around the vehicle 1 .
- the in-vehicle sensor 4 may be, for example, an external camera that captures the surrounding environment of the vehicle 1, and is a ranging sensor such as a laser range finder (LRF), radar, or LiDAR (Light Detection and Ranging) laser radar. good too.
- LRF laser range finder
- radar radar
- LiDAR Light Detection and Ranging
- the HMI 6 is an interface device that exchanges information between the speech recognition device 7 and the user.
- the HMI 6 includes a display device (for example, a display screen of a navigation system) visible to the user of the vehicle 1, and a speaker and buzzer for outputting warning sounds, notification sounds, and audio information.
- the HMI 6 also includes a voice input device (for example, a microphone) for obtaining voice input from the user.
- the speech recognition device 7 is an ECU (Electronic Control Unit) that operates as a controller that executes speech recognition for recognizing the contents of speech made by the user of the vehicle 1 .
- the speech recognition device 7 estimates the object referred to in the user's utterance content, outputs information related to the object from the HMI 6, and provides the user with the information.
- the speech recognition device 7 operates the object mentioned in the content of the user's utterance.
- the speech recognition device 7 includes a processor 8 and peripheral components such as a storage device 9 and the like.
- the processor 8 may be, for example, a CPU or MPU.
- the storage device 9 may include a semiconductor storage device, a magnetic storage device, an optical storage device, or the like.
- the storage device 9 may include memories such as registers, cache memories, and ROMs and RAMs used as main storage devices.
- the functions of the speech recognition device 7 described below are realized by the processor 8 executing a computer program stored in the storage device 9, for example.
- the speech recognition device 7 may be formed of dedicated hardware for executing each information processing described below.
- the speech recognition device 7 may comprise functional logic circuits implemented in general-purpose semiconductor integrated circuits.
- speech recognizer 7 may comprise a programmable logic device such as a field programmable gate array.
- FIG. 2 is a block diagram showing an example of the functional configuration of the speech recognition device 7.
- the speech recognition device 7 operates as a speech recognition unit 10 , a natural language understanding unit 11 , an input signal acquisition unit 12 , an analysis unit 13 and a response generation unit 14 .
- the voice recognition unit 10 recognizes voice input from the user acquired by the HMI 6 and converts it into language information such as text.
- the voice recognition unit 10 outputs linguistic information generated by converting voice input to the voice recognition unit 10 .
- the natural language understanding unit 11 analyzes the language information output from the speech recognition unit 10 by natural language processing, and extracts the user's utterance intention and keywords related to the utterance intention. For example, the natural language understanding unit 11 extracts a keyword indicating the state or position of the object mentioned in the utterance content. Moreover, the natural language understanding unit 11 may additionally extract a keyword indicating the aspect (shape, color, position) of the target object.
- keywords and their synonyms may be defined in advance, and the synonyms included in the user's utterance content may be converted into keywords. For example, when the user utters "What is that red car lamp that just came on?" in order to ask about the meaning of the warning light, the natural language understanding unit 11 extracts "meaning inquiry” as the utterance intention, and uses the keyword , extract “red”, “lighting”, and "car”.
- the user's utterance intention extracted by the natural language understanding unit 11 includes "inquiry about the state” of asking about the state of the in-vehicle device 2, and an operation instruction (for example, "open the window") to instruct the operation of the in-vehicle device 2. ), ⁇ inquiry about the cause of abnormal sound'' to ask about the cause of the abnormal sound generated from the vehicle 1, and ⁇ inquiry about the surrounding situation'' to ask about the surroundings of the vehicle 1.
- the natural language understanding unit 11 outputs the extracted utterance intention information and the extracted keyword information to the analysis unit 13 .
- the input signal acquisition unit 12 acquires the control signal for the vehicle-mounted device 2 generated by the vehicle-mounted device controller 3 as an input signal.
- the control signal may be an on/off signal for a warning light.
- the control signal may be a signal instructing output and stop of an alarm sound by an alarm device.
- the input signal acquisition unit 12 acquires the output signals of the in-vehicle sensor 4 and the external sensor 5 as input signals.
- the input signal acquisition unit 12 converts the acquired control signals of the in-vehicle device 2 and the acquired output signals of the in-vehicle sensor 4 and the external sensor 5 into a predetermined specific data format for expressing the detected situation.
- the input signal acquisition unit 12 may convert the control signal into flag information and set the value of the flag according to the control state of the in-vehicle device 2 .
- the value of the flag F1 may be set to "True” when an EV (Electric Vehicle) system warning light is on, and the value of the flag F1 may be set to "False” when it is not on.
- the value of the flag F3 may be set to "True” when the alarm device operates and outputs an alarm sound, and the value of the flag F3 may be set to "False” when the alarm sound is not output. .
- the input signal acquisition unit 12 converts the output signals of the in-vehicle sensor 4 and the external sensor 5 into flag information, and sets the value of the flag according to the state and position of the object detected by the in-vehicle sensor 4 and the external sensor 5.
- a flag corresponding to the position of the user in the vehicle detected based on the output signal of the in-vehicle sensor 4 such as an in-vehicle camera, a pressure sensor, a seat belt sensor, and a biosensor may be set.
- the value of the flag F4 may be set to "True" when the user is sitting in the driver's seat, and the value of the flag F4 may be set to "False" when the user is sitting in the passenger's seat.
- the input signal acquisition unit 12 may set a flag corresponding to the position of an object around the vehicle 1 detected based on the output signal of the external sensor 5 such as an external camera or a distance measuring sensor.
- the value of the flag F6 is set to "True” when another vehicle is approaching at the right rear of the vehicle 1, and the value of the flag F6 is set to "False” when no other vehicle is approaching. good.
- the value of the flag F6 is set to "True” when the speed of another vehicle running on the right rear side of the vehicle 1 exceeds the threshold value Vth, and is set to "False” when it does not exceed the threshold value Vth.
- the input signal acquisition unit 12 analyzes the sound information output by the microphone of the in-vehicle sensor 4, and based on the characteristics of the sound information, the on-vehicle device 2, which is the source of the abnormal sound generated from the vehicle 1, and the abnormal sound. You may presume the cause of The input signal acquisition unit 12 may set a flag based on the in-vehicle device 2 that is the sound source and the cause of the abnormal sound. For example, when it is estimated that the source of the abnormal sound is the engine of the vehicle 1 and the cause of the abnormal sound is lack of engine oil, the value of the flag F5 is set to "True" and the abnormal sound is not detected. The value of flag F5 may be set to "False".
- a flag may be similarly set for an abnormal sound generated from the braking device. Further, flags may be set separately for each of a plurality of different causes of abnormal sounds generated by the same vehicle-mounted device 2 .
- the input signal acquisition unit 12 performs frequency analysis on the sound information acquired from the microphone of the in-vehicle sensor 4 and the sound information in the normal state of the in-vehicle equipment stored in advance, and performs a predetermined frequency analysis. or a parameter pattern including the frequency pattern is detected, it may be determined to be abnormal.
- the sound information of the lack of engine oil is stored in advance, and frequency analysis is performed between the sound information obtained from the microphone and the frequency of the normal engine sound source. If different frequency features are obtained beyond a certain range compared to the pattern, it may be determined that the cause is lack of engine oil.
- the input signal acquisition unit 12 may convert the control signal of the in-vehicle device 2 and the output signal of the in-vehicle sensor 4 and the output signal of the external sensor 5 into numerical data, identification information, text data, etc. indicating the extracted information. good. For example, numerical data such as distance information (e.g., "10 m") and speed information (e.g., "60 km/h") to other vehicles detected based on the output signal of the external sensor 5, identification information indicating the vehicle type, and text data. may be converted.
- the input signal acquisition unit 12 outputs the converted input signal (hereinafter simply referred to as “input signal”) to the analysis unit 13 .
- the analysis unit 13 receives the input signal output from the input signal acquisition unit 12 and the utterance intention information and keyword information output from the natural language understanding unit 11 . Based on the input signal output from the input signal acquisition unit 12, the analysis unit 13 detects the state or position of the target object candidate mentioned in the user's utterance content. For example, the analysis unit 13 detects the control state of the in-vehicle device 2 based on the control signal as the candidate state of the object. For example, the analysis unit 13 may detect whether the warning light is on or off (that is, the visual information display state of the visual information presentation device).
- the analysis unit 13 refers to the command list 15 stored in the storage device 9 when detecting the state or position of the target object candidate.
- FIG. 3 is a schematic diagram of an example of the command list 15. As shown in FIG. The command list 15 stores records of multiple lines. Each record contains a command ID, information on a candidate object, a keyword related to the candidate object, and information designating an input signal used to detect the state or position of the candidate object. . That is, in the command list 15, command IDs, information on candidate objects, keywords, and information specifying input signals are recorded in association with each other. Note that keywords indicating the state or position of the candidate object are recorded as the keyword relating to the candidate object. A keyword indicating the aspect of the object may be recorded by the object candidate.
- the record on the first line designates the input signal flag F1 as input information indicating the state of an EV system warning light, which is an example of a warning light.
- the analysis unit 13 detects whether the EV system warning light is on or off based on the flag F1. Further, for example, the analysis unit 13 detects whether the warning device is in an output state or a stopped state (that is, the auditory information notification state by the auditory information presentation device).
- the record on the third line of the command list 15 designates the input signal flag F3 as the input information indicating the state of the alarm device. The analysis unit 13 detects whether the alarm device is in an output state or a stopped state based on the flag F3.
- the analysis unit 13 detects the vehicle-mounted device 2 arranged at a specific position as a target object candidate mentioned in the user's utterance content. That is, the position of the in-vehicle device 2, which is a candidate for the object, is detected.
- the record on the fourth line of the command list 15 designates the flag F4 of the input signal as information indicating whether or not the window that is the candidate for the object is the driver's seat window.
- the flag F4 is set to "True" when the user is sitting in the driver's seat, and is set to "False" when the user is not sitting.
- the analysis unit 13 detects that the driver's seat window is an object candidate window when the flag F4 is "True”, and detects that the driver's seat window is an object candidate window when the flag F4 is "False”. Detect if it is not a window.
- the analysis unit 13 may detect whether or not the sound source of the abnormal sound generated from the vehicle 1 is a specific vehicle-mounted device 2 . That is, whether or not the vehicle-mounted device 2, which is a candidate for the object, is the source of the abnormal sound may be detected as the state of the candidate for the object.
- the analysis unit 13 may also estimate the cause of the abnormal sound.
- the record on the fifth line of the command list 15 designates the input signal flag F5 as information indicating whether or not the target candidate engine is the sound source of the abnormal sound.
- the flag F5 is "True”
- the analysis unit 13 estimates that the engine is the source of the abnormal sound and that the cause of the abnormal sound is lack of engine oil.
- the flag F5 is "False" it is detected that the engine is not the source of the abnormal sound.
- the analysis unit 13 may detect the state or position of an object around the vehicle 1 as the state or position of a target object candidate.
- the record on the sixth line of the command list 15 designates the input signal flag F6 as information indicating whether or not another vehicle is approaching on the right rear of the vehicle 1 .
- the analysis unit 13 detects that another vehicle is approaching on the right rear side when the flag F6 is "True”, and determines that another vehicle is not approaching on the right rear side when the flag F6 is "False”.
- the distance to another vehicle running on the right rear side of the vehicle 1 may be detected based on the distance information (for example, "10 m") included in the input signal.
- the speed of the other vehicle running to the right rear of the vehicle 1 may be detected based on the speed information (for example, "60 km/h") included in the input signal.
- the analysis unit 13 may store the received input signal in the storage device 9 .
- the analysis unit 13 may detect the state or position of the candidate object based on the input signal stored in the storage device 9 in addition to or instead of the input signal currently being input.
- the state or position of the target object candidate may be detected based on the time series of the input signal input in the past and the input signal currently input.
- An input signal input in the past may be stored, and the state of the target object candidate may be estimated by detecting the difference (the difference between True and False) from the current input signal.
- the distance information to the other vehicle on the right rear included in the past input signal is stored, and when the current distance information becomes smaller than the past distance information, the other vehicle on the right rear may be detected. It can be assumed that they are close.
- the analysis unit 13 selects object candidates that match the state or position indicated by the keyword information output from the natural language understanding unit 11 (that is, the state or position of the object mentioned in the user's utterance content), Presume that it is the object mentioned in the content of the utterance. Specifically, if the state or position indicated by the information of the keyword output from the natural language understanding unit 11 matches the state or position of the target object candidate detected from the input signal, the target object candidate is assumed to be the object mentioned in the utterance content.
- the analysis unit 13 refers to the command list 15, and extracts the first row record (EV system warning light) and the second row record that contain the same keyword as the keyword “lighting” extracted by the natural language understanding unit 11. Select (water temperature warning light).
- the analysis unit 13 determines whether or not the EV system warning light is on based on the flag F1 specified in the record on the first line. That is, the analysis unit 13 determines whether or not the state of the candidate for the object is the same as the keyword “lighting” indicating the state of the candidate for the object included in the command list 15 . When the state of the object candidate is the same as the keyword "lighting” included in the command list 15, the analysis unit 13 determines the state of the object mentioned in the user's utterance content and the state of the EV system warning light. matches, and it is estimated that the object mentioned in the utterance content is an EV system warning light.
- the analysis unit 13 outputs the command ID “id0001” of the record on the first line to the response generation unit 14 . Since the command ID is associated with information on candidate objects, keywords related to candidate objects, and input signals, the object mentioned in the user's utterance content and the state and position of the object can be detected based on the command ID. can be identified. The analysis unit 13 also outputs information on the utterance intention output from the natural language understanding unit 11 to the response generation unit 14 .
- the analysis unit 13 may determine the target mentioned in the utterance content by using the keywords “red” and “car” that indicate the mode of the target as supplementary information.
- the analysis unit 13 refers to the command list 15 and selects the record (alarm device) in the third row that includes the same keyword as the keyword “beep” extracted by the natural language understanding unit 11 .
- the analysis unit 13 determines whether or not the alarm device is in the output state based on the flag F3 specified in the record on the second line. That is, the analysis unit 13 determines whether or not the state of the candidate for the object is the same state (operating state) as the keyword “beep” indicating the state of the candidate for the object included in the command list 15 . If the state of the object candidate is the same as the state of the keyword included in the command list 15, the analysis unit 13 determines that the state of the object mentioned in the user's utterance matches the state of the alarm device. and presumes that the object mentioned in the utterance content is an alarm device. The analysis unit 13 outputs the command ID “id0003” of the record on the third line and the utterance intention information output from the natural language understanding unit 11 to the response generation unit 14 .
- the analysis unit 13 refers to the command list 15 and selects the record (driver's seat window) in the fourth row that includes the same keyword as the keyword “here” extracted by the natural language understanding unit 11 .
- the analysis unit 13 determines that the position of the target object candidate (driver's seat window) (that is, the vicinity of the driver's seat) is the target object candidate included in the command list 15. It is determined whether or not it is the same as the keyword "here” indicating the state of , that is, the vicinity of the user's seat. If the flag F4 is "True", it is determined that the position of the object candidate is the same as the position of the keyword included in the command list 15 because the user is seated in the driver's seat.
- the analysis unit 13 determines that the position of the object mentioned in the user's utterance matches the position of the driver's seat window. Then, the object mentioned in the utterance content is estimated to be the driver's seat window.
- the analysis unit 13 outputs the command ID “id0004” of the record on the third line and the utterance intention information output from the natural language understanding unit 11 to the response generation unit 14 .
- the natural language understanding unit 11 extracts the keyword “strange sound” indicating the state of the target object candidate.
- the analysis unit 13 refers to the command list 15 and selects the record (engine) on the fifth line containing the same keyword as the keyword “strange sound” extracted by the natural language understanding unit 11 .
- the analysis unit 13 determines whether or not the engine is the source of the abnormal sound based on the flag F5 specified in the record on the fifth line. That is, the analysis unit 13 determines whether the state of the object candidate (engine) is the same as the keyword “strange sound (state of making)” indicating the state of the object candidate included in the command list 15. determine whether or not When the state of the object candidate is the same as the state of the keyword included in the command list 15, the analysis unit 13 determines that the state of the object mentioned in the user's utterance matches the state of the engine. , presumes that the object mentioned in the utterance content is the engine. In addition, it is estimated that the cause of the abnormal noise is lack of engine oil. The analysis unit 13 outputs the command ID “id0005” of the record on the third line and the utterance intention information output from the natural language understanding unit 11 to the response generation unit 14 .
- the analysis unit 13 refers to the command list 15 and selects the sixth row record (right rear vehicle) containing the same keyword as the keyword “approaching” extracted by the natural language understanding unit 11 .
- the analysis unit 13 determines whether or not the right rear vehicle is approaching the vehicle 1 based on the flag F6 specified in the record on the sixth line. That is, the analysis unit 13 determines whether or not the state of the object candidate (right rear vehicle) is the same as the keyword "approaching" indicating the state of the object candidate included in the command list 15. . The analysis unit 13 may determine whether or not the right rear vehicle is approaching the vehicle 1 based on the position information and speed information specified in the record on the sixth line. When the state of the object candidate is the same as the state of the keyword included in the command list 15, the analysis unit 13 determines that the state of the object referred to in the content of the user's utterance matches the state of the right rear vehicle.
- the analysis unit 13 outputs to the response generation unit 14 the command ID “id0006” of the record on the third line and the utterance intention information output from the natural language understanding unit 11 .
- the response generation unit 14 generates a response message and a response based on the utterance intention information extracted by the natural language understanding unit 11 and input via the analysis unit 13 and the command ID output from the analysis unit 13. Output command.
- a response message is a voice signal or text information of a message presented to the user in response to the content of the user's utterance.
- the response command is an instruction signal that causes the HMI 6 to output a response message in response to the content of the user's utterance, or causes the in-vehicle device 2 to perform a predetermined operation.
- the response generation unit 14 refers to the response list 16 stored in the storage device 9 when generating response messages and response commands.
- FIG. 4 is a schematic diagram of an example of the response list 16. As shown in FIG.
- the response list 16 stores records of multiple lines. Each record contains utterance intention information, a command ID, a response message, and a response command. That is, in the response list 16, the information on the utterance intention, the command ID, the response message, and the response command are recorded in association with each other.
- the natural language understanding unit 11 extracts "meaning inquiry” as the utterance intention as described above.
- the analysis unit 13 outputs the command ID "id0001".
- the response generation unit 14 extracts the record in the first line that matches the utterance intention "meaning inquiry” and the command ID "id0001".
- the response generation unit 14 outputs to the HMI 6 the response command "command C001" for notifying the meaning of the warning light stored in the record on the first line, and the response message "meaning that an abnormality has occurred in the EV system.
- the voice information or text information of "Desu” is emitted from the speaker of the HMI 6 or displayed on the display device.
- the command C001 is an instruction signal that causes the HMI 6 to output a response message, and so are the commands C0002, C003, C005 and C006 shown in FIG.
- the response generation unit 14 extracts the record in the second line that matches the utterance intention "state inquiry" and the command ID "id0002".
- the response generation unit 14 outputs to the HMI 6 a response message “the temperature of the engine cooling water is high” and a response command “command C002” for notifying the state of the radiator stored in the record on the second line.
- a response message regarding the state of the object may be stored in association with the utterance intention "meaning inquiry”.
- the response generation unit 14 can output a response message regarding the state of the object in response to the utterance of the utterance intention "meaning inquiry”.
- a response message regarding a coping method according to the state of the object may be stored in association with the utterance intention "meaning inquiry".
- the record on the third line stores the utterance intention "meaning inquiry” and the command ID "id0003".
- the response generator 14 selects the record on the third line, and outputs the response message "Please stop the car in a safe place” and the response command "command C003" to the HMI 6. It notifies how to deal with the case where the temperature of the engine cooling water is high.
- the natural language understanding unit 11 outputs the utterance intention "open the window”
- the analysis unit 13 outputs the command ID "id0004".
- the response generation unit 14 extracts the record on the fourth line that matches the utterance intention "open window” and the command ID "id0004".
- the response generation unit 14 outputs a response command “command C004”, which is a command signal for opening the driver's seat window, to the in-vehicle equipment controller 3 .
- the in-vehicle device controller 3 opens the driver's seat window, which is an example of the in-vehicle device 2, according to the response command "command C004".
- the response generation unit 14 may output a response command to close the driver's seat window to the in-vehicle device controller 3 when the user utters "close this window.”
- the user utters "I am making a strange sound but it is okay”
- the natural language understanding unit 11 extracts the utterance intention “inquire about the cause of the abnormal sound”
- the analysis unit 13 outputs the command ID "id0005".
- the response generation unit 14 extracts the record on the fifth line that matches the utterance intention "inquiry about the cause of abnormal sound” and the command ID "id0005".
- the response generation unit 14 outputs to the HMI 6 the response message "engine oil seems to be insufficient” notifying the cause of the abnormal sound stored in the record on the fifth line, and the response command "command C005".
- the user utters "What is approaching at a great speed?"
- the natural language understanding unit 11 extracts the utterance intention "inquire about the surrounding situation”
- the analysis unit 13 outputs the command ID "id0006”.
- the response generation unit 14 extracts the record on the sixth line that matches the utterance intention "inquire about the surrounding situation” and the command ID "id0006”.
- the response generation unit 14 outputs to the HMI 6 the response message "A vehicle is approaching on the right rear” and the response command "command C006", which is stored in the record on the sixth line and notifies the surrounding situation.
- FIG. 5 is a flow chart of an example of the speech recognition method of the embodiment.
- the input signal acquisition unit 12 acquires the control signal of the vehicle-mounted device 2 generated by the vehicle-mounted device controller 3 and the output signals of the in-vehicle sensor 4 and the external sensor 5 as input signals.
- the speech recognition unit 10 recognizes the speech input from the user acquired by the HMI 6 and converts it into language information such as text.
- the natural language understanding unit 11 analyzes the language information output from the speech recognition unit 10 by natural language processing, and extracts the user's utterance intention.
- step S ⁇ b>3 the natural language understanding unit 11 extracts keywords related to the utterance intention from the language information output from the speech recognition unit 10 .
- step S ⁇ b>4 the analysis unit 13 detects the state or position of the target object candidate mentioned in the utterance content of the user based on the input signal acquired by the input signal acquisition unit 12 .
- step S5 the analysis unit 13, based on the information of the keywords extracted by the natural language understanding unit 11, identifies the target object candidate that matches the state or position recognized from the speech content as the target object mentioned in the speech content.
- step S ⁇ b>6 the response generation unit 14 outputs a response message according to the utterance intention extracted by the natural language understanding unit 11 and the object estimated by the analysis unit 13 .
- the in-vehicle device 2 is operated.
- the voice recognition device 7 acquires the contents of the speech of the vehicle user and estimates the object mentioned in the contents of the speech.
- the speech recognition device 7 acquires at least one of a control signal of a device mounted on the vehicle 1 and an output signal of a sensor mounted on the vehicle 1 as an input signal, recognizes an expression representing a state or a position from the utterance content, The state or position of the candidate object is detected based on the input signal, and the candidate object that matches the state or position recognized from the utterance content is estimated as the object mentioned in the utterance content. This makes it possible to improve the accuracy of estimating the object mentioned in the utterance content in voice recognition for acquiring the utterance content of the vehicle user and estimating the target object mentioned in the utterance content.
- a target object candidate may be a device controlled by a control signal acquired as an input signal.
- the speech recognition device 7 may detect the control state by the control signal as the candidate state of the object. Thereby, the state of the target object candidate can be determined based on the control signal for controlling the device.
- the input signal may be a control signal of a visual information presentation device provided inside the vehicle 1 to present visual information to the user, and the control state may be a display state of the visual information.
- the state of the visual information presentation device can be determined as a target object candidate.
- the visual information presentation device may be a warning light
- the control state may be the ON state or the OFF state of the warning light. As a result, the state of the warning light can be determined as a candidate for the object.
- the input signal may be a control signal of an auditory information presentation device provided in the vehicle 1 to present auditory information to the user, and the control state may be an auditory information notification state.
- the state of the auditory information presentation device can be determined as a target object candidate.
- the auditory information presentation device may be an alarm device, and the control state may be an alarm output state or a stop state. As a result, the state of the alarm device can be determined as a candidate for the object.
- the speech recognition device 7 may store the acquired input signal and detect the state or position of the target object candidate based on the stored past input signal and the currently acquired input signal. As a result, even if the state or position of the object changes before the user speaks, the object can be estimated based on the past state or position before the user speaks.
- the speech recognition device 7 may output information about the object mentioned in the utterance content, and may output information about the state of the object mentioned in the utterance content.
- the speech recognition device 7 may store a coping method according to the state of the target object candidate in a predetermined storage device, and output information on the coping method according to the state of the object referred to in the utterance content. . This makes it possible to provide information about the object mentioned in the content of the user's utterance.
- a candidate object may be a device mounted on the vehicle 1 .
- the speech recognition device 7 may acquire the output signal of a sensor that detects the state inside the vehicle 1 as an input signal, and detect the state or position of the device based on the acquired output signal. Accordingly, the state or position of the equipment mounted on the vehicle 1 can be determined based on the output signal of the sensor that detects the state inside the vehicle 1 .
- the speech recognition device 7 acquires, as an input signal, the output signal of a sensor that detects the seating position of the occupant of the vehicle 1, and detects that the window that is a candidate for the object is the window near the seating position.
- an expression representing the position of the window to be opened is recognized from the speech content including the opening instruction for opening the window of the vehicle 1, and the position of the window recognized from the speech content indicates the vicinity of the seating position.
- the window near the seating position may be estimated as the object. From the output signal of the sensor that detects the seating position of the occupant and the utterance content including the opening instruction for opening the window of the vehicle 1, it can be estimated that the window to be opened is the window near the seating position of the user. .
- the speech recognition device 7 acquires, as an input signal, an output signal from a sensor that detects sound information of an abnormal sound from the vehicle 1, and based on the sound information, estimates a device that is the source of the abnormal sound.
- object candidates may be objects around the vehicle 1 .
- the speech recognition device 7 may acquire the output signal of a sensor that detects surrounding objects as an input signal, and detect the state or position of the surrounding object based on the acquired output signal.
- the speech recognition device 7 may acquire a captured image generated by a camera that captures the surroundings of the vehicle 1 as an input signal, and recognize an object approaching the vehicle 1 as a target object candidate based on the captured image. .
- the state or position of the object around the vehicle 1 can be determined based on the output signal of the sensor that detects the object around the vehicle 1 .
- the sensors may include pressure sensors, seat belt sensors, cameras, ranging sensors, microphones, and biosensors. This makes it possible to detect the states and positions of various object candidates inside or outside the vehicle.
- SYMBOLS 1... Vehicle, 2... On-vehicle equipment, 3... On-vehicle equipment controller, 4... In-vehicle sensor, 5... External sensor, 6... Human-machine interface, 7... Voice recognition device, 8... Processor, 9... Storage device, 10... Voice recognition Unit 11 Natural language understanding unit 12 Input signal acquisition unit 13 Analysis unit 14 Response generation unit 15 Command list 16 Response list
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Mechanical Engineering (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Emergency Alarm Devices (AREA)
- Navigation (AREA)
Abstract
Description
この場合に入力システムが正確に指示を特定するためには、いくつかのキーワードを正確に発話する必要がある。しかしながら全てのシーンで利用者が正確に指示を発話することは困難である。例えば、車両の運転をしている場合のように利用者が他の作業をしながら音声入力システムを利用する場合、指示を実行するためのキーワードを想像することが困難である。
本発明では、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する音声認識において、発話内容で言及された対象物の推定精度を向上することを目的とする。
本発明の目的及び利点は、特許請求の範囲に示した要素及びその組合せを用いて具現化され達成される。前述の一般的な記述及び以下の詳細な記述の両方は、単なる例示及び説明であり、特許請求の範囲のように本発明を限定するものでないと解するべきである。
図1は、実施形態の音声認識装置を備えた車両の一例の概略構成図である。車両1には、車載機器2と、車載機器コントローラ3と、車内センサ4と、外部センサ5と、ヒューマンマシンインタフェース(以下「HMI」と表記する)6と、音声認識装置7を備える。
車載機器2は、車両1に搭載されている各種機器である。車載機器2は、例えば、車両1の運転席のインストルメントパネルやAピラー付近に配置された警告灯であってよい。警告灯は、車両1の車内に設けられて利用者に視覚情報を提示する視覚情報提示機器の一例である。
また例えば、車載機器2は、車両1のドアに設けられた窓や、車両1のエンジン、制動装置であってもよい。
記憶装置は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM(Read Only Memory)及びRAM(Random Access Memory)等のメモリを含んでよい。
外部センサ5は、車両1の周囲に存在する物体を検出するセンサである。例えば車内センサ4は、例えば車両1の周囲環境を撮影する外部カメラであってもよく、レーザレンジファインダ(LRF)やレーダ、LiDAR(Light Detection and Ranging)のレーザレーダなどの測距センサであってもよい。
またHMI6は、利用者からの音声入力を取得する音声入力装置(例えばマイクロフォン)を備える。
記憶装置9は、半導体記憶装置や、磁気記憶装置、光学記憶装置等を備えてよい。記憶装置9は、レジスタ、キャッシュメモリ、主記憶装置として使用されるROM及びRAM等のメモリを含んでよい。以下に説明する音声認識装置7の機能は、例えばプロセッサ8が、記憶装置9に格納されたコンピュータプログラムを実行することにより実現される。
なお、音声認識装置7を、以下に説明する各情報処理を実行するための専用のハードウエアにより形成してもよい。例えば、音声認識装置7は、汎用の半導体集積回路中に設定される機能的な論理回路を備えてもよい。例えば音声認識装置7はフィールド・プログラマブル・ゲート・アレイ等のプログラマブル・ロジック・デバイス等を有していてもよい。
音声認識部10は、HMI6が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。音声認識部10は、音声入力を変換して生成した言語情報を音声認識部10に出力する。
例えば、利用者が警告灯の意味を質問するために「今ついた赤い車のランプ何?」と発話した場合に、自然言語理解部11は発話意図として「意味の照会」を抽出し、キーワードとして「赤」、「点灯」、「車」を抽出する。
自然言語理解部11は、抽出した発話意図の情報と抽出したキーワードの情報を分析部13へ出力する。
また、入力信号取得部12は、車内センサ4及び外部センサ5の出力信号を入力信号として取得する。
入力信号取得部12は、取得した車載機器2の制御信号と車内センサ4及び外部センサ5の出力信号を、検出した状況を表現するために予め定めた特定のデータ形式に変換する。
また例えば、警報装置が動作して警報音を出力したときにフラグF3の値を「True」に設定し、警報音を出力していない場合にフラグF3の値を「False」に設定してよい。
例えば、車内カメラ、圧力センサ、シートベルトセンサ、生体センサなどの車内センサ4の出力信号に基づいて検出した車内の利用者の位置に応じたフラグを設定してよい。例えば、利用者が運転席に座っている場合にフラグF4の値を「True」に設定し、助手席に座っている場合にフラグF4の値を「False」に設定してよい。
また例えば入力信号取得部12は、車内センサ4のマイクロフォンが出力した音情報を解析し、音情報の特徴に基づいて、車両1から発生する異常音の音源となる車載機器2と、この異常音の原因を推定してもよい。入力信号取得部12は、音源となる車載機器2と異常音の原因とに基づいてフラグを設定してよい。例えば、異常音の音源が車両1のエンジンであり、異常音の原因がエンジンオイルの不足であると推定された場合にフラグF5の値を「True」に設定し、異常音を検出しない場合にフラグF5の値を「False」に設定してよい。制動装置から発生した異常音についても同様にフラグを設定してもよい。また、同一の車載機器2が発生する複数の異なる原因の異常音について、それぞれフラグを別個に設定してもよい。ここで、異常音の原因の推定には、入力信号取得部12が、車内センサ4のマイクロフォンから取得した音情報と、予め記憶された車載機器の正常状態の音情報とを周波数解析し、所定の周波数パターンまたは当該周波数パターンを含むパラメータのパターンが検出された場合には異常であると判定してもよい。また、異常音の音源がエンジンの場合、予めエンジンオイルが不足した状態の音情報を記憶しておき、マイクロフォンから取得した音情報との間で周波数解析を行うことにより、通常のエンジン音源の周波数パターンと比較し一定の範囲を超えた異なる周波数的特徴が得られた場合、原因がエンジンオイルの不足であることを判定してもよい。
入力信号取得部12は、変換後の入力信号(以下、単に「入力信号」と表記する)を分析部13へ出力する。
分析部13は、入力信号取得部12から出力された入力信号に基づいて、利用者の発話内容で言及された対象物の候補の状態又は位置を検出する。
例えば、分析部13は、対象物の候補の状態として制御信号による車載機器2の制御状態を検出する。例えば分析部13は、警告灯が点灯状態であるか消灯状態であるか(すなわち視覚情報提示機器による視覚情報の表示状態)を検出してよい。
コマンドリスト15には、複数行のレコードが格納されている。各々のレコードには、コマンドIDと、対象物の候補の情報と、対象物の候補に関するキーワードと、対象物の候補の状態又は位置の検出に用いる入力信号を指定する情報とが記録されている。すなわち、コマンドリスト15には、コマンドIDと、対象物の候補の情報と、キーワードと、入力信号を指定する情報とが関連付けて記録されている。なお、対象物の候補に関するキーワードとしては、対象物の候補の状態又は位置を示すキーワードが記録されている。対象物の候補によって対象物の態様を示すキーワードを記録してもよい。
また例えば分析部13は、警報装置による警報の出力状態であるか停止状態であるか(すなわち聴覚情報提示機器による聴覚情報の報知状態)を検出する。
例えばコマンドリスト15の第3行目のレコードは、警報装置の状態を示す入力情報として入力信号のフラグF3を指定している。分析部13はフラグF3に基づき警報装置が出力状態であるか停止状態であるかを検出する。
例えばコマンドリスト15の第4行目のレコードは、対象物の候補となる窓が運転席窓であるか否かを示す情報として入力信号のフラグF4を指定している。フラグF4は利用者が運転席に座っている場合に「True」に設定され、座っていない場合に「False」に設定される。分析部13は、フラグF4が「True」である場合に運転席窓が対象物の候補の窓であると検出し、フラグF4が「False」である場合に運転席窓が対象物の候補の窓でないと検出する。
例えばコマンドリスト15の第5行目のレコードは、対象物の候補のエンジンが異常音の音源であるか否かを示す情報として入力信号のフラグF5を指定している。分析部13は、フラグF5が「True」である場合にエンジンが異常音の音源であり、異常音の原因がエンジンオイルの不足である推定する。フラグF5が「False」である場合にエンジンが異常音の音源でないと検出する。
例えばコマンドリスト15の第6行目のレコードは、車両1の右後方において他車両が接近するか否かを示す情報として、入力信号のフラグF6を指定している。分析部13は、フラグF6が「True」である場合に右後方において他車両が接近していると検出し、「False」である場合に右後方において他車両が接近していないと判定する。
また、入力信号に含まれている距離情報(例えば「10m」)に基づいて車両1の右後方を走行する他車両までの距離(すなわち他車両の位置)を検出してもよい。また入力信号に含まれている速度情報(例えば「60km/h」)に基づいて車両1の右後方を走行する他車両の速度(すなわち他車両の速度)を検出してもよい。
なお、分析部13は、受信した入力信号を記憶装置9に記憶してもよい。分析部13は、現在入力されている入力信号に加えて又は代えて記憶装置9に記憶された入力信号に基づいて対象物の候補の状態又は位置を検出してもよい。また例えば、過去に入力された入力信号と現在入力されている入力信号との時系列に基づいて対象物の候補の状態又は位置を検出してもよい。過去に入力された入力信号を記憶しておき、現在の入力信号との差分(TrueとFalseの違い)を検出することにより対象物の候補の状態を推定してもよい。また、例えば過去の入力信号に含まれている右後方の他車両までの距離情報を記憶しておき、現在の距離情報が過去の距離情報よりも小さくなった場合に、右後方において他車両が接近していると推定してもよい。
具体的には、自然言語理解部11から出力されたキーワードの情報が示す状態又は位置と、入力信号から検出した対象物の候補の状態又は位置と、が適合する場合に、この対象物の候補を発話内容で言及された対象物であると推定する。
分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「点灯」と同一のキーワードを含む第1行目のレコード(EVシステム警告灯)と第2行目のレコード(水温警告灯)を選択する。
対象物の候補の状態がコマンドリスト15に含まれるキーワード「点灯」と同じ状態である場合に、分析部13は、利用者の発話内容で言及された対象物の状態とEVシステム警告灯の状態とが適合すると判定し、発話内容で言及された対象物はEVシステム警告灯であると推定する。
また分析部13は、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
この場合には、分析部13は、対象物の態様を示すキーワード「赤」、「車」を補助的に用いて、発話内容で言及された対象物を判定してよい。
対象物の候補の状態がコマンドリスト15に含まれるキーワードと同じ状態である場合に、分析部13は、利用者の発話内容で言及された対象物の状態と警報装置の状態とが適合すると判定し、発話内容で言及された対象物は警報装置であると推定する。
分析部13は、第3行目のレコードのコマンドID「id0003」と、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「ここ」と同一のキーワードを含む第4行目のレコード(運転席窓)を選択する。
分析部13は、第3行目のレコードのコマンドID「id0004」と、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「変な音」と同一のキーワードを含む第5行目のレコード(エンジン)を選択する。
対象物の候補の状態がコマンドリスト15に含まれるキーワードと同じ状態である場合に、分析部13は、利用者の発話内容で言及された対象物の状態とエンジンの状態とが適合すると判定し、発話内容で言及された対象物はエンジンであると推定する。また、異常音の原因がエンジンオイルの不足であると推定する。
分析部13は、第3行目のレコードのコマンドID「id0005」と、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
分析部13は、コマンドリスト15を参照して、自然言語理解部11が抽出したキーワード「近づいてくる」と同一のキーワードを含む第6行目のレコード(右後方車両)を選択する。
対象物の候補の状態がコマンドリスト15に含まれるキーワードと同じ状態である場合に、分析部13は、利用者の発話内容で言及された対象物の状態と右後方車両の状態とが適合すると判定し、発話内容で言及された対象物は右後方車両であると推定する。
分析部13は、第3行目のレコードのコマンドID「id0006」と、自然言語理解部11から出力された発話意図の情報を、応答生成部14へ出力する。
応答メッセージは、利用者の発話内容に対して利用者に提示されるメッセージの音声信号やテキスト情報である。応答コマンドは、利用者の発話内容に対してHMI6に応答メッセージを出力させたり、車載機器2の所定の動作を実行させる命令信号である。
応答リスト16には、複数行のレコードが格納されている。各々のレコードには、発話意図の情報と、コマンドIDと、応答メッセージと、応答コマンドとが記録されている。すなわち応答リスト16には、発話意図の情報と、コマンドIDと、応答メッセージと、応答コマンドとが関連付けて記録されている。
応答生成部14は、第1行目のレコードに記憶されていた警告灯の意味を通知するための応答コマンド「コマンドC001」をHMI6に出力し、応答メッセージ「EVシステムに異常が発生したという意味です」の音声情報やテキスト情報を、HMI6のスピーカから放音または表示装置に表示させる。このように、コマンドC001はHMI6に応答メッセージを出力させる命令信号であり、図4に示したコマンドC0002、C003、C005及びC006も同様である。
なお応答リスト16に、発話意図「意味の照会」に対して対象物の状態に関する応答メッセージを対応付けて記憶してもよい。この場合に応答生成部14は、発話意図「意味の照会」の発話に対して、対象物の状態に関する応答メッセージを出力することができる。
例えば、第3行目のレコードには、発話意図「意味の照会」とコマンドID「id0003」とが記憶されている。例えば利用者が「今ついた赤い温度計のランプ何?」と発話した場合に、自然言語理解部11が発話意図「意味の照会」を抽出し、分析部13がコマンドID「id0002」を出力した場合を想定する。
この場合に、応答生成部14は第3行目のレコードを選択して、応答メッセージ「車を安全な場所に停車して下さい」と、応答コマンド「コマンドC003」をHMI6に出力することにより、エンジン冷却水の温度が高い場合に応じた対処方法を通知する。
応答生成部14は、運転席窓を開放する命令信号である応答コマンド「コマンドC004」を車載機器コントローラ3へ出力する。車載機器コントローラ3は、応答コマンド「コマンドC004」に従って車載機器2の一例である運転席窓を開放する。なお、応答生成部14は、利用者が「ここの窓閉めて」と発話した場合に、運転席窓を閉める応答コマンドを車載機器コントローラ3へ出力してもよい。
応答生成部14は、第5行目のレコードに記憶されていた異常音の原因を通知する応答メッセージ「エンジンオイルが足りないようです」と、応答コマンド「コマンドC005」をHMI6に出力する。
応答生成部14は、第6行目のレコードに記憶されていた周囲状況を通知する応答メッセージ「右後方に車両が接近しています」と、応答コマンド「コマンドC006」をHMI6に出力する。
図5は、実施形態の音声認識方法の一例のフローチャートである。
ステップS1において入力信号取得部12は、車載機器コントローラ3が生成した車載機器2の制御信号や、車内センサ4及び外部センサ5の出力信号を入力信号として取得する。
ステップS2において音声認識部10は、HMI6が取得した利用者からの音声入力を認識してテキストなどの言語情報に変換する。自然言語理解部11は、音声認識部10から出力された言語情報を自然言語処理によって解析し、利用者の発話意図を抽出する。ステップS3において自然言語理解部11は、音声認識部10から出力された言語情報から、発話意図に関連するキーワードを抽出する。
ステップS5において分析部13は、自然言語理解部11が抽出したキーワードの情報に基づいて、発話内容から認識された状態又は位置に適合する対象物の候補を、発話内容で言及された対象物と推定する。
ステップS6において応答生成部14は、自然言語理解部11が抽出した発話意図と、分析部13が推定した対象物に応じて、応答メッセージを出力する。または車載機器2を動作させる。
(1)音声認識装置7は、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する。音声認識装置7は、車両1に搭載された機器の制御信号又は車両1に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し、発話内容から状態又は位置を表す表現を認識し、入力信号に基づいて対象物の候補の状態又は位置を検出し、発話内容から認識された状態又は位置に適合する対象物の候補を、発話内容で言及された対象物と推定する。
これにより、車両の利用者の発話内容を取得して、発話内容で言及された対象物を推定する音声認識において、発話内容で言及された対象物の推定精度を向上できる。
(3)例えば入力信号は、車両1の車内に設けられて利用者に視覚情報を提示する視覚情報提示機器の制御信号であってよく、制御状態は、視覚情報の表示状態であってよい。これにより、対象物の候補として視覚情報提示機器の状態を判定できる。
(4)例えば視覚情報提示機器は警告灯であってよく、制御状態は警告灯の点灯状態又は消灯状態であってよい。これにより、対象物の候補として警告灯の状態を判定できる。
(6)例えば聴覚情報提示機器は警報装置であってよく、制御状態は警報の出力状態又は停止状態であってよい。これにより対象物の候補として警報装置の状態を判定できる。
(8)音声認識装置7は、発話内容で言及された対象物に関する情報を出力してもよく、発話内容で言及された対象物の状態に関する情報を出力してもよい。音声認識装置7は、対象物の候補の状態に応じた対処方法を所定の記憶装置に記憶して、発話内容で言及された対象物の状態に応じた対処方法に関する情報を出力してもよい。
これにより、利用者の発話内容で言及された対象物についての情報を提供できる。
これにより、車両1の車内の状態を検出するセンサの出力信号に基づいて車両1に搭載された機器の状態又は位置を判定できる。
(10)音声認識装置7は、入力信号として、車両1の乗員の着座位置を検出するセンサの出力信号を取得し、対象物の候補となる窓が、着座位置の近傍の窓であると検出し、車両1の窓を開放するための開放指示を含んだ発話内容から、開放すべき窓の位置を表す表現を認識し、発話内容から認識された窓の位置が着座位置の近傍を示す場合に、着座位置の近傍の窓を対象物として推定してよい。
乗員の着座位置を検出するセンサの出力信号と車両1の窓を開放するための開放指示を含んだ発話内容から、開放する対象の窓が利用者の着座位置の近傍の窓であると推定できる。
(11)音声認識装置7は、入力信号として、車両1からの異常音の音情報を検出するセンサの出力信号を取得し、音情報に基づいて、異常音の音源となる機器を推定することにより、対象物の候補となる機器が異常音を発生している状態を検出してもよい。これにより、音情報を検出するセンサの出力信号に基づいて、車両1に搭載された機器の状態を推定できる。
(12)例えば対象物の候補は、車両1の周囲の物体であってもよい。音声認識装置7は、入力信号として、周囲の物体を検出するセンサの出力信号を取得して、取得した出力信号に基づいて周囲の物体の状態又は位置を検出してもよい。
例えば音声認識装置7は、入力信号として車両1の周囲を撮影するカメラが生成する撮像画像を取得し、撮像画像に基づいて、車両1に接近する物体を対象物の候補として認識してもよい。
これにより、車両1の周囲の物体を検出するセンサの出力信号に基づいて車両1の周囲の物体の状態又は位置を判定できる。
(13)例えばセンサは、圧力センサ、シートベルトセンサ、カメラ、測距センサ、マイクロフォン、生体センサのいずれかを含んでもよい。これにより、車内又は車外のさまざまな対象物の候補の状態や位置を検出できる。
Claims (17)
- 車両の利用者の発話内容を取得して、前記発話内容で言及された対象物を推定する音声認識方法であって、
前記車両に搭載された機器の制御信号又は前記車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得し、
前記発話内容から状態又は位置を表す表現を認識し、
前記入力信号に基づいて前記対象物の候補の状態又は位置を検出し、
前記発話内容から認識された状態又は位置に適合する前記対象物の候補を、前記発話内容で言及された対象物と推定する、
ことを特徴とする音声認識方法。 - 前記対象物の候補は、前記入力信号として取得した前記制御信号に制御される機器であり、
前記制御信号による制御状態を前記対象物の候補の状態として検出する、ことを特徴とする請求項1に記載の音声認識方法。 - 前記入力信号は、前記車両の車内に設けられて前記利用者に視覚情報を提示する視覚情報提示機器の制御信号であり、
前記制御状態は、前記視覚情報の表示状態である、
ことを特徴とする請求項2に記載の音声認識方法。 - 前記視覚情報提示機器は警告灯であり、前記制御状態は前記警告灯の点灯状態又は消灯状態であることを特徴とする請求項3に記載の音声認識方法。
- 前記入力信号は、前記車両の車内に設けられて前記利用者に聴覚情報を提示する聴覚情報提示機器の制御信号であり、
前記制御状態は、前記聴覚情報の報知状態である、
ことを特徴とする請求項2に記載の音声認識方法。 - 前記聴覚情報提示機器は警報装置であって、前記制御状態は警報の出力状態又は停止状態であることを特徴とする鵜請求項5に記載の音声認識方法。
- 取得した前記入力信号を記憶し、
記憶した過去の前記入力信号と現在取得している前記入力信号とに基づいて前記対象物の候補の状態又は位置を検出する、
ことを特徴とする請求項1~6のいずれか一項に記載の音声認識方法。 - 前記発話内容で言及された対象物に関する情報を出力することを特徴とする請求項1~7のいずれか一項に記載の音声認識方法。
- 前記発話内容で言及された対象物の状態に関する情報を出力することを特徴とする請求項1~7のいずれか一項に記載の音声認識方法。
- 前記対象物の候補の状態に応じた対処方法を所定の記憶装置に記憶し、
前記発話内容で言及された対象物の状態に応じた前記対処方法に関する情報を出力することを特徴とする請求項1~7のいずれか一項に記載の音声認識方法。 - 前記対象物の候補は、前記車両に搭載された機器であり、
前記入力信号として前記車両の車内の状態を検出するセンサの出力信号を取得して、取得した前記出力信号に基づいて前記機器の状態又は位置を検出する、ことを特徴とする請求項1に記載の音声認識方法。 - 前記入力信号として、前記車両の乗員の着座位置を検出するセンサの出力信号を取得し、
前記対象物の候補となる窓が、前記着座位置の近傍の窓であると検出し、
前記車両の窓を開閉するための開閉指示を含んだ前記発話内容から、開閉すべき窓の位置を表す表現を認識し、
前記発話内容から認識された窓の位置が前記着座位置の近傍を示す場合に、前記着座位置の近傍の窓を前記対象物として推定する、
ことを特徴とする請求項11に記載の音声認識方法。 - 前記入力信号として、前記車両からの異常音の音情報を検出するセンサの出力信号を取得し、
前記音情報に基づいて、前記異常音の音源となる機器を推定することにより、前記対象物の候補となる前記機器が前記異常音を発生している状態を検出する、
ことを特徴とする請求項11に記載の音声認識方法。 - 前記対象物の候補は、前記車両の周囲の物体であり、
前記入力信号として、前記周囲の物体を検出するセンサの出力信号を取得して、取得した前記出力信号に基づいて前記周囲の物体の状態又は位置を検出する、ことを特徴とする請求項1に記載の音声認識方法。 - 前記入力信号として前記車両の周囲を撮影するカメラが生成する撮像画像を取得し、
前記撮像画像に基づいて、前記車両に接近する物体を前記対象物の候補として認識する、
ことを特徴とする請求項14に記載の音声認識方法。 - 前記センサは、圧力センサ、シートベルトセンサ、カメラ、測距センサ、マイクロフォン、生体センサのいずれかを含むことを特徴とする請求項1~15のいずれか一項に記載の音声認識方法。
- 車両の利用者の発話内容を取得して、前記発話内容で言及された対象物を推定する音声認識装置であって、
前記車両に搭載された機器の制御信号又は前記車両に搭載されたセンサの出力信号の少なくとも一方を入力信号として取得する処理と、
前記発話内容から状態又は位置を表す表現を認識する処理と、
前記入力信号に基づいて前記対象物の候補の状態又は位置を検出する処理と、
前記発話内容から認識された状態又は位置に適合する前記対象物の候補を、前記発話内容で言及された対象物と推定する処理と、
を実行するコントローラを備えることを特徴とする音声認識装置。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN202280089504.8A CN118613865A (zh) | 2022-01-26 | 2022-01-26 | 声音识别方法和声音识别装置 |
| JP2023576247A JP7722475B2 (ja) | 2022-01-26 | 2022-01-26 | 音声認識方法及び音声認識装置 |
| US18/832,374 US20250104711A1 (en) | 2022-01-26 | 2022-01-26 | Voice recognition method and voice recognition device |
| EP22922555.2A EP4470842A4 (en) | 2022-01-26 | 2022-01-26 | SPEECH RECOGNITION METHOD AND SPEECH RECOGNITION DEVICE |
| PCT/IB2022/000040 WO2023144573A1 (ja) | 2022-01-26 | 2022-01-26 | 音声認識方法及び音声認識装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/IB2022/000040 WO2023144573A1 (ja) | 2022-01-26 | 2022-01-26 | 音声認識方法及び音声認識装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| WO2023144573A1 true WO2023144573A1 (ja) | 2023-08-03 |
| WO2023144573A8 WO2023144573A8 (ja) | 2024-08-29 |
Family
ID=87470979
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/IB2022/000040 Ceased WO2023144573A1 (ja) | 2022-01-26 | 2022-01-26 | 音声認識方法及び音声認識装置 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US20250104711A1 (ja) |
| EP (1) | EP4470842A4 (ja) |
| JP (1) | JP7722475B2 (ja) |
| CN (1) | CN118613865A (ja) |
| WO (1) | WO2023144573A1 (ja) |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119389232A (zh) * | 2024-10-28 | 2025-02-07 | 广州汽车集团股份有限公司 | 车外环境感知方法、车载终端、服务器及计算机程序产品 |
| CN119517023A (zh) * | 2024-10-09 | 2025-02-25 | 岚图汽车科技有限公司 | 车辆语音控制方法、装置、设备及介质 |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20250048974A (ko) * | 2023-10-04 | 2025-04-11 | 현대자동차주식회사 | 차량 헤드 유닛 시스템에서 음성인식을 위한 장치 및 방법 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006343829A (ja) * | 2005-06-07 | 2006-12-21 | Denso Corp | 車両周辺撮影装置および車両周辺撮影方法 |
| JP2010281855A (ja) * | 2009-06-02 | 2010-12-16 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
| JP2015089697A (ja) * | 2013-11-05 | 2015-05-11 | トヨタ自動車株式会社 | 車両用音声認識装置 |
| JP2019127192A (ja) * | 2018-01-25 | 2019-08-01 | トヨタ自動車株式会社 | 車載装置 |
| JP2019183504A (ja) * | 2018-04-10 | 2019-10-24 | 株式会社デンソー | 車両用ドア制御装置 |
| JP2020126166A (ja) * | 2019-02-05 | 2020-08-20 | 本田技研工業株式会社 | エージェントシステム、情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR101977090B1 (ko) * | 2015-07-22 | 2019-05-10 | 엘지전자 주식회사 | 차량 제어 장치 및 이를 구비한 차량의 제어방법 |
| CN110914129B (zh) * | 2017-10-03 | 2021-06-15 | 谷歌有限责任公司 | 使用基于传感器的验证的车辆功能控制 |
| JP7084158B2 (ja) * | 2018-02-23 | 2022-06-14 | トヨタ自動車株式会社 | 情報処理方法、プログラム、情報処理装置、及び情報処理システム |
| US11590929B2 (en) * | 2020-05-05 | 2023-02-28 | Nvidia Corporation | Systems and methods for performing commands in a vehicle using speech and image recognition |
| KR20220060627A (ko) * | 2020-11-04 | 2022-05-12 | 현대자동차주식회사 | 차량 제어 시스템 및 차량 제어 방법 |
-
2022
- 2022-01-26 EP EP22922555.2A patent/EP4470842A4/en active Pending
- 2022-01-26 JP JP2023576247A patent/JP7722475B2/ja active Active
- 2022-01-26 WO PCT/IB2022/000040 patent/WO2023144573A1/ja not_active Ceased
- 2022-01-26 US US18/832,374 patent/US20250104711A1/en active Pending
- 2022-01-26 CN CN202280089504.8A patent/CN118613865A/zh active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2006343829A (ja) * | 2005-06-07 | 2006-12-21 | Denso Corp | 車両周辺撮影装置および車両周辺撮影方法 |
| JP2010281855A (ja) * | 2009-06-02 | 2010-12-16 | Nissan Motor Co Ltd | 音声対話装置および音声対話方法 |
| JP2015089697A (ja) * | 2013-11-05 | 2015-05-11 | トヨタ自動車株式会社 | 車両用音声認識装置 |
| JP2019127192A (ja) * | 2018-01-25 | 2019-08-01 | トヨタ自動車株式会社 | 車載装置 |
| JP2019183504A (ja) * | 2018-04-10 | 2019-10-24 | 株式会社デンソー | 車両用ドア制御装置 |
| JP2020126166A (ja) * | 2019-02-05 | 2020-08-20 | 本田技研工業株式会社 | エージェントシステム、情報処理装置、情報処理方法、およびプログラム |
Non-Patent Citations (1)
| Title |
|---|
| See also references of EP4470842A4 * |
Cited By (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN119517023A (zh) * | 2024-10-09 | 2025-02-25 | 岚图汽车科技有限公司 | 车辆语音控制方法、装置、设备及介质 |
| CN119389232A (zh) * | 2024-10-28 | 2025-02-07 | 广州汽车集团股份有限公司 | 车外环境感知方法、车载终端、服务器及计算机程序产品 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP4470842A4 (en) | 2025-01-22 |
| US20250104711A1 (en) | 2025-03-27 |
| JPWO2023144573A1 (ja) | 2023-08-03 |
| EP4470842A1 (en) | 2024-12-04 |
| WO2023144573A8 (ja) | 2024-08-29 |
| JP7722475B2 (ja) | 2025-08-13 |
| CN118613865A (zh) | 2024-09-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7722475B2 (ja) | 音声認識方法及び音声認識装置 | |
| US11404075B1 (en) | Vehicle voice user interface | |
| JP2021033048A (ja) | 車載装置、発声を処理する方法およびプログラム | |
| US9311930B2 (en) | Audio based system and method for in-vehicle context classification | |
| JPWO2023144573A5 (ja) | ||
| US11996099B2 (en) | Dialogue system, vehicle, and method of controlling dialogue system | |
| JP6677126B2 (ja) | 車両用対話制御装置 | |
| WO2018233300A1 (zh) | 语音识别方法和语音识别装置 | |
| US11021147B2 (en) | Vehicles and methods for determining objects of driver focus | |
| KR20240035003A (ko) | 점진적 머신 러닝 기법을 이용한 cnn 기반 음원 인식 시스템 및 방법 | |
| US11273778B1 (en) | Vehicle voice user interface | |
| US20210097727A1 (en) | Computer apparatus and method implementing sound detection and responses thereto | |
| US10207584B2 (en) | Information providing apparatus for vehicle | |
| KR102132058B1 (ko) | 자동차에 내장된 양방향 음성 커뮤니케이션 시스템 | |
| US12406667B2 (en) | Method of processing dialogue, user terminal, and dialogue system | |
| US20250145097A1 (en) | Voice recognition method and voice recognition device | |
| JP2024132462A (ja) | 音声対話方法及び音声対話装置 | |
| JP2024045996A (ja) | 音声認識方法及び音声認識装置 | |
| JP2019014392A (ja) | 車両の走行記録装置及び閲覧装置 | |
| US20150039312A1 (en) | Controlling speech dialog using an additional sensor | |
| US20250326402A1 (en) | Driving support device | |
| JP2024045997A (ja) | 音声認識方法及び音声認識装置 | |
| JP2019174757A (ja) | 音声認識装置 | |
| US20250269790A1 (en) | Vehicle communications | |
| CN121708895A (zh) | 车内外语音交互方法、系统、设备以及存储介质 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22922555 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2023576247 Country of ref document: JP |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 202280089504.8 Country of ref document: CN |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 18832374 Country of ref document: US |
|
| REG | Reference to national code |
Ref country code: BR Ref legal event code: B01A Ref document number: 112024014943 Country of ref document: BR |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 202447061938 Country of ref document: IN |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| ENP | Entry into the national phase |
Ref document number: 2022922555 Country of ref document: EP Effective date: 20240826 |
|
| ENP | Entry into the national phase |
Ref document number: 112024014943 Country of ref document: BR Kind code of ref document: A2 Effective date: 20240719 |
|
| WWP | Wipo information: published in national office |
Ref document number: 18832374 Country of ref document: US |