WO2019216461A1 - 인공지능 서비스 방법 및 이를 위한 장치 - Google Patents

인공지능 서비스 방법 및 이를 위한 장치 Download PDF

Info

Publication number
WO2019216461A1
WO2019216461A1 PCT/KR2018/005409 KR2018005409W WO2019216461A1 WO 2019216461 A1 WO2019216461 A1 WO 2019216461A1 KR 2018005409 W KR2018005409 W KR 2018005409W WO 2019216461 A1 WO2019216461 A1 WO 2019216461A1
Authority
WO
WIPO (PCT)
Prior art keywords
artificial intelligence
user
user data
model
adaptive training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
PCT/KR2018/005409
Other languages
English (en)
French (fr)
Inventor
김선태
지창진
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Systran International
Original Assignee
Systran International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Systran International filed Critical Systran International
Priority to EP18918144.9A priority Critical patent/EP3779966A4/en
Priority to US17/054,102 priority patent/US20210232670A1/en
Priority to JP2020560899A priority patent/JP2021529978A/ja
Priority to PCT/KR2018/005409 priority patent/WO2019216461A1/ko
Priority to KR1020207029338A priority patent/KR102395808B1/ko
Publication of WO2019216461A1 publication Critical patent/WO2019216461A1/ko
Anticipated expiration legal-status Critical
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Definitions

  • the present invention relates to a method (biological information security method) for operating without leaking biometric information such as voice outside the terminal in an artificial intelligence system such as voice recognition, and an apparatus supporting the same.
  • Speech recognition is a technology that converts speech into text using a computer. Voice recognition technology has made rapid progress in recent years and is being used commercially in artificial intelligence speakers.
  • Speech recognition technology is based on artificial intelligence learning, and speech recognition learning takes large days of data even on high-end servers because it handles large-scale voice data.
  • Voices are unique to each speaker, and the vocabulary used varies, so adaptation is necessary for each user. In other words, it is necessary to tune the voice recognizer to the user's voice.
  • User adaptation training requires user information such as voice and vocabulary.
  • the learning of the voice is generally performed in a high specification server
  • the user's information is transferred from the terminal to the outside where the high specification server is located.
  • An object of the present invention is to propose a method of operating biometric information such as voices without leaking out of a terminal in an artificial intelligence system such as voice recognition.
  • An aspect of the present invention provides a method of providing an artificial intelligence service by an artificial intelligence device, comprising: receiving user data including user biometric information; Performing user adaptive training for transforming an AI model based on the characteristics of the user data; And providing an artificial intelligence service by applying an artificial intelligence model generated as a result of the user adaptive training.
  • the method may further include receiving the base AI model from a remote server.
  • the based artificial intelligence model may be stored in advance in the artificial intelligence device.
  • the user adaptive training may be performed during the time of not providing the artificial intelligence service.
  • the user adaptive training may be performed in real time even if the artificial intelligence service is provided.
  • the input user data may be accumulated and stored until the user adaptive training starts.
  • the method further includes evaluating a reliability of a result of recognizing the user data, and when the reliability is smaller than a preset threshold, the user data may not be used for the user adaptive training.
  • an artificial intelligence device for providing an artificial intelligence service, comprising: an input unit configured to receive user data including user biometric information; A memory for storing the user data; And a processor for controlling the input unit and the memory, wherein the processor receives user data including user biometric information through the input unit, and converts an artificial intelligence model to suit the characteristics of the user data.
  • the training may be performed, and the artificial intelligence service may be provided by applying the artificial intelligence model generated as a result of the user adaptive training.
  • the quality of artificial intelligence can be improved and maintained without leaking user information such as biological information to the outside of the terminal.
  • FIG. 1 and 2 are views illustrating an existing artificial intelligence service and training method for which biometric information security is not guaranteed.
  • 3 and 4 are diagrams illustrating an artificial intelligence service and a training method for ensuring biometric information security according to an embodiment of the present invention.
  • FIG. 5 is a block diagram illustrating a configuration of a terminal according to an embodiment of the present invention.
  • FIG. 1 and 2 are views illustrating an existing artificial intelligence service and training method for which biometric information security is not guaranteed.
  • the terminal 110 collects user data (eg, voice, fingerprint, iris, etc.) while providing an artificial intelligence service (S201).
  • user data e.g, voice, fingerprint, iris, etc.
  • S201 an artificial intelligence service
  • the terminal 110 transmits the collected user data 120 to the remote server 140 at a remote location (S202).
  • the user data 120 transmitted to the remote server 140 is used for training (learning) in the remote server 140 (S203).
  • the artificial intelligence model 130 trained in the remote server 140 is transmitted to the terminal 110, that is, the terminal 110 obtains the artificial intelligence model 130 from the remote server 140 (S204).
  • the terminal 110 provides the artificial intelligence service as a new artificial intelligence model by reflecting the obtained artificial intelligence model 130 (S205).
  • user information is inevitably transmitted to a remote server.
  • the user's information (data) particularly biometric information such as voice, can also be used as a key of the security system, so external leakage must be prevented.
  • 3 and 4 are diagrams illustrating an artificial intelligence service and a training method for ensuring biometric information security according to an embodiment of the present invention.
  • the terminal 310 obtains an artificial intelligence model from a remote server 340 at a remote location (S401).
  • the terminal 310 collects user data (eg, voice, fingerprint, iris, etc.) while providing an artificial intelligence service (S401).
  • user data eg, voice, fingerprint, iris, etc.
  • S401 an artificial intelligence service
  • the collected information is stored in the terminal 310 until training (that is, learning). For example, information collected before training may be accumulated and stored in the terminal.
  • the terminal 310 may start user adaptive training at a specific time point (for example, during a time when the AI service is not provided) using the base AI model and the user data (S403).
  • the artificial intelligence service is continued by applying the new artificial intelligence model to the terminal 310 (404).
  • the AI model may be already stored in the terminal 310 without being acquired from the remote server 340 (that is, provisioning).
  • user adaptive training does not create an AI model from scratch, but means converting and / or modifying an AI model to be suitable for a feature extracted from user data. This saves time and money compared to building a new AI model from scratch and does not require large amounts of data.
  • user data information
  • user adaptive training may be performed.
  • FIG. 5 is a block diagram illustrating a configuration of a terminal according to an embodiment of the present invention.
  • the terminal 500 (that is, the artificial intelligence device) according to the present invention includes an input unit 510 for receiving user data, a communication unit 520 for receiving a base AI model, and a base of user data. It may include a memory 530 for storing the artificial intelligence model, and a processor 540 for performing user adaptive training using the underlying artificial intelligence model and the user data.
  • the input unit 110 may be a component for receiving user data.
  • the input unit 110 may include a microphone. When the user's uttered voice is input, the input unit 110 converts it into an electrical signal and outputs the signal to the processor 540. Can be.
  • the input unit 110 may include biometic sensors for receiving user biometric information.
  • An example of such a biometric sensor may include a facial recognition sensor, an iris recognition sensor, a fingerprint recognition sensor, and the like.
  • the communication unit 120 may include one or more modules that enable wired / wireless communication with a remote server.
  • the communication unit 120 may include a broadcast receiving module, a mobile communication module, a wireless internet module, a short range communication module, and the like.
  • the broadcast receiving module may include, for example, Digital Multimedia Broadcasting-Terrestrial (DMB-T), Digital Multimedia Broadcasting-Satellite (DMB-S), Media Forward Link Only (MediaFLO), Digital Video Broadcast-Handheld (DVB-H), Digital broadcast signals may be received using a digital broadcasting system such as ISDB-T (Integrated Services Digital Broadcast-Terrestrial).
  • DMB-T Digital Multimedia Broadcasting-Terrestrial
  • DMB-S Digital Multimedia Broadcasting-Satellite
  • MediaFLO Media Forward Link Only
  • DVD-H Digital Video Broadcast-Handheld
  • Digital broadcast signals may be received using a digital broadcasting system such as ISDB-T (Integrated Services Digital Broadcast-Terrestrial).
  • the mobile communication module may transmit / receive a radio signal with at least one of a base station, an external terminal, and a server on a mobile communication network.
  • the wireless signal may include various types of data according to transmission and reception of a voice call signal, a video call call signal, or a text / multimedia message.
  • the wireless internet module refers to a module for wireless internet access and may be embedded or external to the terminal.
  • Wireless Internet technologies may include Wireless LAN (Wi-Fi), Wireless Broadband (Wibro), World Interoperability for Microwave Access (Wimax), High Speed Downlink Packet Access (HSDPA), and the like.
  • the short range communication module refers to a module for short range communication.
  • Short range communication technologies include Bluetooth, Radio Frequency Identification (RFID), Infrared Data Association (IrDA), Ultra Wideband (UWB), ZigBee, Near Field Communication (NFC), etc. This can be used.
  • RFID Radio Frequency Identification
  • IrDA Infrared Data Association
  • UWB Ultra Wideband
  • ZigBee ZigBee
  • NFC Near Field Communication
  • the processor 540 implements the functions, processes, and / or methods proposed in FIGS. 3 and 4 described above.
  • the processor 540 performs user adaptive training using the user data received from the input unit 510 and the based artificial intelligence model received from the remote server (or stored in advance). In addition, the processor 540 may process / convert the user data received from the input unit 510 to perform the user adaptive training.
  • the processor 540 may store in the memory 530 user data received from the input unit 510 and a base artificial intelligence model received from a remote server. In addition, the processor 540 may store a new artificial intelligence model, which is a result of user adaptive training, in the memory 530.
  • the processor 540 may acquire a voice data of the user by applying a speech recognition algorithm or a speech recognition engine to a signal received from the input unit 510.
  • the signal input to the processor 540 may be converted into a more useful form for speech recognition, the processor 540 converts the input signal from analog form to digital form and detects the start and end points of the voice. To detect the actual speech section / data included in the speech data. This is called end point detection (EPD).
  • EPD end point detection
  • the processor 540 may perform Cepstrum, Linear Predictive Coefficient (LPC), Mel Frequency Cepstral Coefficient (MFCC), or Filter Bank energy within the detected interval.
  • LPC Linear Predictive Coefficient
  • MFCC Mel Frequency Cepstral Coefficient
  • Filter Bank energy may be applied to extract a feature vector of a signal.
  • the processor 540 may store information about the end point of the voice data and the feature vector using the memory 530 that stores the data.
  • the processor 540 may obtain a recognition result by comparing the extracted feature vector with the trained reference pattern.
  • an acoustic model for modeling and comparing signal characteristics of speech and a language model for modeling linguistic order relations such as words or syllables corresponding to a recognized vocabulary may be used.
  • the acoustic model may be further divided into a direct comparison method of setting a recognition object as a feature vector model and comparing it with a feature vector of speech data and a statistical method of statistically processing the feature vector of the recognition object.
  • the direct comparison method is a method of setting a unit of a word, a phoneme, or the like to be recognized as a feature vector model and comparing how similar the input speech is.
  • a vector quantization method is used. According to the vector quantization method, a feature vector of input speech data is mapped with a codebook, which is a reference model, and encoded into a representative value to compare the code values.
  • the statistical model method is a method of constructing a unit for a recognition object into a state sequence and using a relationship between state columns.
  • the status column may consist of a plurality of nodes.
  • Methods using the relationship between the state columns again include Dynamic Time Warping (DTW), Hidden Markov Model (HMM), and neural networks.
  • DTW Dynamic Time Warping
  • HMM Hidden Markov Model
  • Dynamic time warping is a method of compensating for differences in the time axis when considering the dynamic characteristics of speech whose length varies over time even if the same person pronounces the same. Assuming a Markov process with probability and observed probability of nodes (output symbols) in each state, we estimate state transition probability and observed probability of the nodes from the training data, and calculate the probability that the voice input from the estimated model will occur. Is a recognition technology.
  • a language model that models linguistic order relations such as words or syllables may apply acoustic relations between units constituting language to units obtained in speech recognition, thereby reducing acoustic ambiguity and reducing recognition errors.
  • the linguistic model has a model based on a statistical language model and a finite state automata (FSA), and the statistical linguistic model uses a chain probability of words such as Unigram, Bigram, and Trigram.
  • FSA finite state automata
  • the processor 540 may use any of the methods described above in recognizing the voice. For example, an acoustic model with a hidden Markov model may be used, or an N-best search method that integrates the acoustic model and the language model.
  • the N-best search method can improve recognition performance by selecting up to N recognition result candidates using acoustic models and language models, and then re-evaluating the ranks of these candidates.
  • the processor 540 may calculate a confidence score (or may be abbreviated as 'confidence') to ensure the reliability of the recognition result.
  • the confidence score is a measure of how reliable the result is for a speech recognition result. It can be defined as a relative value of the phoneme or word that is a recognized result and the probability that the word is spoken from other phonemes or words. have. Therefore, the reliability score may be expressed as a value between 0 and 1, or may be expressed as a value between 0 and 100. If the confidence score is larger than a predetermined threshold, the recognition result may be recognized, and if the confidence score is small, the recognition result may be rejected.
  • the reliability score may be obtained according to various conventional reliability score obtaining algorithms.
  • the processor 540 may not use that user data (e.g., voice data) for user adaptive training. have. That is, the user data can be removed.
  • user data e.g., voice data
  • the memory 530 may include a flash memory, a hard disc, a memory card, a read-only memory (ROM), a random access memory (RAM), a memory card, and an electrically erasable programmable memory (EPEROM).
  • a storage medium may include at least one of a read-only memory (PROM), a programmable read-only memory (PROM), a magnetic memory, a magnetic disk, and an optical disk.
  • Embodiments according to the present invention may be implemented by various means, for example, hardware, firmware, software, or a combination thereof.
  • an embodiment of the present invention may include one or more application specific integrated circuits (ASICs), digital signal processors (DSPs), digital signal processing devices (DSPDs), programmable logic devices (PLDs), FPGAs ( field programmable gate arrays), processors, controllers, microcontrollers, microprocessors, and the like.
  • ASICs application specific integrated circuits
  • DSPs digital signal processors
  • DSPDs digital signal processing devices
  • PLDs programmable logic devices
  • FPGAs field programmable gate arrays
  • processors controllers, microcontrollers, microprocessors, and the like.
  • an embodiment of the present invention may be implemented in the form of a module, procedure, function, etc. that performs the functions or operations described above.
  • the software code may be stored in memory and driven by the processor.
  • the memory may be located inside or outside the processor, and may exchange data with the processor by various known means.
  • the present invention can be applied to various artificial intelligence service fields.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

인공지능 서비스 방법 및 이를 위한 장치가 개시된다. 구체적으로, 인공지능 장치가 인공지능 서비스를 제공하는 방법에 있어서, 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 단계; 기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하는 단계; 및 상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공하는 단계를 포함할 수 있다.

Description

인공지능 서비스 방법 및 이를 위한 장치
본 발명은 음성인식 등 인공지능 시스템에서 목소리 등의 생체정보를 단말기 외부로 유출하지 않고 운영하는 방법(생체정보 보안 방법) 및 이를 지원하는 장치에 관한 것이다.
자동음성인식은(이하 음성인식) 컴퓨터를 이용하여 음성을 문자로 변환해주는 기술이다. 음성인식 기술은 최근 급속한 발전을 이루었으며 인공지능 스피커 등에서 상업적으로 이용되고 있다.
음성인식 기술은 인공지능 학습에 기반한 기술이며, 음성인식 학습은 대규모의 음성데이터를 다루므로 고사양 서버에서도 수 일에서 수 주의 시간이 소요된다.
음성은 화자마다 특색이 있고 쓰이는 어휘도 다양하므로 사용자 별로 적응이 필요하다. 즉, 사용자의 목소리에 맞게 음성인식기를 튜닝하는 과정이 필요하다.
사용자 적응 훈련을 위해서는 목소리나 어휘 등의 사용자 정보가 필요하다.
다만, 음성의 학습은 일반적으로 고사양의 서버에서 이뤄지므로 사용자의 정보는 단말기에서 고사양 서버가 있는 외부로 옮겨지게 되는데, 이때 사용자의 목소리 등 생체정보가 외부로 옮겨지는 문제가 있다.
본 발명의 목적은, 음성인식 등 인공지능 시스템에서 목소리 등의 생체정보를 단말기 외부로 유출하지 않고 운영하는 방법을 제안한다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 양상은, 인공지능 장치가 인공지능 서비스를 제공하는 방법에 있어서, 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 단계; 기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하는 단계; 및 상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공하는 단계를 포함할 수 있다.
바람직하게, 상기 기반 인공지능 모델을 원격 서버로부터 수신하는 단계를 더 포함할 수 있다.
바람직하게, 상기 기반 인공지능 모델은 상기 인공지능 장치에 미리 저장되어 있을 수 있다.
바람직하게, 상기 사용자 적응 훈련은 상기 인공지능 서비스를 제공하지 않는 시간 동안에 수행될 수 있다.
바람직하게, 상기 사용자 적응 훈련은 상기 인공지능 서비스를 제공 중이더라도 실시간으로 수행될 수 있다.
바람직하게, 상기 입력된 사용자 데이터는 상기 사용자 적응 훈련이 시작되기 전까지 누적하여 저장될 수 있다.
바람직하게, 상기 사용자 데이터를 인식한 결과에 대한 신뢰도를 평가하는 단계를 더 포함하고, 상기 신뢰도가 기 설정된 임계값보다 작을 때, 상기 사용자 적응 훈련에 상기 사용자 데이터가 사용되지 않을 수 있다.
본 발명의 다른 일 양상은, 인공지능 서비스를 제공하기 위한 인공지능 장치에 있어서, 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 입력부; 상기 사용자 데이터를 저장하는 메모리; 및 상기 입력부 및 상기 메모리를 제어하는 프로세서를 포함하고, 상기 프로세서는 상기 입력부를 통해 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받고, 기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하고, 상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공할 수 있다.
본 발명의 실시예에 따르면, 생체정보 등 사용자의 정보를 단말기 외부로 유출하지 않으면서도 인공지능의 품질을 개선, 유지시킬 수 있다.
또한, 본 발명의 실시예에 따르면, 대용량 데이터를 학습하지 않아도 되므로 저사양의 단말기에서도 구현될 수 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명에 관한 이해를 돕기 위해 상세한 설명의 일부로 포함되는, 첨부 도면은 본 발명에 대한 실시예를 제공하고, 상세한 설명과 함께 본 발명의 기술적 특징을 설명한다.
도 1 및 도 2는 생체정보 보안이 보장되지 않는 기존 인공지능 서비스 및 훈련 방법을 설명하는 도면이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 생체정보 보안이 보장되는 인공지능 서비스 및 훈련 방법을 설명하는 도면이다.
도 5는 본 발명의 일 실시예에 따른 단말기의 구성을 예시하는 블록도이다.
이하, 본 발명에 따른 바람직한 실시 형태를 첨부된 도면을 참조하여 상세하게 설명한다. 첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다. 이하의 상세한 설명은 본 발명의 완전한 이해를 제공하기 위해서 구체적 세부사항을 포함한다. 그러나, 당업자는 본 발명이 이러한 구체적 세부사항 없이도 실시될 수 있음을 안다.
몇몇 경우, 본 발명의 개념이 모호해지는 것을 피하기 위하여 공지의 구조 및 장치는 생략되거나, 각 구조 및 장치의 핵심기능을 중심으로 한 블록도 형식으로 도시될 수 있다.
도 1 및 도 2는 생체정보 보안이 보장되지 않는 기존 인공지능 서비스 및 훈련 방법을 설명하는 도면이다.
도 1 및 도 2를 참조하면, 단말기(110)는 인공지능 서비스를 제공하면서 이와 함께 사용자 데이터(예를 들어, 음성, 지문, 홍채 등)를 수집한다(S201).
단말기(110)는 수집된 사용자 데이터(120)를 원격지에 있는 원격 서버(140)로 전송한다(S202).
원격 서버(140)로 전송된 사용자 데이터(120)는 원격 서버(140)에서 훈련(학습)에 사용된다(S203).
이때, 사용자 데이터(120)가 원격 서버(140)로 전송됨에 따라 단말기 외부로 사용자 정보(데이터)가 유출되는 것이 불가피하다.
원격 서버(140)에서 훈련이 끝난 인공지능 모델(130)은 단말기(110)로 전송되며, 즉 단말기(110)는 원격 서버(140)로부터 인공지능 모델(130)을 획득한다(S204).
단말기(110)는 획득된 인공지능 모델(130)을 반영함으로써 새로운 인공지능 모델로 인공지능 서비스를 제공한다(S205).
위와 같은 방식을 이용하면 사용자 정보(데이터)는 불가피하게 원격지의 서버로 전송되는 문제가 발생한다. 여기서, 사용자의 정보(데이터), 특히 음성과 같은 생체 정보는 보안 시스템의 키로도 쓰일 수 있으므로 외부 유출이 방지되어야 한다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 생체정보 보안이 보장되는 인공지능 서비스 및 훈련 방법을 설명하는 도면이다.
도 3 및 도 4를 참조하면, 단말기(310)는 원격지의 원격 서버(340)로부터 기반 인공지능 모델을 획득한다(S401).
단말기(310)는 인공지능 서비스를 제공하면서 이와 함께 사용자 데이터(예를 들어, 음성, 지문, 홍채 등)를 수집한다(S401).
이때, 수집된 정보는 훈련(즉, 학습) 전까지 단말기(310)에 보관된다. 예를 들어, 훈련 전까지 수집된 정보는 누적하여 단말에 저장될 수 있다.
단말기(310)는 기반 인공지능 모델과 사용자 데이터를 이용하여 특정 시점(예를 들어, 인공지능 서비스를 제공하지 않는 시간 동안)에 사용자 적응 훈련을 시작할 수 있다(S403).
훈련이 끝나면 단말기(310)에 새로운 인공지능 모델을 반영하여 인공지능 서비스를 계속한다(404).
이때, 앞서 설명한 방법에서 기반 인공지능 모델은 원격지 서버(340)로부터 획득하지 않고 이미 단말기(310)에 미리 저장되어 있을 수 있다(즉, 프로비저닝 (provisioning)).
앞서 설명한 방법에서, 사용자 적응 훈련은 인공지능 모델을 처음부터 새로 만드는 것이 아니라, 기반 인공지능 모델을 사용자 데이터에서 추출된 특성에 적합하도록 변환 및/또는 수정하는 것을 의미한다. 따라서, 인공지능 모델을 처음부터 새롭게 구축하는 것에 비해 시간과 비용을 아낄 수 있고 대용량 데이터를 필요하지 않다.
또한, 앞서 설명한 방법에서, 사용자 적응 훈련에 사용되는 데이터는 양이 적을수록 훈련 시간이 줄어드는 반면, 필요한 데이터가 없다면 훈련 효율이 떨어진다. 이러한 문제를 해결하기 위해 필요한 데이터는 남기고 불필요한 데이터를 훈련에서 배제하는 것이 바람직하다. 이때, 사용자 적응 훈련에 불필요한 데이터는 인식이 잘 된 데이터를 의미할 수 있다. 본 발명에서, 인식이 잘 되었는지 안 되었는지는 시스템에서 판단할 수 있다고 가정한다.
이와 같이, 본 발명에서 제안하는 방식을 이용하면 사용자 데이터(정보)를 단말기 외부로 유출하지 않을 수 있으며, 이와 함께 사용자 적응 훈련도 수행될 수 있다.
도 5는 본 발명의 일 실시예에 따른 단말기의 구성을 예시하는 블록도이다.
도 5를 참조하면, 본 발명에 따른 단말기(500)(즉, 인공지능 장치)는 사용자 데이터를 입력 받기 위한 입력부(510), 기반 인공지능 모델을 수신하기 위한 통신부(520), 사용자 데이터와 기반 인공지능 모델을 저장하기 위한 메모리(530), 그리고 기반 인공지능 모델과 사용자 데이터를 이용하여 사용자 적응 훈련을 수행하는 프로세서(540)를 포함할 수 있다.
입력부(110)는 사용자 데이터를 입력 받기 위한 구성 요소로서, 특히 마이크로폰(microphone)을 포함할 수 있고, 사용자의 발화(utterance)된 음성이 입력되면 이를 전기적 신호로 변환하여 프로세서(540)로 출력할 수 있다. 또한, 입력부(110)는 사용자 생체 정보를 입력 받기 위한 생체 인식 센서(Biometic sensors)를 포함할 수 있다. 이러한 생체 인식 센서의 일례로, 안면 인식(facial recognition) 센서, 홍채 인식(iris recognition) 센서, 지문 인식 센서 등을 포함할 수 있다.
통신부(120)는 원격 서버와의 유/무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 통신부(120)는 방송 수신 모듈, 이동통신 모듈, 무선 인터넷 모듈, 근거리 통신 모듈 등을 포함할 수 있다.
방송 수신 모듈은, 예를 들어, DMB-T(Digital Multimedia Broadcasting-Terrestrial), DMB-S(Digital Multimedia Broadcasting-Satellite), MediaFLO(Media Forward Link Only), DVB-H(Digital Video Broadcast-Handheld), ISDB-T(Integrated Services Digital Broadcast-Terrestrial) 등의 디지털 방송 시스템을 이용하여 디지털 방송 신호를 수신할 수 있다.
이동통신 모듈은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신할 수 있다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.
무선 인터넷 모듈은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 단말기에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.
근거리 통신 모듈은 근거리 통신을 위한 모듈을 말한다. 근거리 통신(short range communication) 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee, 인접 자장 통신(NFC, Near Field Communication) 등이 이용될 수 있다.
프로세서(540)는 앞서 설명한 도 3 및 도 4에서 제안된 기능, 과정 및/또는 방법을 구현한다.
프로세서(540)는 입력부(510)로부터 입력 받은 사용자 데이터와 원격 서버로부터 수신한(또는 기 저장된) 기반 인공지능 모델을 이용하여 사용자 적응 훈련을 수행한다. 또한, 프로세서(540)는 사용자 적응 훈련을 수행하기 위해 입력부(510)로부터 수신한 사용자 데이터를 가공/변환 등을 수행할 수도 있다.
또한, 프로세서(540)는 입력부(510)로부터 입력 받은 사용자 데이터, 또한 원격 서버로부터 수신한 기반 인공지능 모델을 메모리(530)에 저장할 수 있다. 또한, 프로세서(540)는 사용자 적응 훈련의 결과물인 새로운 인공지능 모델을 메모리(530)에 저장할 수 있다.
특히, 프로세서(540)는 입력부(510)로부터 수신한 신호에 음성 인식(speech recognition) 알고리즘 또는 음성 인식 엔진(speech recognition engine)을 적용하여 사용자의 음성 데이터를 획득할 수 있다.
이때, 프로세서(540)로 입력되는 신호는 음성 인식을 위한 더 유용한 형태로 변환될 수 있으며, 프로세서(540)는 입력된 신호를 아날로그 형태에서 디지털 형태로 변환하고, 음성의 시작과 끝 지점을 검출하여 음성 데이터에 포함된 실제 음성 구간/데이터을 검출할 수 있다. 이를 EPD(End Point Detection)이라 한다.
그리고, 프로세서(540)는 검출된 구간 내에서 켑스트럼(Cepstrum), 선형 예측 코딩(Linear Predictive Coefficient: LPC), 멜프리퀀시켑스트럼(Mel Frequency Cepstral Coefficient: MFCC) 또는 필터 뱅크 에너지(Filter Bank Energy) 등의 특징 벡터 추출 기술을 적용하여 신호의 특징 벡터를 추출할 수 있다.
프로세서(540)는 데이터를 저장하는 메모리(530)를 이용하여 음성 데이터의 끝 지점에 관한 정보 및 특징 벡터를 저장할 수 있다.
그리고, 프로세서(540)는 추출된 특징 벡터와 훈련된 기준 패턴과의 비교를 통하여 인식 결과를 얻을 수 있다. 이를 위해, 음성의 신호적인 특성을 모델링하여 비교하는 음향 모델(Acoustic Model)과 인식 어휘에 해당하는 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델(Language Model)이 사용될 수 있다.
음향 모델은 다시 인식 대상을 특징 벡터 모델로 설정하고 이를 음성 데이터의 특징 벡터와 비교하는 직접 비교 방법과 인식 대상의 특징 벡터를 통계적으로 처리하여 이용하는 통계 방법을 나뉠 수 있다.
직접 비교 방법은 인식 대상이 되는 단어, 음소 등의 단위를 특징 벡터 모델로 설정하고 입력 음성이 이와 얼마나 유사한지를 비교하는 방법으로서, 대표적으로 벡터 양자화(Vector Quantization) 방법이 있다. 벡터 양자화 방법에 의하면 입력된 음성 데이터의 특징 벡터를 기준 모델인 코드북(codebook)과 매핑시켜 대표 값으로 부호화함으로써 이 부호 값들을 서로 비교하는 방법이다.
통계적 모델 방법은 인식 대상에 대한 단위를 상태 열(State Sequence)로 구성하고 상태 열 간의 관계를 이용하는 방법이다. 상태 열은 복수의 노드(node)로 구성될 수 있다. 상태 열 간의 관계를 이용하는 방법은 다시 동적 시간 와핑(Dynamic Time Warping: DTW), 히든 마르코프 모델(Hidden Markov Model: HMM), 신경 회로망을 이용한 방식 등이 있다.
동적 시간 와핑은 같은 사람이 같은 발음을 해도 신호의 길이가 시간에 따라 달라지는 음성의 동적 특성을 고려하여 기준 모델과 비교할 때 시간 축에서의 차이를 보상하는 방법이고, 히든 마르코프 모델은 음성을 상태 천이 확률 및 각 상태에서의 노드(출력 심볼)의 관찰 확률을 갖는 마르코프 프로세스로 가정한 후에 학습 데이터를 통해 상태 천이 확률 및 노드의 관찰 확률을 추정하고, 추정된 모델에서 입력된 음성이 발생할 확률을 계산하는 인식 기술이다.
한편, 단어나 음절 등의 언어적인 순서 관계를 모델링하는 언어 모델은 언어를 구성하는 단위들 간의 순서 관계를 음성 인식에서 얻어진 단위들에 적용함으로써 음향적인 모호성을 줄이고 인식의 오류를 줄일 수 있다. 언어 모델에는 통계적 언어 모델과 유한 상태 네트워크(Finite State Automata: FSA)에 기반한 모델이 있고, 통계적 언어 모델에는 Unigram, Bigram, Trigram 등 단어의 연쇄 확률이 이용된다.
프로세서(540)는 음성을 인식함에 있어 상술한 방식 중 어느 방식을 사용해도 무방하다. 예를 들어, 히든 마르코프 모델이 적용된 음향 모델을 사용할 수도 있고, 음향 모델과 언어 모델을 통합한 N-best 탐색법을 사용할 수 있다. N-best 탐색법은 음향 모델과 언어 모델을 이용하여 N개까지의 인식 결과 후보를 선택한 후, 이들 후보의 순위를 재평가함으로써 인식 성능을 향상시킬 수 있다.
프로세서(540)는 인식 결과의 신뢰성을 확보하기 위해 신뢰도 점수(confidence score)(또는 '신뢰도'로 약칭될 수 있음)를 계산할 수 있다.
신뢰도 점수는 음성 인식 결과에 대해서 그 결과를 얼마나 믿을 만한 것인가를 나타내는 척도로서, 인식된 결과인 음소나 단어에 대해서, 그 외의 다른 음소나 단어로부터 그 말이 발화되었을 확률에 대한 상대값으로 정의할 수 있다. 따라서, 신뢰도 점수는 0 에서 1 사이의 값으로 표현할 수도 있고, 0 에서 100 사이의 값으로 표현할 수도 있다. 신뢰도 점수가 미리 설정된 임계값(threshold)보다 큰 경우에는 인식 결과를 인정하고, 작은 경우에는 인식 결과를 거절(rejection)할 수 있다.
이외에도, 신뢰도 점수는 종래의 다양한 신뢰도 점수 획득 알고리즘에 따라 획득될 수 있다.
신뢰도 점수가 임계값 보다 작거나 또는 사용자로부터 잘못된 인식이라는 피드백이 들어온 경우, 즉, 오인식인 경우, 프로세서(540)는 해당 사용자 데이터(예를 들어, 음성 데이터)는 사용자 적응 훈련에 사용하지 않을 수 있다. 즉, 해당 사용자 데이터를 제거할 수 있다.
메모리(530)는 플래시 메모리(flash memory), 하드 디크스(hard disc), 메모리 카드, 롬(ROM:Read-Only Memory), 램(RAM:Random Access Memory), 메모리 카드, EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory), 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 저장 매체를 포함할 수 있다.
본 발명에 따른 실시예는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(application specific integrated circuits), DSPs(digital signal processors), DSPDs(digital signal processing devices), PLDs(programmable logic devices), FPGAs(field programmable gate arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현될 수 있다. 소프트웨어 코드는 메모리에 저장되어 프로세서에 의해 구동될 수 있다. 상기 메모리는 상기 프로세서 내부 또는 외부에 위치하여, 이미 공지된 다양한 수단에 의해 상기 프로세서와 데이터를 주고 받을 수 있다.
본 발명은 본 발명의 필수적 특징을 벗어나지 않는 범위에서 다른 특정한 형태로 구체화될 수 있음은 당업자에게 자명하다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니 되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
본 발명은 다양한 인공 지능 서비스 분야에 적용될 수 있다.

Claims (8)

  1. 인공지능 장치가 인공지능 서비스를 제공하는 방법에 있어서,
    사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 단계;
    기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하는 단계; 및
    상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공하는 단계를 포함하는 인공지능 서비스 제공 방법.
  2. 제1항에 있어서,
    상기 기반 인공지능 모델을 원격 서버로부터 수신하는 단계를 더 포함하는 인공지능 서비스 제공 방법.
  3. 제1항에 있어서,
    상기 기반 인공지능 모델은 상기 인공지능 장치에 미리 저장되어 있는 인공지능 서비스 제공 방법.
  4. 제1항에 있어서,
    상기 사용자 적응 훈련은 상기 인공지능 서비스를 제공하지 않는 시간 동안에 수행되는 인공지능 서비스 제공 방법.
  5. 제1항에 있어서,
    상기 사용자 적응 훈련은 상기 인공지능 서비스를 제공 중이더라도 실시간으로 수행되는 인공지능 서비스 제공 방법.
  6. 제1항에 있어서,
    상기 입력된 사용자 데이터는 상기 사용자 적응 훈련이 시작되기 전까지 누적하여 저장되는 인공지능 서비스 제공 방법.
  7. 제1항에 있어서,
    상기 사용자 데이터를 인식한 결과에 대한 신뢰도를 평가하는 단계를 더 포함하고,
    상기 신뢰도가 기 설정된 임계값보다 작을 때, 상기 사용자 적응 훈련에 상기 사용자 데이터가 사용되지 않는 인공지능 서비스 제공 방법.
  8. 인공지능 서비스를 제공하기 위한 인공지능 장치에 있어서,
    사용자 생체 정보를 포함하는 사용자 데이터를 입력 받는 입력부;
    상기 사용자 데이터를 저장하는 메모리; 및
    상기 입력부 및 상기 메모리를 제어하는 프로세서를 포함하고,
    상기 프로세서는 상기 입력부를 통해 사용자 생체 정보를 포함하는 사용자 데이터를 입력 받고,
    기반 인공지능 모델을 상기 사용자 데이터의 특성에 적합하도록 변환하는 사용자 적응 훈련을 수행하고,
    상기 사용자 적응 훈련의 결과로 생성된 인공지능 모델을 적용하여 인공지능 서비스를 제공하는 인공지능 장치.
PCT/KR2018/005409 2018-05-10 2018-05-10 인공지능 서비스 방법 및 이를 위한 장치 Ceased WO2019216461A1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP18918144.9A EP3779966A4 (en) 2018-05-10 2018-05-10 ARTIFICIAL INTELLIGENCE SERVICE PROCESS AND ASSOCIATED DEVICE
US17/054,102 US20210232670A1 (en) 2018-05-10 2018-05-10 Artificial intelligence service method and device therefor
JP2020560899A JP2021529978A (ja) 2018-05-10 2018-05-10 人工知能サービス方法及びそのための装置
PCT/KR2018/005409 WO2019216461A1 (ko) 2018-05-10 2018-05-10 인공지능 서비스 방법 및 이를 위한 장치
KR1020207029338A KR102395808B1 (ko) 2018-05-10 2018-05-10 인공지능 서비스 방법 및 이를 위한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2018/005409 WO2019216461A1 (ko) 2018-05-10 2018-05-10 인공지능 서비스 방법 및 이를 위한 장치

Publications (1)

Publication Number Publication Date
WO2019216461A1 true WO2019216461A1 (ko) 2019-11-14

Family

ID=68468097

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2018/005409 Ceased WO2019216461A1 (ko) 2018-05-10 2018-05-10 인공지능 서비스 방법 및 이를 위한 장치

Country Status (5)

Country Link
US (1) US20210232670A1 (ko)
EP (1) EP3779966A4 (ko)
JP (1) JP2021529978A (ko)
KR (1) KR102395808B1 (ko)
WO (1) WO2019216461A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12346432B2 (en) * 2018-12-31 2025-07-01 Intel Corporation Securing systems employing artificial intelligence
EP4403830A1 (de) 2023-01-23 2024-07-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kochgerät und verfahren

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020001066A (ko) * 2000-06-24 2002-01-09 송문섭 음성인식 시스템의 화자적응 훈련방법
KR20060097895A (ko) * 2005-03-07 2006-09-18 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
KR20100009730A (ko) * 2008-07-21 2010-01-29 (주)씨앤드에스 마이크로 웨이브 음성인식 기반 홈네트워크 시스템의 적응화 음성 인식 제어방법 및 그 시스템
KR20100073178A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 음성 인식을 위한 화자 적응 장치 및 그 방법
KR20160098771A (ko) * 2015-02-11 2016-08-19 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114482A (ja) * 1995-10-17 1997-05-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識のための話者適応化方法
JP3589044B2 (ja) * 1998-10-20 2004-11-17 三菱電機株式会社 話者適応化装置
JP3756879B2 (ja) * 2001-12-20 2006-03-15 松下電器産業株式会社 音響モデルを作成する方法、音響モデルを作成する装置、音響モデルを作成するためのコンピュータプログラム
JP2003241788A (ja) * 2002-02-20 2003-08-29 Ntt Docomo Inc 音声認識装置及び音声認識システム
JP2008241970A (ja) * 2007-03-27 2008-10-09 Kddi Corp 話者適応装置、話者適応方法及び話者適応プログラム
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10170114B2 (en) * 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
US20190279613A1 (en) * 2018-03-06 2019-09-12 Ford Global Technologies, Llc Dialect and language recognition for speech detection in vehicles
US20190311713A1 (en) * 2018-04-05 2019-10-10 GM Global Technology Operations LLC System and method to fulfill a speech request
US11398218B1 (en) * 2018-04-26 2022-07-26 United Services Automobile Association (Usaa) Dynamic speech output configuration

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020001066A (ko) * 2000-06-24 2002-01-09 송문섭 음성인식 시스템의 화자적응 훈련방법
KR20060097895A (ko) * 2005-03-07 2006-09-18 삼성전자주식회사 사용자 적응형 음성 인식 방법 및 장치
KR20100009730A (ko) * 2008-07-21 2010-01-29 (주)씨앤드에스 마이크로 웨이브 음성인식 기반 홈네트워크 시스템의 적응화 음성 인식 제어방법 및 그 시스템
KR20100073178A (ko) * 2008-12-22 2010-07-01 한국전자통신연구원 음성 인식을 위한 화자 적응 장치 및 그 방법
KR20160098771A (ko) * 2015-02-11 2016-08-19 삼성전자주식회사 음성 기능 운용 방법 및 이를 지원하는 전자 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3779966A4 *

Also Published As

Publication number Publication date
KR20200125736A (ko) 2020-11-04
KR102395808B1 (ko) 2022-05-09
EP3779966A4 (en) 2021-11-17
EP3779966A1 (en) 2021-02-17
US20210232670A1 (en) 2021-07-29
JP2021529978A (ja) 2021-11-04

Similar Documents

Publication Publication Date Title
US10847137B1 (en) Trigger word detection using neural network waveform processing
US11183171B2 (en) Method and system for robust language identification
WO2009145508A2 (ko) 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템
US4618984A (en) Adaptive automatic discrete utterance recognition
US5873061A (en) Method for constructing a model of a new word for addition to a word model database of a speech recognition system
CN113327609B (zh) 用于语音识别的方法和装置
EP0398574A2 (en) Speech recognition employing key word modeling and non-key word modeling
US10460729B1 (en) Binary target acoustic trigger detecton
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
CN1138386A (zh) 分布式话音识别系统
CN111210807A (zh) 语音识别模型训练方法、系统、移动终端及存储介质
JPH11272291A (ja) 音響判断ツリ―を用いたフォネティック・モデル化方法
CN112581963A (zh) 一种语音意图识别方法及系统
CN110299132B (zh) 一种语音数字识别方法和装置
US10460722B1 (en) Acoustic trigger detection
CN109688276A (zh) 一种基于人工智能技术的来电过滤系统及其方法
CN115312038B (zh) 一种基于通信调度指令的语音识别的智能系统及方法
US20210398521A1 (en) Method and device for providing voice recognition service
WO2019216461A1 (ko) 인공지능 서비스 방법 및 이를 위한 장치
CN1223984C (zh) 基于客户机-服务器的分布式语音识别系统
WO2019208858A1 (ko) 음성 인식 방법 및 이를 위한 장치
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
WO2020096073A1 (ko) 빅 데이터를 이용한 최적의 언어 모델 생성 방법 및 이를 위한 장치
CN112259077A (zh) 语音识别方法、装置、终端和存储介质
CN111048068A (zh) 语音唤醒方法、装置、系统及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18918144

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20207029338

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2020560899

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2018918144

Country of ref document: EP

Effective date: 20201104