KR20170047268A - 오펀 발화 검출 시스템 및 방법 - Google Patents

오펀 발화 검출 시스템 및 방법 Download PDF

Info

Publication number
KR20170047268A
KR20170047268A KR1020177006504A KR20177006504A KR20170047268A KR 20170047268 A KR20170047268 A KR 20170047268A KR 1020177006504 A KR1020177006504 A KR 1020177006504A KR 20177006504 A KR20177006504 A KR 20177006504A KR 20170047268 A KR20170047268 A KR 20170047268A
Authority
KR
South Korea
Prior art keywords
domain
utterance
orphan
target language
dialog system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
KR1020177006504A
Other languages
English (en)
Inventor
고칸 투르
아눕 데오라스
디렉 핫카니-투르
Original Assignee
마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 filed Critical 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Publication of KR20170047268A publication Critical patent/KR20170047268A/ko
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • G06F17/277
    • G06F17/2785
    • G06F17/28
    • G06F17/30684
    • G06F17/30705
    • G06F17/30864
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

오펀 검출기(orphan detector). 오펀 검출기는 일반적 웹 검색 수행과 같은 폴백 프로세싱이 웹 검색으로 만족스럽지 않을 것 같은 경우에, 타겟 언어 의사소통 다이얼로그 시스템으로부터의 도메인을 벗어난 발화(out-of-domain utterance)를 프로세싱하여, 타겟 언어 의사소통 다이얼로그 시스템으로 하여금 소정의 액션을 취하게 하는 특정 의도를, 도메인을 벗어난 발화가 표현하는지의 여부를 결정한다. 이러한 발화는 태스크 도메인 중 어느 것 또는 폴백 프로세싱에 의해 적절하게 취급되지 않기 때문에 오펀(orphan)이라고 지칭된다. 오펀 검출기는 발화의 내용보다는 구조에 주로 포커싱함으로써 오펀을 웹 검색어 및 기타 도메인을 벗어난 발화로부터 구별한다. 오펀 검출기로부터 검출된 오펀은 타겟 언어 의사소통 다이얼로그 시스템을 이용해 사용자 경험을 개선하기 위해 온라인과 오프라인 양쪽에서 사용될 수 있다. 오펀 검출기는 웹 검색 엔진 쿼리 로그로부터 구조적으로 유사한 쿼리 또는 문장을 찾는 데에도 이용될 수 있다.

Description

오펀 발화 검출 시스템 및 방법{ORPHANED UTTERANCE DETECTION SYSTEM AND METHOD}
스마트폰과 기타 디바이스에는, 소비자가 폭넓게 이용할 수 있는 가상 개인 비서(virtual personal assistant)와 같은, 타겟 언어 의사소통 다이얼로그 시스템(targeted language understanding dialog system)이 마련되어 있다. 타겟 언어 의사소통 다이얼로그 시스템은 한정된 수의 선택된 대상 영역(즉, 태스크 도메인)에서 사용자 입력의 심층적인 이해를 제공한다. 이들 태스크 도메인 외에서, 타겟 언어 의사소통 다이얼로그 시스템은 사용자 입력을 취급하기 위해 얕은 이해(shallow understanding) 또는 일반화된 기술로 폴백(fallback)된다. 보통의 폴백은 도메인을 벗어난 사용자 입력을 일반적인 웹 검색의 대상으로서 취급하는 것이다.
사용자는 타겟 언어 의사소통 다이얼로그 시스템의 능력 및 한계를 항상 인식하지 못한다. 예컨대, 스마트 폰 상의 가상 개인 비서는, 가상 개인 비서가 사용자를 도와서 전화 걸기, 텍스트 메시지 및 이메일 보내기, 알람 및 리마인더 설정, 노트 및 캘린더 항목 생성, 날씨 또는 장소에 대한 정보 가져오기와 같은 태스크를 할 수 있는, 통화, 단문 메시지 서비스(short message service, SMS), 이메일, 캘린더, 알람, 리마인더, 노트, 날씨, 및 장소 태스크 도메인에 제한될 수 있다. 스마트 폰이 다른 기능(예컨대, 음악 재생)도 가능하기 때문에, 사용자는 가상 개인 비서가 이들 다른 기능도 도울 수 있다고 추측할 수 있다. 예컨대, 사용자는 사용자의 뮤직 라이브러리로부터 선택한 것을 듣기를 기대하면서 가상 개인 비서가 "Aerosmith의 노래를 재생"할 것을 요청할 수 있다. 뮤직 태스크 도메인이 없다면, 사용자의 요청은 이해되지 못한다. 요청된 음악을 듣는 것 대신에, 사용자는 웹 페이지의 리스트를 받는다. 사용자는 뮤직 태스크를 취급하는 방법을 가상 개인 비서가 모른다는 것을 인식하지 못한 채 재요청을 하고/하거나 요청을 고쳐 말하는 것(rephrasing)을 시도할 수 있다. 동시에, 사용자는 가상 개인 비서의 폴백 행동을 인식하고 폴백 웹 검색 결과를 얻기를 기대하면서 일반적으로 간단한 키워드(예컨대, "최소 임금(minimum wage)")를 이용한다.
가상 개인 비서의 관점에서는, 음악을 재생하는 요청도 키워드도 태스크 도메인의 어느 것으로도 커버되지 않기 때문에 이들을 웹 검색어로서 취급하지만, 사용자의 경험은 매우 달라진다. 사용자의 관점에서는, 음악 재생 요청에 응답하여 웹 검색 결과를 받는 것이 사용자 경험을 충족하지 못하기 때문에 당황스럽다. 한편, 웹 검색 결과는 그것이 사용자가 기대하는 것이면 만족스럽다. 기술적인 문제는, 웹 검색 결과 반환 이외의 결과를 달성하고자 하나 태스크 도메인의 어느 것으로도 커버되지 않는, 타깃 언어 의사소통 다이얼로그 시스템에 어드레싱된 요청과, 웹 검색이 적절한 경우의 웹 검색어 간을 구별하는 것이다. 본 발명이 해결하고자 하는 바는 이러한 사정 및 다른 것들에 대한 것이다. 비교적 특정한 문제들이 논의되었지만, 여기에 개시된 양상들은 배경에서 확인된 특정 문제들을 해결하는 것에 국한되어서는 안 된다는 것을 이해해야 한다.
본 개요는 상세한 설명에서 또한 후술하는 다양한 개념들을 간략화한 형태로 소개하기 위해 제공된다. 본 개요는 청구범위의 발명의 대상이 되는 주요 특징 또는 본질적 특징을 확인하기 위한 것이 아니며, 청구범위의 발명의 대상의 범주를 결정하는데 도움을 주는 것으로 이용되어서도 안 된다.
오펀 발화 검출 시스템 및 관련 방법의 양상들은, 일반적 웹 검색 수행과 같은 폴백 프로세싱이 웹 검색으로 만족스럽지 않을 것 같은 경우에, 타겟 언어 의사소통 다이얼로그 시스템으로부터의 도메인을 벗어난 발화(out-of-domain utterance)를 프로세싱하여, 타겟 언어 의사소통 다이얼로그 시스템으로 하여금 소정의 액션을 취하게 하는 특정 의도를, 도메인을 벗어난 발화가 표현하는지의 여부를 결정하는 오펀 검출기를 포함한다. 오펀 검출기를 내장한 다이얼로그 시스템은 프로세싱할 하나 이상의 발화를 수신한다. 도메인 분류기를 이용하여 타겟 의사소통 컴포넌트의 태스크 도메인 중 어느 것에 의해 상기 발화가 커버되는지의 여부에 따라 상기 발화는 도메인 내에 있는 것 또는 도메인을 벗어난 것으로 분류된다. 발화를 분류 및 이해하는 데에 이용하기 위해 발화로부터 특징이 추출된다. 특징 추출은 어휘적 파싱 동작(lexical parsing operation), 품사 태깅 동작(part-of-speech tagging operation), 구문론적(syntactic) 파싱 동작, 및 의미론적(semantic) 파싱 동작 중 하나 이상을 포함할 수 있다.
오펀 결정은 추출된 특징에 기초하여 도메인을 벗어난 발화가 오펀(orphan)인지의 여부를 식별한다. 사용되는 한가지 어휘적 특징은 그 발화로부터의 n-gram이라는 단어뿐이다. 오펀 검출기가 내용보다는 구조에 더 많이 의존하기 때문에, 구문론적 특징도 오펀 분류기에 의해 이용될 수 있다. 오펀 결정에 이용하기 위한 기준 구문론적 특징은 품사 태그 n-gram이다. 의미론적 특징도 오펀 분류기 모델에 유용하다. 술어(predicate) 및 아규먼트(argument) 세트가 있는지를 확인하는 것은 정확도가 높은 오펀 분류에 대한 한가지 의미론적 특징을 제공한다. 오펀은 일반적인 웹 검색어와 동일하게 취급되지 않는다. 이것은 개선된 사용자 경험을 제공한다. 사용자 경험은, 다이얼로그 시스템이 사용자의 요청을 만족시키기 때문이 아니라, 사용자의 요청이 만족될 수 없더라도 다이얼로그 시스템이 뜻있는 응답(meaningful response)을 제공하기 때문에, 개선된다.
본 개시내용의 다른 특징, 양상 및 장점은, 상세한 설명을 보다 명확하게 나타내기 위해 요소들이 비례적이지 않고 여러 도면에서 유사한 참조 번호가 유사한 요소를 나타내는 다음의 도면을 참조하여 더 잘 이해될 것이다.
도 1은 오펀 검출기를 이용하는 타겟 언어 의사소통 다이얼로그 시스템의 양상을 도시하는 시스템 도면이다.
도 2는 오펀을 검출 및 취급하는 방법의 양상을 나타내는 상위 레벨 흐름도이다.
도 3은 성분에 따른(constituency-based) 구문론적 구조 파싱의 일례를 도시하는 도면이다.
도 4는 도 3에서 구문론적으로 파싱된 문장에 적용되는 의미론적 파싱의 일례를 도시하는 도면이다.
도 5는 오프라인 사용 시나리오에서 오펀을 이용한 새로운(즉, 커버되지 않은) 태스크 도메인에 대한 의미론적 모델의 무감독 트레이닝(unsupervised training) 방법의 양상을 나타내는 상위 레벨 흐름도이다.
도 6은 본 발명의 양상을 실시하기에 적합한 컴퓨팅 디바이스의 물리적 컴포넌트를 도시하는 블록도이다.
도 7a은 본 발명의 양상을 실시하기에 적합한 모바일 컴퓨팅 디바이스를 도시하는 도면이다.
도 7b는 본 발명의 양상을 실시하기에 적합한 모바일 컴퓨팅 디바이스에 대한 아키텍처를 도시하는 블록도이다.
도 8은 본 발명의 양상이 실시될 수 있는 분산형 컴퓨팅 시스템의 간략화된 블록도이다.
본 발명의 다양한 양상은 본 발명의 일부를 형성하고 본 발명의 특정 예시적인 양상을 나타내는 첨부된 도면을 참조하여 보다 상세히 설명된다. 그러나, 본 발명은 다수의 상이한 형태로도 구현될 수 있고, 여기에 설명하는 양상들로 제한되는 것으로 해석되어서는 안 되며, 오히려, 이러한 양태들은 본 개시내용이 철저하고 완전하게 이루어질 수 있도록 제공되며, 다양한 양태의 범위를 당업자에게 완전히 전달할 것이다. 양상들은 방법, 시스템, 또는 디바이스로서 실시될 수 있다. 따라서, 구현예는 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합을 이용해서 실시될 수 있다. 그러므로, 다음의 상세한 설명은 제한적인 의미로 해석되어서는 안 된다.
오펀 검출기 및 관련 방법의 양상들을 여기에 설명하고 첨부 도면에 도시한다. 오펀 검출기는 일반적 웹 검색 수행과 폴백 프로세싱이 웹 검색으로 만족스럽지 않을 것 같은 경우에, 타겟 언어 의사소통 다이얼로그 시스템으로부터의 도메인을 벗어난 발화(out-of-domain utterance)를 프로세싱하여, 타겟 언어 의사소통 다이얼로그 시스템으로 하여금 소정의 액션을 취하게 하는 특정 의도를, 도메인을 벗어난 발화가 표현하는지의 여부를 결정한다. 이러한 발화는 태스크 도메인 중 어느 것 또는 폴백 프로세싱에 의해 적절하게 취급되지 않기 때문에 오펀(orphan)이라고 지칭된다. 오펀 검출기는 발화의 내용보다는 구조에 주로 포커싱함으로써 오펀을, 웹 검색어 및 기타 도메인을 벗어난 발화로부터 구별한다. 오펀 검출기에 의해 검출된 오펀은 타겟 언어 의사소통 다이얼로그 시스템을 이용해 사용자 경험을 개선하기 위해 온라인과 오프라인 양쪽에서 사용될 수 있다. 오펀 검출기는 웹 검색 엔진 쿼리 로그로부터 구조적으로 유사한 쿼리 또는 문장을 찾는 데에도 이용될 수 있다.
도 1은 오펀 검출기를 이용하는 타겟 언어 의사소통 다이얼로그 시스템의 양상을 도시하는 시스템 도면이다. 다이얼로그 시스템(100)은 오펀 검출기(102)와 타겟 의사소통 컴포넌트(targeted understanding component)(104)를 포함한다. 다이얼로그 시스템은 도시하는 바와 같이, 제한 없이, 서버(108)와 통신하는 클라이언트 디바이스(106) 등의 하나 이상의 컴퓨팅 디바이스를 이용해서 단일 컴퓨팅 디바이스 또는 분산형 아키텍처를 이용한 로컬 아키텍처로 구현될 수 있다. 클라이언트 시스템(106)과 서버(108)는 서버 또는 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 컴퓨터, 스마트폰, 스마트 워치, 및 스마트 가전제품을 포함하나 이에 한정되지 않는 다양한 컴퓨팅 디바이스를 이용해서 구현될 수 있다. 분산된 컴포넌트들은 근거리 네트워크, 원거리 네트워크, 또는 인터넷 등의, 그러나 이들에 한정되지 않는 네트워크를 통해 통신할 수 있다.
다이얼로그 시스템(100)은 각종의 입출력 양식(modality)을 통해 사용자(112)와 상호작용하기 위한 사용자 인터페이스(110)를 제공한다. 입출력 양식의 유형 및 수는 클라이언트 디바이스(106)의 하드웨어에 종속된다. 적합한 입출력 양식의 예는 제한 없이 스피치, 텍스트, 수기(handwriting), 터치, 제스처를 포함한다. 클라이언트 디바이스(106)는 하나 이상의 입력 디바이스(116)를 통해 사용자(112)로부터 대화형 입력(conversational input)을 접수하고, 하나 이상의 출력 디바이스(120)를 통해 사용자(112)가 소비할 대화형 출력(118)을 렌더링한다. 적합한 입력 디바이스의 예는 제한 없이, 마이크, 터치 스크린, 카메라나 스캐너, 물리적 키보드나 키패드, 가상 키보드나 키패드를 포함한다. 적합한 출력 디바이스의 예는 제한 없이 스피커, 디스플레이 화면, 및 프로젝터를 포함한다.
예시적으로 상황을 마련하기 위해, 다이얼로그 시스템(100)의 양상들은 사용자로부터의 발화에 응답하는 멀티모드 가상 개인 비서(VPA, virtual personal assistant)로서 설명될 수 있다. 그러나, 오펀 검출기(102)는 다양한 타겟 언어 의사소통 다이얼로그 시스템과 함께 이용될 수 있으며, 가상 개인 비서와 함께 이용하는 것으로 제한되어서는 안 된다. 편의상 본 명세서에서 사용할 때에, 용어 "발화(utterance)"는 모드와 무관한, 다이얼로그 시스템(100)에 대한 임의의 대화형 입력을 지칭한다. 어떤 특정 양식이나 대화형 입력에 대한 언급이나 묘사는, 다른 양식을 구현하기 위한 대응하는 하드웨어 및/또는 소프트웨어 변형을 수반한 다른 양식이나 대화형 입력을 포괄하는 것으로 광범위하게 읽어야 된다.
비(non)텍스트 발화를 접수하면, 다이얼로그 시스템(100)은 입력 유형에 대한 적절한 디코딩 기술을 이용하여 컴퓨터 판독 가능한 포맷에 속하지 않는 발화를 프로세싱에 적합한 컴퓨터 판독 가능한 포맷을 변환하는 하나 이상의 자동 발화 이식기(122)를 포함할 수 있다. 적합한 자동 발화 인식기(122)의 예는 제한 없이, 스피치 인식기, 제스처 인식기, 광학 문자 인식기, 및 수기 인식기를 포함한다. 자동 발화 인식기(122)의 출력은 타겟 의사소통 컴포넌트(104)에 제공된다.
특징 추출기(124)는 자동 발화 인식기(122)의 출력으로부터 특징을 추출한다. 특징은 오펀 검출기(102) 및/또는 타겟 의사소통 컴포넌트(104)가 사용하기 위해 추출될 수 있다. 오펀 검출기(102)를 위해 추출된 특징의 유형은 어휘적 특징, 품사 태그 특징, 구문론적 특징, 및 의미론적 특징을 포함한다.
타겟 의사소통 컴포넌트(104)는 도메인 분류기(126) 및 언어 이해 컴포넌트(128; language understanding component)를 포함한다. 도메인 분류기(126)는 하나 이상의 도메인 모델을 이용하여 발화를 하나 이상의 지원 태스크 도메인에 매핑시킨다. 지원되는 태스크 도메인 중 하나에 의해 커버되는 발화는 "도메인 내에(in-domain)" 있는 것이다. 지원되는 태스크 도메인 중 하나에 의해 커버되지 않는 발화는 "도메인에서 벗어난(out-of-domain)" 것이다. 언어 이해 컴포넌트(128)는 컴퓨터 판독 가능한 텍스트를 다이얼로그 시스템에 의해 프로세싱될 수 있는 의미론적 표현으로 해체(disassembling) 및 파싱함으로써 발화를 의미있는 표현으로 변환한다. 대부분의 멀티도메인 다이얼로그 시스템에 있어서, 타겟으로 하는 의미론적 프로세싱은 모든 태스크 도메인에 대한 전역 문법(global grammar)이나 통계적 모델을 이용하는 것 대신에 각각의 태스크 도메인에 고유한 도메인 모델을 이용하여 태스크 도메인에 의해 행해진다. 타겟 의사소통의 이용은 시스템 설계자로 다이얼로그 시스템의 능력에 포커싱하게 하고 도메인 내의 발화의 심층 이해를 제공하게 하는 것이 가능하다.
도메인에서 벗어난 발화는 백오프 의사소통(backoff understanding)을 이용해 취급된다. 전술한 바와 같이, 타겟 언어 의사소통 다이얼로그 시스템에 의해 채용되는 백오프 의사소통의 통상적인 예는 모든 도메인 분류기에 의해 거절된 발화를 일반적 웹 검색어로서 취급하는 것이다. 가상 개인 비서 및 기타 타겟 언어 의사소통 다이얼로그 시스템에서의 백오프 의사소통은 의사사실 질문(factoid question) 검출기(130) 및/또는 잡담(chit-chat) 검출기(132)도 포함할 수 있다.
의사사실 질문은 지명된 엔티티에 관한 간단한 사실을 찾는 질문이다. 의사사실 질문은 종종 누가(who), 무엇을(what), 언제(when), 어디서(where), 왜(why), 또는 방식 질문(how question)처럼 표현된다. 의사사실 질문의 일례는 "what is the tallest mountain in the United States?"이다.
잡담은 자연스러운 또는 간단한 대화에서의 일상적 발화를 지칭한다. 가상 개인 비서를 이용하면, 잡담은 통상 어느 정도 어이없거나 어느 정도 개인적인 특징의 질의를 수반한다. 가상 개인 비서에는 그 가상 개인 비서를 적어도 다소 사람처럼 보이게 하기 위해 이러한 질의에 대한 반응이 제공될 수 있다. 잡담의 예는 "where are you from" 또는 "tell me a joke" 등의 발화를 포함한다. 사실상, 잡담은 가상 개인 비서 또는 기타 타겟 언어 의사소통 다이얼로그 시스템의 성격(personality)을 규정하는 것을 돕는 비생산적인 상호작용(non-productive interaction)을 수반한다.
오펀 검출기(102)는 오펀을 검출함으로써 백오프 의사소통을 향상시킨다. 본 명세서에서 사용할 때에, 오펀은 타겟 언어 의사소통 다이얼로그 시스템의 태스크 도메인 중 어느 것에 의해 커버되지 않는 것(즉, 도메인을 벗어난 발화)으로 알려진, 의사사실적이지 않고(non-factoid), 애매하지 않으며, 특정 의도를 가진 요청을 지칭한다. 따라서, 오펀은, 적절한 태스크 도메인을 가진 타겟 언어 의사소통 다이얼로그 시스템에 의해 커버될 수 있으며, 대부분의 경우, 일반적 웹 검색을 수행하는 것으로 완수될 수 없는 요청을 나타낸다.
가상 개인 비서 등의, 사용자 발화에 대해 동시 응답(contemporaneous response)을 제공하는 온라인 시스템에서는, 오펀 검출기(102)가 다이얼로그 시스템(100)으로 하여금 특정 사용자 경험을 개선시키는 적절한 방식으로 오펀에 지능적으로 응답하게 한다. 예를 들면, 오펀 검출기(102)에 의해 제공되는 정보는 사용자 발화가 오펀인 경우에 비동조적인(unresponsive) 일반 웹 검색을 반환하는 것을 피하고 적절한 응답을 제안하기 위해 온라인으로 사용될 수 있다. 오프라인 사용에서는, 오펀 검출기(102)가 타겟 의사소통 컴포넌트(104)의 기능성을 개선시키는 가치있는 정보를 제공하고, 그럼으로써 다이얼로그 시스템(100)을 이용해 일반적 사용자 경험을 개선시킨다. 예를 들면, 오펀 검출기(102)는 새로운 태스크 도메인을 신속하게 추가하고 타겟 언어 의사소통 다이얼로그 시스템의 능력을 확장시키거나 오펀을 취급하는 기존의 도메인 모델을 개선시키기 위해 오프라인에 사용될 수도 있다.
판별적 분류기(discriminative classifier)는 생성적 분류기(generative classifier)(예컨대, 나이브 베이즈(Naive Bayes))와 비교해 이전 확률 분포에 덜 민감한 경향이 있기 때문에 오펀 검출기에 사용하기에 매우 적합하다. 적합한 판별적 분류기의 일례는 서포트 벡터 머신(SVM, support vector machine)이다. 서포트 벡터 머신은 통상, 대형 특징 공간을 가진 태스크에 대해 다른 바이너스 분류 방법보다 성능이 우수하다. 오펀 검출 특징 공간은 단어 및 품사 태그 n-gram 모두를 포함하고 있기 때문에 매우 크다.
오펀 검출기의 분류기 모델은 빈번하게 발생하는 웹 검색어 세트 및 다이얼로그 코퍼스(dialog corpus)로부터 다이얼로그 시스템에 어드레싱되는 발화 세트를 포함하는 트레이닝 데이터를 이용해서 구축될 수 있다. 웹 검색어 세트는 네거티브 트레이닝 부류를 제공하는 반면, 다이얼로그 시스템에 어드레싱되는 발화 세트는 포지티브 트레이닝 부류를 제공한다. 다이얼로그 시스템에 어드레싱되는 발화 세트로부터의 발화는 수동으로 주석이 달릴 수 있다. 다이얼로그 시스템에 어드레싱되는 발화 세트는 도메인 내의 발화 및/또는 그 다이얼로그 시스템에 어드레싱되는 것으로 결정되는 도메인을 벗어난 발화를 포함할 수 있다. 오펀 검출 모델에서 이용되는 특징에 따라, 오펀 검출기는 어휘적 파서(lexical parser), 품사 태거(part-of-speech tagger), 구문론적 파서, 및 의미론적 파서 중 하나 이상을 채택할 수 있다.
상호작용 매니저(134)는 타겟 의사소통 컴포넌트(104)의 출력에 영향을 미친다. 상호작용 매니저(314)는 다이얼로그(즉, 대화)의 흐름을 결정적으로 책임지는 다이얼로그 시스템의 상태기반(stateful) 컴포넌트이다. 상호작용 매니저(134)는 현재의 다이얼로그 상태를 반영하기 위해 다이얼로그 세션(136)을 업데이트하여 대화를 추적하고, 그 대화의 흐름을 제어한다. 다이얼로그 세션(136)은 사용자와 다이얼로그 시스템 간의 상호작용의 임의의 양상 및 모든 양상을 저장할 수 있는 데이타 세트이다. 다이얼로그 세션이 저장하는 다이얼로그 상태 정보의 유형 및 양은 다이얼로그 시스템의 설계 및 복잡성에 따라 다를 수 있다. 예컨대, 대부분의 다이얼로그 시스템이 저장하는 기본 다이얼로그 상태 정보는 발화 이력, 사용자로부터의 최종 커맨드 및 최종 머신 액션, 그리고 현재의 다이얼로그 상태를 포함하나 이들에 한정되지 않는다. 상호작용 매니저(134)는 현재의 다이얼로그 상태에 기초하여 적절한 머신 액션을 수행하는데, 그 예로는 구조화된 또는 구조화되지 않은 정보 소스(예컨대, 지식 베이스(knowledge bases), 연락처 등)로부터 정보를 검색(retrieving)하는 것이 있지만, 이에 한정되지는 않는다.
응답 생성기(138)는 다이얼로그 시스템의 응답을 생성한다. 응답 생성기(138)는 그 응답을, 사용자에 제공하기 위한 자연적(즉, 인간적) 사운딩 텍스트로 변환하는 자연 언어 생성 컴포넌트(140)를 포함할 수 있다. 응답 생성기(138)는 응답을 스피치로 변환하여 다이얼로그 시스템으로 하여금 사용자와 말로 상호작용하게 하는 텍스트-스피치 컴포넌트(142)도 포함할 수 있다. 응답은 클라이언트 디바이스의 출력 디바이스 중 하나 이상을 통해 렌더링된다.
도 2는 오펀을 검출 및 취급하는 방법의 양상을 나타내는 상위 레벨 흐름도이다. 방법(200)은 다이얼로그 시스템이 프로세싱할 하나 이상의 입력을 수신하는 입력 동작(202)을 포함할 수 있다. 온라인 사용 시나리오의 경우, 입력은 통상 사용자로부터 실시간으로 수신되는 개별 발화이다. 필요하다면, 인식 동작(204)에서 발화를 오펀 검출기(102)가 사용할 수 있는 포맷으로 변환한다. 예를 들어, 인식 동작(204)에서는 스피치를 텍스트로 디코딩하기 위해 행해진 발화에 스피치 인식을 적용하는 것을 수반할 수 있다. 오프라인 사용 시나리오의 경우, 입력은 다수의 사용자들의 다이얼로그 시스템 또는 웹 검색 엔진 쿼리 로그로부터의 기존의 발화 또는 쿼리의 코퍼스(copus)로부터의 것일 수 있다.
도메인 분류 동작(206)에서는, 타겟 의사소통 컴포넌트(104)의 태스크 도메인 중 어느 것에 의해 발화가 커버되는지의 여부에 따라 발화를 도메인 내에 있는 것 또는 도메인을 벗어난 것으로 분류한다. 도메인 분류 동작(206)에서는, 발화가 각 도메인에 속하는지의 여부를 결정하는 연관된 분류기를 각 도메인에 구비하는 "수용(acceptance)" 어프로치, 최상위 레벨 분류기가 발화에 대한 도메인을 결정하는 "선별(triage)" 어프로치, 또는 이들 어프로치의 조합을 이용할 수 있다.
도메인 분류가 통상 포함(즉, 규정된 태스크 도메인에 의해 커버되는 발화를 검출하는 것)이라는 면에서 표현되지만, 본 발명의 양상들은 도메인을 벗어난 발화를 취급하는 데에 포커싱한다. 따라서, 상세한 설명 및/또는 첨부하는 청구범위에서는 도메인을 벗어난 발화의 검출 및/또는 분류라고 지칭할 수 있다. 발화가 도메인을 벗어난 발화라는 결정은 타겟 언어 의사소통 다이얼로그 시스템의 도메인에 포함시키기 위해 발화를 테스트하여 얻어진 결과의 부정(negation)에 의해 간단히 달성될 수 있다. 다시 말해, 타겟 언어 의사소통 다이얼로그 시스템의 임의의 도메인에 대한 포함 기준을 충족하지 않는 발화는 도메인을 벗어난 발화로서 결정된다.
도메인 분류 동작(206)에 이어서, 도메인 내의 발화 이해 동작(208)과 도메인 내의 발화 액션 동작(210)이 수행된다. 도메인 내의 발화 이해 동작(208)에서는 도메인 내의 발화의 의도(즉, 의미)를 결정한다. 도메인 내의 발화 동작(208)에 의한 의미 부여 양상은 제한 없이, 아규먼트 추출, 슬롯 채우기, 및 기타 의미론적 프로세싱 기능 및 어프로치를 포함할 수 있다.
도메인 내의 발화 액션 동작(210)에서는 현재의 다이얼로그 상태에 기초하여 도메인 내의 발화의 의도를 달성하는 것으로 결정되는 다이얼로그 액트를 수행한다. 예를 들어, 도메인 내의 발화 액션 동작(210)은 아규먼트로 지정된 날짜 및 시간에 대한 알람을 설정하는 알람 애플리케이션, 또는 아규먼트로 지정된 사람에 전화를 걸기 위한 폰 애플리케이션과 인터페이싱할 수 있다. 도메인에 따른 규칙 또는 도메인 내의 발화를 취급하기 위한 명령어는 통상 태스크 도메인 정의의 일부로서 명시된다.
일반적으로, 도메인 내의 발화 상호작용은 애플리케이션, 환경, 및 사용중인 디바이스에 맞쳐진다. 스마트 텔레비전, 케이블 박스, 또는 인터넷 텔레비전 디바이스나 애플리케이션에 대한 도메인 내의 태스크는 스트리밍 비디오 컨텐츠의 재생, 채널 변경, 및 볼륨 조정을 포함할 수 있다. 예를 들어, 범용의 컴퓨팅 디바이스 상에서, 가상 개인 비서에 대한 도메인 내의 태스크는 라마인더 관리, 알람 관리, 비행 예약하기, 및 호텔 예약하기를 포함할 수 있다. 스마트폰 상에서, 가상 개인 비서에 대한 도메인 내의 태스크는 셀룰러 캐리어 네트워크를 통한 텍스트 메시지 발송 및 전화걸기로 확장될 수 있다.
특징 추출 동작(212)에서는 발화를 분류하고 이해하기 위해 사용되는 특징을 추출한다. 특징 추출은 어휘적 파싱 동작(lexical parsing operation)(214), 품사 태깅 동작(part-of-speech tagging operation)(216), 구문론적(syntactic) 파싱 동작(218), 및 의미론적(semantic) 파싱 동작(220) 중 하나 이상을 포함할 수 있다. 특징 추출은 도메인을 벗어난 발화를 잡담 또는 의사사실 질문으로 분류하는 데에 그리고 도메인 내의 발화를 분류하는 데에 유용한 특징을 추출하기 위해서도 이용될 수 있다. 도메인 내의 발화 및 도메인을 벗어난 발화에 대한 특징 추출은 별도로 또는 도메인 분류 동작(204) 이전에 일어나는 조합된 동작으로 이루어질 수 있다.
방법(200)은 선택적으로, 대응하는 도메인을 벗어난 발화를 검출 및 프로세싱하는 의사사실 질문 프로세싱 동작(222) 및 잡담 프로세싱 동작(222)을 포함할 수 있다.
오펀 결정(226)은 도메인을 벗어난 발화가 오펀인지의 여부를 식별한다. 오펀 검출은 놀랄만큼 어려운 태스크이다. 오펀 결정(226)은 발화의 특정 의도(즉, 발화의 내용)을 이해하는 것보다는 발화의 의도가 표현되는 방법(즉, 발화의 구조)에 포커싱한다. 예를 들어, 커맨드로서 구조화된 도메인을 벗어난 발화(예컨대, "send email to mom")는 일반적 웹 검색에 대한 키워드라기보다는 특정적이지만 지원되지 않는 액션을 다이얼로그 시스템이 수행해야 하는 요청일 가능성이 더 많다. 마찬가지로, 지명된 엔티티 또는 명사구만 그리고 그 밖의 것(예컨대, hotel)을 포함하는 발화는 일부 인스턴스가 애매하더라도(예컨대, "hotel reservation"), 웹 검색으로 어드레싱되는 키워드일 가능성이 더 많다.
알려진 태스크 도메인에 대한 도메인 분류기로부터의 신뢰도 점수는 오펀 결정(226)에 대한 입력이, 커버된 태스크 도메인에 의해 거절되었던 도메인을 벗어난 발화이기 때문에 특별히 유용하지 않다.
선형 커널 SVM 분류 태스크는 다음과 같이 공식적으로 정의될 수 있다. 타겟 언어 의사소통 다이얼로그 시스템에 어드레싱되는 발화(예컨대, VPA-어드레싱된 요청)의 샘플,
Figure pct00001
로부터 추출된 특징을 이용하여 컴파일되는 트레이닝 데이터를 D, 웹 검색어의 샘플을
Figure pct00002
라고 하면, 선형 커널 SVM 분류 태스크는 초평면,
Figure pct00003
을 찾는 것, 최대 마진으로 이들 부류를 분류하는 것으로서 공식적으로 정의될 수 있다.
한가지 어휘적 특징은 발화로부터의 n-gram이라는 단어뿐이다. 다수의 도메인을 커버하는 발화를 이용해 오펀 분류기를 트레이닝하면, 도메인 독립적 어구(예컨대, "could you please show me" 또는 "what is the")에 비해 도메인 고유의 단어(즉, 레스토랑 도메인에서의 "cuisine" 또는 "meal")의 영향을 효과적으로 저감시킨다. 어휘적 모델은 도메인 내의 지표 어구(예컨대, "can you" 또는 "please")가 좋은 오펀 분류 특징으로서 기능하기 때문에 내용 단어(content word)와의 어휘적 중복이 거의 없더라도 오펀을 웹 검색어와 구별하기에 적절하다. 어휘적 특징만을 이용해 트레이닝된 오펀 분류기를 사용하여 얻어진 결과는 비교를 위한 중대한 기준을 제공한다. 표 1은 VPA에 어드레싱된 요청과 웹 검색어에서 보여지는 일인칭 단어의 상대적인 빈도를 비교하고 있다.
Figure pct00004
오펀 검출기가 내용보다는 구조에 더 많이 의존하기 때문에, 구문론적 특징도 오펀 분류기에 의해 이용될 수 있다. 오펀 결정에 이용하기 위한 기준 구문론적 특징은 품사 태그 n-gram이다. 발화에서 첫번째 단어로서 출현하는 소정의 품사는 그 발화가 오펀인지의 여부에 관한 좋은 지표를 제공한다. 예를 들어, 발화는 첫번째 단어의 품사가 고유 명사일 경우보다는 첫번째 단어의 품사가 조동사(예컨대, "could")이거나 기본형 동사(예컨대, play)일 때에 오펀이 될 가능성이 더 높다. 마찬가지로, 발화가 오펀일 거라는 좋은 지표인 다른 품사는 첫번째 단어로서 출현하는 주격 인칭 대명사(예컨대, "I") 또는 소유격 인칭 대명사(예컨대, "my")를 포함한다.
표 2는 VPA에 어드레싱된 요청과 웹 검색어에서 나타내는 첫번째 단어에 대한 가장 빈번한 품사 태그의 상대적인 빈도를 비교하고 있다. 보다시피, 발화의 첫번째 단어로서 동사를 갖는 것에 있어서 웹 검색어보다는 요청이 실질적으로 더 많은 것 같다.
Figure pct00005
도 3은 성분에 따른(constituency-based) 구문론적 구조 파싱의 일례를 도시하는 도면이다. 단어 "find brightness settings"는 동사구(VP)와 명사구(NP)로 이루어진 문장(S)을 형성한다. 명사구는 복수 명사(NNS) "settings"와 연결된 단수 명사(NN) "brightness"로 구성된다. 동사구는 명사구 "brightness settings"가 목적어로서 역할하는 동사(VB) "find"로 구성된다. 구문 분석 트리(syntactic parse tree)의 구조는 VPA에 어드레싱된 요청의 가장 빈번한 형태 중 하나인 구문론적 형태 특징인 S(VP(NP))로 표현될 수 있다. 구문 분석 트리 형태는 오펀 분류자 모델에서 유용한 또 다른 구문론적 특징이다. 실제로, VPA에 어드레싱된 요청에는 웹 검색어보다 구문 분석 트리가 훨씬 더 많이 보인다. VPA에 어드레싱된 요청에 대한 다수의 구문 분석 트리 형태는 구문 분석 구문 트리 형태를 정확도보다는 리콜에 더 유용하게 한다.
의미론적 특징도 오펀 분류기 모델에서 유용하다. 필수는 아니지만, 도메인 내의 발화에 대한 통상의 의미론적 프레임은 주로 술어/아규먼트(예컨대, "make/reservation", "buy/ticket" 또는 "set/alarm")의 형태로 의도를 포함한다. 술어(predicate) 및 아규먼트(argument)의 세트가 있는지를 확인하는 것은 정확도가 높은 오펀 분류에 대한 한가지 의미론적 특징을 제공한다.
의미론적 파싱은 일반적인 지식 기반의 의미론적 파서(예컨대, NLPWin)를 이용해서 달성될 수 있다. 오펀 검출기를 사용하여 평가된 대부분의 발화는 매우 짧고 파싱하기에 단순하기 때문에, 구문론적 파싱은 얕은 구문론적 파서(예컨대, PropBank) 또는 심층 의미론적 파서(예컨대, FrameNet)를 사용하여 달성될 수도 있지만, 이들 파서는 통상, 자연 발화 언어를 파싱하게 될 때에는 특히 강력하지 못하다.
도 4는 도 3에서 구문론적으로 파싱된 문장에 적용되는 의미론적 파싱의 일례를 도시하는 도면이다. 도시하는 구문 분석 트리는, "ARGO"가 대개 주어이고, "ARG1"은 직접 목적어이고, "mod"는 수식구(modifier)이며, "mode"는 평서문(regular statement)이 아닌 문장의 다이얼로그 액트(예컨대, 명령형(imperative), 의문형(interrogative), 또는 감탄형(exclamation))를 나타내는 추상 의미 표현(AMR, abstract meaning representation) 포맷을 사용한다. 의미론적 파싱의 구조는 의미론적 형태 특징인 Pred(Arg0, Argl, mode: imperative)로 표현될 수 있는데, 이는 VPA에 어드레싱된 요청에 대한 가장 빈번한 의미론적 형태이다. 반대로, 독립 개념(예컨대, "facebook")의 의미론적 형태는 VPA에 어드레싱된 요청보다는 웹 검색어에서 약 16배 더 자주 출연한다.
오펀 분류자 모델은 특징 레벨 또는 결정 레벨에서 조합될 수 있다. 다시 말해, 오펀 분류 결정을 기반으로 하는 단일 출력을 제공하는 다수의 특징 세트를 이용하여 단일 오펀 분류기 모델이 트레이닝될 수도 있거나 혹은 오펀 분류 결정을 할 때에 평가할 출력 세트를 제공하는 각각의 기능 세트를 이용하여 개별 오펀 분류기 모델이 트레이닝될 수도 있다.
오펀 검출기는 도메인 모델에 의해 거절된 발화가 오펀인지 웹 검색어인지의 여부를 결정하고 프로세싱할 오펀을 반환한다. 오펀이 프로세싱되는 방법은 오펀 검출기가 온라인 시나리오에 또는 오프라인 시나리오에 사용되고 있는지 여부에 따라 달라질 수 있다.
이제 도 2로 되돌아가면, 오펀 취급 동작(228)에서는 개선된 사용된 경험을 제공하는 적절한 방식으로 오펀 결정(226)에서 식별된 오펀을 취급한다. 예를 들면, 오펀 취급 동작(228)은 오펀을 일반적 검색어로 제출하는 것을 피할 수도 또는 오펀에 대한 일반적 웹 결과의 보고를 억제할 수도 있다. 대신에, 오펀 취급 동작(228)은 사용자가 특정 액션 요청을 만들어냈지만 그 특징이 현재 다이얼로그 시스템에 의해 지원되지 않는다는 것을 다이얼로그 시스템이 이해한다고 나타내는 메시지를 작성할 수 있다. 보다 덜 가정하는 어프로치에서는, 오펀 취급 동작(228)이 오펀에 기초한 일반적인 웹 검색 결과를, 오펀이 지원되지 않는 액션 요청인 것으로 보인다고 다이얼로그 시스템이 이해하는 것을 사용자에게 알리는 메시지와 함께 제공할 수 있으며, 그 요청은 완수될 수 없기 때문에, 사용자가 사실상 일반적인 웹 검색을 수행하려고 하는 경우에만 검색 결과가 제공되게 된다. 오펀 취급 동작(228)의 양상은 오펀을 취급하는 방법을 결정하기 위해 오펀 결정(226)에서 생성된 신뢰도 점수를 이용하는 것을 포함할 수 있다. 오펀 취급 동작(228)은 대안적으로, 또는 추가적으로, 사용자에게, 지원되지 않는 액션을 수행하는 방법을 다이얼로그 시스템에 교육할 기회를 제공할 수도 있다.
사용자 경험은, 다이얼로그 시스템이 사용자의 요청을 만족시키기 때문이 아니라, 사용자의 요청이 만족될 수 없더라도 다이얼로그 시스템이 뜻있는 응답(meaningful response)을 제공하기 때문에, 개선된다. 사용자가 요청한 것에 대해 다이얼로그 시스템이 무의미한 응답(즉, 웹 검색어 결과)을 제공한 이유를 사용자가 궁금해하지 않게 되면, 이것은 대개 다이얼로그 시스템에 대한 사용자의 불만을 저감시킨다.
발화 목록화(cataloging) 동작(230)은 다이얼로그 시스템에 의해 부여된 분류와 함께 다이얼로그 시스템에 의해 수신된 발화를 저장할 수 있다. 발화 목록화 동작(230)은 다이얼로그 시스템에 의해 수신된 모든 발화를, 또는 발화의 선택된 부류들만(예컨대, 제한 없이, 도메인 내, 도메인 외, 오펀, 웹 검색어, 잡담, 또는 의사사실 질문) 그리고 이들의 조합을 저장하는데 이용될 수 있다. 에를 들어, 발화 목록화 동작(230)은 도메인을 벗어난 것으로서 분류된 발화만 저장할 수 있다. 다른 예에서는, 오펀과 웹 검색어만 저장될 수도 있다.
수신된 입력의 유형 및 부류에 따라, 동작들 중 일부 또 전부가 오프라인 시나리오에서는 생략될 수도 있다. 예를 들어, 코퍼스는 분석될 도메인을 벗어난 발화만, 또는 불필요한 도메인 분류와 같은 코퍼스 작성 단계에 적용되는 필터만 포함할 수도 있다. 마찬가지로 코퍼스 또는 로그는 텍스트로 저장되며 인식 동작을 필요로 하지 않을 것이다. 또한, 실제 발화 취급은 일반적으로 오프라인 분석 용도에는 불필요하다.
도 5는 오프라인 사용 시나리오에서 오펀을 이용한 새로운(즉, 커버되지 않은) 태스크 도메인에 대한 의미론적 모델의 무감독 트레이닝 방법의 양상을 나타내는 상위 레벨 흐름도이다. 방법(500)은 오펀 검출기에 의해 검출된 오펀에 대해 일반적 파싱 동작(502)을 수행함으로써 시작된다. 쿼리 그룹핑 동작(504)은 일반적 파싱 동작(502)의 결과와 웹 검색 엔진으로부터의 지식을 이용하여 유사한 오펀들과 웹 검색어를 그룹핑한다. 유용한 그룹핑의 예는, 제한 없이, 동일한 술어 및 아규먼트 유형의 공유(예컨대, "play madonna"와 "play some adele"), 동일한 아규먼트 유형의 공유(예컨대, "show me delta stock"와 "how is united doing today"), 또는 동일한 주요 아규먼트의 공유(예컨대, "recipe of a Mediterranean dish"와 "I need the recipe of Tiramisu")를 기반으로 한 그룹핑을 포함한다. 의미론적 템플레이팅(semantic templating) 동작(506)은 예컨대 AMR 파싱 형태에 기초할 수 있는 의미론적 템플릿을 유도한다. 쿼리 시딩(query seeding) 동작(508)은 의미론적 클러스터링(semantic clustering)(예컨대, 잠재적인 디리클레 할당(latent Dirichlet allocation, LDA)을 사용하여 시드 쿼리(seed query)를 파퓰레이팅한다. 트레이닝 동작(510)은 시드 검색어를 사용하여 도메인 검출 및 슬롯 채우기 모델(slot filling model)을 트레이닝한다. 추가 파싱 동작(512)은 결과 모델을 사용하여 나머지 쿼리를 자동으로 파싱한다. 유지 동작(514)은 추가 파싱 동작(512)의 결과를 사용하여 의미론적 모델을 유지한다.
올바른 관점으로 오펀 검출의 이점을 평가하면, 하나의 가상 개인 비서 시스템에서 약 1백만 건의 발화를 포함하는 다이얼로그 코퍼스를 분석한 결과는, 대다수의 발화는 가상 개인 비서가 취급하는 9개의 어토믹 도메인(atomic domain)(알람, 캘린더, 노트, 통화, 단문 메시지 서비스, 리마인더, 이메일, 날씨 및 장소) 중 하나에 속한 것으로 분류되지 않음을 보여주었다. 발화의 30%만이 도메인 내에 있었다(즉, 9개의 도메인 중 하나에 속하였다). 발화의 다른 5%는 프로세싱될 수 없었다(예컨대, 이해할 수 없었다). 도메인을 벗어난 발화인 나머지 65%는 의사사실 질문, 잡담, 웹 검색어, 및 오펀을 포함한다.
도메인을 벗어난 발화의 분포를 면밀히 살펴보면, 오펀이 발화의 약 18%를 차지하는 것으로 보인다. 웹 검색어는 발화의 다른 23%를 차지하였다. 의사사실 질문과 잡담을 합쳐서 반올림하면 발화의 나머지 24%이다.
n배 교차 검증(n-fold cross-validation) 테스트의 경우, 오펀 검출기의 분류기 모델은 기존 가상 개인 비서 다이얼로그 코퍼스로부터의 빈도 및 약 120,000개의 VPA에 어드레싱된 요청에 관계없이, 헤드 및 중간 빈도 쿼리로부터 선택된 약 100,000개의 웹 검색어를 포함하는 트레이닝 데이터로부터 구축되었다. 웹 검색어는 네거티브 트레이닝 부류를 형성하였고, VPA에 어드레싱된 요청은 포지티브 트레이닝 부류를 형성하였다. 개별 특징 세트(즉, 어휘적, 품사 태그, 구문론적 파싱, 및 의미론적 파싱)에 기초하여 오펀 분류기의 상대적 성능을 평가하기 위해, 7개의 알려진 태스크 도메인 중 하나를 제외한 모든 도메인에 대한 도메인 내의 발화가 오펀 분류기 모델을 트레이닝할 때에 사용되었다. 서빙되는 생략된 태스크 도메인은, 오펀으로 분류되어야 하고 다른 태스크 도메인 중 어느 것에 의해 선택되어서는 안 되는 알려진 발화 세트를 제공하였다.
오펀 검출기에 대한 2개의 주요 성공 척도가 정확도(precision)와 리콜(recall)이다. 정확도는 오펀 검출기에 의해 식별된 오펀의 총 수로부터의 오펀 검출기에 의해 정확하게 식별된 오펀의 비율을 나타낸다. 리콜은 오펀 검출기에 의해 프로세싱된 도메인을 벗어난 발화의 총 수로부터의 오펀 검출기에 의해 정확하게 식별된 오펀의 수를 나타낸다. 테스트에서, 어휘적, 품사 태그, 구문론적 파싱, 및 의미론적 파싱 모델은 평균 리콜이 80%를 넘었지만, 정확도는 달랐다.
개별적으로, 어휘적, 품사 태그, 구문론적 파싱, 및 의미론적 파싱 모델은 모두 평균 리콜이 80%를 넘지만, 결과의 정확도는 다르다. 표 3은 이용 가능한 특징 세트 각각을 이용하여 트레이닝된 오펀 분류기 모델의 상대적인 정확도를 나타낸다. 구문론적 모델의 정확도는, 의사사실 질문(예컨대, "can you paint wood frame homes in winter")과 VPA에 어드레싱된 요청(예컨대, "can you tell me a joke")이 보통 동일한 구문론적 구조를 공유하기 때문에, 저하되는 경향이 있다. 의사사실 질문과 VPA에 어드레싱된 요청을 구별하는 것은 쉽지 않은 구문론적 모호한 태스크이다.
Figure pct00006
표 4는 오펀 분류기 모델을 트레이닝할 때에 생략된 알려진 태스크 도메인으로부터 검출되는 대표적인 발화를 나타낸다. 어휘적 및 품사 태그 모델은 구문론적 및 의미론적 파싱 모델과 비교해서 특정 키 어구(예컨대, "can you please show me...")를 가진 긴 발화를 반환하는 경향이 있다.
Figure pct00007
본 발명의 양상들은 시스템, 디바이스, 및 기타 제조 물품으로서, 또는 하드웨어, 소프트웨어, 컴퓨터 판독 가능한 매체, 또는 이들의 조합을 이용한 방법으로서 실시될 수 있다. 이하의 논의 및 관련 도면은 본 명세서에 설명한 본 발명의 양상을 실시하기 위해 이용될 수 있는 방대한 수의 시스템 아키텍처 및 컴퓨팅 디바이스를 나타내는 선택된 시스템 아키텍처 및 컴퓨팅 디바이스를 설명하며, 어떤 식으로든 본 발명의 범위를 제한하는데 사용되어서는 안 된다
다양한 유형의 사용자 인터페이스 및 정보는 온보드 컴퓨팅 디바이스 디스플레이를 통해 또는 하나 이상의 컴퓨팅 디바이스와 연관된 원격 디스플레이 유닛을 통해 표시될 수 있다. 예를 들어, 다양한 유형의 사용자 인터페이스 및 정보는 다양한 유형의 사용자 인터페이스 및 정보가 투사될 수 있는 벽면 상에 표시되어 상호작용될 수도 있다. 본 발명이 실시될 수 있는 다수의 컴퓨팅 시스템과의 상호작용은 제한 없이, 키스트로크 입력, 터치 스크린 입력, 음성 또는 기타 오디오 입력, 제스처 입력 등으로 달성될 수 있는데, 제스처 입력과 연관된 컴퓨팅 디바이스는 그 컴퓨팅 디바이스의 기능을 제어하는 사용자 제스처를 포착하여 해석하는 검출(예컨대, 카메라) 기능이 장착되어 있다.
도 6은 본 발명의 양상들이 실시될 수 있는 컴퓨팅 디바이스의 아키텍처를 도시하는 블록도이다. 컴퓨팅 디바이스(600)는, 메인프레임 컴퓨터, 미니 컴퓨터, 서버, 퍼스널 컴퓨터(예컨대, 데스크탑 및 랩톱 컴퓨터), 태블릿 컴퓨터, 넷북, 스마트폰, 스마트워치, 비디오 게임 시스템, 스마트 텔레비전, 스마트 소비자 전자 장치를 포함하나 이에 한정되지 않는 다양한 컴퓨터 및 프로그래머블 소비자 전자 장치에 임베딩된 본 발명의 양상들을 구현하기에 적합하다.
점선(608)으로 나타내는 기본 구성에 있어서, 컴퓨팅 디바이스(600)는 적어도 하나의 프로세싱 유닛(602)과 시스템 메모리(604)를 포함할 수 있다. 컴퓨팅 디바이스의 구성 및 유형에 따라, 시스템 메모리(604)는 휘발성 스토리지(예컨대, 랜덤 액세스 메모리), 비휘발성 스토리지(예컨대, 리드 온리 메모리), 플래시 메모리, 또는 이들 메모리의 임의의 조합을 포함할 수 있으나, 이들에 한정되지 않는다. 시스템 메모리(604)는 컴퓨팅 디바이스(600)의 동작을 제어하기에 적합한 운영체제(605)와, 본 명세서에서 설명하는 본 발명의 양상을 구현하는 소프트웨어를 포함하는 소프트웨어 애플리케이션(620)을 실행하기에 적합한 하나 이상의 프로그램 모듈(606)을 포함할 수 있다.
프로세싱 유닛(602) 상에서 실행되면서, 소프트웨어 애플리케이션(620)은 방법(200, 500)의 단계들 중 하나 이상의 단계를 포함한, 그러나 이들에 한정되지 않는 프로세스를 수행할 수 있다. 본 발명의 양상에 따라 이용될 수 있는 기타 프로그램 모듈은, 전자 메일 및 연락처(contacts) 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 데이터베이스 애플리케이션, 슬라이드 프레젠테이션 애플리케이션, 또는 컴퓨터 보조 드로잉 애플리케이션 프로그램 등을 포함할 수 있다.
기본 구성과 함께, 컴퓨팅 디바이스(600)는 추가 특징 또는 기능성을 구비할 수도 있다. 예를 들어, 컴퓨팅 디바이스(600)는 예컨대 자기 디스크, 광학 디스크, 또는 테이프 등의 추가 데이터 저장 디바이스(분리형 및/또는 비분리형)을 포함할 수도 있다. 이러한 추가 스토리지는 분리형 저장 디바이스(609)와 비분리형 저장 디바이스(610)로 도시되어 있다.
또한, 컴퓨팅 디바이스(600)는 키보드, 마우스, 펜, 사운드 입력 디바이스, 터치 입력 디바이스 등의 하나 이상의 입력 디바이스(612)를 구비할 수 있다. 디스플레이, 스피커, 프린터 등의 출력 디바이스(614)도 포함될 수 있다. 전술한 디바이스들은 예시이며 다른 것들이 이용될 수도 있다. 컴퓨팅 디바이스(600)는 다른 컴퓨팅 디바이스(618)와의 통신을 가능하게 하는 하나 이상의 통신 접속(616)을 포함할 수 있다. 적절한 통신 접속(616)의 예는, RF 송신기, 수신기, 및/또는 송수신기 회로, USB(universal serial bus), 병렬 및/또는 직렬 포트를 포함하나 이들에 한정되지는 않는다.
본 명세서에서 사용하는 용어인 컴퓨터 판독 가능한 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능한 명령어, 데이터 구조, 또는 프로그램 모듈 등의 정보를 저장하기 위해 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함할 수 있다. 시스템 메모리(604), 분리형 저장 디바이스(609) 및 비분리형 저장 디바이스(610)가 다 컴퓨터 저장 매체(즉, 메모리 스토리지)의 예이다. 컴퓨터 저장 매체는 RAM(random access memory), ROM(read only memory), EEPROM(electrically erasable programmable read-only memory), 플래시 메모리 또는 기타 메모리 기술, CD-ROM(compact disc read only memory), 디지털 다용도 디스크(digital versatile disk, DVD) 또는 기타 광학 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 기타 자기 저장 디바이스, 또는 정보를 저장하는데 이용될 수 있고 컴퓨팅 디바이스(600)에 의해 액세스될 수 있는 기타 제조 물품을 포함할 수 있다. 임의의 그러한 컴퓨터 저장 매체는 컴퓨팅 디바이스(600)의 일부일 수 있다.
또한, 본 발명의 양상들은 개별 전자 소자, 로직 게이트를 포함하는 패키징형 또는 집적형 전자 칩, 마이크로프로세서를 이용하는 회로를 포함하는 전기 회로 내에서 또는 전자 소자나 마이크로프로세서를 포함하는 단일 칩 상에서 실시될 수 있다. 예를 들어, 본 발명의 양상들은 도시하는 컴포넌트들의 각각이 또는 다수가 단일 집적 회로 상에 집적될 수 있는 시스템 온 칩(SOC)를 통해 실시될 수도 있다. 그러한 SOC 디바이스는 하나 이상의 프로세싱 유닛, 그래픽 유닛, 통신 유닛, 시스템 가상화 유닛 및 다양한 애플리케이션 기능을 포함할 수 있으며, 이들 기능은 모두 단일 집적 회로로서 칩 기판 상에 집적(또는 "버닝(burned)")될 수 있다. SOC를 통해 동작할 때에, 소프트웨어 애플리케이션(620)에 대해 본 명세서에서 설명한 기능은 단일 집적 회로(칩) 상에서 컴퓨팅 디바이스(600)의 다른 컴포넌트와 집적된 애플리케이션 특유의 로직을 통해 작동될 수 있다. 또한 본 발명의 양상들은 기계적, 광학적, 유체적, 및 양자적 기술을 포함하나 이들에 한정되지 않는, 예컨대 AND, OR 및 NOT 등의 논리적 연산을 수행할 수 있는 다른 기술을 이용해 실시될 수 있다. 또한, 본 발명의 양상들은 범용 컴퓨터 내에서 또는 기타 회로나 시스템 내에서 실시될 수 있다.
도 7a은 본 발명의 양상을 실시하기에 적합한 모바일 컴퓨팅 디바이스(700)를 도시하고 있다. 적합한 모바일 컴퓨팅 디바이스의 예는 모바일 전화기, 스마트 폰, 태블릿 컴퓨터, 서피스 컴퓨터(surface computer), 및 랩탑 컴퓨터를 포함하나, 이들에 한정되지 않는다. 기본 구성에 있어서, 모바일 컴퓨팅 디바이스(700)는 입력 엘리먼트 및 출력 엘리먼트 둘 다를 구비한 핸드헬드 컴퓨터이다. 모바일 컴퓨팅 디바이스(700)는 통상 디스플레이(705)와, 사용자가 정보를 모바일 컴퓨팅 디바이스(700)에 입력할 수 있는 하나 이상의 입력 버튼(710)을 포함한다. 모바일 컴퓨팅 디바이스(700)의 디스플레이(705)는 입력 디바이스(예컨대, 터치 스크린 디스플레이)로서 기능할 수도 있다. 포함된다면, 선택적 슬라이드 입력 엘리먼트(715)가 추가 사용자 입력을 가능하게 한다. 슬라이드 입력 엘리먼트(715)는 회전 스위치, 버튼, 또는 기타 유형의 수동 입력 엘리먼트일 수 있다. 모바일 컴퓨팅 디바이스(700)는 약간의 입력 엘리먼트들을 내장할 수도 있다. 예를 들어, 디스플레이(705)가 터치 스크린일 필요는 없다. 모바일 컴퓨팅 디바이스(700)는 또한 선택적 키패드(735)를 포함할 수 있다. 선택적 키패드(735)는 물리적 키패드, 또는 터치 스크린 디스플레이 상에 생성된 "소프트" 키패드일 수 있다. 출력 엘리먼트는 그래픽 사용자 인터페이스를 보여주는 디스플레이(705), 시각적 인디케이터(720)(예컨대, 발광 다이오드) 및/또는 오디오 트랜스듀서(725)(예컨대, 스피커)를 포함한다. 모바일 컴퓨팅 디바이스(700)는 사용자에게 촉감 피드백을 제공하는 진동 트랜스듀서를 내장할 수도 있다. 모바일 컴퓨팅 디바이스(700)는 외부 디바이스에 대해 신호를 송신 또는 수신하기 위한, 오디오 입력(예컨대, 마이크 잭), 오디오 출력(예컨대, 헤드폰 잭) 및 비디오 출력(예컨대, HDMI 잭) 등의 입력 및/또는 출력 포트를 내장할 수도 있다.
도 7b는 본 발명의 양상들이 실시될 수 있는 모바일 컴퓨팅 디바이스에 대한 아키텍처를 도시하는 블록도이다. 일례로, 모바일 컴퓨팅 디바이스(700)는 하나 이상의 애플리케이션(예컨대, 브라우저, 이메일 클라이언트, 노트, 연락처 매니저, 메시징 클라이언트, 게임 및 미디어 클라이언트/플레이어)을 실행할 수 있는 스마트 폰과 같은 시스템(702)으로 구현될 수도 있다.
하나 이상의 애플리케이션 프로그램(765)이 메모리(762)에 로딩되어 운영체제(764) 상에서 또는 운영체제와 관련해 실행될 수 있다. 애플리케이션 프로그램의 예는, 전화걸기(phone dialer) 프로그램, 이메일 프로그램, 개인 정보 관리(personal information management, PID) 프로그램, 워드 프로세싱 프로그램, 스프레드시트 프로그램, 인터넷 브라우저 프로그램, 메시징 프로그램 등을 포함한다. 시스템(702)은 메모리(762) 내에 비휘발성 저장 영역(768)도 포함한다. 비휘발성 저장 영역(768)은 시스템(702)이 파워 다운될 때에 손실되어서는 안 되는 지속적인 정보를 저장하는데 이용될 수 있다. 애플리케이션 프로그램(765)은 이메일이나 이메일 애플리케이션에 의해 이용된 다른 메시지 등의 정보를 이용하고 그 정보를 비휘발성 저장 영역(768)에 저장할 수 있다. 동기화 애플리케이션(도시 생략)도 시스템(702)에 상주하며, 호스트 컴퓨터 상에 상주한 대응하는 동기화 애플리케이션과 상호작용하도록 프로그래밍되어, 호스트 컴퓨터에 저장된 대응하는 정보와 동기화된 비휘발성 저장 영역(768) 내에 저장된 정보를 유지시킨다. 물론, 여기에 설명하는 본 발명의 양상을 구현하는 소프트웨어를 포함한 다른 애플리케이션도 메모리(762) 내에 로딩되어 모바일 컴퓨팅 디바이스(700) 상에서 실행될 수 있다.
시스템(702)은 하나 이상의 배터리로서 구현될 수 있는 전원(770)을 구비한다. 전원(770)은 배터리를 보충 또는 재충전하는 전력 공급 거취대(powered docking cradle) 또는 AC 어댑터 등의 외부 전원을 더 포함해도 된다.
시스템(702)은 또한, 고주파 통신을 송신 및 수신하는 기능을 수행하는 무선부(772)를 포함할 수 있다. 무선부(772)는 통신 캐리어 또는 서비스 공급자를 통해 시스템(702)과 "외부 세계" 간의 무선 접속을 용이하게 한다. 무선부(772)에 대한 전송은 운영체제(764)의 제어 하에 수행된다. 다시 말해, 무선부(772)에 의해 수신된 통신은 운영체제(764)를 통해 애플리케이션 프로그램(765)에 분배될 수 있고, 그 반대도 가능하다.
시각적 인디케이터(720)는 시각적 통보를 제공하는데 이용될 수 있고/있거나 오디오 인터페이스(774)는 오디오 트랜스듀서(725)를 통해 가청 통보를 생성하는데 이용될 수 있다. 도시한 바와 같이, 시각적 인디케이터(720)는 발광 다이오드(LED)일 수 있다. 이들 디바이스는, 프로세서(760) 및 기타 컴포넌트들이 배터리 전력을 절약하기 위해 셧다운되더라도, 작동 시에, 통보 메커니즘이 지시하는 기간 동안 유지해 있도록 전원(770)에 직접 연결될 수 있다. LED는 사용자가 디바이스의 파워온 상태를 지시하는 동작을 취할 때까지 무기한으로 유지되도록 프로그래밍될 수 있다. 오디오 인터페이스(774)는 사용자에 대해 가청 신호를 제공 및 수신하는데 이용된다. 예를 들어, 오디오 트랜스듀서(725)에 연결되는 것과 함께, 오디오 인터페이스(774)는 예컨대 전화 대화를 용이하게 하기 위해서 가청 입력을 수신하는 마이크에도 연결될 수 있다. 마이크는 이하에 설명하는 바와 같이, 통보의 제어를 용이하게 하는 오디오 센서로서도 기능할 수 있다. 시스템(702)은 온보드 카메라(730)의 동작으로 정지 화상, 비디오 스트림 등을 기록할 수 있게 하는 비디오 인터페이스(776)를 더 포함할 수 있다.
시스템(702)을 구현하는 모바일 컴퓨팅 디바이스(700)는 추가 특징 또는 기능을 가질 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(700)는 자기 디스크, 광학 디스크, 또는 테이프 등의 추가 데이터 저장 디바이스(분리형 및/또는 비분리형)도 포함할 수 있다. 이러한 추가 스토리지는 비휘발성 저장 영역(768)으로 도시되어 있다. 주변 디바이스 포트(740)는 외부 디바이스가 모바일 컴퓨팅 디바이스(700)에 접속되게 한다. 외부 디바이스는 모바일 컴퓨팅 디바이스(700)에 추가 특징 또는 기능을 제공할 수 있고/있거나 데이터가 모바일 컴퓨팅 디바이스(700)에 대해 전달되게 할 수 있다.
모바일 컴퓨팅 디바이스(700)에 의해 생성 또는 캡처되어 시스템(702)을 통해 저장된 데이터/정보는 전술한 바와 같이, 모바일 컴퓨팅 디바이스(700) 상에 국부적으로 저장될 수도 있거나, 데이터는 모바일 컴퓨팅 디바이스(700)와 그 모바일 컴퓨팅 디바이스(700)와 연관된 개별 컴퓨팅 디바이스, 예컨대 인터넷 등의 분산형 컴퓨팅 네트워크 내의 서버 컴퓨터 사이의 유선 접속을 통해 또는 무선부(772)를 통해 디바이스에 의해 액세스될 수 있는 임의 개의 저장 매체 상에 저장될 수도 있다. 물론 그러한 데이터/정보는 무선부(772)를 통해 또는 분산형 컴퓨팅 네트워크를 통해 모바일 컴퓨팅 디바이스(700)에 의해 액세스될 수도 있다. 마찬가지로, 그러한 데이터/정보는 전자 메일 및 협업 데이터/정보 공유 시스템을 포함한 잘 알려진 데이터/정보 전달 및 저장 수단에 따라 저장 및 이용을 위해 컴퓨팅 디바이스들 간에 쉽게 전달될 수 있다.
도 8은 본 발명의 양상을 실시하는 분산형 컴퓨팅 시스템의 간략화된 블록도이다. 여기에 설명하는 본 발명의 양상들을 구현하는 소프트웨어를 포함한, 소프트웨어 애플리케이션과 관련하여 개발, 상호작용 또는 편집된 컨텐츠는 상이한 통신 채널 또는 다른 저장 유형으로 저장될 수 있다. 예를 들어, 디렉토리 서비스(822), 웹 포털(824), 메일박스 서비스(826), 인스턴트 메시징 스토어(828) 또는 소셜 네트워킹 서비스(830)를 이용해 다양한 문서들이 저장될 수도 있다. 소프트웨어 애플리케이션은 본 명세서에서 설명한 바와 같이, 데이터 이용을 가능하게 하는 이들 유형의 시스템 또는 동류 중 임의의 것을 이용할 수 있다. 서버(820)가 소프트웨어 애플리케이션을 클라이언트에 제공할 수 있다. 일례로서, 서버(820)는 웹을 통해 소프트웨어 애플리케이션을 제공하는 웹 서버일 수도 있다. 서버(820)는 웹 상에서 소프트웨어 애플리케이션을 네트워크(815)를 통해 클라이언트에 제공할 수 있다. 예를 들면, 클라이언트 디바이스는 컴퓨팅 디바이스(600)로서 구현되고, 퍼스널 컴퓨터(818a), 태블릿 컴퓨터(818b), 및/또는 모바일 컴퓨팅 디바이스(예컨대, 스마트폰)(818c) 내에 임베딩될 수 있다. 이들 클라이언트 컴퓨팅 디바이스 중 어떤 것은 스토어(816)로부터 컨텐츠를 얻을 수도 있다.
본원이 제공하는 하나 이상의 실시형태의 설명 및 예시는 완벽하고 철저하며 완전한 개시내용, 발명의 대상의 전체 범위를 당업자에게 제공하기 위한 것이며, 청구하는 본 발명의 범위를 어떤 식으로도 제한하거나 한정하려는 의도는 없다. 본원에 제공하는 양상들, 실시형태들, 실시예 및 상세내용은 속한 내용을 전달하며 청구하는 발명의 최상 모드를 당업자가 실시할 수 있게 하기에 충분한 것으로 간주된다. 해당 기술 분야의 당업자에게 알려진 것으로 간주되는 구조, 리소스, 동작, 및 액트(act)에 대한 설명은 본원의 발명의 대상의 덜 알려져 있거나 독특한 양상을 모호하게 하는 것을 피하기 위해 간략화되거나 생략될 수 있다. 청구하는 발명은 여기에 명백하게 언급하지 않는 한 본원이 제공하는 어떤 실시형태, 실시예 또는 상세내용에 한정되는 것으로서 해석되어서는 안 된다. 조합으로 또는 단독으로 도시 또는 설명되는지에 관계없이, 다양한 특징들(구조적 및 방법적인 것들 모두)은 특정 세트의 특징을 갖는 실시형태를 형성하기 위해 선택적으로 포함되거나 생략되는 것이다. 또한, 도시하거나 설명한 기능 및 액트의 일부 또는 전부는 임의의 순서로 또는 동시에 수행될 수도 있다. 본원의 설명 및 예시가 제공되었으므로, 당업자라면, 청구하는 발명의 더 넓은 양태의 사상 및 그 넓은 범위에서 벗어나지 않는, 본원에 포함되는 일반적인 발명 개념 내에 있는 변화, 변형 및 대안을 구상할 수 있다.

Claims (15)

  1. 도메인을 벗어난 발화(out-of-domain utterance)를 타겟 언어 의사소통 다이얼로그 시스템(targeted language understanding dialog system)의 웹 검색어(web search query) 또는 오펀(orphan)으로서 분류하는 방법에 있어서,
    상기 타겟 언어 의사소통 다이얼로그 시스템의 도메인 분류기(domain classifier)에 의해 거절된 도메인을 벗어난 발화를 수신하는 단계와,
    상기 도메인을 벗어난 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템의 웹 검색어인지 또는 오펀인지를 결정하는, 하나 이상의 의미론적(semantic), 구문론적(syntactic), 품사 태그(part-of-speech tag), 또는 어휘적(lexical) 특징에 대해, 상기 도메인을 벗어난 발화를 평가하는 단계와,
    상기 도메인을 벗어난 발화가 오펀인 것을 결정하는 단계와,
    상기 도메인을 벗어난 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템에 어드레싱되는 머신 액션을 수행하기 위한 요청이라고 이해되는 것을 나타내는 응답을 생성하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 타겟 언어 의사소통 다이얼로그 시스템에 입력으로서 제공되는 발화를 수신하는 단계와,
    상기 발화가, 상기 타겟 언어 의사소통 다이얼로그 시스템과 연관된 태스크 도메인에 의해 커버되지 않는 도메인을 벗어난 발화인 것을 결정하는 단계
    를 더 포함하는 방법.
  3. 제1항에 있어서,
    상기 도메인을 벗어난 발화가, 상기 타겟 언어 의사소통 다이얼로그 시스템에 어드레싱되는 머신 액션을 수행하기 위한 요청으로 이해된다는 것을 보고하는 메시지를 생성하는 단계와,
    상기 메시지를 상기 타겟 언어 의사소통 다이얼로그 시스템과 연관된 출력 디바이스에 렌더링하는 단계
    를 더 포함하는 방법.
  4. 제1항에 있어서, 상기 도메인을 벗어난 발화가 오펀인 것을 결정하는 단계는, 오펀 분류기(orphan classifier)를 이용해서 상기 오펀 분류기에 입력으로서 제공되는 도메인을 벗어난 발화의 특징에 기초하여, 상기 도메인을 벗어난 발화를 오펀으로서 분류하는 단계를 더 포함하는 것인 방법.
  5. 제1항에 있어서, 상기 도메인을 벗어난 발화가 오펀인 것을 결정하는 단계 전에, 상기 발화로부터 특징을 추출하는 단계를 더 포함하는 방법.
  6. 제1항에 있어서,
    상기 발화를 술어(predicate)와 아규먼트(argument)에 대해 확인하는 단계와,
    술어와 아규먼트의 존재를 오펀 분류 특징으로서 이용하는 단계
    를 더 포함하는 방법.
  7. 제1항에 있어서,
    복수의 오펀을 의미론적으로 클러스터링(clustering)하는 단계와,
    사용자가 지원되지 않는 태스크 도메인에 관한 요청을 자주 한다는 것을 나타내는, 선택된 오펀 척도(measure of orphan)를 포함한 의미론적 클러스트(semantic cluster)를 식별하는 단계
    를 더 포함하는 방법.
  8. 적어도 하나의 도메인을 갖는 타겟 언어 의사소통 다이얼로그 시스템에 있어서,
    발화(utterance)로부터 특징을 추출하도록 동작 가능한 특징 추출기와,
    상기 특징을 입력으로서 수신하도록 동작 가능한 분류기로서, 상기 발화가 상기 분류기와 연관된 어느 도메인에도 속하지 않는, 도메인을 벗어난 발화인지의 여부를 결정하는 상기 분류기와,
    상기 도메인을 벗어난 발화를 수신하며, 상기 도메인을 벗어난 발화가 오펀(orphan)인지의 여부를 결정하는 오펀 검출기와,
    상기 오펀을 일반적 웹 검색에 보내지 않고 상기 오펀을 프로세싱하도록 동작 가능한 상호작용 매니저(interaction manager)
    를 포함하는 타겟 언어 의사소통 다이얼로그 시스템.
  9. 제8항에 있어서, 상기 오펀 검출기는, 상기 도메인을 벗어난 발화를 의미론적으로 파싱하도록 동작 가능한 의미론적 파서(semantic parser)를 포함하는 것인 타겟 언어 의사소통 다이얼로그 시스템.
  10. 제9항에 있어서, 상기 오펀 검출기는, 상기 도메인을 벗어난 발화가 오펀인지를 결정하기 위해 상기 의미론적 파서의 출력을 이용하여 취득되는 상기 도메인을 벗어난 발화와 연관된 특징을 이용하여 분류 모델을 적용하도록 동작 가능한 판별적 분류기(discriminative classifier)를 포함하는 것인 타겟 언어 의사소통 다이얼로그 시스템.
  11. 제9항에 있어서, 상기 오펀 검출기는 구문론적 파서, 품사 태거(tagger), 및 어휘적 파서 중 적어도 하나를 더 포함하는 것인 타겟 언어 의사소통 다이얼로그 시스템.
  12. 제8항에 있어서, 상기 오펀 검출기는 의미론적 분류 모델을 적용하도록 동작 가능한 판별적 분류기를 더 포함하는 것인 타겟 언어 의사소통 다이얼로그 시스템.
  13. 제8항에 있어서,
    사용자로부터 발화를 수집하도록 동작 가능한 입력 디바이스와,
    상기 입력 디바이스와 통신하며, 텍스트가 아닌 상기 발화를 수신하여 머신에 의해 프로세싱 가능한 텍스트로 변환하도록 동작 가능한 입력 디코더와,
    상기 상호작용 매니저에 알려진 대응하는 다이얼로그 액트(dialog act)가 없는 의도를 상기 오펀이 지정한다는 것을 나타내는 결과를 렌더링하는 출력 디바이스
    를 더 포함하는 타겟 언어 의사소통 다이얼로그 시스템.
  14. 제8항에 있어서, 상기 타겟 언어 의사소통 다이얼로그 시스템은 사용자로부터의 발화에 동시에 응답하는 생성 시스템(production system)이고, 상기 상호작용 매니저는 또한 상기 의도가 수행될 수 없음을 상기 사용자에게 알리는 출력을 생성하도록 동작 가능한 것인 타겟 언어 의사소통 다이얼로그 시스템.
  15. 컴퓨터 실행 가능한 명령어를 포함하는 컴퓨터 판독 가능한 매체에 있어서, 상기 컴퓨터 실행 가능한 명령어는, 컴퓨터에 의해 실행될 때에, 하나 이상의 태스크 도메인을 갖는 타겟 언어 의사소통 다이얼로그 시스템에서 도메인을 벗어난 발화로부터 오펀을 검출하는 방법을 수행하며, 상기 방법은,
    상기 타겟 언어 의사소통 다이얼로그 시스템과 연관된 입력 디바이스를 통해 발화를 수신하는 단계와,
    상기 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템에 의해 지원되는 태스크 도메인에 속하는지를 결정하기 위해 도메인 분류기의 세트를 이용하여 상기 발화를 프로세싱하는 단계와,
    상기 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템에 의해 지원되는 어느 태스크 도메인에도 속하지 않을 때에 상기 발화를 도메인을 벗어난 발화로서 분류하는 단계와,
    도메인 분류기의 세트가, 상기 도메인을 벗어난 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템에 의해 지원되는 태스크 도메인에 속하는지를 결정하는 단계와,
    상기 도메인을 벗어난 발화에 대해 의미론적 형태(semantic shape)를 결정하는 단계와,
    상기 도메인을 벗어난 발화의 의미론적 형태가 술어와 목적어를 갖는 참조용 의미론적 형태에 대응할 경우 상기 도메인을 벗어난 발화를 오펀으로서 분류하는 단계와,
    상기 오펀이 웹 검색어가 아닌 것으로 이해되지만 상기 타겟 언어 의사소통 다이얼로그 시스템에 의해 지원되지 않는다는 것을 나타내는 출력을 생성하는 단계와,
    상기 타겟 언어 의사소통 다이얼로그 시스템과 연관된 출력 디바이스를 통해 출력을 렌더링하는 단계
    를 포함하는 것인 컴퓨터 판독 가능한 매체.
KR1020177006504A 2014-08-22 2015-08-20 오펀 발화 검출 시스템 및 방법 Withdrawn KR20170047268A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/466,642 US20160055240A1 (en) 2014-08-22 2014-08-22 Orphaned utterance detection system and method
US14/466,642 2014-08-22
PCT/US2015/045978 WO2016028946A1 (en) 2014-08-22 2015-08-20 Orphaned utterance detection system and method

Publications (1)

Publication Number Publication Date
KR20170047268A true KR20170047268A (ko) 2017-05-04

Family

ID=54065460

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177006504A Withdrawn KR20170047268A (ko) 2014-08-22 2015-08-20 오펀 발화 검출 시스템 및 방법

Country Status (11)

Country Link
US (1) US20160055240A1 (ko)
EP (1) EP3183728B1 (ko)
JP (1) JP6667504B2 (ko)
KR (1) KR20170047268A (ko)
CN (1) CN106575293B (ko)
AU (1) AU2015305488A1 (ko)
BR (1) BR112017002814A2 (ko)
CA (1) CA2955497A1 (ko)
MX (1) MX2017002289A (ko)
RU (1) RU2699399C2 (ko)
WO (1) WO2016028946A1 (ko)

Families Citing this family (184)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
HK1220268A1 (zh) 2013-06-09 2017-04-28 苹果公司 用於實現跨數字助理的兩個或更多個實例的會話持續性的設備、方法、和圖形用戶界面
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
KR102033395B1 (ko) * 2014-11-20 2019-10-18 한국전자통신연구원 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9443519B1 (en) * 2015-09-09 2016-09-13 Google Inc. Reducing latency caused by switching input modalities
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
US11164087B2 (en) * 2016-05-20 2021-11-02 Disney Enterprises, Inc. Systems and methods for determining semantic roles of arguments in sentences
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US12197817B2 (en) 2016-06-11 2025-01-14 Apple Inc. Intelligent device arbitration and control
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10387888B2 (en) 2016-07-08 2019-08-20 Asapp, Inc. Assisting entities in responding to a request of a user
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10366234B2 (en) 2016-09-16 2019-07-30 Rapid7, Inc. Identifying web shell applications through file analysis
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10643601B2 (en) * 2017-02-09 2020-05-05 Semantic Machines, Inc. Detection mechanism for automated dialog systems
US10467509B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US11615145B2 (en) 2017-05-10 2023-03-28 Oracle International Corporation Converting a document into a chatbot-accessible form via the use of communicative discourse trees
CN110612525B (zh) 2017-05-10 2024-03-19 甲骨文国际公司 通过使用交流话语树启用修辞分析
US11386274B2 (en) 2017-05-10 2022-07-12 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US11960844B2 (en) 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US12141535B2 (en) 2017-05-10 2024-11-12 Oracle International Corporation Techniques for maintaining rhetorical flow
US11373632B2 (en) 2017-05-10 2022-06-28 Oracle International Corporation Using communicative discourse trees to create a virtual persuasive dialogue
US10679011B2 (en) 2017-05-10 2020-06-09 Oracle International Corporation Enabling chatbots by detecting and supporting argumentation
US11586827B2 (en) 2017-05-10 2023-02-21 Oracle International Corporation Generating desired discourse structure from an arbitrary text
US10817670B2 (en) 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
US10599885B2 (en) 2017-05-10 2020-03-24 Oracle International Corporation Utilizing discourse structure of noisy user-generated content for chatbot learning
US10839154B2 (en) 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. Multi-modal interfaces
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
CN107316635B (zh) * 2017-05-19 2020-09-11 科大讯飞股份有限公司 语音识别方法及装置、存储介质、电子设备
US10839161B2 (en) 2017-06-15 2020-11-17 Oracle International Corporation Tree kernel learning for text classification into classes of intent
US11100144B2 (en) 2017-06-15 2021-08-24 Oracle International Corporation Data loss prevention system for cloud security based on document discourse analysis
KR102410825B1 (ko) 2017-08-14 2022-06-20 삼성전자주식회사 문장의 도메인 판단 방법 및 장치
US11081106B2 (en) * 2017-08-25 2021-08-03 Microsoft Technology Licensing, Llc Contextual spoken language understanding in a spoken dialogue system
KR102509821B1 (ko) 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
US11182412B2 (en) 2017-09-27 2021-11-23 Oracle International Corporation Search indexing using discourse trees
US11809825B2 (en) 2017-09-28 2023-11-07 Oracle International Corporation Management of a focused information sharing dialogue based on discourse trees
US10796099B2 (en) 2017-09-28 2020-10-06 Oracle International Corporation Enabling autonomous agents to discriminate between questions and requests
JP7187545B2 (ja) 2017-09-28 2022-12-12 オラクル・インターナショナル・コーポレイション 名前付きエンティティの構文解析および識別に基づくクロスドキュメントの修辞的つながりの判断
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
JP7095254B2 (ja) * 2017-10-10 2022-07-05 トヨタ自動車株式会社 対話システムおよびドメイン決定方法
CN109670163B (zh) * 2017-10-17 2023-03-28 阿里巴巴集团控股有限公司 信息识别方法、信息推荐方法、模板构建方法及计算设备
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
JP7447019B2 (ja) 2018-01-30 2024-03-11 オラクル・インターナショナル・コーポレイション コミュニケーション用談話ツリーを用いる、説明の要求の検出
US11537645B2 (en) 2018-01-30 2022-12-27 Oracle International Corporation Building dialogue structure by using communicative discourse trees
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10210244B1 (en) * 2018-02-12 2019-02-19 Asapp, Inc. Updating natural language interfaces by processing usage data
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
EP3791292A1 (en) 2018-05-09 2021-03-17 Oracle International Corporation Constructing imaginary discourse trees to improve answering convergent questions
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11314940B2 (en) * 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
US11455494B2 (en) 2018-05-30 2022-09-27 Oracle International Corporation Automated building of expanded datasets for training of autonomous agents
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
WO2020040775A1 (en) * 2018-08-23 2020-02-27 Google Llc Regulating assistant responsiveness according to characteristics of a multi-assistant environment
US10832659B2 (en) 2018-08-31 2020-11-10 International Business Machines Corporation Intent authoring using weak supervision and co-training for automated response systems
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11562135B2 (en) 2018-10-16 2023-01-24 Oracle International Corporation Constructing conclusive answers for autonomous agents
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10936823B2 (en) 2018-10-30 2021-03-02 International Business Machines Corporation Method and system for displaying automated agent comprehension
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
KR102198295B1 (ko) * 2018-12-27 2021-01-05 주식회사 솔트룩스 복수의 대화 도메인을 가지는 대화 시스템
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
WO2020163627A1 (en) * 2019-02-07 2020-08-13 Clinc, Inc. Systems and methods for machine learning-based multi-intent segmentation and classification
US11023683B2 (en) 2019-03-06 2021-06-01 International Business Machines Corporation Out-of-domain sentence detection
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN113826158B (zh) * 2019-04-26 2024-12-27 谷歌有限责任公司 自动辅助动作执行和/或后台应用请求的动态延迟
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11106875B2 (en) 2019-05-20 2021-08-31 International Business Machines Corporation Evaluation framework for intent authoring processes
US11144727B2 (en) 2019-05-20 2021-10-12 International Business Machines Corporation Evaluation framework for intent authoring processes
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. User activity shortcut suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11996098B2 (en) * 2019-06-05 2024-05-28 Hewlett-Packard Development Company, L.P. Missed utterance resolutions
US11449682B2 (en) 2019-08-29 2022-09-20 Oracle International Corporation Adjusting chatbot conversation to user personality and mood
US11928430B2 (en) * 2019-09-12 2024-03-12 Oracle International Corporation Detecting unrelated utterances in a chatbot system
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11380306B2 (en) 2019-10-31 2022-07-05 International Business Machines Corporation Iterative intent building utilizing dynamic scheduling of batch utterance expansion methods
US11775772B2 (en) 2019-12-05 2023-10-03 Oracle International Corporation Chatbot providing a defeating reply
DE102020100638B4 (de) * 2020-01-14 2025-08-21 Bayerische Motoren Werke Aktiengesellschaft System und Verfahren für einen Dialog mit einem Nutzer
US12045572B2 (en) * 2020-03-10 2024-07-23 MeetKai, Inc. System and method for handling out of scope or out of domain user inquiries
WO2021202552A1 (en) * 2020-03-30 2021-10-07 Oracle International Corporation Improved techniques for out-of-domain (ood) detection
US11538457B2 (en) * 2020-03-30 2022-12-27 Oracle International Corporation Noise data augmentation for natural language processing
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US12301635B2 (en) 2020-05-11 2025-05-13 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11798539B2 (en) * 2020-09-25 2023-10-24 Genesys Telecommunications Laboratories, Inc. Systems and methods relating to bot authoring by mining intents from conversation data via intent seeding
CN112148864B (zh) * 2020-11-25 2021-05-28 深圳追一科技有限公司 语音交互方法、装置、计算机设备和存储介质
US11854528B2 (en) * 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding
US11393475B1 (en) * 2021-01-13 2022-07-19 Artificial Solutions Iberia S.L Conversational system for recognizing, understanding, and acting on multiple intents and hypotheses
US12314675B2 (en) * 2021-05-10 2025-05-27 Walden University, Llc System and method for a cognitive conversation service
JP7775028B2 (ja) 2021-11-01 2025-11-25 株式会社東芝 発話文処理装置、方法及びプログラム
US20230419127A1 (en) 2022-06-22 2023-12-28 Oracle International Corporation Techniques for negative entity aware augmentation
US12499879B1 (en) * 2022-09-14 2025-12-16 Amazon Technologies, Inc. Natural language understanding systems
JP2024119383A (ja) * 2023-02-22 2024-09-03 本田技研工業株式会社 対話理解装置、および対話理解方法
US12573391B2 (en) 2023-03-22 2026-03-10 Meta Platforms, Inc. Generating contextual responses for out-of-coverage requests for assistant systems
JP7836785B2 (ja) * 2023-04-20 2026-03-27 Lineヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム
US12437158B2 (en) 2023-07-18 2025-10-07 Servicenow, Inc. Method for filtering and semi-automatically labeling training data

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060074664A1 (en) * 2000-01-10 2006-04-06 Lam Kwok L System and method for utterance verification of chinese long and short keywords
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
JP4191021B2 (ja) * 2003-12-01 2008-12-03 株式会社国際電気通信基礎技術研究所 ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
US7742911B2 (en) * 2004-10-12 2010-06-22 At&T Intellectual Property Ii, L.P. Apparatus and method for spoken language understanding by using semantic role labeling
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8583416B2 (en) * 2007-12-27 2013-11-12 Fluential, Llc Robust information extraction from utterances
US20100030549A1 (en) * 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9978365B2 (en) * 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
US8543401B2 (en) * 2009-04-17 2013-09-24 Synchronoss Technologies System and method for improving performance of semantic classifiers in spoken dialog systems
US8676565B2 (en) * 2010-03-26 2014-03-18 Virtuoz Sa Semantic clustering and conversational agents
US9858343B2 (en) * 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9454962B2 (en) * 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9053087B2 (en) * 2011-09-23 2015-06-09 Microsoft Technology Licensing, Llc Automatic semantic evaluation of speech recognition results
US20130124490A1 (en) * 2011-11-10 2013-05-16 Microsoft Corporation Contextual suggestion of search queries
US9368114B2 (en) * 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions

Also Published As

Publication number Publication date
BR112017002814A2 (pt) 2017-12-19
RU2017105466A3 (ko) 2019-03-22
US20160055240A1 (en) 2016-02-25
JP6667504B2 (ja) 2020-03-18
EP3183728B1 (en) 2018-06-13
RU2017105466A (ru) 2018-08-21
AU2015305488A1 (en) 2017-02-09
RU2699399C2 (ru) 2019-09-05
JP2017534941A (ja) 2017-11-24
EP3183728A1 (en) 2017-06-28
MX2017002289A (es) 2017-05-04
CA2955497A1 (en) 2016-02-25
CN106575293B (zh) 2019-11-05
WO2016028946A1 (en) 2016-02-25
CN106575293A (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
JP6667504B2 (ja) オーファン発話検出システム及び方法
US20230206940A1 (en) Method of and system for real time feedback in an incremental speech input interface
AU2021202694B2 (en) Facilitating end-to-end communications with automated assistants in multiple languages
US12249321B2 (en) Utilizing pre-event and post-event input streams to engage an automated assistant
US11521600B2 (en) Systems and method to resolve audio-based requests in a networked environment
US11810557B2 (en) Dynamic and/or context-specific hot words to invoke automated assistant
CN113412515B (zh) 适配自动化助理以用多种语言使用
US10181322B2 (en) Multi-user, multi-domain dialog system
CN106575292B (zh) 用于跨应用填写表单的命名实体的概念识别和捕获
KR20220016286A (ko) 맥락을 인식하는 인간-대-컴퓨터 대화
JP2019003319A (ja) 対話型業務支援システムおよび対話型業務支援プログラム
HK1222942B (en) Incremental speech input interface with real time feedback

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20170308

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
PC1203 Withdrawal of no request for examination