KR20170047268A

KR20170047268A - 오펀 발화 검출 시스템 및 방법

Info

Publication number: KR20170047268A
Application number: KR1020177006504A
Authority: KR
Inventors: 고칸 투르; 아눕 데오라스; 디렉 핫카니-투르
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2014-08-22
Filing date: 2015-08-20
Publication date: 2017-05-04
Also published as: BR112017002814A2; RU2017105466A3; US20160055240A1; JP6667504B2; EP3183728B1; RU2017105466A; AU2015305488A1; RU2699399C2; JP2017534941A; EP3183728A1; MX2017002289A; CA2955497A1; CN106575293B; WO2016028946A1; CN106575293A

Abstract

오펀 검출기(orphan detector). 오펀 검출기는 일반적 웹 검색 수행과 같은 폴백 프로세싱이 웹 검색으로 만족스럽지 않을 것 같은 경우에, 타겟 언어 의사소통 다이얼로그 시스템으로부터의 도메인을 벗어난 발화(out-of-domain utterance)를 프로세싱하여, 타겟 언어 의사소통 다이얼로그 시스템으로 하여금 소정의 액션을 취하게 하는 특정 의도를, 도메인을 벗어난 발화가 표현하는지의 여부를 결정한다. 이러한 발화는 태스크 도메인 중 어느 것 또는 폴백 프로세싱에 의해 적절하게 취급되지 않기 때문에 오펀(orphan)이라고 지칭된다. 오펀 검출기는 발화의 내용보다는 구조에 주로 포커싱함으로써 오펀을 웹 검색어 및 기타 도메인을 벗어난 발화로부터 구별한다. 오펀 검출기로부터 검출된 오펀은 타겟 언어 의사소통 다이얼로그 시스템을 이용해 사용자 경험을 개선하기 위해 온라인과 오프라인 양쪽에서 사용될 수 있다. 오펀 검출기는 웹 검색 엔진 쿼리 로그로부터 구조적으로 유사한 쿼리 또는 문장을 찾는 데에도 이용될 수 있다.

Description

오펀 발화 검출 시스템 및 방법{ORPHANED UTTERANCE DETECTION SYSTEM AND METHOD}

스마트폰과 기타 디바이스에는, 소비자가 폭넓게 이용할 수 있는 가상 개인 비서(virtual personal assistant)와 같은, 타겟 언어 의사소통 다이얼로그 시스템(targeted language understanding dialog system)이 마련되어 있다. 타겟 언어 의사소통 다이얼로그 시스템은 한정된 수의 선택된 대상 영역(즉, 태스크 도메인)에서 사용자 입력의 심층적인 이해를 제공한다. 이들 태스크 도메인 외에서, 타겟 언어 의사소통 다이얼로그 시스템은 사용자 입력을 취급하기 위해 얕은 이해(shallow understanding) 또는 일반화된 기술로 폴백(fallback)된다. 보통의 폴백은 도메인을 벗어난 사용자 입력을 일반적인 웹 검색의 대상으로서 취급하는 것이다.

사용자는 타겟 언어 의사소통 다이얼로그 시스템의 능력 및 한계를 항상 인식하지 못한다. 예컨대, 스마트 폰 상의 가상 개인 비서는, 가상 개인 비서가 사용자를 도와서 전화 걸기, 텍스트 메시지 및 이메일 보내기, 알람 및 리마인더 설정, 노트 및 캘린더 항목 생성, 날씨 또는 장소에 대한 정보 가져오기와 같은 태스크를 할 수 있는, 통화, 단문 메시지 서비스(short message service, SMS), 이메일, 캘린더, 알람, 리마인더, 노트, 날씨, 및 장소 태스크 도메인에 제한될 수 있다. 스마트 폰이 다른 기능(예컨대, 음악 재생)도 가능하기 때문에, 사용자는 가상 개인 비서가 이들 다른 기능도 도울 수 있다고 추측할 수 있다. 예컨대, 사용자는 사용자의 뮤직 라이브러리로부터 선택한 것을 듣기를 기대하면서 가상 개인 비서가 "Aerosmith의 노래를 재생"할 것을 요청할 수 있다. 뮤직 태스크 도메인이 없다면, 사용자의 요청은 이해되지 못한다. 요청된 음악을 듣는 것 대신에, 사용자는 웹 페이지의 리스트를 받는다. 사용자는 뮤직 태스크를 취급하는 방법을 가상 개인 비서가 모른다는 것을 인식하지 못한 채 재요청을 하고/하거나 요청을 고쳐 말하는 것(rephrasing)을 시도할 수 있다. 동시에, 사용자는 가상 개인 비서의 폴백 행동을 인식하고 폴백 웹 검색 결과를 얻기를 기대하면서 일반적으로 간단한 키워드(예컨대, "최소 임금(minimum wage)")를 이용한다.

가상 개인 비서의 관점에서는, 음악을 재생하는 요청도 키워드도 태스크 도메인의 어느 것으로도 커버되지 않기 때문에 이들을 웹 검색어로서 취급하지만, 사용자의 경험은 매우 달라진다. 사용자의 관점에서는, 음악 재생 요청에 응답하여 웹 검색 결과를 받는 것이 사용자 경험을 충족하지 못하기 때문에 당황스럽다. 한편, 웹 검색 결과는 그것이 사용자가 기대하는 것이면 만족스럽다. 기술적인 문제는, 웹 검색 결과 반환 이외의 결과를 달성하고자 하나 태스크 도메인의 어느 것으로도 커버되지 않는, 타깃 언어 의사소통 다이얼로그 시스템에 어드레싱된 요청과, 웹 검색이 적절한 경우의 웹 검색어 간을 구별하는 것이다. 본 발명이 해결하고자 하는 바는 이러한 사정 및 다른 것들에 대한 것이다. 비교적 특정한 문제들이 논의되었지만, 여기에 개시된 양상들은 배경에서 확인된 특정 문제들을 해결하는 것에 국한되어서는 안 된다는 것을 이해해야 한다.

본 개요는 상세한 설명에서 또한 후술하는 다양한 개념들을 간략화한 형태로 소개하기 위해 제공된다. 본 개요는 청구범위의 발명의 대상이 되는 주요 특징 또는 본질적 특징을 확인하기 위한 것이 아니며, 청구범위의 발명의 대상의 범주를 결정하는데 도움을 주는 것으로 이용되어서도 안 된다.

오펀 발화 검출 시스템 및 관련 방법의 양상들은, 일반적 웹 검색 수행과 같은 폴백 프로세싱이 웹 검색으로 만족스럽지 않을 것 같은 경우에, 타겟 언어 의사소통 다이얼로그 시스템으로부터의 도메인을 벗어난 발화(out-of-domain utterance)를 프로세싱하여, 타겟 언어 의사소통 다이얼로그 시스템으로 하여금 소정의 액션을 취하게 하는 특정 의도를, 도메인을 벗어난 발화가 표현하는지의 여부를 결정하는 오펀 검출기를 포함한다. 오펀 검출기를 내장한 다이얼로그 시스템은 프로세싱할 하나 이상의 발화를 수신한다. 도메인 분류기를 이용하여 타겟 의사소통 컴포넌트의 태스크 도메인 중 어느 것에 의해 상기 발화가 커버되는지의 여부에 따라 상기 발화는 도메인 내에 있는 것 또는 도메인을 벗어난 것으로 분류된다. 발화를 분류 및 이해하는 데에 이용하기 위해 발화로부터 특징이 추출된다. 특징 추출은 어휘적 파싱 동작(lexical parsing operation), 품사 태깅 동작(part-of-speech tagging operation), 구문론적(syntactic) 파싱 동작, 및 의미론적(semantic) 파싱 동작 중 하나 이상을 포함할 수 있다.

오펀 결정은 추출된 특징에 기초하여 도메인을 벗어난 발화가 오펀(orphan)인지의 여부를 식별한다. 사용되는 한가지 어휘적 특징은 그 발화로부터의 n-gram이라는 단어뿐이다. 오펀 검출기가 내용보다는 구조에 더 많이 의존하기 때문에, 구문론적 특징도 오펀 분류기에 의해 이용될 수 있다. 오펀 결정에 이용하기 위한 기준 구문론적 특징은 품사 태그 n-gram이다. 의미론적 특징도 오펀 분류기 모델에 유용하다. 술어(predicate) 및 아규먼트(argument) 세트가 있는지를 확인하는 것은 정확도가 높은 오펀 분류에 대한 한가지 의미론적 특징을 제공한다. 오펀은 일반적인 웹 검색어와 동일하게 취급되지 않는다. 이것은 개선된 사용자 경험을 제공한다. 사용자 경험은, 다이얼로그 시스템이 사용자의 요청을 만족시키기 때문이 아니라, 사용자의 요청이 만족될 수 없더라도 다이얼로그 시스템이 뜻있는 응답(meaningful response)을 제공하기 때문에, 개선된다.

본 개시내용의 다른 특징, 양상 및 장점은, 상세한 설명을 보다 명확하게 나타내기 위해 요소들이 비례적이지 않고 여러 도면에서 유사한 참조 번호가 유사한 요소를 나타내는 다음의 도면을 참조하여 더 잘 이해될 것이다.
도 1은 오펀 검출기를 이용하는 타겟 언어 의사소통 다이얼로그 시스템의 양상을 도시하는 시스템 도면이다.
도 2는 오펀을 검출 및 취급하는 방법의 양상을 나타내는 상위 레벨 흐름도이다.
도 3은 성분에 따른(constituency-based) 구문론적 구조 파싱의 일례를 도시하는 도면이다.
도 4는 도 3에서 구문론적으로 파싱된 문장에 적용되는 의미론적 파싱의 일례를 도시하는 도면이다.
도 5는 오프라인 사용 시나리오에서 오펀을 이용한 새로운(즉, 커버되지 않은) 태스크 도메인에 대한 의미론적 모델의 무감독 트레이닝(unsupervised training) 방법의 양상을 나타내는 상위 레벨 흐름도이다.
도 6은 본 발명의 양상을 실시하기에 적합한 컴퓨팅 디바이스의 물리적 컴포넌트를 도시하는 블록도이다.
도 7a은 본 발명의 양상을 실시하기에 적합한 모바일 컴퓨팅 디바이스를 도시하는 도면이다.
도 7b는 본 발명의 양상을 실시하기에 적합한 모바일 컴퓨팅 디바이스에 대한 아키텍처를 도시하는 블록도이다.
도 8은 본 발명의 양상이 실시될 수 있는 분산형 컴퓨팅 시스템의 간략화된 블록도이다.

본 발명의 다양한 양상은 본 발명의 일부를 형성하고 본 발명의 특정 예시적인 양상을 나타내는 첨부된 도면을 참조하여 보다 상세히 설명된다. 그러나, 본 발명은 다수의 상이한 형태로도 구현될 수 있고, 여기에 설명하는 양상들로 제한되는 것으로 해석되어서는 안 되며, 오히려, 이러한 양태들은 본 개시내용이 철저하고 완전하게 이루어질 수 있도록 제공되며, 다양한 양태의 범위를 당업자에게 완전히 전달할 것이다. 양상들은 방법, 시스템, 또는 디바이스로서 실시될 수 있다. 따라서, 구현예는 하드웨어, 소프트웨어, 또는 하드웨어와 소프트웨어의 조합을 이용해서 실시될 수 있다. 그러므로, 다음의 상세한 설명은 제한적인 의미로 해석되어서는 안 된다.

오펀 검출기 및 관련 방법의 양상들을 여기에 설명하고 첨부 도면에 도시한다. 오펀 검출기는 일반적 웹 검색 수행과 폴백 프로세싱이 웹 검색으로 만족스럽지 않을 것 같은 경우에, 타겟 언어 의사소통 다이얼로그 시스템으로부터의 도메인을 벗어난 발화(out-of-domain utterance)를 프로세싱하여, 타겟 언어 의사소통 다이얼로그 시스템으로 하여금 소정의 액션을 취하게 하는 특정 의도를, 도메인을 벗어난 발화가 표현하는지의 여부를 결정한다. 이러한 발화는 태스크 도메인 중 어느 것 또는 폴백 프로세싱에 의해 적절하게 취급되지 않기 때문에 오펀(orphan)이라고 지칭된다. 오펀 검출기는 발화의 내용보다는 구조에 주로 포커싱함으로써 오펀을, 웹 검색어 및 기타 도메인을 벗어난 발화로부터 구별한다. 오펀 검출기에 의해 검출된 오펀은 타겟 언어 의사소통 다이얼로그 시스템을 이용해 사용자 경험을 개선하기 위해 온라인과 오프라인 양쪽에서 사용될 수 있다. 오펀 검출기는 웹 검색 엔진 쿼리 로그로부터 구조적으로 유사한 쿼리 또는 문장을 찾는 데에도 이용될 수 있다.

도 1은 오펀 검출기를 이용하는 타겟 언어 의사소통 다이얼로그 시스템의 양상을 도시하는 시스템 도면이다. 다이얼로그 시스템(100)은 오펀 검출기(102)와 타겟 의사소통 컴포넌트(targeted understanding component)(104)를 포함한다. 다이얼로그 시스템은 도시하는 바와 같이, 제한 없이, 서버(108)와 통신하는 클라이언트 디바이스(106) 등의 하나 이상의 컴퓨팅 디바이스를 이용해서 단일 컴퓨팅 디바이스 또는 분산형 아키텍처를 이용한 로컬 아키텍처로 구현될 수 있다. 클라이언트 시스템(106)과 서버(108)는 서버 또는 데스크탑 컴퓨터, 랩탑 컴퓨터, 태블릿 컴퓨터, 스마트폰, 스마트 워치, 및 스마트 가전제품을 포함하나 이에 한정되지 않는 다양한 컴퓨팅 디바이스를 이용해서 구현될 수 있다. 분산된 컴포넌트들은 근거리 네트워크, 원거리 네트워크, 또는 인터넷 등의, 그러나 이들에 한정되지 않는 네트워크를 통해 통신할 수 있다.

다이얼로그 시스템(100)은 각종의 입출력 양식(modality)을 통해 사용자(112)와 상호작용하기 위한 사용자 인터페이스(110)를 제공한다. 입출력 양식의 유형 및 수는 클라이언트 디바이스(106)의 하드웨어에 종속된다. 적합한 입출력 양식의 예는 제한 없이 스피치, 텍스트, 수기(handwriting), 터치, 제스처를 포함한다. 클라이언트 디바이스(106)는 하나 이상의 입력 디바이스(116)를 통해 사용자(112)로부터 대화형 입력(conversational input)을 접수하고, 하나 이상의 출력 디바이스(120)를 통해 사용자(112)가 소비할 대화형 출력(118)을 렌더링한다. 적합한 입력 디바이스의 예는 제한 없이, 마이크, 터치 스크린, 카메라나 스캐너, 물리적 키보드나 키패드, 가상 키보드나 키패드를 포함한다. 적합한 출력 디바이스의 예는 제한 없이 스피커, 디스플레이 화면, 및 프로젝터를 포함한다.

예시적으로 상황을 마련하기 위해, 다이얼로그 시스템(100)의 양상들은 사용자로부터의 발화에 응답하는 멀티모드 가상 개인 비서(VPA, virtual personal assistant)로서 설명될 수 있다. 그러나, 오펀 검출기(102)는 다양한 타겟 언어 의사소통 다이얼로그 시스템과 함께 이용될 수 있으며, 가상 개인 비서와 함께 이용하는 것으로 제한되어서는 안 된다. 편의상 본 명세서에서 사용할 때에, 용어 "발화(utterance)"는 모드와 무관한, 다이얼로그 시스템(100)에 대한 임의의 대화형 입력을 지칭한다. 어떤 특정 양식이나 대화형 입력에 대한 언급이나 묘사는, 다른 양식을 구현하기 위한 대응하는 하드웨어 및/또는 소프트웨어 변형을 수반한 다른 양식이나 대화형 입력을 포괄하는 것으로 광범위하게 읽어야 된다.

비(non)텍스트 발화를 접수하면, 다이얼로그 시스템(100)은 입력 유형에 대한 적절한 디코딩 기술을 이용하여 컴퓨터 판독 가능한 포맷에 속하지 않는 발화를 프로세싱에 적합한 컴퓨터 판독 가능한 포맷을 변환하는 하나 이상의 자동 발화 이식기(122)를 포함할 수 있다. 적합한 자동 발화 인식기(122)의 예는 제한 없이, 스피치 인식기, 제스처 인식기, 광학 문자 인식기, 및 수기 인식기를 포함한다. 자동 발화 인식기(122)의 출력은 타겟 의사소통 컴포넌트(104)에 제공된다.

특징 추출기(124)는 자동 발화 인식기(122)의 출력으로부터 특징을 추출한다. 특징은 오펀 검출기(102) 및/또는 타겟 의사소통 컴포넌트(104)가 사용하기 위해 추출될 수 있다. 오펀 검출기(102)를 위해 추출된 특징의 유형은 어휘적 특징, 품사 태그 특징, 구문론적 특징, 및 의미론적 특징을 포함한다.

타겟 의사소통 컴포넌트(104)는 도메인 분류기(126) 및 언어 이해 컴포넌트(128; language understanding component)를 포함한다. 도메인 분류기(126)는 하나 이상의 도메인 모델을 이용하여 발화를 하나 이상의 지원 태스크 도메인에 매핑시킨다. 지원되는 태스크 도메인 중 하나에 의해 커버되는 발화는 "도메인 내에(in-domain)" 있는 것이다. 지원되는 태스크 도메인 중 하나에 의해 커버되지 않는 발화는 "도메인에서 벗어난(out-of-domain)" 것이다. 언어 이해 컴포넌트(128)는 컴퓨터 판독 가능한 텍스트를 다이얼로그 시스템에 의해 프로세싱될 수 있는 의미론적 표현으로 해체(disassembling) 및 파싱함으로써 발화를 의미있는 표현으로 변환한다. 대부분의 멀티도메인 다이얼로그 시스템에 있어서, 타겟으로 하는 의미론적 프로세싱은 모든 태스크 도메인에 대한 전역 문법(global grammar)이나 통계적 모델을 이용하는 것 대신에 각각의 태스크 도메인에 고유한 도메인 모델을 이용하여 태스크 도메인에 의해 행해진다. 타겟 의사소통의 이용은 시스템 설계자로 다이얼로그 시스템의 능력에 포커싱하게 하고 도메인 내의 발화의 심층 이해를 제공하게 하는 것이 가능하다.

도메인에서 벗어난 발화는 백오프 의사소통(backoff understanding)을 이용해 취급된다. 전술한 바와 같이, 타겟 언어 의사소통 다이얼로그 시스템에 의해 채용되는 백오프 의사소통의 통상적인 예는 모든 도메인 분류기에 의해 거절된 발화를 일반적 웹 검색어로서 취급하는 것이다. 가상 개인 비서 및 기타 타겟 언어 의사소통 다이얼로그 시스템에서의 백오프 의사소통은 의사사실 질문(factoid question) 검출기(130) 및/또는 잡담(chit-chat) 검출기(132)도 포함할 수 있다.

의사사실 질문은 지명된 엔티티에 관한 간단한 사실을 찾는 질문이다. 의사사실 질문은 종종 누가(who), 무엇을(what), 언제(when), 어디서(where), 왜(why), 또는 방식 질문(how question)처럼 표현된다. 의사사실 질문의 일례는 "what is the tallest mountain in the United States?"이다.

잡담은 자연스러운 또는 간단한 대화에서의 일상적 발화를 지칭한다. 가상 개인 비서를 이용하면, 잡담은 통상 어느 정도 어이없거나 어느 정도 개인적인 특징의 질의를 수반한다. 가상 개인 비서에는 그 가상 개인 비서를 적어도 다소 사람처럼 보이게 하기 위해 이러한 질의에 대한 반응이 제공될 수 있다. 잡담의 예는 "where are you from" 또는 "tell me a joke" 등의 발화를 포함한다. 사실상, 잡담은 가상 개인 비서 또는 기타 타겟 언어 의사소통 다이얼로그 시스템의 성격(personality)을 규정하는 것을 돕는 비생산적인 상호작용(non-productive interaction)을 수반한다.

오펀 검출기(102)는 오펀을 검출함으로써 백오프 의사소통을 향상시킨다. 본 명세서에서 사용할 때에, 오펀은 타겟 언어 의사소통 다이얼로그 시스템의 태스크 도메인 중 어느 것에 의해 커버되지 않는 것(즉, 도메인을 벗어난 발화)으로 알려진, 의사사실적이지 않고(non-factoid), 애매하지 않으며, 특정 의도를 가진 요청을 지칭한다. 따라서, 오펀은, 적절한 태스크 도메인을 가진 타겟 언어 의사소통 다이얼로그 시스템에 의해 커버될 수 있으며, 대부분의 경우, 일반적 웹 검색을 수행하는 것으로 완수될 수 없는 요청을 나타낸다.

가상 개인 비서 등의, 사용자 발화에 대해 동시 응답(contemporaneous response)을 제공하는 온라인 시스템에서는, 오펀 검출기(102)가 다이얼로그 시스템(100)으로 하여금 특정 사용자 경험을 개선시키는 적절한 방식으로 오펀에 지능적으로 응답하게 한다. 예를 들면, 오펀 검출기(102)에 의해 제공되는 정보는 사용자 발화가 오펀인 경우에 비동조적인(unresponsive) 일반 웹 검색을 반환하는 것을 피하고 적절한 응답을 제안하기 위해 온라인으로 사용될 수 있다. 오프라인 사용에서는, 오펀 검출기(102)가 타겟 의사소통 컴포넌트(104)의 기능성을 개선시키는 가치있는 정보를 제공하고, 그럼으로써 다이얼로그 시스템(100)을 이용해 일반적 사용자 경험을 개선시킨다. 예를 들면, 오펀 검출기(102)는 새로운 태스크 도메인을 신속하게 추가하고 타겟 언어 의사소통 다이얼로그 시스템의 능력을 확장시키거나 오펀을 취급하는 기존의 도메인 모델을 개선시키기 위해 오프라인에 사용될 수도 있다.

판별적 분류기(discriminative classifier)는 생성적 분류기(generative classifier)(예컨대, 나이브 베이즈(Naive Bayes))와 비교해 이전 확률 분포에 덜 민감한 경향이 있기 때문에 오펀 검출기에 사용하기에 매우 적합하다. 적합한 판별적 분류기의 일례는 서포트 벡터 머신(SVM, support vector machine)이다. 서포트 벡터 머신은 통상, 대형 특징 공간을 가진 태스크에 대해 다른 바이너스 분류 방법보다 성능이 우수하다. 오펀 검출 특징 공간은 단어 및 품사 태그 n-gram 모두를 포함하고 있기 때문에 매우 크다.

오펀 검출기의 분류기 모델은 빈번하게 발생하는 웹 검색어 세트 및 다이얼로그 코퍼스(dialog corpus)로부터 다이얼로그 시스템에 어드레싱되는 발화 세트를 포함하는 트레이닝 데이터를 이용해서 구축될 수 있다. 웹 검색어 세트는 네거티브 트레이닝 부류를 제공하는 반면, 다이얼로그 시스템에 어드레싱되는 발화 세트는 포지티브 트레이닝 부류를 제공한다. 다이얼로그 시스템에 어드레싱되는 발화 세트로부터의 발화는 수동으로 주석이 달릴 수 있다. 다이얼로그 시스템에 어드레싱되는 발화 세트는 도메인 내의 발화 및/또는 그 다이얼로그 시스템에 어드레싱되는 것으로 결정되는 도메인을 벗어난 발화를 포함할 수 있다. 오펀 검출 모델에서 이용되는 특징에 따라, 오펀 검출기는 어휘적 파서(lexical parser), 품사 태거(part-of-speech tagger), 구문론적 파서, 및 의미론적 파서 중 하나 이상을 채택할 수 있다.

상호작용 매니저(134)는 타겟 의사소통 컴포넌트(104)의 출력에 영향을 미친다. 상호작용 매니저(314)는 다이얼로그(즉, 대화)의 흐름을 결정적으로 책임지는 다이얼로그 시스템의 상태기반(stateful) 컴포넌트이다. 상호작용 매니저(134)는 현재의 다이얼로그 상태를 반영하기 위해 다이얼로그 세션(136)을 업데이트하여 대화를 추적하고, 그 대화의 흐름을 제어한다. 다이얼로그 세션(136)은 사용자와 다이얼로그 시스템 간의 상호작용의 임의의 양상 및 모든 양상을 저장할 수 있는 데이타 세트이다. 다이얼로그 세션이 저장하는 다이얼로그 상태 정보의 유형 및 양은 다이얼로그 시스템의 설계 및 복잡성에 따라 다를 수 있다. 예컨대, 대부분의 다이얼로그 시스템이 저장하는 기본 다이얼로그 상태 정보는 발화 이력, 사용자로부터의 최종 커맨드 및 최종 머신 액션, 그리고 현재의 다이얼로그 상태를 포함하나 이들에 한정되지 않는다. 상호작용 매니저(134)는 현재의 다이얼로그 상태에 기초하여 적절한 머신 액션을 수행하는데, 그 예로는 구조화된 또는 구조화되지 않은 정보 소스(예컨대, 지식 베이스(knowledge bases), 연락처 등)로부터 정보를 검색(retrieving)하는 것이 있지만, 이에 한정되지는 않는다.

응답 생성기(138)는 다이얼로그 시스템의 응답을 생성한다. 응답 생성기(138)는 그 응답을, 사용자에 제공하기 위한 자연적(즉, 인간적) 사운딩 텍스트로 변환하는 자연 언어 생성 컴포넌트(140)를 포함할 수 있다. 응답 생성기(138)는 응답을 스피치로 변환하여 다이얼로그 시스템으로 하여금 사용자와 말로 상호작용하게 하는 텍스트-스피치 컴포넌트(142)도 포함할 수 있다. 응답은 클라이언트 디바이스의 출력 디바이스 중 하나 이상을 통해 렌더링된다.

도 2는 오펀을 검출 및 취급하는 방법의 양상을 나타내는 상위 레벨 흐름도이다. 방법(200)은 다이얼로그 시스템이 프로세싱할 하나 이상의 입력을 수신하는 입력 동작(202)을 포함할 수 있다. 온라인 사용 시나리오의 경우, 입력은 통상 사용자로부터 실시간으로 수신되는 개별 발화이다. 필요하다면, 인식 동작(204)에서 발화를 오펀 검출기(102)가 사용할 수 있는 포맷으로 변환한다. 예를 들어, 인식 동작(204)에서는 스피치를 텍스트로 디코딩하기 위해 행해진 발화에 스피치 인식을 적용하는 것을 수반할 수 있다. 오프라인 사용 시나리오의 경우, 입력은 다수의 사용자들의 다이얼로그 시스템 또는 웹 검색 엔진 쿼리 로그로부터의 기존의 발화 또는 쿼리의 코퍼스(copus)로부터의 것일 수 있다.

도메인 분류 동작(206)에서는, 타겟 의사소통 컴포넌트(104)의 태스크 도메인 중 어느 것에 의해 발화가 커버되는지의 여부에 따라 발화를 도메인 내에 있는 것 또는 도메인을 벗어난 것으로 분류한다. 도메인 분류 동작(206)에서는, 발화가 각 도메인에 속하는지의 여부를 결정하는 연관된 분류기를 각 도메인에 구비하는 "수용(acceptance)" 어프로치, 최상위 레벨 분류기가 발화에 대한 도메인을 결정하는 "선별(triage)" 어프로치, 또는 이들 어프로치의 조합을 이용할 수 있다.

도메인 분류가 통상 포함(즉, 규정된 태스크 도메인에 의해 커버되는 발화를 검출하는 것)이라는 면에서 표현되지만, 본 발명의 양상들은 도메인을 벗어난 발화를 취급하는 데에 포커싱한다. 따라서, 상세한 설명 및/또는 첨부하는 청구범위에서는 도메인을 벗어난 발화의 검출 및/또는 분류라고 지칭할 수 있다. 발화가 도메인을 벗어난 발화라는 결정은 타겟 언어 의사소통 다이얼로그 시스템의 도메인에 포함시키기 위해 발화를 테스트하여 얻어진 결과의 부정(negation)에 의해 간단히 달성될 수 있다. 다시 말해, 타겟 언어 의사소통 다이얼로그 시스템의 임의의 도메인에 대한 포함 기준을 충족하지 않는 발화는 도메인을 벗어난 발화로서 결정된다.

도메인 분류 동작(206)에 이어서, 도메인 내의 발화 이해 동작(208)과 도메인 내의 발화 액션 동작(210)이 수행된다. 도메인 내의 발화 이해 동작(208)에서는 도메인 내의 발화의 의도(즉, 의미)를 결정한다. 도메인 내의 발화 동작(208)에 의한 의미 부여 양상은 제한 없이, 아규먼트 추출, 슬롯 채우기, 및 기타 의미론적 프로세싱 기능 및 어프로치를 포함할 수 있다.

도메인 내의 발화 액션 동작(210)에서는 현재의 다이얼로그 상태에 기초하여 도메인 내의 발화의 의도를 달성하는 것으로 결정되는 다이얼로그 액트를 수행한다. 예를 들어, 도메인 내의 발화 액션 동작(210)은 아규먼트로 지정된 날짜 및 시간에 대한 알람을 설정하는 알람 애플리케이션, 또는 아규먼트로 지정된 사람에 전화를 걸기 위한 폰 애플리케이션과 인터페이싱할 수 있다. 도메인에 따른 규칙 또는 도메인 내의 발화를 취급하기 위한 명령어는 통상 태스크 도메인 정의의 일부로서 명시된다.

일반적으로, 도메인 내의 발화 상호작용은 애플리케이션, 환경, 및 사용중인 디바이스에 맞쳐진다. 스마트 텔레비전, 케이블 박스, 또는 인터넷 텔레비전 디바이스나 애플리케이션에 대한 도메인 내의 태스크는 스트리밍 비디오 컨텐츠의 재생, 채널 변경, 및 볼륨 조정을 포함할 수 있다. 예를 들어, 범용의 컴퓨팅 디바이스 상에서, 가상 개인 비서에 대한 도메인 내의 태스크는 라마인더 관리, 알람 관리, 비행 예약하기, 및 호텔 예약하기를 포함할 수 있다. 스마트폰 상에서, 가상 개인 비서에 대한 도메인 내의 태스크는 셀룰러 캐리어 네트워크를 통한 텍스트 메시지 발송 및 전화걸기로 확장될 수 있다.

특징 추출 동작(212)에서는 발화를 분류하고 이해하기 위해 사용되는 특징을 추출한다. 특징 추출은 어휘적 파싱 동작(lexical parsing operation)(214), 품사 태깅 동작(part-of-speech tagging operation)(216), 구문론적(syntactic) 파싱 동작(218), 및 의미론적(semantic) 파싱 동작(220) 중 하나 이상을 포함할 수 있다. 특징 추출은 도메인을 벗어난 발화를 잡담 또는 의사사실 질문으로 분류하는 데에 그리고 도메인 내의 발화를 분류하는 데에 유용한 특징을 추출하기 위해서도 이용될 수 있다. 도메인 내의 발화 및 도메인을 벗어난 발화에 대한 특징 추출은 별도로 또는 도메인 분류 동작(204) 이전에 일어나는 조합된 동작으로 이루어질 수 있다.

방법(200)은 선택적으로, 대응하는 도메인을 벗어난 발화를 검출 및 프로세싱하는 의사사실 질문 프로세싱 동작(222) 및 잡담 프로세싱 동작(222)을 포함할 수 있다.

오펀 결정(226)은 도메인을 벗어난 발화가 오펀인지의 여부를 식별한다. 오펀 검출은 놀랄만큼 어려운 태스크이다. 오펀 결정(226)은 발화의 특정 의도(즉, 발화의 내용)을 이해하는 것보다는 발화의 의도가 표현되는 방법(즉, 발화의 구조)에 포커싱한다. 예를 들어, 커맨드로서 구조화된 도메인을 벗어난 발화(예컨대, "send email to mom")는 일반적 웹 검색에 대한 키워드라기보다는 특정적이지만 지원되지 않는 액션을 다이얼로그 시스템이 수행해야 하는 요청일 가능성이 더 많다. 마찬가지로, 지명된 엔티티 또는 명사구만 그리고 그 밖의 것(예컨대, hotel)을 포함하는 발화는 일부 인스턴스가 애매하더라도(예컨대, "hotel reservation"), 웹 검색으로 어드레싱되는 키워드일 가능성이 더 많다.

알려진 태스크 도메인에 대한 도메인 분류기로부터의 신뢰도 점수는 오펀 결정(226)에 대한 입력이, 커버된 태스크 도메인에 의해 거절되었던 도메인을 벗어난 발화이기 때문에 특별히 유용하지 않다.

선형 커널 SVM 분류 태스크는 다음과 같이 공식적으로 정의될 수 있다. 타겟 언어 의사소통 다이얼로그 시스템에 어드레싱되는 발화(예컨대, VPA-어드레싱된 요청)의 샘플,

로부터 추출된 특징을 이용하여 컴파일되는 트레이닝 데이터를 D, 웹 검색어의 샘플을

라고 하면, 선형 커널 SVM 분류 태스크는 초평면,

을 찾는 것, 최대 마진으로 이들 부류를 분류하는 것으로서 공식적으로 정의될 수 있다.

한가지 어휘적 특징은 발화로부터의 n-gram이라는 단어뿐이다. 다수의 도메인을 커버하는 발화를 이용해 오펀 분류기를 트레이닝하면, 도메인 독립적 어구(예컨대, "could you please show me" 또는 "what is the")에 비해 도메인 고유의 단어(즉, 레스토랑 도메인에서의 "cuisine" 또는 "meal")의 영향을 효과적으로 저감시킨다. 어휘적 모델은 도메인 내의 지표 어구(예컨대, "can you" 또는 "please")가 좋은 오펀 분류 특징으로서 기능하기 때문에 내용 단어(content word)와의 어휘적 중복이 거의 없더라도 오펀을 웹 검색어와 구별하기에 적절하다. 어휘적 특징만을 이용해 트레이닝된 오펀 분류기를 사용하여 얻어진 결과는 비교를 위한 중대한 기준을 제공한다. 표 1은 VPA에 어드레싱된 요청과 웹 검색어에서 보여지는 일인칭 단어의 상대적인 빈도를 비교하고 있다.

오펀 검출기가 내용보다는 구조에 더 많이 의존하기 때문에, 구문론적 특징도 오펀 분류기에 의해 이용될 수 있다. 오펀 결정에 이용하기 위한 기준 구문론적 특징은 품사 태그 n-gram이다. 발화에서 첫번째 단어로서 출현하는 소정의 품사는 그 발화가 오펀인지의 여부에 관한 좋은 지표를 제공한다. 예를 들어, 발화는 첫번째 단어의 품사가 고유 명사일 경우보다는 첫번째 단어의 품사가 조동사(예컨대, "could")이거나 기본형 동사(예컨대, play)일 때에 오펀이 될 가능성이 더 높다. 마찬가지로, 발화가 오펀일 거라는 좋은 지표인 다른 품사는 첫번째 단어로서 출현하는 주격 인칭 대명사(예컨대, "I") 또는 소유격 인칭 대명사(예컨대, "my")를 포함한다.

표 2는 VPA에 어드레싱된 요청과 웹 검색어에서 나타내는 첫번째 단어에 대한 가장 빈번한 품사 태그의 상대적인 빈도를 비교하고 있다. 보다시피, 발화의 첫번째 단어로서 동사를 갖는 것에 있어서 웹 검색어보다는 요청이 실질적으로 더 많은 것 같다.

도 3은 성분에 따른(constituency-based) 구문론적 구조 파싱의 일례를 도시하는 도면이다. 단어 "find brightness settings"는 동사구(VP)와 명사구(NP)로 이루어진 문장(S)을 형성한다. 명사구는 복수 명사(NNS) "settings"와 연결된 단수 명사(NN) "brightness"로 구성된다. 동사구는 명사구 "brightness settings"가 목적어로서 역할하는 동사(VB) "find"로 구성된다. 구문 분석 트리(syntactic parse tree)의 구조는 VPA에 어드레싱된 요청의 가장 빈번한 형태 중 하나인 구문론적 형태 특징인 S(VP(NP))로 표현될 수 있다. 구문 분석 트리 형태는 오펀 분류자 모델에서 유용한 또 다른 구문론적 특징이다. 실제로, VPA에 어드레싱된 요청에는 웹 검색어보다 구문 분석 트리가 훨씬 더 많이 보인다. VPA에 어드레싱된 요청에 대한 다수의 구문 분석 트리 형태는 구문 분석 구문 트리 형태를 정확도보다는 리콜에 더 유용하게 한다.

의미론적 특징도 오펀 분류기 모델에서 유용하다. 필수는 아니지만, 도메인 내의 발화에 대한 통상의 의미론적 프레임은 주로 술어/아규먼트(예컨대, "make/reservation", "buy/ticket" 또는 "set/alarm")의 형태로 의도를 포함한다. 술어(predicate) 및 아규먼트(argument)의 세트가 있는지를 확인하는 것은 정확도가 높은 오펀 분류에 대한 한가지 의미론적 특징을 제공한다.

의미론적 파싱은 일반적인 지식 기반의 의미론적 파서(예컨대, NLPWin)를 이용해서 달성될 수 있다. 오펀 검출기를 사용하여 평가된 대부분의 발화는 매우 짧고 파싱하기에 단순하기 때문에, 구문론적 파싱은 얕은 구문론적 파서(예컨대, PropBank) 또는 심층 의미론적 파서(예컨대, FrameNet)를 사용하여 달성될 수도 있지만, 이들 파서는 통상, 자연 발화 언어를 파싱하게 될 때에는 특히 강력하지 못하다.

도 4는 도 3에서 구문론적으로 파싱된 문장에 적용되는 의미론적 파싱의 일례를 도시하는 도면이다. 도시하는 구문 분석 트리는, "ARGO"가 대개 주어이고, "ARG1"은 직접 목적어이고, "mod"는 수식구(modifier)이며, "mode"는 평서문(regular statement)이 아닌 문장의 다이얼로그 액트(예컨대, 명령형(imperative), 의문형(interrogative), 또는 감탄형(exclamation))를 나타내는 추상 의미 표현(AMR, abstract meaning representation) 포맷을 사용한다. 의미론적 파싱의 구조는 의미론적 형태 특징인 Pred(Arg0, Argl, mode: imperative)로 표현될 수 있는데, 이는 VPA에 어드레싱된 요청에 대한 가장 빈번한 의미론적 형태이다. 반대로, 독립 개념(예컨대, "facebook")의 의미론적 형태는 VPA에 어드레싱된 요청보다는 웹 검색어에서 약 16배 더 자주 출연한다.

오펀 분류자 모델은 특징 레벨 또는 결정 레벨에서 조합될 수 있다. 다시 말해, 오펀 분류 결정을 기반으로 하는 단일 출력을 제공하는 다수의 특징 세트를 이용하여 단일 오펀 분류기 모델이 트레이닝될 수도 있거나 혹은 오펀 분류 결정을 할 때에 평가할 출력 세트를 제공하는 각각의 기능 세트를 이용하여 개별 오펀 분류기 모델이 트레이닝될 수도 있다.

오펀 검출기는 도메인 모델에 의해 거절된 발화가 오펀인지 웹 검색어인지의 여부를 결정하고 프로세싱할 오펀을 반환한다. 오펀이 프로세싱되는 방법은 오펀 검출기가 온라인 시나리오에 또는 오프라인 시나리오에 사용되고 있는지 여부에 따라 달라질 수 있다.

이제 도 2로 되돌아가면, 오펀 취급 동작(228)에서는 개선된 사용된 경험을 제공하는 적절한 방식으로 오펀 결정(226)에서 식별된 오펀을 취급한다. 예를 들면, 오펀 취급 동작(228)은 오펀을 일반적 검색어로 제출하는 것을 피할 수도 또는 오펀에 대한 일반적 웹 결과의 보고를 억제할 수도 있다. 대신에, 오펀 취급 동작(228)은 사용자가 특정 액션 요청을 만들어냈지만 그 특징이 현재 다이얼로그 시스템에 의해 지원되지 않는다는 것을 다이얼로그 시스템이 이해한다고 나타내는 메시지를 작성할 수 있다. 보다 덜 가정하는 어프로치에서는, 오펀 취급 동작(228)이 오펀에 기초한 일반적인 웹 검색 결과를, 오펀이 지원되지 않는 액션 요청인 것으로 보인다고 다이얼로그 시스템이 이해하는 것을 사용자에게 알리는 메시지와 함께 제공할 수 있으며, 그 요청은 완수될 수 없기 때문에, 사용자가 사실상 일반적인 웹 검색을 수행하려고 하는 경우에만 검색 결과가 제공되게 된다. 오펀 취급 동작(228)의 양상은 오펀을 취급하는 방법을 결정하기 위해 오펀 결정(226)에서 생성된 신뢰도 점수를 이용하는 것을 포함할 수 있다. 오펀 취급 동작(228)은 대안적으로, 또는 추가적으로, 사용자에게, 지원되지 않는 액션을 수행하는 방법을 다이얼로그 시스템에 교육할 기회를 제공할 수도 있다.

사용자 경험은, 다이얼로그 시스템이 사용자의 요청을 만족시키기 때문이 아니라, 사용자의 요청이 만족될 수 없더라도 다이얼로그 시스템이 뜻있는 응답(meaningful response)을 제공하기 때문에, 개선된다. 사용자가 요청한 것에 대해 다이얼로그 시스템이 무의미한 응답(즉, 웹 검색어 결과)을 제공한 이유를 사용자가 궁금해하지 않게 되면, 이것은 대개 다이얼로그 시스템에 대한 사용자의 불만을 저감시킨다.

발화 목록화(cataloging) 동작(230)은 다이얼로그 시스템에 의해 부여된 분류와 함께 다이얼로그 시스템에 의해 수신된 발화를 저장할 수 있다. 발화 목록화 동작(230)은 다이얼로그 시스템에 의해 수신된 모든 발화를, 또는 발화의 선택된 부류들만(예컨대, 제한 없이, 도메인 내, 도메인 외, 오펀, 웹 검색어, 잡담, 또는 의사사실 질문) 그리고 이들의 조합을 저장하는데 이용될 수 있다. 에를 들어, 발화 목록화 동작(230)은 도메인을 벗어난 것으로서 분류된 발화만 저장할 수 있다. 다른 예에서는, 오펀과 웹 검색어만 저장될 수도 있다.

수신된 입력의 유형 및 부류에 따라, 동작들 중 일부 또 전부가 오프라인 시나리오에서는 생략될 수도 있다. 예를 들어, 코퍼스는 분석될 도메인을 벗어난 발화만, 또는 불필요한 도메인 분류와 같은 코퍼스 작성 단계에 적용되는 필터만 포함할 수도 있다. 마찬가지로 코퍼스 또는 로그는 텍스트로 저장되며 인식 동작을 필요로 하지 않을 것이다. 또한, 실제 발화 취급은 일반적으로 오프라인 분석 용도에는 불필요하다.

도 5는 오프라인 사용 시나리오에서 오펀을 이용한 새로운(즉, 커버되지 않은) 태스크 도메인에 대한 의미론적 모델의 무감독 트레이닝 방법의 양상을 나타내는 상위 레벨 흐름도이다. 방법(500)은 오펀 검출기에 의해 검출된 오펀에 대해 일반적 파싱 동작(502)을 수행함으로써 시작된다. 쿼리 그룹핑 동작(504)은 일반적 파싱 동작(502)의 결과와 웹 검색 엔진으로부터의 지식을 이용하여 유사한 오펀들과 웹 검색어를 그룹핑한다. 유용한 그룹핑의 예는, 제한 없이, 동일한 술어 및 아규먼트 유형의 공유(예컨대, "play madonna"와 "play some adele"), 동일한 아규먼트 유형의 공유(예컨대, "show me delta stock"와 "how is united doing today"), 또는 동일한 주요 아규먼트의 공유(예컨대, "recipe of a Mediterranean dish"와 "I need the recipe of Tiramisu")를 기반으로 한 그룹핑을 포함한다. 의미론적 템플레이팅(semantic templating) 동작(506)은 예컨대 AMR 파싱 형태에 기초할 수 있는 의미론적 템플릿을 유도한다. 쿼리 시딩(query seeding) 동작(508)은 의미론적 클러스터링(semantic clustering)(예컨대, 잠재적인 디리클레 할당(latent Dirichlet allocation, LDA)을 사용하여 시드 쿼리(seed query)를 파퓰레이팅한다. 트레이닝 동작(510)은 시드 검색어를 사용하여 도메인 검출 및 슬롯 채우기 모델(slot filling model)을 트레이닝한다. 추가 파싱 동작(512)은 결과 모델을 사용하여 나머지 쿼리를 자동으로 파싱한다. 유지 동작(514)은 추가 파싱 동작(512)의 결과를 사용하여 의미론적 모델을 유지한다.

올바른 관점으로 오펀 검출의 이점을 평가하면, 하나의 가상 개인 비서 시스템에서 약 1백만 건의 발화를 포함하는 다이얼로그 코퍼스를 분석한 결과는, 대다수의 발화는 가상 개인 비서가 취급하는 9개의 어토믹 도메인(atomic domain)(알람, 캘린더, 노트, 통화, 단문 메시지 서비스, 리마인더, 이메일, 날씨 및 장소) 중 하나에 속한 것으로 분류되지 않음을 보여주었다. 발화의 30%만이 도메인 내에 있었다(즉, 9개의 도메인 중 하나에 속하였다). 발화의 다른 5%는 프로세싱될 수 없었다(예컨대, 이해할 수 없었다). 도메인을 벗어난 발화인 나머지 65%는 의사사실 질문, 잡담, 웹 검색어, 및 오펀을 포함한다.

도메인을 벗어난 발화의 분포를 면밀히 살펴보면, 오펀이 발화의 약 18%를 차지하는 것으로 보인다. 웹 검색어는 발화의 다른 23%를 차지하였다. 의사사실 질문과 잡담을 합쳐서 반올림하면 발화의 나머지 24%이다.

n배 교차 검증(n-fold cross-validation) 테스트의 경우, 오펀 검출기의 분류기 모델은 기존 가상 개인 비서 다이얼로그 코퍼스로부터의 빈도 및 약 120,000개의 VPA에 어드레싱된 요청에 관계없이, 헤드 및 중간 빈도 쿼리로부터 선택된 약 100,000개의 웹 검색어를 포함하는 트레이닝 데이터로부터 구축되었다. 웹 검색어는 네거티브 트레이닝 부류를 형성하였고, VPA에 어드레싱된 요청은 포지티브 트레이닝 부류를 형성하였다. 개별 특징 세트(즉, 어휘적, 품사 태그, 구문론적 파싱, 및 의미론적 파싱)에 기초하여 오펀 분류기의 상대적 성능을 평가하기 위해, 7개의 알려진 태스크 도메인 중 하나를 제외한 모든 도메인에 대한 도메인 내의 발화가 오펀 분류기 모델을 트레이닝할 때에 사용되었다. 서빙되는 생략된 태스크 도메인은, 오펀으로 분류되어야 하고 다른 태스크 도메인 중 어느 것에 의해 선택되어서는 안 되는 알려진 발화 세트를 제공하였다.

오펀 검출기에 대한 2개의 주요 성공 척도가 정확도(precision)와 리콜(recall)이다. 정확도는 오펀 검출기에 의해 식별된 오펀의 총 수로부터의 오펀 검출기에 의해 정확하게 식별된 오펀의 비율을 나타낸다. 리콜은 오펀 검출기에 의해 프로세싱된 도메인을 벗어난 발화의 총 수로부터의 오펀 검출기에 의해 정확하게 식별된 오펀의 수를 나타낸다. 테스트에서, 어휘적, 품사 태그, 구문론적 파싱, 및 의미론적 파싱 모델은 평균 리콜이 80%를 넘었지만, 정확도는 달랐다.

개별적으로, 어휘적, 품사 태그, 구문론적 파싱, 및 의미론적 파싱 모델은 모두 평균 리콜이 80%를 넘지만, 결과의 정확도는 다르다. 표 3은 이용 가능한 특징 세트 각각을 이용하여 트레이닝된 오펀 분류기 모델의 상대적인 정확도를 나타낸다. 구문론적 모델의 정확도는, 의사사실 질문(예컨대, "can you paint wood frame homes in winter")과 VPA에 어드레싱된 요청(예컨대, "can you tell me a joke")이 보통 동일한 구문론적 구조를 공유하기 때문에, 저하되는 경향이 있다. 의사사실 질문과 VPA에 어드레싱된 요청을 구별하는 것은 쉽지 않은 구문론적 모호한 태스크이다.

표 4는 오펀 분류기 모델을 트레이닝할 때에 생략된 알려진 태스크 도메인으로부터 검출되는 대표적인 발화를 나타낸다. 어휘적 및 품사 태그 모델은 구문론적 및 의미론적 파싱 모델과 비교해서 특정 키 어구(예컨대, "can you please show me...")를 가진 긴 발화를 반환하는 경향이 있다.

본 발명의 양상들은 시스템, 디바이스, 및 기타 제조 물품으로서, 또는 하드웨어, 소프트웨어, 컴퓨터 판독 가능한 매체, 또는 이들의 조합을 이용한 방법으로서 실시될 수 있다. 이하의 논의 및 관련 도면은 본 명세서에 설명한 본 발명의 양상을 실시하기 위해 이용될 수 있는 방대한 수의 시스템 아키텍처 및 컴퓨팅 디바이스를 나타내는 선택된 시스템 아키텍처 및 컴퓨팅 디바이스를 설명하며, 어떤 식으로든 본 발명의 범위를 제한하는데 사용되어서는 안 된다

다양한 유형의 사용자 인터페이스 및 정보는 온보드 컴퓨팅 디바이스 디스플레이를 통해 또는 하나 이상의 컴퓨팅 디바이스와 연관된 원격 디스플레이 유닛을 통해 표시될 수 있다. 예를 들어, 다양한 유형의 사용자 인터페이스 및 정보는 다양한 유형의 사용자 인터페이스 및 정보가 투사될 수 있는 벽면 상에 표시되어 상호작용될 수도 있다. 본 발명이 실시될 수 있는 다수의 컴퓨팅 시스템과의 상호작용은 제한 없이, 키스트로크 입력, 터치 스크린 입력, 음성 또는 기타 오디오 입력, 제스처 입력 등으로 달성될 수 있는데, 제스처 입력과 연관된 컴퓨팅 디바이스는 그 컴퓨팅 디바이스의 기능을 제어하는 사용자 제스처를 포착하여 해석하는 검출(예컨대, 카메라) 기능이 장착되어 있다.

도 6은 본 발명의 양상들이 실시될 수 있는 컴퓨팅 디바이스의 아키텍처를 도시하는 블록도이다. 컴퓨팅 디바이스(600)는, 메인프레임 컴퓨터, 미니 컴퓨터, 서버, 퍼스널 컴퓨터(예컨대, 데스크탑 및 랩톱 컴퓨터), 태블릿 컴퓨터, 넷북, 스마트폰, 스마트워치, 비디오 게임 시스템, 스마트 텔레비전, 스마트 소비자 전자 장치를 포함하나 이에 한정되지 않는 다양한 컴퓨터 및 프로그래머블 소비자 전자 장치에 임베딩된 본 발명의 양상들을 구현하기에 적합하다.

점선(608)으로 나타내는 기본 구성에 있어서, 컴퓨팅 디바이스(600)는 적어도 하나의 프로세싱 유닛(602)과 시스템 메모리(604)를 포함할 수 있다. 컴퓨팅 디바이스의 구성 및 유형에 따라, 시스템 메모리(604)는 휘발성 스토리지(예컨대, 랜덤 액세스 메모리), 비휘발성 스토리지(예컨대, 리드 온리 메모리), 플래시 메모리, 또는 이들 메모리의 임의의 조합을 포함할 수 있으나, 이들에 한정되지 않는다. 시스템 메모리(604)는 컴퓨팅 디바이스(600)의 동작을 제어하기에 적합한 운영체제(605)와, 본 명세서에서 설명하는 본 발명의 양상을 구현하는 소프트웨어를 포함하는 소프트웨어 애플리케이션(620)을 실행하기에 적합한 하나 이상의 프로그램 모듈(606)을 포함할 수 있다.

프로세싱 유닛(602) 상에서 실행되면서, 소프트웨어 애플리케이션(620)은 방법(200, 500)의 단계들 중 하나 이상의 단계를 포함한, 그러나 이들에 한정되지 않는 프로세스를 수행할 수 있다. 본 발명의 양상에 따라 이용될 수 있는 기타 프로그램 모듈은, 전자 메일 및 연락처(contacts) 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 데이터베이스 애플리케이션, 슬라이드 프레젠테이션 애플리케이션, 또는 컴퓨터 보조 드로잉 애플리케이션 프로그램 등을 포함할 수 있다.

기본 구성과 함께, 컴퓨팅 디바이스(600)는 추가 특징 또는 기능성을 구비할 수도 있다. 예를 들어, 컴퓨팅 디바이스(600)는 예컨대 자기 디스크, 광학 디스크, 또는 테이프 등의 추가 데이터 저장 디바이스(분리형 및/또는 비분리형)을 포함할 수도 있다. 이러한 추가 스토리지는 분리형 저장 디바이스(609)와 비분리형 저장 디바이스(610)로 도시되어 있다.

또한, 컴퓨팅 디바이스(600)는 키보드, 마우스, 펜, 사운드 입력 디바이스, 터치 입력 디바이스 등의 하나 이상의 입력 디바이스(612)를 구비할 수 있다. 디스플레이, 스피커, 프린터 등의 출력 디바이스(614)도 포함될 수 있다. 전술한 디바이스들은 예시이며 다른 것들이 이용될 수도 있다. 컴퓨팅 디바이스(600)는 다른 컴퓨팅 디바이스(618)와의 통신을 가능하게 하는 하나 이상의 통신 접속(616)을 포함할 수 있다. 적절한 통신 접속(616)의 예는, RF 송신기, 수신기, 및/또는 송수신기 회로, USB(universal serial bus), 병렬 및/또는 직렬 포트를 포함하나 이들에 한정되지는 않는다.

본 명세서에서 사용하는 용어인 컴퓨터 판독 가능한 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독 가능한 명령어, 데이터 구조, 또는 프로그램 모듈 등의 정보를 저장하기 위해 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함할 수 있다. 시스템 메모리(604), 분리형 저장 디바이스(609) 및 비분리형 저장 디바이스(610)가 다 컴퓨터 저장 매체(즉, 메모리 스토리지)의 예이다. 컴퓨터 저장 매체는 RAM(random access memory), ROM(read only memory), EEPROM(electrically erasable programmable read-only memory), 플래시 메모리 또는 기타 메모리 기술, CD-ROM(compact disc read only memory), 디지털 다용도 디스크(digital versatile disk, DVD) 또는 기타 광학 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 기타 자기 저장 디바이스, 또는 정보를 저장하는데 이용될 수 있고 컴퓨팅 디바이스(600)에 의해 액세스될 수 있는 기타 제조 물품을 포함할 수 있다. 임의의 그러한 컴퓨터 저장 매체는 컴퓨팅 디바이스(600)의 일부일 수 있다.

또한, 본 발명의 양상들은 개별 전자 소자, 로직 게이트를 포함하는 패키징형 또는 집적형 전자 칩, 마이크로프로세서를 이용하는 회로를 포함하는 전기 회로 내에서 또는 전자 소자나 마이크로프로세서를 포함하는 단일 칩 상에서 실시될 수 있다. 예를 들어, 본 발명의 양상들은 도시하는 컴포넌트들의 각각이 또는 다수가 단일 집적 회로 상에 집적될 수 있는 시스템 온 칩(SOC)를 통해 실시될 수도 있다. 그러한 SOC 디바이스는 하나 이상의 프로세싱 유닛, 그래픽 유닛, 통신 유닛, 시스템 가상화 유닛 및 다양한 애플리케이션 기능을 포함할 수 있으며, 이들 기능은 모두 단일 집적 회로로서 칩 기판 상에 집적(또는 "버닝(burned)")될 수 있다. SOC를 통해 동작할 때에, 소프트웨어 애플리케이션(620)에 대해 본 명세서에서 설명한 기능은 단일 집적 회로(칩) 상에서 컴퓨팅 디바이스(600)의 다른 컴포넌트와 집적된 애플리케이션 특유의 로직을 통해 작동될 수 있다. 또한 본 발명의 양상들은 기계적, 광학적, 유체적, 및 양자적 기술을 포함하나 이들에 한정되지 않는, 예컨대 AND, OR 및 NOT 등의 논리적 연산을 수행할 수 있는 다른 기술을 이용해 실시될 수 있다. 또한, 본 발명의 양상들은 범용 컴퓨터 내에서 또는 기타 회로나 시스템 내에서 실시될 수 있다.

도 7a은 본 발명의 양상을 실시하기에 적합한 모바일 컴퓨팅 디바이스(700)를 도시하고 있다. 적합한 모바일 컴퓨팅 디바이스의 예는 모바일 전화기, 스마트 폰, 태블릿 컴퓨터, 서피스 컴퓨터(surface computer), 및 랩탑 컴퓨터를 포함하나, 이들에 한정되지 않는다. 기본 구성에 있어서, 모바일 컴퓨팅 디바이스(700)는 입력 엘리먼트 및 출력 엘리먼트 둘 다를 구비한 핸드헬드 컴퓨터이다. 모바일 컴퓨팅 디바이스(700)는 통상 디스플레이(705)와, 사용자가 정보를 모바일 컴퓨팅 디바이스(700)에 입력할 수 있는 하나 이상의 입력 버튼(710)을 포함한다. 모바일 컴퓨팅 디바이스(700)의 디스플레이(705)는 입력 디바이스(예컨대, 터치 스크린 디스플레이)로서 기능할 수도 있다. 포함된다면, 선택적 슬라이드 입력 엘리먼트(715)가 추가 사용자 입력을 가능하게 한다. 슬라이드 입력 엘리먼트(715)는 회전 스위치, 버튼, 또는 기타 유형의 수동 입력 엘리먼트일 수 있다. 모바일 컴퓨팅 디바이스(700)는 약간의 입력 엘리먼트들을 내장할 수도 있다. 예를 들어, 디스플레이(705)가 터치 스크린일 필요는 없다. 모바일 컴퓨팅 디바이스(700)는 또한 선택적 키패드(735)를 포함할 수 있다. 선택적 키패드(735)는 물리적 키패드, 또는 터치 스크린 디스플레이 상에 생성된 "소프트" 키패드일 수 있다. 출력 엘리먼트는 그래픽 사용자 인터페이스를 보여주는 디스플레이(705), 시각적 인디케이터(720)(예컨대, 발광 다이오드) 및/또는 오디오 트랜스듀서(725)(예컨대, 스피커)를 포함한다. 모바일 컴퓨팅 디바이스(700)는 사용자에게 촉감 피드백을 제공하는 진동 트랜스듀서를 내장할 수도 있다. 모바일 컴퓨팅 디바이스(700)는 외부 디바이스에 대해 신호를 송신 또는 수신하기 위한, 오디오 입력(예컨대, 마이크 잭), 오디오 출력(예컨대, 헤드폰 잭) 및 비디오 출력(예컨대, HDMI 잭) 등의 입력 및/또는 출력 포트를 내장할 수도 있다.

도 7b는 본 발명의 양상들이 실시될 수 있는 모바일 컴퓨팅 디바이스에 대한 아키텍처를 도시하는 블록도이다. 일례로, 모바일 컴퓨팅 디바이스(700)는 하나 이상의 애플리케이션(예컨대, 브라우저, 이메일 클라이언트, 노트, 연락처 매니저, 메시징 클라이언트, 게임 및 미디어 클라이언트/플레이어)을 실행할 수 있는 스마트 폰과 같은 시스템(702)으로 구현될 수도 있다.

하나 이상의 애플리케이션 프로그램(765)이 메모리(762)에 로딩되어 운영체제(764) 상에서 또는 운영체제와 관련해 실행될 수 있다. 애플리케이션 프로그램의 예는, 전화걸기(phone dialer) 프로그램, 이메일 프로그램, 개인 정보 관리(personal information management, PID) 프로그램, 워드 프로세싱 프로그램, 스프레드시트 프로그램, 인터넷 브라우저 프로그램, 메시징 프로그램 등을 포함한다. 시스템(702)은 메모리(762) 내에 비휘발성 저장 영역(768)도 포함한다. 비휘발성 저장 영역(768)은 시스템(702)이 파워 다운될 때에 손실되어서는 안 되는 지속적인 정보를 저장하는데 이용될 수 있다. 애플리케이션 프로그램(765)은 이메일이나 이메일 애플리케이션에 의해 이용된 다른 메시지 등의 정보를 이용하고 그 정보를 비휘발성 저장 영역(768)에 저장할 수 있다. 동기화 애플리케이션(도시 생략)도 시스템(702)에 상주하며, 호스트 컴퓨터 상에 상주한 대응하는 동기화 애플리케이션과 상호작용하도록 프로그래밍되어, 호스트 컴퓨터에 저장된 대응하는 정보와 동기화된 비휘발성 저장 영역(768) 내에 저장된 정보를 유지시킨다. 물론, 여기에 설명하는 본 발명의 양상을 구현하는 소프트웨어를 포함한 다른 애플리케이션도 메모리(762) 내에 로딩되어 모바일 컴퓨팅 디바이스(700) 상에서 실행될 수 있다.

시스템(702)은 하나 이상의 배터리로서 구현될 수 있는 전원(770)을 구비한다. 전원(770)은 배터리를 보충 또는 재충전하는 전력 공급 거취대(powered docking cradle) 또는 AC 어댑터 등의 외부 전원을 더 포함해도 된다.

시스템(702)은 또한, 고주파 통신을 송신 및 수신하는 기능을 수행하는 무선부(772)를 포함할 수 있다. 무선부(772)는 통신 캐리어 또는 서비스 공급자를 통해 시스템(702)과 "외부 세계" 간의 무선 접속을 용이하게 한다. 무선부(772)에 대한 전송은 운영체제(764)의 제어 하에 수행된다. 다시 말해, 무선부(772)에 의해 수신된 통신은 운영체제(764)를 통해 애플리케이션 프로그램(765)에 분배될 수 있고, 그 반대도 가능하다.

시각적 인디케이터(720)는 시각적 통보를 제공하는데 이용될 수 있고/있거나 오디오 인터페이스(774)는 오디오 트랜스듀서(725)를 통해 가청 통보를 생성하는데 이용될 수 있다. 도시한 바와 같이, 시각적 인디케이터(720)는 발광 다이오드(LED)일 수 있다. 이들 디바이스는, 프로세서(760) 및 기타 컴포넌트들이 배터리 전력을 절약하기 위해 셧다운되더라도, 작동 시에, 통보 메커니즘이 지시하는 기간 동안 유지해 있도록 전원(770)에 직접 연결될 수 있다. LED는 사용자가 디바이스의 파워온 상태를 지시하는 동작을 취할 때까지 무기한으로 유지되도록 프로그래밍될 수 있다. 오디오 인터페이스(774)는 사용자에 대해 가청 신호를 제공 및 수신하는데 이용된다. 예를 들어, 오디오 트랜스듀서(725)에 연결되는 것과 함께, 오디오 인터페이스(774)는 예컨대 전화 대화를 용이하게 하기 위해서 가청 입력을 수신하는 마이크에도 연결될 수 있다. 마이크는 이하에 설명하는 바와 같이, 통보의 제어를 용이하게 하는 오디오 센서로서도 기능할 수 있다. 시스템(702)은 온보드 카메라(730)의 동작으로 정지 화상, 비디오 스트림 등을 기록할 수 있게 하는 비디오 인터페이스(776)를 더 포함할 수 있다.

시스템(702)을 구현하는 모바일 컴퓨팅 디바이스(700)는 추가 특징 또는 기능을 가질 수 있다. 예를 들어, 모바일 컴퓨팅 디바이스(700)는 자기 디스크, 광학 디스크, 또는 테이프 등의 추가 데이터 저장 디바이스(분리형 및/또는 비분리형)도 포함할 수 있다. 이러한 추가 스토리지는 비휘발성 저장 영역(768)으로 도시되어 있다. 주변 디바이스 포트(740)는 외부 디바이스가 모바일 컴퓨팅 디바이스(700)에 접속되게 한다. 외부 디바이스는 모바일 컴퓨팅 디바이스(700)에 추가 특징 또는 기능을 제공할 수 있고/있거나 데이터가 모바일 컴퓨팅 디바이스(700)에 대해 전달되게 할 수 있다.

모바일 컴퓨팅 디바이스(700)에 의해 생성 또는 캡처되어 시스템(702)을 통해 저장된 데이터/정보는 전술한 바와 같이, 모바일 컴퓨팅 디바이스(700) 상에 국부적으로 저장될 수도 있거나, 데이터는 모바일 컴퓨팅 디바이스(700)와 그 모바일 컴퓨팅 디바이스(700)와 연관된 개별 컴퓨팅 디바이스, 예컨대 인터넷 등의 분산형 컴퓨팅 네트워크 내의 서버 컴퓨터 사이의 유선 접속을 통해 또는 무선부(772)를 통해 디바이스에 의해 액세스될 수 있는 임의 개의 저장 매체 상에 저장될 수도 있다. 물론 그러한 데이터/정보는 무선부(772)를 통해 또는 분산형 컴퓨팅 네트워크를 통해 모바일 컴퓨팅 디바이스(700)에 의해 액세스될 수도 있다. 마찬가지로, 그러한 데이터/정보는 전자 메일 및 협업 데이터/정보 공유 시스템을 포함한 잘 알려진 데이터/정보 전달 및 저장 수단에 따라 저장 및 이용을 위해 컴퓨팅 디바이스들 간에 쉽게 전달될 수 있다.

도 8은 본 발명의 양상을 실시하는 분산형 컴퓨팅 시스템의 간략화된 블록도이다. 여기에 설명하는 본 발명의 양상들을 구현하는 소프트웨어를 포함한, 소프트웨어 애플리케이션과 관련하여 개발, 상호작용 또는 편집된 컨텐츠는 상이한 통신 채널 또는 다른 저장 유형으로 저장될 수 있다. 예를 들어, 디렉토리 서비스(822), 웹 포털(824), 메일박스 서비스(826), 인스턴트 메시징 스토어(828) 또는 소셜 네트워킹 서비스(830)를 이용해 다양한 문서들이 저장될 수도 있다. 소프트웨어 애플리케이션은 본 명세서에서 설명한 바와 같이, 데이터 이용을 가능하게 하는 이들 유형의 시스템 또는 동류 중 임의의 것을 이용할 수 있다. 서버(820)가 소프트웨어 애플리케이션을 클라이언트에 제공할 수 있다. 일례로서, 서버(820)는 웹을 통해 소프트웨어 애플리케이션을 제공하는 웹 서버일 수도 있다. 서버(820)는 웹 상에서 소프트웨어 애플리케이션을 네트워크(815)를 통해 클라이언트에 제공할 수 있다. 예를 들면, 클라이언트 디바이스는 컴퓨팅 디바이스(600)로서 구현되고, 퍼스널 컴퓨터(818a), 태블릿 컴퓨터(818b), 및/또는 모바일 컴퓨팅 디바이스(예컨대, 스마트폰)(818c) 내에 임베딩될 수 있다. 이들 클라이언트 컴퓨팅 디바이스 중 어떤 것은 스토어(816)로부터 컨텐츠를 얻을 수도 있다.

본원이 제공하는 하나 이상의 실시형태의 설명 및 예시는 완벽하고 철저하며 완전한 개시내용, 발명의 대상의 전체 범위를 당업자에게 제공하기 위한 것이며, 청구하는 본 발명의 범위를 어떤 식으로도 제한하거나 한정하려는 의도는 없다. 본원에 제공하는 양상들, 실시형태들, 실시예 및 상세내용은 속한 내용을 전달하며 청구하는 발명의 최상 모드를 당업자가 실시할 수 있게 하기에 충분한 것으로 간주된다. 해당 기술 분야의 당업자에게 알려진 것으로 간주되는 구조, 리소스, 동작, 및 액트(act)에 대한 설명은 본원의 발명의 대상의 덜 알려져 있거나 독특한 양상을 모호하게 하는 것을 피하기 위해 간략화되거나 생략될 수 있다. 청구하는 발명은 여기에 명백하게 언급하지 않는 한 본원이 제공하는 어떤 실시형태, 실시예 또는 상세내용에 한정되는 것으로서 해석되어서는 안 된다. 조합으로 또는 단독으로 도시 또는 설명되는지에 관계없이, 다양한 특징들(구조적 및 방법적인 것들 모두)은 특정 세트의 특징을 갖는 실시형태를 형성하기 위해 선택적으로 포함되거나 생략되는 것이다. 또한, 도시하거나 설명한 기능 및 액트의 일부 또는 전부는 임의의 순서로 또는 동시에 수행될 수도 있다. 본원의 설명 및 예시가 제공되었으므로, 당업자라면, 청구하는 발명의 더 넓은 양태의 사상 및 그 넓은 범위에서 벗어나지 않는, 본원에 포함되는 일반적인 발명 개념 내에 있는 변화, 변형 및 대안을 구상할 수 있다.

Claims

도메인을 벗어난 발화(out-of-domain utterance)를 타겟 언어 의사소통 다이얼로그 시스템(targeted language understanding dialog system)의 웹 검색어(web search query) 또는 오펀(orphan)으로서 분류하는 방법에 있어서,
상기 타겟 언어 의사소통 다이얼로그 시스템의 도메인 분류기(domain classifier)에 의해 거절된 도메인을 벗어난 발화를 수신하는 단계와,
상기 도메인을 벗어난 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템의 웹 검색어인지 또는 오펀인지를 결정하는, 하나 이상의 의미론적(semantic), 구문론적(syntactic), 품사 태그(part-of-speech tag), 또는 어휘적(lexical) 특징에 대해, 상기 도메인을 벗어난 발화를 평가하는 단계와,
상기 도메인을 벗어난 발화가 오펀인 것을 결정하는 단계와,
상기 도메인을 벗어난 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템에 어드레싱되는 머신 액션을 수행하기 위한 요청이라고 이해되는 것을 나타내는 응답을 생성하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 타겟 언어 의사소통 다이얼로그 시스템에 입력으로서 제공되는 발화를 수신하는 단계와,
상기 발화가, 상기 타겟 언어 의사소통 다이얼로그 시스템과 연관된 태스크 도메인에 의해 커버되지 않는 도메인을 벗어난 발화인 것을 결정하는 단계
를 더 포함하는 방법.
제1항에 있어서,
상기 도메인을 벗어난 발화가, 상기 타겟 언어 의사소통 다이얼로그 시스템에 어드레싱되는 머신 액션을 수행하기 위한 요청으로 이해된다는 것을 보고하는 메시지를 생성하는 단계와,
상기 메시지를 상기 타겟 언어 의사소통 다이얼로그 시스템과 연관된 출력 디바이스에 렌더링하는 단계
를 더 포함하는 방법.
제1항에 있어서, 상기 도메인을 벗어난 발화가 오펀인 것을 결정하는 단계는, 오펀 분류기(orphan classifier)를 이용해서 상기 오펀 분류기에 입력으로서 제공되는 도메인을 벗어난 발화의 특징에 기초하여, 상기 도메인을 벗어난 발화를 오펀으로서 분류하는 단계를 더 포함하는 것인 방법.
제1항에 있어서, 상기 도메인을 벗어난 발화가 오펀인 것을 결정하는 단계 전에, 상기 발화로부터 특징을 추출하는 단계를 더 포함하는 방법.
제1항에 있어서,
상기 발화를 술어(predicate)와 아규먼트(argument)에 대해 확인하는 단계와,
술어와 아규먼트의 존재를 오펀 분류 특징으로서 이용하는 단계
를 더 포함하는 방법.
제1항에 있어서,
복수의 오펀을 의미론적으로 클러스터링(clustering)하는 단계와,
사용자가 지원되지 않는 태스크 도메인에 관한 요청을 자주 한다는 것을 나타내는, 선택된 오펀 척도(measure of orphan)를 포함한 의미론적 클러스트(semantic cluster)를 식별하는 단계
를 더 포함하는 방법.
적어도 하나의 도메인을 갖는 타겟 언어 의사소통 다이얼로그 시스템에 있어서,
발화(utterance)로부터 특징을 추출하도록 동작 가능한 특징 추출기와,
상기 특징을 입력으로서 수신하도록 동작 가능한 분류기로서, 상기 발화가 상기 분류기와 연관된 어느 도메인에도 속하지 않는, 도메인을 벗어난 발화인지의 여부를 결정하는 상기 분류기와,
상기 도메인을 벗어난 발화를 수신하며, 상기 도메인을 벗어난 발화가 오펀(orphan)인지의 여부를 결정하는 오펀 검출기와,
상기 오펀을 일반적 웹 검색에 보내지 않고 상기 오펀을 프로세싱하도록 동작 가능한 상호작용 매니저(interaction manager)
를 포함하는 타겟 언어 의사소통 다이얼로그 시스템.
제8항에 있어서, 상기 오펀 검출기는, 상기 도메인을 벗어난 발화를 의미론적으로 파싱하도록 동작 가능한 의미론적 파서(semantic parser)를 포함하는 것인 타겟 언어 의사소통 다이얼로그 시스템.
제9항에 있어서, 상기 오펀 검출기는, 상기 도메인을 벗어난 발화가 오펀인지를 결정하기 위해 상기 의미론적 파서의 출력을 이용하여 취득되는 상기 도메인을 벗어난 발화와 연관된 특징을 이용하여 분류 모델을 적용하도록 동작 가능한 판별적 분류기(discriminative classifier)를 포함하는 것인 타겟 언어 의사소통 다이얼로그 시스템.
제9항에 있어서, 상기 오펀 검출기는 구문론적 파서, 품사 태거(tagger), 및 어휘적 파서 중 적어도 하나를 더 포함하는 것인 타겟 언어 의사소통 다이얼로그 시스템.
제8항에 있어서, 상기 오펀 검출기는 의미론적 분류 모델을 적용하도록 동작 가능한 판별적 분류기를 더 포함하는 것인 타겟 언어 의사소통 다이얼로그 시스템.
제8항에 있어서,
사용자로부터 발화를 수집하도록 동작 가능한 입력 디바이스와,
상기 입력 디바이스와 통신하며, 텍스트가 아닌 상기 발화를 수신하여 머신에 의해 프로세싱 가능한 텍스트로 변환하도록 동작 가능한 입력 디코더와,
상기 상호작용 매니저에 알려진 대응하는 다이얼로그 액트(dialog act)가 없는 의도를 상기 오펀이 지정한다는 것을 나타내는 결과를 렌더링하는 출력 디바이스
를 더 포함하는 타겟 언어 의사소통 다이얼로그 시스템.
제8항에 있어서, 상기 타겟 언어 의사소통 다이얼로그 시스템은 사용자로부터의 발화에 동시에 응답하는 생성 시스템(production system)이고, 상기 상호작용 매니저는 또한 상기 의도가 수행될 수 없음을 상기 사용자에게 알리는 출력을 생성하도록 동작 가능한 것인 타겟 언어 의사소통 다이얼로그 시스템.
컴퓨터 실행 가능한 명령어를 포함하는 컴퓨터 판독 가능한 매체에 있어서, 상기 컴퓨터 실행 가능한 명령어는, 컴퓨터에 의해 실행될 때에, 하나 이상의 태스크 도메인을 갖는 타겟 언어 의사소통 다이얼로그 시스템에서 도메인을 벗어난 발화로부터 오펀을 검출하는 방법을 수행하며, 상기 방법은,
상기 타겟 언어 의사소통 다이얼로그 시스템과 연관된 입력 디바이스를 통해 발화를 수신하는 단계와,
상기 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템에 의해 지원되는 태스크 도메인에 속하는지를 결정하기 위해 도메인 분류기의 세트를 이용하여 상기 발화를 프로세싱하는 단계와,
상기 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템에 의해 지원되는 어느 태스크 도메인에도 속하지 않을 때에 상기 발화를 도메인을 벗어난 발화로서 분류하는 단계와,
도메인 분류기의 세트가, 상기 도메인을 벗어난 발화가 상기 타겟 언어 의사소통 다이얼로그 시스템에 의해 지원되는 태스크 도메인에 속하는지를 결정하는 단계와,
상기 도메인을 벗어난 발화에 대해 의미론적 형태(semantic shape)를 결정하는 단계와,
상기 도메인을 벗어난 발화의 의미론적 형태가 술어와 목적어를 갖는 참조용 의미론적 형태에 대응할 경우 상기 도메인을 벗어난 발화를 오펀으로서 분류하는 단계와,
상기 오펀이 웹 검색어가 아닌 것으로 이해되지만 상기 타겟 언어 의사소통 다이얼로그 시스템에 의해 지원되지 않는다는 것을 나타내는 출력을 생성하는 단계와,
상기 타겟 언어 의사소통 다이얼로그 시스템과 연관된 출력 디바이스를 통해 출력을 렌더링하는 단계
를 포함하는 것인 컴퓨터 판독 가능한 매체.