KR20170129165A - 시선 추적과 음성 인식을 조합하여 제어를 개선하는 방법 - Google Patents

시선 추적과 음성 인식을 조합하여 제어를 개선하는 방법 Download PDF

Info

Publication number
KR20170129165A
KR20170129165A KR1020177027275A KR20177027275A KR20170129165A KR 20170129165 A KR20170129165 A KR 20170129165A KR 1020177027275 A KR1020177027275 A KR 1020177027275A KR 20177027275 A KR20177027275 A KR 20177027275A KR 20170129165 A KR20170129165 A KR 20170129165A
Authority
KR
South Korea
Prior art keywords
user
display screen
screen
spoken
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
KR1020177027275A
Other languages
English (en)
Inventor
마틴 헨릭 톨
요나스 프리즘
아구스틴 로페즈 하비에르 산
Original Assignee
페이스북, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 페이스북, 인크. filed Critical 페이스북, 인크.
Priority claimed from PCT/IB2016/000412 external-priority patent/WO2016151396A1/en
Publication of KR20170129165A publication Critical patent/KR20170129165A/ko
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04842Selection of displayed objects or displayed text elements
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/038Indexing scheme relating to G06F3/038
    • G06F2203/0381Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Eye Examination Apparatus (AREA)

Abstract

본 발명은 디스플레이 스크린상에 디스플레이되는 객체를 추후 제어 및 조작을 위해 위치시키고 선택하는 속도 및/또는 정확성을 향상시키도록 시선 추적과 음성-인식 제어 기술을 조합하는 방법이다.

Description

시선 추적과 음성 인식을 조합하여 제어를 개선하는 방법
가령 개인 컴퓨터, 스마트폰, 태블릿 등과 같은 컴퓨팅 장치는 그래픽 사용자 인터페이스(GUI)를 이용하여 그 사용자들에 의한 제어를 용이하게 한다. 이미지, 단어 및 영숫자의 문자들을 포함할 수 있는 객체가 스크린에 디스플레이될 수 있고; 사용자는 커서-제어 장치(예컨대, 마우스 또는 터치 패드)를 이용하여 상호작용형 스크린 요소의 선택 및 결정을 표시하도록 스위치한다.
다른 사례로, 커서 및 스위치 이외에, 시스템은 터치 감응 스크린을 사용할 수 있고, 이로써 사용자는 손가락 또는 스타일러스로 그 스크린 위치를 터치함으로써 어떤 것을 식별하고 선택한다. 이 방식으로, 예컨대 사용자는 가령 "프린트"와 같은 제어 아이콘을 선택하거나 하이퍼링크를 선택할 수 있다. 또한, 사용자는 텍스트 편집 및/또는 복사하여 붙여넣기 상호작용을 위해 일련의 영숫자 문자 또는 단어를 선택할 수 있다. 커서 제어 및 터치-제어 패널은 사용자가 물리적으로 제어 장치를 조작하여 스크린 아이템의 위치를 파악하고 선택하도록 설계된다.
그러나, 제어 서브시스템을 물리적으로 움직이거나 터치하지 않는 그러한 제어를 위한 대안의 수단들이 있다. 이런 대안 중 하나는 관심 있는 스크린 영역 및 상호작용적 선택을 위한 스크린 아이템을 식별하도록 스크린으로의 사용자의 응시가 이용될 수 있는 시선 추적(eye tracking)을 이용한다. 또 다른 대안은 음성 인식을 이용하고 스크린에 디스플레이되는 관련 아이템과 인식된 단어와 연관시킨다. 시선 추적이나 음성 인식 제어 모두 그 자체로는 스크린 객체의 위치를 파악하고 선택함에 있어서 가령 커서 제어 또는 터치 제어만큼 정확하지 못하다. 시선 추적의 경우, 한 지점 또는 지점들의 작은 클러스터보다는 한 스크린 영역으로 결정이 종종 제한된다. 그 스크린 영역 내에 또는 그 근처에 하나 이상의 스크린 객체가 있다면, 선택이 모호할 수 있다. 마찬가지로, 텍스트 및 객체 선택이 가득한 스크린에서 인식된 단어를 하나의 관련된 스크린 객체 또는 단어로 결정하려고 할 때 음성 인식 서브시스템도 또한 모호성으로 어려움을 겪을 수 있다. 따라서, 그 결과, 이런 제어 방법은 시선 추적 제어의 경우 스크린 객체의 수를 제한하고 객체들 사이의 거리를 증가시키도록 주밍(zooming)할 수 있거나; 정확한 제어 또는 선택 해석의 확률을 증가시키기 위해 반복되는 구두 명령을 필요로 할 수 있다.
시선 추적 제어와 음성 인식 제어를 조합함으로써, 사용자는 위치 및 선택의 정확성을 효과적으로 증가시킬 수 있고, 이로써 하나 이상의 제어 기술을 사용할 때 현재 요구되는 주밍 또는 구두 명령의 반복을 줄일 수 있다.
본 명세서에서 개시되고 청구되는 방법을 통해, 독립적으로 구현되는 시선 추적 및 음성 인식 제어는 전체 제어가 더 신속하고/하거나 더 정확해지도록 협력할 수 있다.
본 명세서에서 개시되고 청구되는 방법은 음성 인식 제어와 시선 추적을 결합하는 통합형 제어 시스템으로 이용될 수 있다.
본 명세서에서 개시되고 청구되는 방법은 애플리케이션을 실행하거나, 클라이언트 사용자 시스템을 사용하여 서버-기반 HTML 페이지 집합과 상호작용(예컨대, 인터넷을 통해 웹사이트와 상호작용)하기 위한 준비로서 시스템을 부팅함으로써 발생할 수 있는 스크린 객체의 위치판단 및 선택에 적용될 수 있다. 실제로, 시선 추적 및 음성 인식 제어 서브시스템과 연계하여 본 방법은 기반 플랫폼 사양에 관계없이 스크린에 디스플레이된 객체의 상호작용에 대한 향상된 제어를 제공할 수 있다.
본 명세서에서 개시되고 청구되는 방법은 시선 추적의 속성을 사용하여 음성 인식 제어의 모호성을 감소시키며; 음성 인식을 사용하여 시선 추적 제어의 모호성을 감소시킨다. 그 결과 제어에 시너지 효과가 나타난다; 즉, 시선 추적 또는 음성 인식을 각각 제어하는 것에 비하여 제어 속도 및 정확성이 월등하다.
본 발명의 내용 중에 포함되어 있다.
도 1은 비-텍스트 객체와 텍스트 객체를 디스플레이하는 디스플레이 스크린을 도시한다. 예컨대, 스크린은 가령 컴퓨터 모니터, 스마트폰 스크린, 태블릿 스크린 등과 같은 임의의 시스템 디스플레이 및 제어 스크린일 수 있다.
도 2는 사용자의 응시가 실질적으로 비-텍스트 객체에 있다고 시선 추적 제어가 결정하는 도 1의 스크린을 도시한다.
도 3은 사용자의 응시가 실질적으로 텍스트 객체를 포함하는 스크린 영역에 있다고 시선 추적 제어가 결정하는 도 1의 스크린을 도시한다.
도 4는 시선 추적과 음성 인식의 조합이 어떻게 위치와 선택을 결정하는 신뢰도를 증가시켜서 그 정확도를 증가시키는지를 도시하는 예시적인 흐름도를 도시한다.
도 5는 시선 추적과 음성 인식의 조합이 어떻게 위치와 선택을 결정하는 확률도를 증가시켜서 그 정확도를 증가시키는지를 도시하는 예시적인 흐름도를 도시한다.
도 6은 시선 추적과 음성 인식의 조합이 사용자의 응시 스크린 영역으로 결정되는 더 작은 스크린 영역 내 발생과 해석된 단어를 연관시킴으로써 어떻게 단어 그룹 내에서 선택된 단어를 결정하는 확률도를 증가시키는지를 도시하는 예시적인 흐름도를 도시한다.
모든 종류의 상호작용형 컴퓨팅 시스템이 발달해오면서, GUI는 시스템과 사용자 사이의 주요한 상호작용 메커니즘이 되었다. 이미지, 영숫자 문자, 텍스트, 아이콘 등일 수 있는 스크린상에 디스플레이되는 객체를 가지고, 사용자는 GUI의 일부를 이용하며 이를 통해 사용자는 스크린 객체를 위치판단하고 선택할 수 있다. 주요한 2개의 흔한 GUI 서브시스템은 커서 제어 장치(예컨대, 마우스 또는 터치 패드) 및 선택 스위치를 사용하여 스크린 객체를 위치판단하고 선택한다. 스크린 객체는 프린트 버튼과 같은 제어 아이콘일 수 있고, 따라서 그 위치를 판단하고 선택함으로써 디스플레이된 문서 파일이 프린트될 수 있다. 스크린 객체가 글자, 단어 또는 하이라이팅된 텍스트 부분이라면, 선택하여 편집, 삭제, 복사하고 붙여넣기 또는 유사한 작업에 이용할 수 있다. 오늘날, 많은 장치는 손가락이나 스타일러스 터치로 스크린 객체의 위치를 판단하거나 선택할 수 있는 터치 패널 스크린을 사용한다. 2가지 경우 모두, 그 제어에는 스크린 객체의 위치를 판단하고 선택하기 위해 사용자가 제어 장치에 물리적으로 관여할 필요가 있다.
사용자는 보통 커서 제어로 정확히 스크린 객체의 위치를 판단하고 선택할 수 있다. 때때로 사용자는 의도된 스크린 객체의 위치를 정확히 판단하고 선택하기 위해 객체들을 더 크게 만들고 객체들을 서로 더 멀리 떨어지게 하도록 스크린의 일부를 확대해야 한다. 이런 주밍 기능은 손가락-터치 제어에서 더 일반적인데, 이때 몇몇 작은 스크린 객체를 갖는 영역에서의 손가락 터치는 주밍이 적용될 때까지 부정확하다.
또한, GUI는 물리적 관여 없이 스크린 객체의 위치판단 및 선택을 가능하게 하는 역할을 할 수 있다. 예컨대, 시선 추적 제어를 이용하는 GUI는 사용자가 스크린상의 어디를 응시하고 있는지(예컨대, 위치)를 결정하고 선택 제어를 위한 몇몇 방법(예컨대, 응시 유지 시간)을 사용할 수 있다. 이는 마우스를 사용하여 커서를 스크린 객체로 이동시킨 후 버튼을 눌러 선택 의도를 나타내는 것과 유사할 수 있다.
또한, 음성 인식 기반 제어도 물리적 관여가 필요하지 않는 제어 기술의 역할을 할 수 있다. 객체의 스크린은 객체와 관련된 구어(spoken words)의 어휘를 가질 수 있고, 사용자가 단어 또는 문구를 말할 때, 제어 시스템은 그 단어를 인식하고 특정 스크린 객체와 연관시킨다. 예컨대, 사용자가 "원 A"라고 말하여 GUI 시스템이 그 객체를 하이라이팅하게 한 후, "선택하라"를 말하여 GUI 시스템이 그 객체를 선택하고 그 하이라이팅을 제거함으로써, 중앙에 문자 A가 있는 원인 객체를 갖는 스크린이 위치판단되고 선택될 수 있다. 명백히, 스크린상에 많은 객체가 있다면, "원"이라고 말할 때, 다양한 크기와 색을 갖는 5개의 원이 있는 경우, 동일한 설명을 갖는 몇몇은 모호해질 수 있다. 더 높은 신뢰도 또는 더 높은 확률 추정을 가지도록 하기 위해, 시스템은 사용자가 추가적인 서술을 하도록 유도한다.
따라서, 시선 추적 또는 음성 인식 제어를 사용하는 것의 균형은 포인팅/선택 장치 또는 스크린과의 물리적 관여의 필요성을 제거하지만 덜 정확한 위치판단 및 선택의 결정을 수용하고 있다. 흔히, 덜 확고한 결과로서, 시스템이 가령 커서, 터치 패드 또는 터치 스크린과 같은 더 확고한 제어에 상응하는 확률을 가진 객체의 위치 및 선택을 결정할 수 있기 전에 수행되는 더 많은 단계들이 있을 수 있다.
통상, 유형-선택 커서(type-selecting cursor)는 독립해있거나 단어에 포함되어 있는 영숫자 문자보다 더 작다. 따라서, 사용자가 오타를 바로잡고 있다면, 사용자는 하나의 글자를 선택하고 그 글자를 삭제하거나 변경할 수 있다. 터치 제어를 사용하면, 손가락이나 스타일러스 터치의 영역은 통상 커서 포인터보다 더 크다. 유사한 오타 수정을 위해 단어에 포함된 글자를 선택하는 것이 어려울 수 있다. 사용자는 터치 지점이 하나의 의도된 글자 타겟으로 결정될 수 있기 위해 정확한 글자를 선택하거나 단어를 더 큰 비율로 확장(즉, 주밍)시키도록 몇몇의 포인팅 시도를 해야 할 수 있다.
사용자가 어떤 GUI 위치판단 및 선택 기술을 사용하는지에 관계없이, 폰트 크기 및 비-텍스트 객체 치수는 제어 결정에 영향을 줄 수 있지만, 일반적으로 물리적 관여가 필요 없는 기술은 반복하는 주밍 단계 없이 작은 문자들을 갖는 밀집된 텍스트 및 작은 치수를 갖는 비-텍스트 객체를 수용할 수 없다.
본 명세서에서 개시되고 청구되는 방법은 실제로 스스로 제어 기술 중 어느 것을 사용하여 스크린 객체를 위치판단하고 선택하는 정확성을 향상시키도록 시선 추적 및 음성 인식 제어 기술을 함께 사용한다. 본 방법은 디스플레이되는 객체를 갖는 임의의 시스템에 적용되며, 이로써 사용자는 스크린 객체를 위치판단하고 선택하여 시스템이 하나 또는 복수의 스크린 객체 상에서 임의의 작업 또는 작업들을 수행하게 함으로써 상기 시스템과 상호작용한다. 이런 시스템은 디스플레이되는 객체의 디스플레이, 위치판단, 선택 및 작동을 협력하여 지원하는 하드웨어, 펌웨어 및 소프트웨어의 조합을 포함할 수 있다. 본 방법은 시선 추적과 음성 인식 제어를 통합하는 통합형 제어 서브시스템의 일부로서; 또는 별도의 시선 추적과 음성 인식 제어 서브시스템이 상호작용할 수 있는 시스템의 일부로서 시스템 하드웨어 및/또는 소프트웨어와 상호작용하는 것을 포함할 수 있다. 따라서, 본 명세서에서 개시되고 청구되는 방법 발명은 임의의 특정 시스템 아키텍처 또는 하드웨어와 소프트웨어의 파싱으로 범위가 제한되지 않아야 한다.
시선 추적 기술 또는 서브시스템은 아키텍처 또는 구현에 관계없이 임의의 이런 기술 또는 서브시스템을 일컬으며, 사용자의 시선 또는 시선들이 디스플레이 스크린의 임의의 영역 어디를 대략 응시하고 있는지를 결정할 수 있다. 또한, 시선 추적 기술 또는 서브시스템은 사용자가 응시된 영역에서 하나 이상의 객체를 선택했고 위치 판단했다고 결정할 수 있다. 객체는 선택한다면 동작을 개시하는 아이콘 또는 링크일 수 있다.
음성 인식 기술 또는 서브시스템은 아키텍처 또는 구현에 관계없이 임의의 이런 기술 또는 서브시스템을 일컬으며, 사용자의 구어 또는 단어들의 문구를 인식하고 디스플레이된 객체 및/또는 작업 명령과 인식된 단어 또는 문구를 연관시킬 수 있다.
도 1은 스크린상의 객체의 디스플레이를 도시한다. 객체는 가령 영숫자 문자, 단어, 문장 및 단락과 같은 텍스트 객체; 및 이미지, 라인 아트, 아이콘 등을 포함하는 비-텍스트 객체로 구성된다. 이 도면은 예로서 스크린상의 객체의 레이아웃 및 컨텐츠를 제한하는 것으로 이해되어서는 안된다.
시선 추적 제어 기술로 사용자는 사용자의 시선 또는 시선들이 도 1의 스크린에서 응시하고 있는 영역을 결정할 수 있다. 예컨대, 도 2에서, 시선 추적 제어 서브시스템은 사용자의 시선이 비-텍스트 객체의 부분을 응시하고 있고 응시 영역은 201의 원형 영역으로 정의된다고 결정했다.
도 3은 사용자의 시선이 301의 원형 영역인 텍스트 객체의 일부를 응시하고 있다고 시선 추적 제어 서브시스템이 결정한 도 1의 스크린을 도시한다.
도 2에서, 비-텍스트 객체가 201보다 작았고 하나 이상의 이런 영역(201)에 위치해있었다면, 시선 추적 서브시스템은 그때 영역(201) 내에 어느 객체가 사용자의 관심 객체인지를 결정할 수 없었을 것이다. 후속 단계와 연계함으로써, 단 하나의 객체만이 영역(210)에 위치하도록 스크린 객체는 확대될 수 있다. 그러나, 정확성을 위한 후속 단계는 시간을 증가시킨다. 또한, 첫번째 주밍 시도에도 여전히 영역(201) 내에 2 이상의 객체가 남아있는 경우도 있을 수 있다. 따라서, 관심 객체를 결정하기 위해 두번째 주밍 동작이 이루어져야 할 수 있다. 이때 다시 더 많은 시간이 사용된다.
도 3에서, 응시 영역(301)은 복수의 영숫자 문자 및 단어를 포함한다. 이때 다시, 시선 추적 제어 서브시스템은 어느 문자 또는 단어가 관심 객체인지를 상세하게 결정할 수 없다. 다시 한번, 어느 글자 또는 단어가 관심 객체인지를 결정하기 위해 반복되는 주밍 동작이 이루어져야 할 수 있다. 비-텍스트 객체의 경우와 같이, 주밍 동작이 적용될 때마다 더 많은 시간이 요구된다.
도 1과 관련하여 음성-인식 기술을 사용하면, 가시적인 전체 스크린 및 그 임의의 객체들이 사용자의 선택 객체일 수 있다. 예컨대, 사용자가 "단어 'here'를 삭제하라"고 말하면, 음성 인식 서브시스템은 먼저 단어 "here"를 인식한 후 그 단어를 스크린 객체 중에서 그 단어의 임의의 인스턴스와 연관시켜야 한다. 도 1에 도시된 바와 같이, 단어 "here"에 대한 3개의 인스턴스가 있다. 따라서, 음성 인식 서브시스템은 단 하나의 객체 선택에 대한 명령을 결정할 수 없다. 결국, 예컨대 사용자가 "예"라고 말할 때까지 "here"의 각 인스턴스를 하이라이팅하는 반복적인 과정이 있어야 할 수 있다. 이는 더 많은 시간이 걸릴 수 있다.
본 명세서에서 개시되고 청구되는 발명의 일실시예로, 도 4는 예시적인 작업 흐름을 도시한다. 도 4에 도시된 흐름은 제한되는 것으로 이해되어서는 안된다. 흐름은 401에서 시작하는데, 이때 시스템은 스크린 객체를 포함하는 구성요소들을 로딩하고 파싱한다. 비록 흐름도에 도시되지 않지만, 이 동작은 반복하여 행해질 수 있다. 단계 402에서, 시선 추적 서브시스템은 반복되는 스크린 응시 좌표를 계산하고 시스템으로 전달한다. 402로부터, 응시 영역(G)이 결정된다(403). 404 및 405에서, 영역(G)이 결정되면, 시스템은 영역(G) 내 발견된 링크들에 대하여 링크(D) 및 어휘(V)의 사전을 구축한다. 컴퓨팅 장치 및/또는 음성 인식 서브시스템의 능력에 따라, 어휘(V)는 모든 응시 좌표에 대하여, 모든 고정에 대하여, 모든 N개의 응시 좌표에 대하여, 매 T 밀리초 등에 대하여 업데이트될 수 있다. 단계 402 내지 405는 음성 명령이 수신(406)될 때까지 계속 리프레시(refresh)된다. 이후, 시스템은 어휘(V)에 기반하여 음성 명령을 인식(407)하고, 정확성의 신뢰도(C)와 함께 링크(L)를 결정(408)한다. 음성 인식에서, 음성 명령과 결합되는 이질적인 소리도 또한 인식 정확성을 감소시킬 수 있는 오디오 아티팩트(audio artifacts)를 포함할 수 있다. 이질적인 소리로 인한 부정확한 선택을 방지하기 위해, 신뢰도(C)는 임계값(th)과 비교될 수 있고, 신뢰도가 임계값보다 크다면(409), 시스템은 링크(L)을 활성화시키며(401), 그렇지 않으면 동작 402로 되돌아간다. 임계값(th)은 고정된 값을 취할 수 있거나, 예컨대 응시 좌표 내 잡음, 시선 추적 시스템에 의해 보고되는 온-스크린 정확성, 응시 좌표의 신뢰도, 스크린상의 링크(L)의 위치 또는 이들의 임의의 조합과 같은 서로 다른 인자에 따라 사례별로 계산될 수 있다. 본 명세서에서는 시선 추적 기술이 가능한 객체들의 전체 스크린을 응시 영역(G) 내 객체들만으로 감소시키는데 사용되는 경우이다. 반복되는 주밍 단계를 반복하지 않고, 델리네이터(delineator)로서 시선 추적 응시 영역(G)을 사용함으로써, 시스템은 더 적은 단계와 적은 시간을 사용하여 충분한 신뢰도로 링크(L)를 활성화시킬 수 있다.
또 다른 실시예로, 도 5는 예시적인 작업 흐름을 보여준다. 도 5의 흐름은 제한되는 것으로 이해되어서는 안된다. 흐름은 501에서 시작하는데, 이때 시스템은 스크린 객체를 포함하는 구성요소를 로딩하고 파싱한다. 비록 흐름도에 도시되지 않지만, 이 동작은 반복하여 행해질 수 있다. 시선 제어 서브시스템은 응시 영역 좌표를 반복하여 리프레시하고, 그 데이터를 시스템에 공급한다(502). 음성 명령이 수신(503)될 때, 응시 영역(G)은 명령이 수신되는 시간으로부터 그 이전 몇몇의 기결정된 초(seconds) 수까지의 범위일 수 있는 시간 윈도우 동안 수신되는 시선 추적 좌표에 의해 결정된다(504). 영역(G)에 있는 링크의 사전(D)이 구축되고(505), 영역(G) 내 링크의 어휘(V)가 구축된다(506). 음성 명령은 확률(P)을 갖는 V에 기반하여 인식된다(507). 다수의 링크가 인식되는 경우, 각 링크에 대한 정확성 확률(P)이 예컨대 음성 인식의 신뢰도(C), 응시 지점 또는 고정 지점에서 링크까지의 거리, 상기 고정의 지속시간, 응시되는 링크와 음성 명령 발성 사이의 경과 시간 등과 같은 서로 다른 인자에 기반하여 계산될 수 있고(508); 가장 높은 확률(P)을 갖는 링크가 선택될 수 있다. P가 임계값(th)보다 크다면(509), 링크(L)는 활성화되며(510), 그렇지 않으면 시스템은 동작 502로 되돌아가서 새로운 음성 명령을 기다린다. 임계값(th)은 고정된 값을 취할 수 있거나, 동작 409에서 상술한 바와 같이 사례별로 계산될 수 있다. 도 4 및 도 5 모두에서 링크가 활성화됨을 주목하자. 실제로, 이런 동작들은 링크에 국한되는 것이 아니며, 임의의 상호작용형 스크린 객체에 적용될 수 있다.
또 다른 실시예로, 도 6은 예시적인 작업 흐름을 도시한다. 도 6의 흐름은 제한되는 것으로 이해되어서는 안된다. 흐름은 시스템이 스크린 객체를 포함하는 구성요소를 로딩하고 파싱하는 것으로 시작한다. 비록 흐름도에 도시되지 않지만, 이 동작은 반복하여 행해질 수 있다. 이후, 시스템은 음성 명령을 기다린다. 본 명세서에서, 예컨대 명령은 "선택하라(select)"이다(603). 응시 영역(G)은 명령이 수신되는 시간으로부터 그 이전 몇몇의 기결정된 초 수까지의 범위일 수 있는 시간 윈도우 동안 수신되는 시선 추적 좌표를 사용하여 결정된다(604). 본 명세서에서, 응시 영역은 도 3과 같이 텍스트 객체 위에 있다. 따라서, 텍스트(T)는 영역(G)에서 파싱되고, 어휘(V)가 구축된다(605). 어휘(V)에 기반하여, 음성 명령의 텍스트 객체가 인식된다(606). 단어(W)는 확률(P)로 평가되고(607), 임계값(th)과 비교된다(608). P가 th를 초과하면, 단어(W)는 선택된다(609). 확률(P) 및 임계값(th)은 상술한 바와 같이 계산될 수 있다.
도 4, 도 5 및 도 6에 도시된 흐름은 예시이다. 각 예시에서, 전체 스크린의 객체들이 응시 영역 내 객체들로 축소되어 주밍 동작에 의하지 않고 신뢰도 또는 확률도를 높인다. 물론 응시 영역이 여전히 계속하여 몇몇의 모호한 관심 객체를 가질 수 있지만 그 개연성은 단지 음성 인식 제어만을 사용하는 것보다 훨씬 더 낮아질 수 있다. 많은 경우, 응시 영역과 조합된 구어는 임의의 주밍 동작 없이도 관심 객체를 결정하는데 충분할 것이다. 명백히, 시선 추적 및 음성 인식 기술의 조합은 시선 추적이나 음성 인식 제어 중 하나가 배타적으로 적용되는 것에 비하여 더 신속하게 관심 객체를 결정할 것이다.

Claims (7)

  1. 사용자가 응시하고 있는 디스플레이 스크린상의 영역을 결정하는 단계;
    한 구어(spoken word) 또는 복수의 구어를 인식하는 단계;
    상기 디스플레이 스크린에 디스플레이되는 객체와 상기 구어 또는 복수의 구어를 연관시키는 단계;
    상기 디스플레이 스크린상에 디스플레이되는 상기 객체를 사용자가 응시하고 있는 상기 디스플레이 스크린상의 상기 영역으로 제한하는 단계; 및
    상기 사용자가 응시하고 있는 디스플레이 스크린상의 상기 영역 내 상기 디스플레이 스크린상에 디스플레이되는 상기 객체를 상기 구어 또는 복수의 구어와 연관시키는 단계를 포함하는 방법.
  2. 제 1 항에 있어서,
    상기 사용자가 응시하고 있는 디스플레이 스크린상의 상기 영역 내 상기 디스플레이 스크린상에 디스플레이되는 상기 객체를 상기 구어 또는 복수의 구어와 연관시키는 것의 신뢰도를 결정하는 단계;
    기결정된 신뢰도와 상기 신뢰도를 비교하는 단계; 및
    상기 신뢰도가 상기 기결정된 신뢰도보다 크다면, 상기 사용자가 응시하고 있는 디스플레이 스크린상의 상기 영역 내 상기 디스플레이 스크린상에 디스플레이되는 상기 객체와 상기 구어 또는 복수의 구어의 연관을 수용하는 단계를 더 포함하는 방법.
  3. 제 1 항에 있어서,
    응시 좌표의 정확도, 응시 좌표의 잡음, 응시 좌표의 신뢰도, 스크린상의 객체의 위치 또는 이들의 임의의 조합에 기반하여 상기 신뢰도의 값을 결정하는 단계를 더 포함하는 방법.
  4. 제 1 항에 있어서,
    상기 사용자가 응시하고 있는 디스플레이 스크린상의 상기 영역 내 상기 디스플레이 스크린상에 디스플레이되는 상기 객체를 상기 구어 또는 복수의 구어의 인식과 연관시키는 것의 확률도를 결정하는 단계;
    기결정된 확률도 값과 상기 확률도를 비교하는 단계; 및
    상기 확률도가 기결정된 확률도 값보다 크다면, 상기 사용자가 응시하고 있는 디스플레이 스크린상의 상기 영역 내 상기 디스플레이 스크린상에 디스플레이되는 상기 객체와 상기 구어 또는 복수의 구어의 연관을 수용하는 단계를 더 포함하는 방법.
  5. 제 4 항에 있어서,
    음성 인식의 신뢰도, 응시 고정으로부터 각 객체 사이의 거리, 응시 고정의 지속시간, 응시 고정과 음성 명령의 발성 사이의 경과 시간 또는 이들의 임의의 조합에 기반하여 상기 확률도를 결정하는 단계를 더 포함하는 방법.
  6. 사용자가 응시하고 있는 디스플레이 스크린상의 영역 내에 존재하는 객체를 결정하는 단계;
    상기 객체에 기반하여 음성 인식 엔진의 어휘를 구축하는 단계;
    상기 어휘를 사용하여 한 구어 또는 복수의 구어를 인식하는 단계; 및
    상기 구어 또는 복수의 구어와 응시 영역 내에 존재하는 상기 객체를 연관시키는 단계를 포함하는 방법.
  7. 제 6 항에 있어서,
    상기 사용자의 응시 고정시마다 상기 음성 인식 엔진의 상기 어휘를 업데이트하는 단계를 더 포함하는 방법.
KR1020177027275A 2015-03-20 2016-03-15 시선 추적과 음성 인식을 조합하여 제어를 개선하는 방법 Ceased KR20170129165A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562135904P 2015-03-20 2015-03-20
US62/135,904 2015-03-20
PCT/IB2016/000412 WO2016151396A1 (en) 2015-03-20 2016-03-15 Method for refining control by combining eye tracking and voice recognition

Publications (1)

Publication Number Publication Date
KR20170129165A true KR20170129165A (ko) 2017-11-24

Family

ID=59787861

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177027275A Ceased KR20170129165A (ko) 2015-03-20 2016-03-15 시선 추적과 음성 인식을 조합하여 제어를 개선하는 방법

Country Status (5)

Country Link
US (1) US20170262051A1 (ko)
EP (1) EP3271803A1 (ko)
JP (1) JP2018515817A (ko)
KR (1) KR20170129165A (ko)
CN (1) CN107567611A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020175845A1 (ko) * 2019-02-26 2020-09-03 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
US12614550B2 (en) 2022-10-14 2026-04-28 Samsung Electronics Co., Ltd. Electronic device, method, and non-transitory computer readable storage medium controlling executable object based on voice signal

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
EP2954514B1 (en) 2013-02-07 2021-03-31 Apple Inc. Voice trigger for a digital assistant
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US12223282B2 (en) 2016-06-09 2025-02-11 Apple Inc. Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US12197817B2 (en) 2016-06-11 2025-01-14 Apple Inc. Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6565084B2 (ja) * 2017-03-29 2019-08-28 本田技研工業株式会社 物体認証装置および物体認証方法
JP6994292B2 (ja) * 2017-05-08 2022-01-14 達闥机器人有限公司 ロボットのウェイクアップ方法、装置及びロボット
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. Multi-modal interfaces
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US11445235B2 (en) * 2017-10-24 2022-09-13 Comcast Cable Communications, Llc Determining context to initiate interactivity
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN108803866A (zh) * 2018-03-27 2018-11-13 北京七鑫易维信息技术有限公司 输出信息的方法、装置和系统
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
CN108874127A (zh) * 2018-05-30 2018-11-23 北京小度信息科技有限公司 信息交互方法、装置、电子设备及计算机可读存储介质
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11513768B2 (en) 2018-12-03 2022-11-29 Sony Group Corporation Information processing device and information processing method
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11335342B2 (en) * 2020-02-21 2022-05-17 International Business Machines Corporation Voice assistance system
US12301635B2 (en) 2020-05-11 2025-05-13 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US12572326B2 (en) 2021-09-16 2026-03-10 Apple Inc. Digital assistant for moving and copying graphical elements
US12021806B1 (en) 2021-09-21 2024-06-25 Apple Inc. Intelligent message delivery
US20230128422A1 (en) 2021-10-27 2023-04-27 Meta Platforms, Inc. Voice Command Integration into Augmented Reality Systems and Virtual Reality Systems
US12423917B2 (en) 2022-06-10 2025-09-23 Apple Inc. Extended reality based digital assistant interactions
US12566495B2 (en) * 2022-11-22 2026-03-03 Intuitive Research And Technology Corporation Image analysis using gaze tracking and utterance dictation
US12386418B2 (en) * 2023-09-08 2025-08-12 Huawei Technologies Co., Ltd. Gaze assisted input for an electronic device

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0651901A (ja) * 1992-06-29 1994-02-25 Nri & Ncc Co Ltd 視線認識によるコミュニケーション装置
JPH08314493A (ja) * 1995-05-22 1996-11-29 Sanyo Electric Co Ltd 音声認識方法,数字列音声認識装置及びビデオレコーダシステム
JP3990075B2 (ja) * 1999-06-30 2007-10-10 株式会社東芝 音声認識支援方法及び音声認識システム
US6795806B1 (en) * 2000-09-20 2004-09-21 International Business Machines Corporation Method for enhancing dictation and command discrimination
JP2008058409A (ja) * 2006-08-29 2008-03-13 Aisin Aw Co Ltd 音声認識方法及び音声認識装置
CN103885743A (zh) * 2012-12-24 2014-06-25 大陆汽车投资(上海)有限公司 结合注视跟踪技术的语音文本输入方法和系统
US8744645B1 (en) * 2013-02-26 2014-06-03 Honda Motor Co., Ltd. System and method for incorporating gesture and voice recognition into a single system
KR20140132246A (ko) * 2013-05-07 2014-11-17 삼성전자주식회사 오브젝트 선택 방법 및 오브젝트 선택 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020175845A1 (ko) * 2019-02-26 2020-09-03 엘지전자 주식회사 디스플레이 장치 및 그의 동작 방법
US11978448B2 (en) 2019-02-26 2024-05-07 Lg Electronics Inc. Display device and method of operating the same
US12614550B2 (en) 2022-10-14 2026-04-28 Samsung Electronics Co., Ltd. Electronic device, method, and non-transitory computer readable storage medium controlling executable object based on voice signal

Also Published As

Publication number Publication date
JP2018515817A (ja) 2018-06-14
EP3271803A1 (en) 2018-01-24
CN107567611A (zh) 2018-01-09
US20170262051A1 (en) 2017-09-14

Similar Documents

Publication Publication Date Title
KR20170129165A (ko) 시선 추적과 음성 인식을 조합하여 제어를 개선하는 방법
US10838513B2 (en) Responding to selection of a displayed character string
US10642933B2 (en) Method and apparatus for word prediction selection
US9710453B2 (en) Multi-gesture text input prediction
US9043300B2 (en) Input method editor integration
US20180349346A1 (en) Lattice-based techniques for providing spelling corrections
US8782550B1 (en) Character string replacement
EP2713255A1 (en) Method and electronic device for prompting character input
US20150199341A1 (en) Speech translation apparatus, method and program
JP5521028B2 (ja) インプットメソッドエディタ
US9645717B2 (en) Managing a selection mode for presented content
US10754441B2 (en) Text input system using evidence from corrections
EP2897055A1 (en) Information processing device, information processing method, and program
WO2013086675A1 (en) Techniques for input of a multi-character compound consonant or vowel and transliteration to another language using a touch computing device
EP3241105B1 (en) Suggestion selection during continuous gesture input
US11899904B2 (en) Text input system with correction facility
US20110022956A1 (en) Chinese Character Input Device and Method Thereof
WO2016151396A1 (en) Method for refining control by combining eye tracking and voice recognition
CN102375655B (zh) 一种字母输入的处理方法及系统
CA2846561C (en) Method and apparatus for word prediction selection
EP2778860A1 (en) Method and apparatus for word prediction selection
Cardosa VOICE AND TOUCH BASED INPUT
KR20180133031A (ko) 문자입력 시스템 및 방법
HK1169191B (en) Input method editor

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 20170926

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
N231 Notification of change of applicant
PN2301 Change of applicant

Patent event date: 20201021

Comment text: Notification of Change of Applicant

Patent event code: PN23011R01D

A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20210303

Comment text: Request for Examination of Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20230523

Patent event code: PE09021S01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20230814

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20230523

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I