KR20200026295A - 음절 기반 자동 음성 인식 - Google Patents
음절 기반 자동 음성 인식 Download PDFInfo
- Publication number
- KR20200026295A KR20200026295A KR1020207003761A KR20207003761A KR20200026295A KR 20200026295 A KR20200026295 A KR 20200026295A KR 1020207003761 A KR1020207003761 A KR 1020207003761A KR 20207003761 A KR20207003761 A KR 20207003761A KR 20200026295 A KR20200026295 A KR 20200026295A
- Authority
- KR
- South Korea
- Prior art keywords
- spelling
- patterns
- canonical
- syllable
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/34—Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
도 1은 두음(onset), 핵음(nucleus), 및 말음(coda)을 포함하는 음절 구조를 묘사한다.
도 2는 IPA 심벌들과 Klattese 간의 매핑의 차트를 묘사한다.
도 3은 다중 음절 단어의 구조를 묘사한다.
도 4는 다양한 스트림들의 관계들을 묘사한다.
도 5a는 예시적인 트레이닝 참조 자료들을 묘사한다.
도 5b는 예시적인 트레이닝 참조 자료들을 묘사한다.
도 6은 발음 사전으로부터 음소배열 패턴들을 학습하는 예시적인 방법을 묘사한 플로차트이다.
도 7은 생성 패턴들로부터 정준 패턴들로의 매핑들을 학습하는 예시적인 방법을 묘사한 플로차트이다.
도 8은 후보 음절들로부터 철자 패턴들로의 매핑들을 학습하는 예시적인 방법을 묘사한 플로차트이다.
도 9는 생성 스트림으로부터 IVC 패턴들 및 VN 패턴들을 추출하는 예시적인 방법을 묘사한 플로차트이다.
도 10은 정준 패턴 세트들로부터 후보 음절 세트들을 생성하는 예시적인 방법을 묘사한 플로차트이다.
도 11은 일관성 제약조건들의 적용의 다이어그램을 묘사한다.
도 12는 일관성 제약조건들을 사용한 감소들을 포함하여 정준 IVC들에 대한 생성 패턴들에 대한 확률들의 예를 묘사한다.
도 13은 후보 음절들을 철자 패턴들에 매핑하는 예시적인 방법을 묘사한 플로차트이다.
도 14는 출력 철자 패턴들을 선택하기 위해 위치 제약조건들 및 통계 모델들을 적용하는 예시적인 방법을 묘사한 플로차트이다.
도 15는 철자 후보들의 컨퓨전 네트워크(confusion network)를 묘사한다.
도 16은 음절 구조를 사용하여 자동 음성 인식을 수행하는 예시적인 방법을 묘사한다.
도 17은 실시예가 구현될 수 있는 컴퓨터 시스템을 예시하는 블록 다이어그램이다.
Claims (30)
- 데이터 프로세싱 방법으로서,
음향 프로세싱 시스템으로부터 특정의 언어의 발화된 단어들로부터 생성되는 생성 심벌 스트림을, 컴퓨팅 시스템에서, 수신하는 단계;
상기 생성 심벌 스트림으로부터, 복수의 생성 패턴들을 추출하는 단계;
생성 패턴들 대 정준 패턴들의 하나 이상의 매핑에 대한 조건부 확률들을 포함하는 저장된 생성 대 정준 매핑 데이터를 사용하여, 상기 복수의 생성 패턴들로부터 후보 음절들 및 각각의 후보 음절의 확률을 생성하는 단계;
하나 이상의 매핑에 대한 조건부 확률들을 포함하는 저장된 음절 대 철자 패턴 매핑을 사용하여, 상기 후보 음절들로부터 후보 철자 패턴들 및 각각의 후보 철자 패턴의 확률을 생성하는 단계;
각각의 후보 철자 패턴에 대한 상기 확률들에 적어도 부분적으로 기초하여, 상기 생성 심벌 스트림의 철자 표현을 생성하는 단계
를 포함하는 데이터 프로세싱 방법. - 제1항에 있어서, 상기 생성 스트림은, 상기 생성 심벌 스트림의 각각의 심벌에 대해 순차적으로:
3-심벌 버퍼를 제로로 초기화하고 IVC 누산기 버퍼를 제로로 초기화하며 생성 심벌들을 순차적으로 상기 3-심벌 버퍼에 추가하는 단계;
심벌을 상기 3-심벌 버퍼에 추가한 후에, 상기 3-심벌 버퍼의 중간 심벌이 모음이고 따라서 상기 3개의 심벌이 VN을 포함하는지를 결정하고, 상기 VN을 저장하는 단계;
추가된 심벌이 자음이면, 그 자음을 상기 IVC 누산기에 어펜딩(appending)하는 단계;
다음에 추가된 심벌이 자음이 아니면, 상기 심벌들을 상기 IVC 누산기에 IVC로서 저장하는 단계; 및
상기 생성 스트림이 계속되는 한 프로세싱을 계속하는 단계
를 수행함으로써, 모음간 자음(intervowel consonant)(IVC) 및 모음 이웃(vowel neighborhood)(VN) 유닛들을 포함하는 음소배열 유닛들로 세그먼트화되는 데이터 프로세싱 방법. - 제1항에 있어서,
프로세싱 큐를 비우기 위해 초기화하는 단계;
생성 IVC들 및 VN들의 교호 스트림을 수신하는 단계;
정렬된 생성 및 정준 IVC의 미리 계산되어 저장된 데이터베이스를 사용하여, 생성 IVC들을 저장된 연관된 조건부 확률들을 갖는 하나 이상의 정준 IVC에 매핑하는 단계; 및
정렬된 생성 및 정준 VN들의 저장된 데이터베이스를 사용하여, 생성 VN들을 저장된 연관된 조건부 확률들을 갖는 하나 이상의 정준 VN에 매핑하는 단계
에 의해 생성 음소배열 스트림을 정준 음소배열 스트림에 매핑하는 단계를 추가로 포함하는 데이터 프로세싱 방법. - 제3항에 있어서,
상기 정준 IVC들 각각이 바로 직전의 정준 VN 패턴 세트의 적어도 하나의 멤버의 일관성있는 연속인지를 결정하고 적어도 하나의 그러한 VN 패턴과 부합하지 않는 것들을 제거하는 단계;
상기 정준 VN들 각각이 바로 직전의 정준 IVC 패턴 세트의 적어도 하나의 멤버의 일관성있는 연속인지를 결정하고 적어도 하나의 그러한 IVC 패턴과 부합하지 않는 것들을 제거하는 단계; 및
일관성없는 IVC들 및 VN들의 제거 이후에, 상기 조건부 확률들을 재정규화하는 단계
에 의해 상기 매핑된 정준 스트림을 추가로 프로세싱하는 단계를 포함하는 데이터 프로세싱 방법. - 제1항에 있어서, 상기 후보 음절들을 생성하는 단계는:
일관성있는 정준 IVC 패턴들을 음절 말음-두음 시퀀스들로 세그먼트화하는 단계;
상기 세그먼트화된 일관성있는 정준 IVC 패턴들의 상기 말음 부분들을 사용하여, 남아 있는 IVC 패턴들 및 VN 패턴들로부터 보강되는 두음들을 통해 일관성있는 경로들을 완성하는 단계 - 각각의 일관성있는 경로는 후보 음절을 형성함 -;
저장된 자음표에 없는 후보 음절들을 제거하는 단계;
각각의 후보 음절의 확률을 계산하는 단계; 및
상기 후보 음절들을 저장하는 단계
를 포함하는 방법. - 제5항에 있어서, 각각의 후보 음절에 대한 확률을 생성하는 단계는:
특정의 생성 심벌 세트에 대응하는 각각의 후보 음절에 대해:
상기 생성 대 정준 매핑에서의 상기 저장된 계산된 확률들로부터 상기 음절에 대한 상기 VN의 확률을 식별하는 단계;
상기 음절의 두음의 확률을, 상기 두음이 기초할 수 있는 각각의 정준 IVC에 대한 상기 생성 대 정준 매핑에서의 상기 저장된 계산된 확률들에 기초하여, 식별하는 단계;
상기 음절의 말음의 확률을, 상기 말음이 기초할 수 있는 각각의 정준 IVC에 대한 상기 생성 대 정준 매핑에서의 상기 저장된 계산된 확률들에 기초하여, 식별하는 단계;
상기 VN의 확률, 상기 두음의 확률, 및 상기 말음의 확률을 음절 확률 값으로 집계하는 단계; 및
상기 특정의 생성 심벌 세트에 대한 상기 후보 음절들의 음절 확률 값들의 합을 정규화하는 단계
를 포함하는 방법. - 제1항에 있어서, 후보 음절들 대 철자 패턴들의 매핑은:
정렬된 분철된 정준 발음들과 철자 음절 패턴들을 포함하는 데이터를 저장하는 단계;
큐를 비우기 위해 초기화하고 상기 후보 음절들을 순차적으로 제시하며 학습되어 저장된 분철된 철자 패턴 세트에 매핑하는 단계;
상기 패턴들과 연관된 단어 위치 코드들을 사용하여 유효하지 않은 패턴들을 제거하는 단계; 및
상기 매핑된 철자 패턴들을 저장하는 단계
를 포함하는 방법. - 제1항에 있어서,
오버랩하는 음절 시퀀스들이 점진적으로 프로세싱되는 복수의 음절 크기의 유닛들의 슬라이딩 윈도 형태의 큐를 통해 철자 패턴들을 순차적으로 프로세싱하는 단계;
철자 패턴들이 수신될 때 각각의 수신된 철자 패턴 세트에 대한 n-그램 모델들에 저장된 데이터를 참조하는 단계;
시프트된 n-그램 모델들의 조건부 확률들을 합산하여 경로 확률들을 생성하는 단계; 및
상기 경로 확률들을 저장하는 단계
에 의해 음절 위치 제약조건들 및 통계 모델들을 적용하여 출력 철자 패턴들을 선택하는 단계를 추가로 포함하는 방법. - 제3항에 있어서,
정렬된 생성 심벌 패턴들 및 정준 심벌 발음 패턴들을 포함하는 데이터를 저장하는 단계;
상기 저장된 데이터에서의 생성 및 정준 발음 심벌 패턴의 각각의 조합에 대해, 상기 저장된 데이터에서의 상기 조합의 발생 횟수에 대응하는 값 및 상이한 생성 발음을 갖는 상기 정준 발음의 발생 횟수에 대응하는 값의 함수로서 상기 패턴의 확률을 계산하는 단계;
상기 생성 및 정준 발음들의 조합들을 상기 생성 대 정준 매핑에서의 상기 조합들의 대응하는 계산된 확률들과 함께 저장하는 단계
를 추가로 포함하는 방법. - 제3항에 있어서,
정렬된 분철된 정준 발음들과 철자 패턴들을 포함하는 데이터를 저장하는 단계;
상기 저장된 데이터에서의 분철된 정준 발음과 철자 패턴의 각각의 조합에 대해, 상기 저장된 데이터에서의 상기 조합의 발생 횟수에 대응하는 값 및 상기 저장된 데이터에서의 상기 분철된 정준 발음의 발생 횟수에 대응하는 값의 함수로서 상기 패턴의 확률을 계산하는 단계;
상기 분철된 정준 발음들과 철자 패턴들의 상기 조합들을 상기 생성 대 정준 매핑에서의 상기 조합들의 대응하는 계산된 확률들과 함께 저장하는 단계
를 추가로 포함하는 방법. - 제1항에 있어서,
특정의 언어로 된 전사된 발화 또는 필기 음성을 포함하는 운용 단어 코퍼스를 저장하는 단계;
특정의 언어의 단어들의 분철된 발음들 및 대응하는 철자 패턴들을 포함하는 발음 사전을 저장하는 단계;
상기 발음 사전을 사용하여, 상기 운용 단어 코퍼스를 분철된 철자 단어 데이터베이스로 변환하는 단계;
상기 분철된 철자 청크 코퍼스를 사용하여, 각각의 n-그램 패턴에 대한 연관 카운트들을 누적하고 각각의 후보 철자 음절 패턴에 대한 확률들을 생성하는 단계
를 추가로 포함하는 방법. - 제1항에 있어서,
특정의 언어로 된 전사된 발화 또는 필기 음성을 포함하는 운용 단어 코퍼스를 저장하는 단계;
특정의 언어의 단어들의 분철된 발음들 및 대응하는 철자 패턴들을 포함하는 발음 사전을 저장하는 단계;
상기 발음 사전을 사용하여, 상기 운용 단어 코퍼스를 발음 음절 데이터베이스로 변환하는 단계;
상기 발음 음절 패턴 데이터베이스를 사용하여, 각각의 n-그램 패턴에 대한 연관 카운트들을 누적하고 각각의 후보 발음 음절 패턴에 대한 확률들을 생성하는 단계
를 추가로 포함하는 방법. - 제1항에 있어서,
상기 시스템에 의해 생성되는 가장 가능성있는 철자 음절 패턴이 타깃 철자 패턴과 매칭하지 않는, 트레이닝 동안;
예기치 않은 철자 음절 패턴을 포함하는 다중 음절 시퀀스들의 확장된 컨텍스트를 저장하는 단계;
인식 시에, 상기 시스템에 의해 생성되는 각각의 철자 음절 패턴을 매칭시켜 그것이 상기 저장된 시퀀스들 중 임의의 것과 매칭하는지를 확인하는 단계; 및
만약 그렇다면, 상기 확장된 컨텍스트 시퀀스를 저장하고, 만약 그렇지 않다면, 가장 가능성있는 철자 패턴을 저장하는 단계
를 추가로 포함하는 방법. - 제7항에 있어서,
철자 패턴들의 분철된 정준 발음 패턴들에 정렬된 철자 패턴들을 포함하는 발음 사전을 저장하는 단계를 추가로 포함하고, 상기 분철은 단어 위치 표기법들을 포함하고 최대 두음 원칙을 사용하여 달성되는 방법. - 제1항에 있어서, 상기 생성 심벌 스트림은 컴퓨터 시스템의 디지털적으로 프로그래밍된 로직을 사용하여 텔레비전 프로그램의 오디오 입력으로부터 생성되며, 상기 방법은:
상기 텔레비전 프로그램을 디스플레이하는 디스플레이 디바이스 상에, 상기 특정의 철자 패턴을 상기 텔레비전 프로그램에 대한 캡션으로서 디스플레이하게 하는 단계를 추가로 포함하는 방법. - 시스템으로서,
하나 이상의 프로세서;
상기 하나 이상의 프로세서에 의해 실행될 때,
음향 프로세싱 시스템으로부터 특정의 언어의 발화된 단어들로부터 생성되는 생성 심벌 스트림을 수신하는 단계;
상기 생성 심벌 스트림으로부터, 복수의 생성 패턴들을 추출하는 단계;
생성 패턴들 대 정준 패턴들의 하나 이상의 매핑에 대한 조건부 확률들을 포함하는 저장된 생성 대 정준 매핑 데이터를 사용하여, 상기 복수의 생성 패턴들로부터 후보 음절들 및 각각의 후보 음절의 확률을 생성하는 단계;
하나 이상의 매핑에 대한 조건부 확률들을 포함하는 저장된 음절 대 철자 패턴 매핑을 사용하여, 상기 후보 음절들로부터 후보 철자 패턴들 및 각각의 후보 철자 패턴의 확률을 생성하는 단계;
각각의 후보 철자 패턴에 대한 상기 확률들에 적어도 부분적으로 기초하여, 상기 생성 심벌 스트림의 철자 표현을 생성하는 단계
를 수행하게 하는 명령어들을 저장하는 메모리
를 포함하는 시스템. - 제16항에 있어서, 상기 생성 스트림은, 상기 생성 심벌 스트림의 각각의 심벌에 대해 순차적으로:
3-심벌 버퍼를 제로로 초기화하고 IVC 누산기 버퍼를 제로로 초기화하며 생성 심벌들을 순차적으로 상기 3-심벌 버퍼에 추가하는 단계;
심벌을 상기 3-심벌 버퍼에 추가한 후에, 상기 3-심벌 버퍼의 중간 심벌이 모음이고 따라서 상기 3개의 심벌이 VN을 포함하는지를 결정하고, 상기 VN을 저장하는 단계;
추가된 심벌이 자음이면, 그 자음을 상기 IVC 누산기에 어펜딩하는 단계;
다음에 추가된 심벌이 자음이 아니면, 상기 심벌들을 상기 IVC 누산기에 IVC로서 저장하는 단계; 및
상기 생성 스트림이 계속되는 한 프로세싱을 계속하는 단계
를 수행함으로써, 모음간 자음(IVC) 및 모음 이웃(VN) 유닛들을 포함하는 음소배열 유닛들로 세그먼트화되는 시스템. - 제15항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
프로세싱 큐를 비우기 위해 초기화하는 단계;
생성 IVC들 및 VN들의 교호 스트림을 수신하는 단계;
정렬된 생성 및 정준 IVC의 미리 계산되어 저장된 데이터베이스를 사용하여, 생성 IVC들을 저장된 연관된 조건부 확률들을 갖는 하나 이상의 정준 IVC에 매핑하는 단계; 및
정렬된 생성 및 정준 VN들의 저장된 데이터베이스를 사용하여, 생성 VN들을 저장된 연관된 조건부 확률들을 갖는 하나 이상의 정준 VN에 매핑하는 단계
에 의해 생성 음소배열 스트림을 정준 음소배열 스트림에 매핑하는 단계를 수행하게 하는 시스템. - 제18항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
상기 정준 IVC들 각각이 바로 직전의 정준 VN 패턴 세트의 적어도 하나의 멤버의 일관성있는 연속인지를 결정하고 적어도 하나의 그러한 VN 패턴과 부합하지 않는 것들을 제거하는 단계;
상기 정준 VN들 각각이 바로 직전의 정준 IVC 패턴 세트의 적어도 하나의 멤버의 일관성있는 연속인지를 결정하고 적어도 하나의 그러한 IVC 패턴과 부합하지 않는 것들을 제거하는 단계; 및
일관성없는 IVC들 및 VN들의 제거 이후에, 상기 조건부 확률들을 재정규화하는 단계
에 의해 상기 매핑된 정준 스트림을 추가로 프로세싱하는 단계를 수행하게 하는 시스템. - 제16항에 있어서, 상기 후보 음절들을 생성하는 단계는:
일관성있는 정준 IVC 패턴들을 음절 말음-두음 시퀀스들로 세그먼트화하는 단계;
상기 세그먼트화된 일관성있는 정준 IVC 패턴들의 상기 말음 부분들을 사용하여, 남아 있는 IVC 패턴들 및 VN 패턴들로부터 보강되는 두음들을 통해 일관성있는 경로들을 완성하는 단계 - 각각의 일관성있는 경로는 후보 음절을 형성함 -;
저장된 자음표에 없는 후보 음절들을 제거하는 단계;
각각의 후보 음절의 확률을 계산하는 단계; 및
상기 후보 음절들을 저장하는 단계
를 포함하는 시스템. - 제20항에 있어서,
각각의 후보 음절에 대한 확률을 생성하는 단계는:
특정의 생성 심벌 세트에 대응하는 각각의 후보 음절에 대해:
상기 생성 대 정준 매핑에서의 상기 저장된 계산된 확률들로부터 상기 음절에 대한 상기 VN의 확률을 식별하는 단계;
상기 음절의 두음의 확률을, 상기 두음이 기초할 수 있는 각각의 정준 IVC에 대한 상기 생성 대 정준 매핑에서의 상기 저장된 계산된 확률들에 기초하여, 식별하는 단계;
상기 음절의 말음의 확률을, 상기 말음이 기초할 수 있는 각각의 정준 IVC에 대한 상기 생성 대 정준 매핑에서의 상기 저장된 계산된 확률들에 기초하여, 식별하는 단계;
상기 VN의 확률, 상기 두음의 확률, 및 상기 말음의 확률을 음절 확률 값으로 집계하는 단계; 및
상기 특정의 생성 심벌 세트에 대한 상기 후보 음절들의 상기 음절 확률 값들의 합을 정규화하는 단계
를 포함하는 시스템. - 제16항에 있어서, 후보 음절들 대 철자 패턴들의 매핑은:
정렬된 분철된 정준 발음들과 철자 음절 패턴들을 포함하는 데이터를 저장하는 단계;
큐를 비우기 위해 초기화하고 상기 후보 음절들을 순차적으로 제시하며 학습되어 저장된 분철된 철자 패턴 세트에 매핑하는 단계;
상기 패턴들과 연관된 단어 위치 코드들을 사용하여 유효하지 않은 패턴들을 제거하는 단계; 및
상기 매핑된 철자 패턴들을 저장하는 단계
를 포함하는 시스템. - 제16항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
오버랩하는 음절 시퀀스들이 점진적으로 프로세싱되는 복수의 음절 크기의 유닛들의 슬라이딩 윈도 형태의 큐를 통해 철자 패턴들을 순차적으로 프로세싱하는 단계;
철자 패턴들이 수신될 때 각각의 수신된 철자 패턴 세트에 대한 n-그램 모델들에 저장된 데이터를 참조하는 단계;
시프트된 n-그램 모델들의 조건부 확률들을 합산하여 경로 확률들을 생성하는 단계; 및
상기 경로 확률들을 저장하는 단계
에 의해 음절 위치 제약조건들 및 통계 모델들을 적용하여 출력 철자 패턴들을 선택하는 단계를 수행하게 하는 시스템. - 제18항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
정렬된 생성 심벌 패턴들 및 정준 심벌 발음 패턴들을 포함하는 데이터를 저장하는 단계;
상기 저장된 데이터에서의 생성 및 정준 발음 심벌 패턴의 각각의 조합에 대해, 상기 저장된 데이터에서의 상기 조합의 발생 횟수에 대응하는 값 및 상이한 생성 발음을 갖는 상기 정준 발음의 발생 횟수에 대응하는 값의 함수로서 상기 패턴의 확률을 계산하는 단계;
상기 생성 및 정준 발음들의 조합들을 상기 생성 대 정준 매핑에서의 상기 조합들의 대응하는 계산된 확률들과 함께 저장하는 단계
를 수행하게 하는 시스템. - 제18항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
정렬된 분철된 정준 발음들과 철자 패턴들을 포함하는 데이터를 저장하는 단계;
상기 저장된 데이터에서의 분철된 정준 발음과 철자 패턴의 각각의 조합에 대해, 상기 저장된 데이터에서의 상기 조합의 발생 횟수에 대응하는 값 및 상기 저장된 데이터에서의 상기 분철된 정준 발음의 발생 횟수에 대응하는 값의 함수로서 상기 패턴의 확률을 계산하는 단계;
상기 분철된 정준 발음들과 철자 패턴들의 상기 조합들을 상기 생성 대 정준 매핑에서의 상기 조합들의 대응하는 계산된 확률들과 함께 저장하는 단계
를 수행하게 하는 시스템. - 제16항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
특정의 언어로 된 전사된 발화 또는 필기 음성을 포함하는 운용 단어 코퍼스를 저장하는 단계;
특정의 언어의 단어들의 분철된 발음들 및 대응하는 철자 패턴들을 포함하는 발음 사전을 저장하는 단계;
상기 발음 사전을 사용하여, 상기 운용 단어 코퍼스를 분철된 철자 단어 데이터베이스로 변환하는 단계;
상기 분철된 철자 청크 코퍼스를 사용하여, 각각의 n-그램 패턴에 대한 연관 카운트들을 누적하고 각각의 후보 철자 음절 패턴에 대한 확률들을 생성하는 단계
를 수행하게 하는 시스템. - 제16항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
특정의 언어로 된 전사된 발화 또는 필기 음성을 포함하는 운용 단어 코퍼스를 저장하는 단계;
특정의 언어의 단어들의 분철된 발음들 및 대응하는 철자 패턴들을 포함하는 발음 사전을 저장하는 단계;
상기 발음 사전을 사용하여, 상기 운용 단어 코퍼스를 발음 음절 데이터베이스로 변환하는 단계;
상기 발음 음절 패턴 데이터베이스를 사용하여, 각각의 n-그램 패턴에 대한 연관 카운트들을 누적하고 각각의 후보 발음 음절 패턴에 대한 확률들을 생성하는 단계
를 수행하게 하는 시스템. - 제16항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
상기 시스템에 의해 생성되는 가장 가능성있는 철자 음절 패턴이 타깃 철자 패턴과 매칭하지 않는, 트레이닝 동안;
예기치 않은 철자 음절 패턴을 포함하는 다중 음절 시퀀스들의 확장된 컨텍스트를 저장하는 단계;
인식 시에, 상기 시스템에 의해 생성되는 각각의 철자 음절 패턴을 매칭시켜 그것이 상기 저장된 시퀀스들 중 임의의 것과 매칭하는지를 확인하는 단계; 및
만약 그렇다면, 상기 확장된 컨텍스트 시퀀스를 저장하고, 만약 그렇지 않다면, 가장 가능성있는 철자 패턴을 저장하는 단계
를 수행하게 하는 시스템. - 제21항에 있어서, 상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로
철자 패턴들의 분철된 정준 발음 패턴들에 정렬된 철자 패턴들을 포함하는 발음 사전을 저장하는 단계를 수행하게 하고, 상기 분철은 단어 위치 표기법들을 포함하고 최대 두음 원칙을 사용하여 달성되는 시스템. - 제16항에 있어서,
상기 생성 심벌 스트림은 컴퓨터 시스템의 디지털적으로 프로그래밍된 로직을 사용하여 텔레비전 프로그램의 오디오 입력으로부터 생성되며,
상기 명령어들은, 상기 하나 이상의 프로세서에 의해 실행될 때, 추가로 상기 텔레비전 프로그램을 디스플레이하는 디스플레이 디바이스 상에, 상기 특정의 철자 패턴을 상기 텔레비전 프로그램에 대한 캡션으로서 디스플레이하게 하는 단계를 수행하게 하는 시스템.
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US201762530802P | 2017-07-10 | 2017-07-10 | |
| US62/530,802 | 2017-07-10 | ||
| PCT/US2018/041395 WO2019014183A1 (en) | 2017-07-10 | 2018-07-10 | AUTOMATIC SPEECH RECOGNITION BASED ON SYLLABE |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20200026295A true KR20200026295A (ko) | 2020-03-10 |
Family
ID=64903340
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020207003761A Pending KR20200026295A (ko) | 2017-07-10 | 2018-07-10 | 음절 기반 자동 음성 인식 |
Country Status (6)
| Country | Link |
|---|---|
| US (2) | US10916235B2 (ko) |
| EP (1) | EP3652732B1 (ko) |
| JP (1) | JP7295839B2 (ko) |
| KR (1) | KR20200026295A (ko) |
| CN (1) | CN110870004B (ko) |
| WO (1) | WO2019014183A1 (ko) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190221208A1 (en) * | 2018-01-12 | 2019-07-18 | Kika Tech (Cayman) Holdings Co., Limited | Method, user interface, and device for audio-based emoji input |
| CN112750425B (zh) * | 2020-01-22 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
| CN111667828B (zh) * | 2020-05-28 | 2021-09-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置、电子设备和存储介质 |
| CN114079797A (zh) * | 2020-08-14 | 2022-02-22 | 阿里巴巴集团控股有限公司 | 直播字幕生成方法及装置和服务端、直播客户端及直播系统 |
| TWI755328B (zh) * | 2021-05-24 | 2022-02-11 | 中華電信股份有限公司 | 孩童聲音偵測系統、方法及電腦可讀媒介 |
| US20220382973A1 (en) * | 2021-05-28 | 2022-12-01 | Microsoft Technology Licensing, Llc | Word Prediction Using Alternative N-gram Contexts |
| CN117524198B (zh) * | 2023-12-29 | 2024-04-16 | 广州小鹏汽车科技有限公司 | 语音识别方法、装置及车辆 |
Family Cites Families (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US3812291A (en) * | 1972-06-19 | 1974-05-21 | Scope Inc | Signal pattern encoder and classifier |
| US6108627A (en) * | 1997-10-31 | 2000-08-22 | Nortel Networks Corporation | Automatic transcription tool |
| US6138099A (en) * | 1998-10-19 | 2000-10-24 | International Business Machines Corp. | Automatically updating language models |
| JP2001195087A (ja) | 2000-01-06 | 2001-07-19 | Mitsubishi Electric Corp | 音声認識システム |
| US7747434B2 (en) * | 2000-10-24 | 2010-06-29 | Speech Conversion Technologies, Inc. | Integrated speech recognition, closed captioning, and translation system and method |
| US6985861B2 (en) * | 2001-12-12 | 2006-01-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for combining subword recognition and whole word recognition of a spoken input |
| KR100467590B1 (ko) * | 2002-06-28 | 2005-01-24 | 삼성전자주식회사 | 발음 사전 갱신 장치 및 방법 |
| US7558732B2 (en) | 2002-09-23 | 2009-07-07 | Infineon Technologies Ag | Method and system for computer-aided speech synthesis |
| KR100486733B1 (ko) | 2003-02-24 | 2005-05-03 | 삼성전자주식회사 | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 |
| US8412521B2 (en) * | 2004-08-20 | 2013-04-02 | Multimodal Technologies, Llc | Discriminative training of document transcription system |
| KR100679042B1 (ko) * | 2004-10-27 | 2007-02-06 | 삼성전자주식회사 | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 |
| US20070061143A1 (en) * | 2005-09-14 | 2007-03-15 | Wilson Mark J | Method for collating words based on the words' syllables, and phonetic symbols |
| US8135590B2 (en) * | 2007-01-11 | 2012-03-13 | Microsoft Corporation | Position-dependent phonetic models for reliable pronunciation identification |
| WO2010067118A1 (en) * | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
| GB0920480D0 (en) * | 2009-11-24 | 2010-01-06 | Yu Kai | Speech processing and learning |
| US20110238412A1 (en) * | 2010-03-26 | 2011-09-29 | Antoine Ezzat | Method for Constructing Pronunciation Dictionaries |
| US20130191115A1 (en) * | 2010-11-04 | 2013-07-25 | Márcia dos Santos Suzuki | Methods and Systems for Transcribing or Transliterating to an Iconphonological Orthography |
| US8676574B2 (en) * | 2010-11-10 | 2014-03-18 | Sony Computer Entertainment Inc. | Method for tone/intonation recognition using auditory attention cues |
| US8756061B2 (en) * | 2011-04-01 | 2014-06-17 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
| US8825481B2 (en) * | 2012-01-20 | 2014-09-02 | Microsoft Corporation | Subword-based multi-level pronunciation adaptation for recognizing accented speech |
| US20130325449A1 (en) * | 2012-05-31 | 2013-12-05 | Elwha Llc | Speech recognition adaptation systems based on adaptation data |
| CN103578465B (zh) * | 2013-10-18 | 2016-08-17 | 威盛电子股份有限公司 | 语音辨识方法及电子装置 |
| CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
| US9589562B2 (en) * | 2014-02-21 | 2017-03-07 | Microsoft Technology Licensing, Llc | Pronunciation learning through correction logs |
| KR102117082B1 (ko) * | 2014-12-29 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
| WO2016114428A1 (ko) * | 2015-01-16 | 2016-07-21 | 삼성전자 주식회사 | 문법 모델을 이용하여 음성인식을 수행하는 방법 및 디바이스 |
-
2018
- 2018-07-10 CN CN201880046009.2A patent/CN110870004B/zh active Active
- 2018-07-10 EP EP18832817.3A patent/EP3652732B1/en active Active
- 2018-07-10 KR KR1020207003761A patent/KR20200026295A/ko active Pending
- 2018-07-10 WO PCT/US2018/041395 patent/WO2019014183A1/en not_active Ceased
- 2018-07-10 JP JP2020501252A patent/JP7295839B2/ja active Active
- 2018-07-10 US US16/031,637 patent/US10916235B2/en active Active
-
2021
- 2021-02-08 US US17/169,858 patent/US20210193117A1/en not_active Abandoned
Also Published As
| Publication number | Publication date |
|---|---|
| CN110870004B (zh) | 2023-09-12 |
| CN110870004A (zh) | 2020-03-06 |
| WO2019014183A1 (en) | 2019-01-17 |
| JP7295839B2 (ja) | 2023-06-21 |
| US20190013009A1 (en) | 2019-01-10 |
| US20210193117A1 (en) | 2021-06-24 |
| EP3652732B1 (en) | 2023-08-16 |
| EP3652732A4 (en) | 2021-03-17 |
| JP2020527253A (ja) | 2020-09-03 |
| EP3652732A1 (en) | 2020-05-20 |
| US10916235B2 (en) | 2021-02-09 |
| EP3652732C0 (en) | 2023-08-16 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US10916235B2 (en) | Syllable based automatic speech recognition | |
| US6973427B2 (en) | Method for adding phonetic descriptions to a speech recognition lexicon | |
| JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
| Sainath et al. | No need for a lexicon? evaluating the value of the pronunciation lexica in end-to-end models | |
| EP3948849A1 (en) | Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models | |
| US20180137109A1 (en) | Methodology for automatic multilingual speech recognition | |
| EP4295362B1 (en) | Multilingual re-scoring models for automatic speech recognition | |
| CN107705787A (zh) | 一种语音识别方法及装置 | |
| CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
| KR20250028493A (ko) | 전사된 음성 데이터 없이 정렬된 텍스트 및 음성 표현을 사용하여 자동 음성 인식 모델 트레이닝 | |
| JP2019012095A (ja) | 音素認識辞書生成装置および音素認識装置ならびにそれらのプログラム | |
| CN113421587B (zh) | 语音评测的方法、装置、计算设备及存储介质 | |
| CN112133285B (zh) | 语音识别方法、装置、存储介质和电子设备 | |
| Pellegrini et al. | Automatic word decompounding for asr in a morphologically rich language: Application to amharic | |
| US20240185844A1 (en) | Context-aware end-to-end asr fusion of context, acoustic and text presentations | |
| Fenghour et al. | Disentangling homophemes in lip reading using perplexity analysis | |
| CN104756183B (zh) | 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符 | |
| JP5120749B2 (ja) | 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム | |
| JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
| KR20140077423A (ko) | 음성인식기의 언어모델 저장방법 | |
| CN121415783A (zh) | 一种基于融合语音学知识低资源语言语音转国际音标方法 | |
| Koo | A weighted finite-state transducer implementation of phoneme rewrite rules for english to korean pronunciation conversion | |
| Mukhanov et al. | Analysis of modern problems in automatic speech recognition: solutions and practical examples |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0105 | International application |
St.27 status event code: A-0-1-A10-A15-nap-PA0105 |
|
| PG1501 | Laying open of application |
St.27 status event code: A-1-1-Q10-Q12-nap-PG1501 |
|
| N231 | Notification of change of applicant | ||
| PN2301 | Change of applicant |
St.27 status event code: A-3-3-R10-R13-asn-PN2301 St.27 status event code: A-3-3-R10-R11-asn-PN2301 |
|
| A201 | Request for examination | ||
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| P13-X000 | Application amended |
St.27 status event code: A-2-2-P10-P13-nap-X000 |
|
| PA0201 | Request for examination |
St.27 status event code: A-1-2-D10-D11-exm-PA0201 |
|
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| T11-X000 | Administrative time limit extension requested |
St.27 status event code: U-3-3-T10-T11-oth-X000 |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |
|
| D21 | Rejection of application intended |
Free format text: ST27 STATUS EVENT CODE: A-1-2-D10-D21-EXM-PE0902 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| PE0902 | Notice of grounds for rejection |
St.27 status event code: A-1-2-D10-D21-exm-PE0902 |
|
| T11 | Administrative time limit extension requested |
Free format text: ST27 STATUS EVENT CODE: U-3-3-T10-T11-OTH-X000 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| T11-X000 | Administrative time limit extension requested |
St.27 status event code: U-3-3-T10-T11-oth-X000 |
|
| E13 | Pre-grant limitation requested |
Free format text: ST27 STATUS EVENT CODE: A-2-3-E10-E13-LIM-X000 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| E13-X000 | Pre-grant limitation requested |
St.27 status event code: A-2-3-E10-E13-lim-X000 |
|
| P11 | Amendment of application requested |
Free format text: ST27 STATUS EVENT CODE: A-2-2-P10-P11-NAP-X000 (AS PROVIDED BY THE NATIONAL OFFICE) |
|
| P11-X000 | Amendment of application requested |
St.27 status event code: A-2-2-P10-P11-nap-X000 |