KR101509727B1 - 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 - Google Patents
자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 Download PDFInfo
- Publication number
- KR101509727B1 KR101509727B1 KR20130118062A KR20130118062A KR101509727B1 KR 101509727 B1 KR101509727 B1 KR 101509727B1 KR 20130118062 A KR20130118062 A KR 20130118062A KR 20130118062 A KR20130118062 A KR 20130118062A KR 101509727 B1 KR101509727 B1 KR 101509727B1
- Authority
- KR
- South Korea
- Prior art keywords
- expression
- morpheme
- corpus
- normal
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
형태소 분석 장치는 지식 데이터 베이스와 분석기를 포함한다. 지식 데이터베이스는 언어별 형태소 분석에 사용되는 다수의 지식 정보를 저장하되, 정상 표현에 대응되는 형태소 정보를 저장하는 형태소 사전과 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-에 대응되는 정상 표현 정보를 저장하는 정렬 코퍼스를 포함한다. 분석기는 입력되는 어절에 대해 상기 지식 데이터베이스를 사용하여 형태소 분석을 수행하여 분석 결과를 출력하되, 입력 어절에 대한 형태소가 상기 형태소 사전에 없는 경우, 상기 입력 어절에 포함된 파괴 표현에 대해 상기 정렬 코퍼스를 사용하여 상기 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행한다.
Description
도 2는 일반적인 형태소 분석 방법의 흐름도이다.
도 3은 본 발명의 실시예에 따른 형태소 분석 장치의 구성 블록도이다.
도 4는 도 3에 도시된 형태소 분할부의 구체적인 구성 블록도이다.
도 5는 도 3에 도시된 파괴 표현-정상 표현 정렬 코퍼스를 생성하는 장치의 구성 블록도이다.
도 6은 도 5에 도시된 병렬 코퍼스 구축부의 구성 블록도이다.
도 7은 본 발명의 실시예에 따른 형태소 분석 방법의 흐름도이다.
도 8은 다수의 언어에 통용되는 범용적인 형태소 분석 장치의 구조를 개략적으로 도시한 도면이다.
도 9는 도 8에 도시된 형태소 분석 장치에 본 발명의 실시예에 따른 파괴 표현-정상 표현 정렬 코퍼스가 적용된 예를 도시한 도면이다.
Claims (20)
- 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및
상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계를 포함하고,
상기 병렬 코퍼스를 구축하는 단계는,
네트워크를 통해 다수의 파괴 문장을 수집하는 단계;
수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 단계;
수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 단계; 및
생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 단계를 포함하는
것을 특징으로 하는 정렬 코퍼스 생성 방법. - 삭제
- 제1항에 있어서,
상기 보편성을 판단하는 단계에서,
상기 쿼리에 따른 검색의 결과물의 양을 기준으로 기준 양을 초과하는 경우 해당 파괴 표현이 보편성을 갖는 것으로 판단하고,
상기 보편성의 판단은 다수의 포털 사이트를 통한 웹 검색을 통해 자동으로 실행되는
것을 특징으로 하는 정렬 코퍼스 생성 방법. - 제1항에 있어서,
상기 정렬 코퍼스를 생성하는 단계는,
상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 단계;
문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 단계;
새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 단계; 및
자율 학습의 정지 조건이 만족될 때가지 상기 매치를 수행하는 단계 및 계산하는 단계를 반복 수행하고, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률-여기서 상관 확률은 상기 파괴 표현과 정상 표현의 정렬 확률 값임-을 상기 정렬 코퍼스에 저장하는 단계
를 포함하는 정렬 코퍼스 생성 방법. - 제1항 및 제3항 내지 제4항 중 어느 한 항에 있어서,
상기 정렬 코퍼스를 생성하고자 수행되는 자율 학습 기반으로 정렬을 구하고 정렬의 확률 값을 설정해나가기 위해 EM(Expectation-Maximization) 알고리즘이 사용되는 것을 특징으로 하는 정렬 코퍼스 생성 방법. - 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 병렬 코퍼스 구축부; 및
상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 자율 학습부를 포함하고,
상기 병렬 코퍼스 구축부는,
네트워크를 통해 다수의 파괴 문장을 수집하는 파괴 문장 수집기;
상기 파괴 문장 수집기에 의해 수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 보편성 판단기;
수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 정상 문장 생성기; 및
상기 정상 문장 생성기에 의해 생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 구축기를 포함하는
것을 특징으로 하는 정렬 코퍼스 생성 장치. - 제6항에 있어서,
상기 자율 학습부는,
상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스; 및
상기 병렬 코퍼스에 대해 자율 학습 방법을 사용하여 파괴 표현과 정상 표현의 단일 음절, 다 음절 또는 단어들 사이의 최적 정렬 확률값을 학습하여 상기 정렬 코퍼스를 생성하는 자율 학습 정렬부
를 포함하는 정렬 코퍼스 생성 장치. - 삭제
- 제7항에 있어서,
상기 자율 학습 정렬부는,
상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 초기화기;
문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 E-스텝 처리기;
새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 M-스텝 처리기; 및
상기 병렬 코퍼스에 구축되어 있는 파괴 문장과 정상 문장의 문자열을 상기 초기화기로 입력시키고, 상기 M-스텝 처리기의 확률 계산 후 자율 학습의 정지 조건이 만족될 때까지 상기 E-스텝 처리기 및 M-스텝 처리기의 반복 수행을 제어하며, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률이 저장되는 상기 정렬 코퍼스를 생성하는 제어기
를 포함하는 정렬 코퍼스 생성 장치. - 언어별 형태소 분석에 사용되는 다수의 지식 정보를 저장하되, 정상 표현에 대응되는 형태소 정보를 저장하는 형태소 사전과 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-에 대응되는 정상 표현 정보를 저장하는 정렬 코퍼스를 포함하는 지식 데이터베이스; 및
입력되는 어절에 대해 상기 지식 데이터베이스를 사용하여 형태소 분석을 수행하여 분석 결과를 출력하되, 입력 어절에 대한 형태소가 상기 형태소 사전에 없는 경우, 상기 입력 어절에 포함된 파괴 표현에 대해 상기 정렬 코퍼스를 사용하여 상기 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 분석기를 포함하고,
상기 정렬 코퍼스는 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬하여 생성되며, 파괴 표현과 이 파괴 표현에 대응되는 정상 표현 사이의 정렬 확률 값인 상관 확률을 포함하는
것을 특징으로 하는 형태소 분석 장치. - 제10항에 있어서,
상기 지식 데이터베이스가 형태소별 접속 정보를 저장하는 기 분석 사전을 더 포함하고,
상기 분석기는,
상기 형태소 사전을 사용하여 상기 입력 어절을 이루고 있는 형태소들을 분할하되, 상기 입력 어절을 이루고 있는 형태소가 상기 형태소 사전에 없는 경우 상기 정렬 코퍼스를 사용하여 대응되는 정상 표현을 사용하여 형태소 분할을 수행하는 형태소 분할부;
상기 기 분석 사전을 사용하여 상기 형태소 분할부에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출하는 접속 정보 체크부; 및
상기 접속 정보 체크부에 의해 추출되는 형태소들에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 원형 복원부
를 포함하는 형태소 분석 장치. - 제11항에 있어서
상기 형태소 분할부는,
상기 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성하는 후보군 생성기;
상기 후보군 생성기에서 생성되는 형태소 후보에 대해 상기 형태소 사전을 사용하여 해당 형태소 후보의 존재 여부를 체크하는 정상 표현 체크기;
상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 해당 형태소 후보에 대해 상기 정렬 코퍼스를 사용하여 상기 입력 어절의 파괴 표현의 존재 여부를 체크하는 파괴 표현 체크기;
상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하는 것으로 판단되는 경우 해당 형태소 후보를 입력 어절로부터 형태소 분할 처리하는 분할 처리기; 및
상기 후보군 생성기, 상기 정상 표현 체크기, 상기 파괴 표현 체크기 및 상기 분할 처리기를 제어하여 상기 입력 어절에 대한 형태소 분할이 수행되도록 하되, 상기 후보군 생성기에서 생성되는 형태소 후보가 상기 정상 표현 체크기에 의해 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 상기 파괴 표현 체크기를 통해 대응되는 정상 표현을 찾아서 상기 후보군 생성기로 재입력 제어하는 제어기
를 포함하는 형태소 분석 장치. - 삭제
- 삭제
- 제10항 내지 제12항 중 어느 한 항에 있어서,
형태소 분석시 상기 형태소 사전을 통해 형태소 존재 여부를 판단하는 때에 상기 상관 확률을 사용하여 해당 각 문자열이 형태소일 확률로써 수치화하여 표현하는 것을 특징으로 하는 형태소 분석 장치. - 제10항 내지 제12항 중 어느 한 항에 있어서,
상기 정렬 코퍼스는 EM(Expectation-Maximization) 알고리즘 기반으로 생성되는 것을 특징으로 하는 형태소 분석 장치. - 입력되는 어절을 형태소로 분할하여 형태소 후보를 생성하는 단계;
형태소 후보가 형태소 사전-여기서 형태소 사전은 정상 표현에 대응되는 형태소 정보를 저장하는 사전임-에 존재하는 지의 여부를 판단하는 단계;
형태소 후보가 상기 형태소 사전에 존재하는 경우 해당 형태소 분석을 수행하는 단계;
형태소 후보가 상기 형태소 사전에 존재하지 않는 경우, 상기 입력되는 어절에 포함되는 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 정렬 코퍼스-여기서 정렬 코퍼스는 파괴 표현에 대응되는 정상 표현 정보를 저장하는 코퍼스임-에 존재하는 지의 여부를 판단하는 단계; 및
파괴 표현이 상기 정렬 코퍼스에 존재하는 경우, 해당 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 단계를 포함하고,
상기 정렬 코퍼스는 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬하여 생성되며, 파괴 표현과 이 파괴 표현에 대응되는 정상 표현 사이의 정렬 확률 값인 상관 확률을 포함하는
것을 특징으로 하는 형태소 분석 방법. - 제17항에 있어서,
상기 형태소 분석을 수행하는 단계는,
형태소별 접속 정보를 저장하는 기 분석 사전을 사용하여 형태소에 대해 조합 가능한 형태소를 추출하는 단계; 및
추출되는 형태소에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 단계
를 포함하는 형태소 분석 방법. - 제17항에 있어서,
상기 형태소 후보가 형태소 사전에 존재하는 지의 여부를 판단하는 단계 전에, 상기 정렬 코퍼스를 생성하는 단계를 더 포함하는 형태소 분석 방법. - 제19항에 있어서,
상기 정렬 코퍼스를 생성하는 단계는,
파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및
상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계
를 포함하는 형태소 분석 방법.
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR20130118062A KR101509727B1 (ko) | 2013-10-02 | 2013-10-02 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
| PCT/KR2014/007959 WO2015050321A1 (ko) | 2013-10-02 | 2014-08-27 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
| JP2016546716A JP6532088B2 (ja) | 2013-10-02 | 2014-08-27 | 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法 |
| CN201480054951.5A CN105593845B (zh) | 2013-10-02 | 2014-08-27 | 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法 |
| US15/026,275 US10282413B2 (en) | 2013-10-02 | 2014-08-27 | Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR20130118062A KR101509727B1 (ko) | 2013-10-02 | 2013-10-02 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR101509727B1 true KR101509727B1 (ko) | 2015-04-07 |
Family
ID=52778882
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR20130118062A Active KR101509727B1 (ko) | 2013-10-02 | 2013-10-02 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US10282413B2 (ko) |
| JP (1) | JP6532088B2 (ko) |
| KR (1) | KR101509727B1 (ko) |
| CN (1) | CN105593845B (ko) |
| WO (1) | WO2015050321A1 (ko) |
Cited By (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170000201A (ko) | 2015-06-23 | 2017-01-02 | (주)아크릴 | 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법 |
| KR101839121B1 (ko) * | 2015-09-14 | 2018-04-26 | 네이버 주식회사 | 사용자 질의 교정 시스템 및 방법 |
| CN109815476A (zh) * | 2018-12-03 | 2019-05-28 | 国网浙江省电力有限公司杭州供电公司 | 一种基于中文语素和拼音联合统计的词向量表示方法 |
| KR20200083111A (ko) * | 2018-12-31 | 2020-07-08 | 주식회사 엘솔루 | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 |
| KR20210064805A (ko) | 2019-11-26 | 2021-06-03 | 고려대학교 산학협력단 | 뇌파 측정 기술을 이용하여 언어 능숙도를 진단하는 방법 |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6466138B2 (ja) * | 2014-11-04 | 2019-02-06 | 株式会社東芝 | 外国語文作成支援装置、方法及びプログラム |
| CN108205757B (zh) * | 2016-12-19 | 2022-05-27 | 创新先进技术有限公司 | 电子支付业务合法性的校验方法和装置 |
| US10635862B2 (en) * | 2017-12-21 | 2020-04-28 | City University Of Hong Kong | Method of facilitating natural language interactions, a method of simplifying an expression and a system thereof |
| CN116964669A (zh) * | 2021-05-14 | 2023-10-27 | 深圳市韶音科技有限公司 | 用于产生音频信号的系统和方法 |
| CN113343719B (zh) * | 2021-06-21 | 2023-03-14 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20090061158A (ko) * | 2007-12-11 | 2009-06-16 | 한국전자통신연구원 | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치 |
| KR20100015518A (ko) * | 2007-03-26 | 2010-02-12 | 구글 인코포레이티드 | 기계 번역에서의 대언어 모델 |
| KR20110061209A (ko) * | 2009-12-01 | 2011-06-09 | 한국전자통신연구원 | 후처리 지식 생성 장치 |
Family Cites Families (41)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US5477448A (en) * | 1994-06-01 | 1995-12-19 | Mitsubishi Electric Research Laboratories, Inc. | System for correcting improper determiners |
| US6708311B1 (en) * | 1999-06-17 | 2004-03-16 | International Business Machines Corporation | Method and apparatus for creating a glossary of terms |
| US7010479B2 (en) * | 2000-07-26 | 2006-03-07 | Oki Electric Industry Co., Ltd. | Apparatus and method for natural language processing |
| GB2366893B (en) * | 2000-09-08 | 2004-06-16 | Roke Manor Research | Improvements in or relating to word processor systems or the like |
| US7043422B2 (en) | 2000-10-13 | 2006-05-09 | Microsoft Corporation | Method and apparatus for distribution-based language model adaptation |
| JP4947861B2 (ja) * | 2001-09-25 | 2012-06-06 | キヤノン株式会社 | 自然言語処理装置およびその制御方法ならびにプログラム |
| US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
| FR2841355B1 (fr) * | 2002-06-24 | 2008-12-19 | Airbus France | Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef |
| JP2005100335A (ja) * | 2003-09-01 | 2005-04-14 | Advanced Telecommunication Research Institute International | 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ |
| US20050131931A1 (en) * | 2003-12-11 | 2005-06-16 | Sanyo Electric Co., Ltd. | Abstract generation method and program product |
| JP2005251115A (ja) * | 2004-03-08 | 2005-09-15 | Shogakukan Inc | 連想検索システムおよび連想検索方法 |
| US7406416B2 (en) * | 2004-03-26 | 2008-07-29 | Microsoft Corporation | Representation of a deleted interpolation N-gram language model in ARPA standard format |
| JP3998668B2 (ja) * | 2004-07-14 | 2007-10-31 | 沖電気工業株式会社 | 形態素解析装置、方法及びプログラム |
| KR100735308B1 (ko) * | 2005-08-30 | 2007-07-03 | 경북대학교 산학협력단 | 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체 |
| US7747427B2 (en) * | 2005-12-05 | 2010-06-29 | Electronics And Telecommunications Research Institute | Apparatus and method for automatic translation customized for documents in restrictive domain |
| US8170868B2 (en) * | 2006-03-14 | 2012-05-01 | Microsoft Corporation | Extracting lexical features for classifying native and non-native language usage style |
| EP2109832A4 (en) * | 2007-01-10 | 2010-05-12 | Ca Nat Research Council | MEDIUM AND METHOD FOR THE AUTOMATIC POST-TRANSMISSION OF TRANSLATIONS |
| US9465791B2 (en) * | 2007-02-09 | 2016-10-11 | International Business Machines Corporation | Method and apparatus for automatic detection of spelling errors in one or more documents |
| JP2008287406A (ja) * | 2007-05-16 | 2008-11-27 | Sony Corp | 情報処理装置および情報処理方法、プログラム、並びに、記録媒体 |
| US8229728B2 (en) * | 2008-01-04 | 2012-07-24 | Fluential, Llc | Methods for using manual phrase alignment data to generate translation models for statistical machine translation |
| JP2009245308A (ja) * | 2008-03-31 | 2009-10-22 | Fujitsu Ltd | 文書校正支援プログラム、文書校正支援方法および文書校正支援装置 |
| KR101496885B1 (ko) * | 2008-04-07 | 2015-02-27 | 삼성전자주식회사 | 문장 띄어쓰기 시스템 및 방법 |
| KR100961717B1 (ko) * | 2008-09-16 | 2010-06-10 | 한국전자통신연구원 | 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치 |
| US20100076764A1 (en) * | 2008-09-19 | 2010-03-25 | General Motors Corporation | Method of dialing phone numbers using an in-vehicle speech recognition system |
| JP4701292B2 (ja) * | 2009-01-05 | 2011-06-15 | インターナショナル・ビジネス・マシーンズ・コーポレーション | テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
| JP5436868B2 (ja) * | 2009-01-13 | 2014-03-05 | Kddi株式会社 | 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム |
| WO2010100977A1 (ja) * | 2009-03-03 | 2010-09-10 | 三菱電機株式会社 | 音声認識装置 |
| JP2010257021A (ja) * | 2009-04-22 | 2010-11-11 | Kddi Corp | 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム |
| KR101027791B1 (ko) * | 2009-08-11 | 2011-04-07 | 주식회사 케피코 | 직분식 연료레일의 마운트 구조체 |
| KR101250900B1 (ko) | 2009-08-17 | 2013-04-04 | 한국전자통신연구원 | 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법 |
| US9020805B2 (en) * | 2010-09-29 | 2015-04-28 | International Business Machines Corporation | Context-based disambiguation of acronyms and abbreviations |
| JP5392228B2 (ja) * | 2010-10-14 | 2014-01-22 | 株式会社Jvcケンウッド | 番組検索装置および番組検索方法 |
| US8316030B2 (en) * | 2010-11-05 | 2012-11-20 | Nextgen Datacom, Inc. | Method and system for document classification or search using discrete words |
| US9164983B2 (en) * | 2011-05-27 | 2015-10-20 | Robert Bosch Gmbh | Broad-coverage normalization system for social media language |
| CA2793268A1 (en) * | 2011-10-21 | 2013-04-21 | National Research Council Of Canada | Method and apparatus for paraphrase acquisition |
| US9501759B2 (en) * | 2011-10-25 | 2016-11-22 | Microsoft Technology Licensing, Llc | Search query and document-related data translation |
| US9311286B2 (en) * | 2012-01-25 | 2016-04-12 | International Business Machines Corporation | Intelligent automatic expansion/contraction of abbreviations in text-based electronic communications |
| US9785631B2 (en) * | 2012-03-16 | 2017-10-10 | Entit Software Llc | Identification and extraction of acronym/definition pairs in documents |
| JP5870790B2 (ja) * | 2012-03-19 | 2016-03-01 | 富士通株式会社 | 文章校正装置、及び文章校正方法 |
| US9659059B2 (en) * | 2012-07-20 | 2017-05-23 | Salesforce.Com, Inc. | Matching large sets of words |
| KR20150024188A (ko) * | 2013-08-26 | 2015-03-06 | 삼성전자주식회사 | 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치 |
-
2013
- 2013-10-02 KR KR20130118062A patent/KR101509727B1/ko active Active
-
2014
- 2014-08-27 US US15/026,275 patent/US10282413B2/en active Active
- 2014-08-27 JP JP2016546716A patent/JP6532088B2/ja active Active
- 2014-08-27 CN CN201480054951.5A patent/CN105593845B/zh active Active
- 2014-08-27 WO PCT/KR2014/007959 patent/WO2015050321A1/ko not_active Ceased
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20100015518A (ko) * | 2007-03-26 | 2010-02-12 | 구글 인코포레이티드 | 기계 번역에서의 대언어 모델 |
| KR20090061158A (ko) * | 2007-12-11 | 2009-06-16 | 한국전자통신연구원 | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치 |
| KR20110061209A (ko) * | 2009-12-01 | 2011-06-09 | 한국전자통신연구원 | 후처리 지식 생성 장치 |
Cited By (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR20170000201A (ko) | 2015-06-23 | 2017-01-02 | (주)아크릴 | 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법 |
| KR101839121B1 (ko) * | 2015-09-14 | 2018-04-26 | 네이버 주식회사 | 사용자 질의 교정 시스템 및 방법 |
| CN109815476A (zh) * | 2018-12-03 | 2019-05-28 | 国网浙江省电力有限公司杭州供电公司 | 一种基于中文语素和拼音联合统计的词向量表示方法 |
| KR20200083111A (ko) * | 2018-12-31 | 2020-07-08 | 주식회사 엘솔루 | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 |
| KR102199835B1 (ko) * | 2018-12-31 | 2021-01-07 | 주식회사 엘솔루 | 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법 |
| KR20210064805A (ko) | 2019-11-26 | 2021-06-03 | 고려대학교 산학협력단 | 뇌파 측정 기술을 이용하여 언어 능숙도를 진단하는 방법 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2015050321A8 (ko) | 2015-05-14 |
| CN105593845B (zh) | 2018-04-17 |
| US10282413B2 (en) | 2019-05-07 |
| WO2015050321A1 (ko) | 2015-04-09 |
| JP6532088B2 (ja) | 2019-06-19 |
| CN105593845A (zh) | 2016-05-18 |
| US20160217122A1 (en) | 2016-07-28 |
| JP2016538666A (ja) | 2016-12-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR101509727B1 (ko) | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 | |
| CN101002198B (zh) | 用于非罗马字符和字的拼写校正系统和方法 | |
| US10073673B2 (en) | Method and system for robust tagging of named entities in the presence of source or translation errors | |
| Lawrie et al. | Normalizing source code vocabulary | |
| US9959340B2 (en) | Semantic lexicon-based input method editor | |
| US20120166942A1 (en) | Using parts-of-speech tagging and named entity recognition for spelling correction | |
| US20200301919A1 (en) | Method and system of mining information, electronic device and readable storable medium | |
| KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
| WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
| Ljubešić et al. | Corpus-based diacritic restoration for south slavic languages | |
| CN114661917B (zh) | 文本扩增方法、系统、计算机设备及可读存储介质 | |
| KR100911834B1 (ko) | 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치 | |
| US8880391B2 (en) | Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program | |
| US10120843B2 (en) | Generation of parsable data for deep parsing | |
| Uthayamoorthy et al. | Ddspell-a data driven spell checker and suggestion generator for the tamil language | |
| EP3679526A1 (en) | Machine learning lexical discovery | |
| Peng et al. | An empirical study of Chinese name matching and applications | |
| CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
| US20210073466A1 (en) | Semantic vector rule discovery | |
| Anik et al. | An approach towards multilingual translation by semantic-based verb identification and root word analysis | |
| Ganji et al. | Novel textual features for language modeling of intra-sentential code-switching data | |
| Debnath et al. | A hybrid approach to design automatic spelling corrector and converter for transliterated Bangla words | |
| Eutamene et al. | Ontologies and Bigram-based Approach for Isolated Non-word Errors Correction in OCR System. | |
| El-Beltagy et al. | A corpus based approach for the automatic creation of Arabic broken plural dictionaries | |
| Islam Meem et al. | An Indicative-Metric-Based Context-Sensitive Approach to Autocorrect Bangla Spelling |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20131002 |
|
| PA0201 | Request for examination | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20141030 Patent event code: PE09021S01D |
|
| E701 | Decision to grant or registration of patent right | ||
| PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20150323 |
|
| GRNT | Written decision to grant | ||
| PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20150401 Patent event code: PR07011E01D |
|
| PR1002 | Payment of registration fee |
Payment date: 20150401 End annual number: 3 Start annual number: 1 |
|
| PG1601 | Publication of registration | ||
| FPAY | Annual fee payment |
Payment date: 20180402 Year of fee payment: 4 |
|
| PR1001 | Payment of annual fee |
Payment date: 20180402 Start annual number: 4 End annual number: 4 |
|
| FPAY | Annual fee payment |
Payment date: 20190329 Year of fee payment: 5 |
|
| PR1001 | Payment of annual fee |
Payment date: 20190329 Start annual number: 5 End annual number: 5 |
|
| PR1001 | Payment of annual fee |
Payment date: 20200325 Start annual number: 6 End annual number: 6 |
|
| PR1001 | Payment of annual fee |
Payment date: 20210401 Start annual number: 7 End annual number: 7 |
|
| PR1001 | Payment of annual fee |
Payment date: 20240401 Start annual number: 10 End annual number: 10 |
|
| PR1001 | Payment of annual fee |
Payment date: 20250401 Start annual number: 11 End annual number: 11 |
