KR101509727B1 - 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 - Google Patents

자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 Download PDF

Info

Publication number
KR101509727B1
KR101509727B1 KR20130118062A KR20130118062A KR101509727B1 KR 101509727 B1 KR101509727 B1 KR 101509727B1 KR 20130118062 A KR20130118062 A KR 20130118062A KR 20130118062 A KR20130118062 A KR 20130118062A KR 101509727 B1 KR101509727 B1 KR 101509727B1
Authority
KR
South Korea
Prior art keywords
expression
morpheme
corpus
normal
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
KR20130118062A
Other languages
English (en)
Inventor
지창진
Original Assignee
주식회사 시스트란인터내셔널
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 시스트란인터내셔널 filed Critical 주식회사 시스트란인터내셔널
Priority to KR20130118062A priority Critical patent/KR101509727B1/ko
Priority to PCT/KR2014/007959 priority patent/WO2015050321A1/ko
Priority to JP2016546716A priority patent/JP6532088B2/ja
Priority to CN201480054951.5A priority patent/CN105593845B/zh
Priority to US15/026,275 priority patent/US10282413B2/en
Application granted granted Critical
Publication of KR101509727B1 publication Critical patent/KR101509727B1/ko
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법이 개시된다.
형태소 분석 장치는 지식 데이터 베이스와 분석기를 포함한다. 지식 데이터베이스는 언어별 형태소 분석에 사용되는 다수의 지식 정보를 저장하되, 정상 표현에 대응되는 형태소 정보를 저장하는 형태소 사전과 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-에 대응되는 정상 표현 정보를 저장하는 정렬 코퍼스를 포함한다. 분석기는 입력되는 어절에 대해 상기 지식 데이터베이스를 사용하여 형태소 분석을 수행하여 분석 결과를 출력하되, 입력 어절에 대한 형태소가 상기 형태소 사전에 없는 경우, 상기 입력 어절에 포함된 파괴 표현에 대해 상기 정렬 코퍼스를 사용하여 상기 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행한다.

Description

자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법{APPARATUS FOR CREATING ALIGNMENT CORPUS BASED ON UNSUPERVISED ALIGNMENT AND METHOD THEREOF, AND APPARATUS FOR PERFORMING MORPHOLOGICAL ANALYSIS OF NON-CANONICAL TEXT USING THE ALIGNMENT CORPUS AND METHOD THEREOF}
본 발명은 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법에 관한 것이다.
근래에 블로그, 특히 페이스북 및 트위터로 대표되는 소셜, 카톡과 같은 모바일 메시지는 컴퓨터에서 뿐만 아니라 스마트폰에서도 일상이 되고 있고 그 사용이 나날이 늘어나고 있는 추세이다.
그런데, 이러한 메시지 사용에 있어서 맞춤법에 맞지 않는 오류가 포함된 파괴 표현들이 대량 유통되고 있다. 여기서, 파괴 표현이란 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현들을 말하며, 이러한 파괴 표현이 포함되어 있는 문장을 파괴 문장이라고 한다. 이러한 파괴 문장은 인터넷의 활성과 스마트폰의 보급으로 인해 발생된 새로운 언어 사용 패러다임이다.
파괴 문장은 정상 표현이 아닌 파괴 표현을 포함하고 있으나 문장의 뜻을 전달하는데는 지장이 없다.
한편, 기계 번역 등의 자연 언어 정보 처리, 검색, 데이터 마이닝 등에서 사용되는 형태소 분석의 경우 파괴 표현이 없는 정상 문장들을 대상으로 하고 있다. 즉, 기존의 형태소 분석은 형태소 분석시 사용될 형태소 지식이나 형태소 정보들이 저장되어 있는 형태소 사전을 사용하는데, 상기한 바와 같은 파괴 문장에 포함된 파괴된 형태소들은 그 특징상 정상적인 형태소 사전에 수록이 불가능하고, 또한 단순 파괴된 형태소들을 형태소 사전에 추가하는 방식에도 한계가 있어 파괴 표현이 포함된 파괴 문장에 대한 형태소 분석이 어렵다는 문제점을 가지고 있다.
본 발명이 이루고자 하는 기술적 과제는 파괴 표현이 포함된 파괴 문장을 정확하게 형태소 분석할 수 있는 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법을 제공하는 것이다.
본 발명의 한 특징에 따른 정렬 코퍼스 생성 방법은,
파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및 상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계를 포함한다.
여기서, 상기 병렬 코퍼스를 구축하는 단계는, 네트워크를 통해 다수의 파괴 문장을 수집하는 단계; 수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 단계; 수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 단계; 및 생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 단계를 포함한다.
또한, 상기 보편성을 판단하는 단계에서, 상기 쿼리에 따른 검색의 결과물의 양을 기준으로 기준 양을 초과하는 경우 해당 파괴 표현이 보편성을 갖는 것으로 판단하고, 상기 보편성의 판단은 다수의 포털 사이트를 통한 웹 검색을 통해 자동으로 실행되는 것을 특징으로 한다.
또한, 상기 정렬 코퍼스를 생성하는 단계는, 상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 단계; 문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 단계; 새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 단계; 및 자율 학습의 정지 조건이 만족될 때가지 상기 매치를 수행하는 단계 및 계산하는 단계를 반복 수행하고, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률-여기서 상관 확률은 상기 파괴 표현과 정상 표현의 정렬 확률 값임-을 상기 정렬 코퍼스에 저장하는 단계를 포함한다.
또한, 상기 정렬 코퍼스를 생성하고자 수행되는 자율 학습 기반으로 정렬을 구하고 정렬의 확률 값을 설정해나가기 위해 EM(Expectation-Maximization) 알고리즘이 사용되는 것을 특징으로 한다.
본 발명의 다른 특징에 따른 정렬 코퍼스 생성 장치는,
파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 병렬 코퍼스 구축부; 및 상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 자율 학습부를 포함한다.
여기서, 상기 자율 학습부는, 상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스; 및 상기 병렬 코퍼스에 대해 자율 학습 방법을 사용하여 파괴 표현과 정상 표현의 단일 음절, 다 음절 또는 단어들 사이의 최적 정렬 확률값을 학습하여 상기 정렬 코퍼스를 생성하는 자율 학습 정렬부를 포함한다.
또한, 상기 병렬 코퍼스 구축부는, 네트워크를 통해 다수의 파괴 문장을 수집하는 파괴 문장 수집기; 상기 파괴 문장 수집기에 의해 수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 보편성 판단기; 수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 정상 문장 생성기; 및 상기 정상 문장 생성기에 의해 생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 구축기를 포함한다.
또한, 상기 자율 학습 정렬부는, 상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 초기화기; 문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 E-스텝 처리기; 새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 M-스텝 처리기; 및 상기 병렬 코퍼스에 구축되어 있는 파괴 문장과 정상 문장의 문자열을 상기 초기화기로 입력시키고, 상기 M-스텝 처리기의 확률 계산 후 자율 학습의 정지 조건이 만족될 때까지 상기 E-스텝 처리기 및 M-스텝 처리기의 반복 수행을 제어하며, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률이 저장되는 상기 정렬 코퍼스를 생성하는 제어기를 포함한다.
본 발명의 또 다른 특징에 따른 형태소 분석 장치는,
언어별 형태소 분석에 사용되는 다수의 지식 정보를 저장하되, 정상 표현에 대응되는 형태소 정보를 저장하는 형태소 사전과 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-에 대응되는 정상 표현 정보를 저장하는 정렬 코퍼스를 포함하는 지식 데이터베이스; 및 입력되는 어절에 대해 상기 지식 데이터베이스를 사용하여 형태소 분석을 수행하여 분석 결과를 출력하되, 입력 어절에 대한 형태소가 상기 형태소 사전에 없는 경우, 상기 입력 어절에 포함된 파괴 표현에 대해 상기 정렬 코퍼스를 사용하여 상기 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 분석기를 포함한다.
여기서, 상기 지식 데이터베이스가 형태소별 접속 정보를 저장하는 기 분석 사전을 더 포함하고, 상기 분석기는, 상기 형태소 사전을 사용하여 상기 입력 어절을 이루고 있는 형태소들을 분할하되, 상기 입력 어절을 이루고 있는 형태소가 상기 형태소 사전에 없는 경우 상기 정렬 코퍼스를 사용하여 대응되는 정상 표현을 사용하여 형태소 분할을 수행하는 형태소 분할부; 상기 기 분석 사전을 사용하여 상기 형태소 분할부에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출하는 접속 정보 체크부; 및 상기 접속 정보 체크부에 의해 추출되는 형태소들에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 원형 복원부를 포함한다.
또한, 상기 형태소 분할부는, 상기 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성하는 후보군 생성기; 상기 후보군 생성기에서 생성되는 형태소 후보에 대해 상기 형태소 사전을 사용하여 해당 형태소 후보의 존재 여부를 체크하는 정상 표현 체크기; 상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 해당 형태소 후보에 대해 상기 정렬 코퍼스를 사용하여 상기 입력 어절의 파괴 표현의 존재 여부를 체크하는 파괴 표현 체크기; 상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하는 것으로 판단되는 경우 해당 형태소 후보를 입력 어절로부터 형태소 분할 처리하는 분할 처리기; 및 상기 후보군 생성기, 상기 정상 표현 체크기, 상기 파괴 표현 체크기 및 상기 분할 처리기를 제어하여 상기 입력 어절에 대한 형태소 분할이 수행되도록 하되, 상기 후보군 생성기에서 생성되는 형태소 후보가 상기 정상 표현 체크기에 의해 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 상기 파괴 표현 체크기를 통해 대응되는 정상 표현을 찾아서 상기 후보군 생성기로 재입력 제어하는 제어기를 포함한다.
또한, 상기 정렬 코퍼스는 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬하여 생성된 것을 특징으로 한다.
또한, 상기 정렬 코퍼스는 파괴 표현과 이 파괴 표현에 대응되는 정상 표현 사이의 정렬 확률 값인 상관 확률을 포함하는 것을 특징으로 한다.
또한, 형태소 분석시 상기 형태소 사전을 통해 형태소 존재 여부를 판단하는 때에 상기 상관 확률을 사용하여 해당 각 문자열이 형태소일 확률로써 수치화하여 표현하는 것을 특징으로 한다.
또한, 상기 정렬 코퍼스는 EM(Expectation-Maximization) 알고리즘 기반으로 생성되는 것을 특징으로 한다.
본 발명의 또 다른 특징에 따른 형태소 분석 방법은,
입력되는 어절을 형태소로 분할하여 형태소 후보를 생성하는 단계; 형태소 후보가 형태소 사전-여기서 형태소 사전은 정상 표현에 대응되는 형태소 정보를 저장하는 사전임-에 존재하는 지의 여부를 판단하는 단계; 형태소 후보가 상기 형태소 사전에 존재하는 경우 해당 형태소 분석을 수행하는 단계; 형태소 후보가 상기 형태소 사전에 존재하지 않는 경우, 상기 입력되는 어절에 포함되는 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 정렬 코퍼스-여기서 정렬 코퍼스는 파괴 표현에 대응되는 정상 표현 정보를 저장하는 코퍼스임-에 존재하는 지의 여부를 판단하는 단계; 및 파괴 표현이 상기 정렬 코퍼스에 존재하는 경우, 해당 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 단계를 포함한다.
여기서, 상기 형태소 분석을 수행하는 단계는, 형태소별 접속 정보를 저장하는 기 분석 사전을 사용하여 형태소에 대해 조합 가능한 형태소를 추출하는 단계; 및 추출되는 형태소에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 단계를 포함한다.
또한, 상기 형태소 후보가 형태소 사전에 존재하는 지의 여부를 판단하는 단계 전에, 상기 정렬 코퍼스를 생성하는 단계를 더 포함한다.
또한, 상기 정렬 코퍼스를 생성하는 단계는, 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및 상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계를 포함한다.
본 발명에 따르면, 파괴 표현이 포함된 파괴 문장을 정확하게 형태소 분석할 수 있다.
또한, 파괴 표현과 정상 표현의 정렬 정보를 보조 형태소 사전으로 사용함으로써 일반 형태소 분석기가 파괴 문장 형태소 분석뿐만 아니라 정상적인 표현으로 바꿔주는 기능까지 가능하게 하는 효과가 있다.
또한, 파괴 표현과 정상 표현의 정렬 정보 및 자율 학습을 통한 정렬을 통해 파괴 표현과 정상 표현의 다양한 관계를 수치화함으로서 여러 종류 파괴에 대한 대응을 가능하게 해준다.
도 1은 일반적인 형태소 분석 장치를 개략적으로 도시한 블록도이다.
도 2는 일반적인 형태소 분석 방법의 흐름도이다.
도 3은 본 발명의 실시예에 따른 형태소 분석 장치의 구성 블록도이다.
도 4는 도 3에 도시된 형태소 분할부의 구체적인 구성 블록도이다.
도 5는 도 3에 도시된 파괴 표현-정상 표현 정렬 코퍼스를 생성하는 장치의 구성 블록도이다.
도 6은 도 5에 도시된 병렬 코퍼스 구축부의 구성 블록도이다.
도 7은 본 발명의 실시예에 따른 형태소 분석 방법의 흐름도이다.
도 8은 다수의 언어에 통용되는 범용적인 형태소 분석 장치의 구조를 개략적으로 도시한 도면이다.
도 9는 도 8에 도시된 형태소 분석 장치에 본 발명의 실시예에 따른 파괴 표현-정상 표현 정렬 코퍼스가 적용된 예를 도시한 도면이다.
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
먼저, 일반적인 형태소 분석 장치에 대해 설명한다.
도 1은 일반적인 형태소 분석 장치를 개략적으로 도시한 블록도이다.
도 1을 참조하면, 일반적인 형태소 분석 장치(10)에서, 형태소 분할기(13)는 사전 DB(11)의 형태소 사전(11-1)을 참조하여 입력되는 어절을 이루고 있는 모든 가능한 형태소들을 분할하고, 접속 정보 체크기(15)는 사전 DB(11)의 기 분석 사전(11-3)을 참조하여 형태소 분할기(13)에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출하여 최종 형태소 분석 결과로써 출력한다.
도 2는 일반적인 형태소 분석 방법의 흐름도이다.
도 2를 참조하면, 형태소 분할기(13)가 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성하고(S10), 생성되는 형태소 후보들에 대해 형태소 사전(11-1)을 체크하여(S20) 형태소 사전(11-1)에 있는 경우 접속 정보 체크기(15)가 접속 정보를 체크하여 최종 분석 결과를 출력한다(S30).
그런데, 이 때 상기 단계(S20)에서 형태소 후보가 형태소 사전(11-1)에 없는 경우에는 형태소 사전(11-1)에 등록되지 않은 단어(Out-of dictionary word 또는 Out-of-Vocabulary(OOV))로 인식하거나 또는 유효하지 않은 형태소로 인식하여 형태소 분석 실패로 처리된다(S40).
본 발명의 실시예에서 대상이 되는 파괴 표현들이 상기한 일반적인 형태소 분석 장치(10)에서 등록되지 않은 단어 또는 유효하지 않은 형태소로 인식될 수 있다.
이하, 본 발명의 실시예에서 대상이 되는 파괴 표현에 대해 설명한다.
한국어 메시지 사용에 있어서 맞춤법 오류가 포함된 한국어 파괴 표현들이 대량 유통되고 있고, 네티즌 특히 초등학생들 사이에 새롭게 만들어지고 유행되고 있는 "외계어" 사용의 일상으로 한글 파괴 현상은 학자들이 우려할 수준까지 이르고 있다.
이하, 상기한 한국어 파괴 문장의 파괴 유형들에 대해 설명한다.
(1) 맞춤법 오류
많은 파괴 문장들은 철자 오류를 내포하고 있다. 철자 오류는 정확한 철자를 몰라서 범하는 오류 또는 정확한 철자를 무시하여 범하는 오류이다. 예들 들면, '만났다'를 '만나따'로, '싶어졌다'를 '시퍼져따', '있어'를 '잇서', '됐어'를 '돼써'로 표현하는 파괴 표현이 있다. 이런 종류의 오류들은 음에 따라 표기하는 특징을 보이고 있으며 때로는 음에 따라 표기함으로써 새로운 뉘앙스를 나타내는 수단으로 사용된다.
다른 종류의 철자 오류는 오타로 야기 된 오류들이다. 특히, 스마트폰과 같이 상대적으로 작은 화면에 이동 중 문자 입력으로 오타가 빈번히 발생한다. 이런 오류들은 타이핑해야 할 키에 인접한 키들이 입력되는 특징을 보이고 있다. 예를 들면, '남자친구'를 '남자 틴구'로 잘못 입력하는 것으로, 이는 'ㅊ'을 'ㅌ'으로 잘못 타이핑한 경우이고, '나이'를 '니이'로 입력하여 'ㅏ'를 'ㅣ'로 잘못 타이핑한 경우이다. 특히, 'ㅈ'과 'ㄷ', 'ㅌ'과 'ㅊ', 'ㅑ'과 'ㅕ', 'ㅠ'과 'ㅜ'는 자주 서로 오타로 입력될 확률이 높다.
(2) 신조어
신조어 중 한 종류는 신생 줄임말이다. 예를 들어, '근자감'은 '근거 없는 자신감'의 줄임말이고, '고터'는 '고속터미널'의 줄임말이며, '버카'는 '버스 카드'의 줄임말이고, '여병추'는 '여기 병신 추가'의 줄임말이며, 그리고 '깜놀'은 '깜짝 놀라다'의 줄임말로 네티즌 사이에 통용되고 있다.
다른 종류의 신조어로는 '죠'를 '죵'과 같이 'ㅇ'을 붙여 조금 더 귀엽거나, 깜찍한 느낌을 전달하는데 사용된다.
상기 두 가지 유형은 아니지만, 기존의 정상 문장 기반 자연 언어 처리 시스템에 도전이 되고 있는 다른 문제점은 외국어 음역의 여러 버전의 통용이다. 예를 들어, 스타일리시 <=> 스타일리쉬, 콩구레츄레이션 <=> 콩그레츄레이션 등의 사용이 있다.
외국어와 한국어 발음의 차이로 1:1의 음역이 어려워 위와 같이 여러 음역 버전이 존재하게 되고, 또한 이러한 상황에서 음역 표준의 설정이 어려울 뿐만 아니라 표준이 설정되어 있더라도 실생활에서 지켜지지 않을 가능성이 더욱 높다.
이와 같이, 상기한 파괴 표현이 포함된 파괴 문장들이 상기한 일반적인 형태소 분석 장치(10)를 통해 형태소 분석이 이루어지는 경우, 형태소 사전(11-1)에 없어 형태소 분석이 이루어지지 못하게 됨으로써 기존의 자연 언어 처리 기술이나 기계 번역 등이 순조롭게 수행될 수 없게 된다.
이하, 상기한 문제점을 해결하기 위한 본 발명의 실시예에 대해 설명한다.
도 3은 본 발명의 실시예에 따른 형태소 분석 장치의 구성 블록도이다.
도 3에 도시된 바와 같이, 본 발명의 실시예에 따른 형태소 분석 장치(100)는 사전 데이터베이스(DB)(110), 형태소 분할부(120), 접속 정보 체크부(130) 및 원형 복원부(140)를 포함한다.
사전 DB(110)는 입력 어절에 대한 형태소 분석시 사용되는 각종의 사전 정보를 저장한다. 이러한 사전 DB(110)에는 형태소 분석시 사용되는 형태소 사전(111), 파괴 표현, 이에 대응되는 정상 표현, 그리고 파괴 표현과 정상 표현의 관련성을 수치화한 값인 상관 확률을 저장하고 형태소 분석시 사용되는 파괴 표현-정상 표현 정렬 코퍼스(113) 및 접속 정보 체크 및 원형 복원시에 사용되는 기 분석 사전(115)이 포함된다. 그 외에도 언어별로 형태소 분석에 사용되는 다양한 형태의 사전 정보가 저장될 수 있다. 여기서, 파괴 표현-정상 표현 정렬 코퍼스(corpus)(113)는 보편적으로 사용되는 파괴 표현을 포함하는 파괴 문장과 이에 대응되는 정상 문장을 포함하는 병렬 코퍼스를 구축하고, 구축된 병렬 코퍼스의 각 문장 내 파괴 표현과 정상 표현의 최적 정렬을 자율 학습하여 생성된다. 이에 대해서는 추후 구체적으로 설명한다. 한편, 언어 처리에서 사용되는 코퍼스(corpus)와 형태소 분석의 의미에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.
형태소 분할부(120)는 사전 DB(110)의 형태소 사전(111)과 파괴 표현-정상 표현 정렬 코퍼스(113)를 참조하여 입력되는 어절을 이루고 있는 모든 가능한 형태소들을 분할한다. 이 때, 형태소 분할부(120)는 입력 어절에서 분할되는 형태소가 형태소 사전(111)에는 없으나 파괴 표현-정상 표현 정렬 코퍼스(113)에는 있는 경우, 해당 형태소에 대응되는 정상 표현을 사용하여 형태소 분할을 수행한다.
접속 정보 체크부(130)는 사전 DB(110)의 기 분석 사전(115)을 참조하여 형태소 분할기(120)에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출한다.
원형 복원부(140)는 접속 정보 체크부(130)에 의해 추출되는 형태소들에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력한다.
도 4는 도 3에 도시된 형태소 분할부(120)의 구체적인 구성 블록도이다.
도 4에 도시된 바와 같이, 형태소 분할부(120)는 후보군 생성기(121), 정상 표현 체크기(122), 파괴 표현 체크기(123), 분할 처리기(124) 및 제어기(125)를 포함한다.
후보군 생성기(121)는 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성한다.
정상 표현 체크기(122)는 후보군 생성기(121)에서 생성되는 형태소 후보에 대해 형태소 사전(111)을 참조하여 해당 형태소 후보의 존재 여부를 체크한다.
파괴 표현 체크기(123)는 정상 표현 체크기(122)에 의해 형태소 후보가 형태소 사전(111)에 존재하지 않는 것으로 판단되는 경우 입력 어절의 파괴 표현에 대해 파괴 표현-정상 표현 정렬 코퍼스(113)를 참조하여 해당 파괴 표현에 대응되는 정상 표현의 존재 여부를 체크한다.
분할 처리기(124)는 정상 표현 체크기(122)에 의해 형태소 후보가 형태소 사전(111)에 존재하는 것으로 판단되는 경우 해당 형태소 후보를 입력 어절로부터 형태소 분할 처리한다.
제어기(125)는 후보군 생성기(121), 정상 표현 체크기(122), 파괴 표현 체크기(123) 및 분할 처리기(124)를 제어하여, 입력 어절을 형태소들로 분할 처리하고, 최종 분할 처리된 형태소들을 접속 정보 체크부(130)로 전달한다. 특히, 제어기(125)는 파괴 표현 체크기(123)에 의해 파괴 표현에 대응되는 정상 표현이 존재하는 것으로 체크되는 경우 해당 정상 표현을 사용하여 후보군 생성기(121)가 다시 형태소 후보를 생성하고, 생성되는 형태소 후보들에 대해 정상 표현 체크기(122)가 형태소 후보의 존재 여부를 체크하도록 제어를 수행한다.
다음, 도 3에 도시된 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 내용에 대해 설명한다.
도 5는 도 3에 도시된 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 장치(200)의 구성 블록도이다.
도 5에 도시된 바와 같이, 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 장치(200)는 병렬 코퍼스 구축부(210) 및 자율 학습부(220)를 포함한다.
병렬 코퍼스 구축부(210)는 보편적으로 사용되는 파괴 표현이 포함된 파괴 문장을 수집하여 파괴 문장에 대응되는 정상 문장을 생성하여 파괴 문장과 정상 문장의 쌍들을 저장하는 파괴 문장-정상 문장 병렬 코퍼스(221)를 구축한다.
자율 학습부(220)는 병렬 코퍼스 구축부(210)에 의해 구축되는 파괴 문장-정상 문장 병렬 코퍼스(221)와, 이 파괴 문장-정상 문장 병렬 코퍼스(221)에 대해 자율 기계 학습 방법을 사용하여 파괴 표현과 정상 표현의 단일 음절, 다 음절 또는 단어들 사이의 최적 정렬 확률값을 학습하여 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 자율 학습 정렬부(222)를 포함한다.
이러한 자율 학습 정렬부(222)는 초기화기(2221), E(Expectation)-스텝 처리기(2222), M(Maximization)-스텝 처리기(2223) 및 제어기(2224)를 포함한다.
초기화기(2221)는 파괴 문장-정상 문장 병렬 코퍼스(221)에서 주어진 문자열에서 관련 부속 문자열 쌍(sub-string pair)을 랜덤이나 기타 초기화 방법론으로 설정하고 관련성 확률을 초기화한다.
E-스텝 처리기(2222)는 디코딩을 수행하며, 문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행한다.
M-스텝 처리기(2223)는 확률 계산을 수행하며, 새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산한다.
제어기(2224)는 파괴 문장-정상 문장 병렬 코퍼스(221)에 구축되어 있는 파괴 문장과 정상 문장의 문자열을 초기화기(2221)로 입력시키고, M-스텝 처리기(2223)의 확률 계산 후 자율 학습의 정지 조건이 만족될 때까지 E-스텝 처리기(2222) 및 M-스텝 처리기(2223)의 반복 수행(iteration)을 제어하며, 정지 조건이 만족되는 경우 최종 출력의 문자열, 즉 파괴 표현, 정상 표현 및 상관 확률로 이루어진 결과를 파괴 표현-정상 표현 정렬 코퍼스(113)에 저장한다.
상기한 E-스텝 처리기(2222)와 M-스텝 처리기(2223)가 각각 수행하는 E-스텝 처리 및 M-스텝 처리에 대해서는 추후 구체적으로 설명한다.
다음, 도 5에 도시된 병렬 코퍼스 구축부(210)가 파괴 문장-정상 문장 병렬 코퍼스(221)를 구축하는 내용에 대해 설명한다.
도 6은 도 5에 도시된 병렬 코퍼스 구축부(210)의 구성 블록도이다.
도 6에 도시된 바와 같이, 병렬 코퍼스 구축부(210)는 파괴 문장 수집기(211), 보편성 판단기(212), 정상 문장 생성기(213) 및 구축기(214)를 포함한다.
파괴 문장 수집기(211)는 모바일 SMS(Short Message Service) 카톡 메시지 및 인터넷 트위터 등을 통해 일정량의 파괴 문장을 수집한다. 이러한 파괴 문장으로 예를 들어 100만개의 파괴 문장이 수집되어 사용될 수 있다. 또한, 파괴 문장은 온라인을 통해 수집되거나 또는 운용자에 의해 수집된 파괴 문장들이 입력 수단을 통한 입력에 의해 수집될 수 있다.
보편성 판단기(212)는 파괴 문장 수집기(211)에 의해 수집된 파괴 문장에 포함된 파괴 표현을 쿼리로써 온라인을 통한 검색을 수행하고, 이러한 쿼리에 따른 결과물의 양을 기준으로 보편적으로 사용되는 파괴 표현 여부를 판단하여 해당 파괴 표현에 대한 보편성을 판단한다. 이러한 파괴 표현의 보편성 판단은 네이버, 다음, 구글 등의 웹 검색을 통해 자동으로 실행될 수 있다.
정상 문장 생성기(213)는 보편성 판단기(212)에 의해 보편성이 있다고 판단된 파괴 표현에 대해 대응되는 정상 표현을 생성한다. 이러한 정상 표현의 생성은 웹 검색을 통해 자동으로 수행될 수도 있고, 또는 운용자에 의해 직접 수행될 수도 있다.
구축기(214)는 정상 문장 생성기(213)에 의해 생성되는 정상 문장을 대응되는 파괴 문장과 함께 하나의 쌍으로 형성하여 파괴 문장-정상 문장 병렬 코퍼스(221)로 구축한다.
이하, 도 5에 도시된 자율 학습 정렬부(222)가 파괴 문장-정상 문장 병렬 코퍼스(221)에 대해 자율 학습 정렬을 수행하여 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 방법에 대해 구체적으로 설명한다.
우선, 본 발명의 실시예에 따른 파괴 문장과 정상 문장의 정렬은 자율 기계 학습 방법에 따라 자율적으로 수행되어 전체 코퍼스의 값이 최고로 되는 정렬을 구하고 정렬의 확률값을 설정해 나가는 방법이 사용된다. 이 때, 최적의 정렬을 구하고 정렬의 확률값을 설정해 나가는 방법으로 본 발명의 실시예에서는 EM(Expectation-Maximization) 알고리즘을 사용하지만, 기타 자율 및 반 자율 기반의 다른 방법을 사용하여 수행될 수도 있다.
먼저, 본 발명의 실시예에서는
Figure 112013089727045-pat00001
가 문자열
Figure 112013089727045-pat00002
을 나타내고,
Figure 112013089727045-pat00003
Figure 112013089727045-pat00004
을 나타내는 것으로 가정한다.
EM 알고리즘을 이용하여 정렬 작업을 수행하기 위하여, 파괴 표현과의 최적 정상 표현 문자열을 찾는 디코딩 단계(E-스텝)와 각 문자열 간 확률을 학습하는 단계(M-스텝)가 필요하다. 이러한 과정은 아래와 같이 3 단계로 진행된다.
1) 초기화 단계(스텝-1)
주어진 파괴 문자열에서 관련 부속 문자열 쌍을 랜덤이나 기타 초기화 방법론으로 설정하고 관련성 확률 값은 0으로 초기화한다. 즉 임의 파괴 문자열
Figure 112013089727045-pat00005
와 정상 문자열
Figure 112013089727045-pat00006
의 정렬 확률 값
Figure 112013089727045-pat00007
로 설정한다.
2) 기대(Expectation) 단계(스텝-2)
이 단계는 입력된 파괴 문장과 정상 문장에서 파괴 문자열과 정상 문자열 쌍들을 구하는 단계이다.
이 단계에서는 현재 확률 값에 따라 동적 프로그래밍 디코딩 방법에 따라 주어진 문자열 쌍
Figure 112013089727045-pat00008
Figure 112013089727045-pat00009
에서 각각 대응되는 부속 문자열 쌍들을 구한다.
구체적인 디코딩 과정은 아래와 같다.
파괴 표현 문자열
Figure 112013089727045-pat00010
과 정상 표현 문자열
Figure 112013089727045-pat00011
에 대하여,
Figure 112013089727045-pat00012
는 파괴 표현 문자열
Figure 112013089727045-pat00013
과 정상 표현 문자열
Figure 112013089727045-pat00014
까지의 정렬 스코어를 뜻한다. 이 경우, 파괴 표현
Figure 112013089727045-pat00015
과 정상 표현
Figure 112013089727045-pat00016
의 대응된 부속 문자열 쌍을 구하는 과정은 아래의 부속 단계 1 내지 3에 의해 수행된다.
<부속 단계 1>
Figure 112013089727045-pat00017
초기화 단계로서, 어떤 문자열도 포함이 되지 않은
Figure 112013089727045-pat00018
의 값을 0으로 설정한다.
<부속 단계 2>
Figure 112013089727045-pat00019
파괴 표현 문자열
Figure 112013089727045-pat00020
과 정상 표현 문자열
Figure 112013089727045-pat00021
까지의 정렬 스코어
Figure 112013089727045-pat00022
는 파괴 표현 문자열
Figure 112013089727045-pat00023
와 정상 표현 문자열
Figure 112013089727045-pat00024
까지의 정렬 스코어
Figure 112013089727045-pat00025
와 파괴 표현 문자열
Figure 112013089727045-pat00026
와 정상 표현 문자열
Figure 112013089727045-pat00027
까지의 정렬 가중치 값
Figure 112013089727045-pat00028
의 합의 최대값(max)이다.
여기서,
Figure 112013089727045-pat00029
Figure 112013089727045-pat00030
Figure 112013089727045-pat00031
의 정렬 확률
Figure 112013089727045-pat00032
의 로그(log)값이고,
Figure 112013089727045-pat00033
는 EM 알고리즘의 상기한 스텝-1 단계와 후술할 스텝-3 단계에서 계산이 된 값이다.
<부속 단계 3>
상기한 부속 단계 2에 따라 파괴 표현 문자열에 대해 1에서 n까지, 그리고 정상 표현 문자열에 대해 1에서 m까지 순차적으로 계산된 정렬 스코어
Figure 112013089727045-pat00034
은 파괴 표현 문자열
Figure 112013089727045-pat00035
과 정상 표현 문자열
Figure 112013089727045-pat00036
까지의 최고 정렬 값이다.
3) 최대화(Maximization) 단계(스텝-3)
이 단계는 상기한 스텝-2 단계에서 정렬된 파괴 표현 문자열과 정상 표현 문자열의 쌍의 통계에 따른 확률 값을 구하는 단계로서, 최고값이 되도록 정렬이 된 각 부속 문자열 쌍에 대하여 백 트래킹(back-tracking)하는 방법으로 파괴 표현 문자열에 대응되는 정상 표현 문자열을 찾아준다.
구체적으로, 스텝-2 단계 각각의 부속 문자열 쌍들을 카운트하여
Figure 112013089727045-pat00037
에 따라 현시점에서 대응되는 문자열들의 확률 값을 추정한다. 여기서,
Figure 112013089727045-pat00038
는 전체 병렬 코퍼스에서
Figure 112013089727045-pat00039
Figure 112013089727045-pat00040
가 함께 출현하는 회수를 나타내고,
Figure 112013089727045-pat00041
는 전체 병렬 코퍼스에서
Figure 112013089727045-pat00042
이 출현하는 회수를 나타낸다.
상기한 스텝-3 단계 이후, 종결 조건이 만족되지 않는 경우, 종결 조건이 만족될 때까지 상기한 스텝-2 단계와 스텝-3 단계가 반복되어 수행된다. 이 때의 반복은 이전의 스텝-3의 결과 값이 반영되어 수행된다.
상기한 종결 조건이 만족되어 파괴 표현과 정상 표현의 정렬이 완료되면, 해당 파괴 표현과 정상 표현 그리고 이들 간의 상관 확률을 표현-정상 표현 정렬 코퍼스(113)에 저장한다.
예로써, 파괴 문장-정상 문장 병렬 코퍼스(221)에 기재된 파괴 문장이 "간만에 만낫따"이고, 이에 대응되어 기재된 정상 문장이 "간만에 만났다"인 경우, 상기한 과정을 통해 파괴 표현-정상 표현 정렬 코퍼스(113)에는 "만낫따::만났다::0.5947", "낫따::났다::0.1201", "따::다::0.3210" 등이 생성되어 저장될 수 있다. 이 때, 파괴 표현-정상 표현 정렬 코퍼스(113)에 기재되는 형식은 "파괴 표현::정상 표현::상관 확률"이다. 여기서, 상관 확률은 상기한 스텝-1 및 스텝-3에서 구해진 파과 표현과 정상 표현의 정렬 확률 값이 해당될 수 있다.
이하, 도 7을 참조하여 본 발명의 실시예에 따른 형태소 분석 방법에 대해 설명한다.
도 7은 본 발명의 실시예에 따른 형태소 분석 방법의 흐름도이다.
설명 전에, 먼저 장치(200)의 병렬 코퍼스 구축부(210)에 의해 파괴 문장-정상 문장 병렬 코퍼스(221)가 구축된 후, 구축된 파괴 문장-정상 문장 병렬 코퍼스(221)에 대해 자율 학습부(220)가 자율 학습 기반의 최적 정렬을 수행하여 파괴 표현-정상 표현 정렬 코퍼스(113)를 미리 생성한 상태임을 가정한다.
도 7을 참조하면, 형태소 분석을 위한 어절이 입력되면(S100), 형태소 분할부(120)는 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성한다(S110).
그 후, 형태소 분할부(120)는 생성되는 형태소 후보들에 대해 형태소 사전(111)을 체크하여(S120) 형태소 사전(111)에 있는 경우 접속 정보 체크부(130)로 전달하여 해당 형태소에 대한 접속 정보가 체크되도록 한다(S130).
이와 같이, 접속 정보가 체크된 후에는 원형 복원부(140)가 해당 형태소에 대한 원형 복원을 수행하여(S140) 최종 분석 결과를 출력한다.
그런데, 이 때 입력 어절이 파괴 표현에 해당되는 경우에는 상기 단계(S120)에서 형태소 후보가 형태소 사전(111)에 없으므로, 형태소 분할부(120)는 해당 형태소 후보에 대해 파괴 표현-정상 표현 정렬 코퍼스(113)를 체크한다(S150).
만약 입력 어절의 파괴 표현이 이전의 자율 학습 기반의 최적 정렬을 통해 파괴 표현-정상 표현 정렬 코퍼스(113) 내에 있는 경우, 형태소 분할부(120)는 해당 파괴 표현에 대응되는 정상 표현을 확인한 후(S160), 확인되는 정상 표현에 대해 상기한 형태소 후보를 생성하는 단계(S110)부터 반복 수행한다. 이 때, 확인되는 정상 표현에 대해서 생성되는 형태소 후보들은 이미 형태소 사전(111)에 있으므로 상기 형태소 사전(111)을 체크하는 단계에서 해당 형태소가 있는 것으로 체크되어 그 이후의 단계(S130, S140)가 계속 수행되어 최종 분석 결과가 출력될 수 있게 된다.
한편, 입력 어절이 파괴 표현이나 상기한 바와 같은 자율 학습 기반의 최적 정렬을 통해 파괴 표현-정상 표현 정렬 코퍼스(113)에 생성되어 있지 않거나 또는 기타 오류의 어절에 해당되는 경우에는, 상기 단계(S150)에서 해당 어절이 파괴 표현-정상 표현 정렬 코퍼스(113)에 없으므로 이들 어절에 대해서는 형태소 사전(111)에 등록되지 않은 단어(Out-of dictionary word 또는 Out-of-Vocabulary(OOV))로 인식하거나 또는 유효하지 않은 형태소로 인식하여 형태소 분석 실패로 처리된다(S170).
이와 같이, 기존의 형태소 분석에서는 파괴 표현들이 포함된 파괴 문장에 대해 행태소 분석시 해당 형태소가 형태소 사전에 없다는 이유로 OOV 단어로 판단되어 파괴 표현에 대하여 오인식되지만, 본 발명의 실시예에서는 파괴 표현들에 대해 자율 학습 기반의 최적 정렬을 통해 파괴 표현에 대응되는 정상 표현을 파괴 표현-정상 표현 정렬 코퍼스(113) 형태로 구축해둠으로써, 이들 파괴 표현들에 대해 형태소 사전(111)에 없더라도 파괴 표현-정상 표현 정렬 코퍼스(113)에 대한 파괴 표현 체크를 수행하여 대응되는 정상 표현을 찾아서 정확한 형태소 분석을 수행할 수 있다.
한편, 본 발명의 실시예에서는 파괴 표현에 대응되는 정상 표현으로의 복원을 위하여 파괴 표현-정상 표현 정렬 코퍼스(113) 구축시에 파괴 문장 내 파괴 표현과 정상 표현의 최적 정렬을 자율 학습하여 확률 값으로 구하여 파괴 표현과 정상 표현에 대한 상관 확률로써 제공함으로써 파괴 표현의 다양성을 수치화할 수 있다. 즉, 형태소 분석시 형태소 사전(111)을 통하여 형태소 있음 여부를 판단하는 때에 각 문자열이 형태소일 확률로써 수치화하여 표현한다. 예를 들어, 형태소 있음과 없음으로 판단하던 것을 0(없음)과 1(있음) 사이의 수치로 표현하여 형태소 분석시 중의성 해결을 위한 수치화된 정보를 제공할 수 있게 된다.
한편, 상기에서는 한국어에 대한 형태소 분석에 대해서 설명하였으나, 영어 등 기타 언어에서도 한국어와 같이 파괴 표현들이 빈번히 사용되고 있고, 파괴 표현이 포함된 파괴 문장 처리에 있어 기존의 정상 문장 기반 언어 처리 방법론으로는 분명히 한계가 있다. 예를 들어, 첨부한 도 8에 도시된 바와 같이, 일반적인 형태소 분석 장치의 경우 형태소 분석을 수행하는 형태소 분석기(300)가 형태소 분석에 참조할 지식(400)을 참조하여 해당 언어에 대한 형태소 분석을 수행한다. 이 때, 형태소 분석에 참조할 지식(400)으로는 예를 들어 형태소 사전이 포함된다.
언어와 언어 간 형태론적 차이로 인해 언어별 형태소 분석에 있어서 구체적인 분석 과정 및 각 분석 과정에 필요한 지식은 서로 다를 수 있다. 예를 들어, 한국어의 경우에는 상기한 도 1에서와 같이 형태소 분할, 접속 정보 체크 및 원형 복원 등의 구성요소 또는 과정으로 나뉠 수 있고, 참조 지식(400)도 형태소 사전(11-1)과 같이 구체화될 수 있다.
따라서, 영어 등 기타 언어에 대해서도 한국어에 대해 상기에서 설명한 바와 같은 내용을 참조하여 대응시키는 경우, 도 9에 도시된 바와 같이 파괴 문장과 정상 문장의 병렬 코퍼스를 구축한 후, 구축된 파괴 문장과 정상 문장의 병렬 코퍼스에 대해 자율 학습 기반의 최적 정렬을 수행하여 파괴 표현-정상 표현 정렬 코퍼스(620)를 생성하여 적용함으로써 형태소 분석기(500)가 형태소 사전(610)에 없는 파괴 표현들에 대해 파괴 표현-정상 표현 정렬 코퍼스(620)를 체크하여 파괴 표현에 해당하는 정상 표현을 찾아서 정상적인 형태소 분석을 수행할 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims (20)

  1. 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및
    상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계를 포함하고,
    상기 병렬 코퍼스를 구축하는 단계는,
    네트워크를 통해 다수의 파괴 문장을 수집하는 단계;
    수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 단계;
    수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 단계; 및
    생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 단계를 포함하는
    것을 특징으로 하는 정렬 코퍼스 생성 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 보편성을 판단하는 단계에서,
    상기 쿼리에 따른 검색의 결과물의 양을 기준으로 기준 양을 초과하는 경우 해당 파괴 표현이 보편성을 갖는 것으로 판단하고,
    상기 보편성의 판단은 다수의 포털 사이트를 통한 웹 검색을 통해 자동으로 실행되는
    것을 특징으로 하는 정렬 코퍼스 생성 방법.
  4. 제1항에 있어서,
    상기 정렬 코퍼스를 생성하는 단계는,
    상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 단계;
    문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 단계;
    새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 단계; 및
    자율 학습의 정지 조건이 만족될 때가지 상기 매치를 수행하는 단계 및 계산하는 단계를 반복 수행하고, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률-여기서 상관 확률은 상기 파괴 표현과 정상 표현의 정렬 확률 값임-을 상기 정렬 코퍼스에 저장하는 단계
    를 포함하는 정렬 코퍼스 생성 방법.
  5. 제1항 및 제3항 내지 제4항 중 어느 한 항에 있어서,
    상기 정렬 코퍼스를 생성하고자 수행되는 자율 학습 기반으로 정렬을 구하고 정렬의 확률 값을 설정해나가기 위해 EM(Expectation-Maximization) 알고리즘이 사용되는 것을 특징으로 하는 정렬 코퍼스 생성 방법.
  6. 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 병렬 코퍼스 구축부; 및
    상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 자율 학습부를 포함하고,
    상기 병렬 코퍼스 구축부는,
    네트워크를 통해 다수의 파괴 문장을 수집하는 파괴 문장 수집기;
    상기 파괴 문장 수집기에 의해 수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 보편성 판단기;
    수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 정상 문장 생성기; 및
    상기 정상 문장 생성기에 의해 생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 구축기를 포함하는
    것을 특징으로 하는 정렬 코퍼스 생성 장치.
  7. 제6항에 있어서,
    상기 자율 학습부는,
    상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스; 및
    상기 병렬 코퍼스에 대해 자율 학습 방법을 사용하여 파괴 표현과 정상 표현의 단일 음절, 다 음절 또는 단어들 사이의 최적 정렬 확률값을 학습하여 상기 정렬 코퍼스를 생성하는 자율 학습 정렬부
    를 포함하는 정렬 코퍼스 생성 장치.
  8. 삭제
  9. 제7항에 있어서,
    상기 자율 학습 정렬부는,
    상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 초기화기;
    문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 E-스텝 처리기;
    새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 M-스텝 처리기; 및
    상기 병렬 코퍼스에 구축되어 있는 파괴 문장과 정상 문장의 문자열을 상기 초기화기로 입력시키고, 상기 M-스텝 처리기의 확률 계산 후 자율 학습의 정지 조건이 만족될 때까지 상기 E-스텝 처리기 및 M-스텝 처리기의 반복 수행을 제어하며, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률이 저장되는 상기 정렬 코퍼스를 생성하는 제어기
    를 포함하는 정렬 코퍼스 생성 장치.
  10. 언어별 형태소 분석에 사용되는 다수의 지식 정보를 저장하되, 정상 표현에 대응되는 형태소 정보를 저장하는 형태소 사전과 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-에 대응되는 정상 표현 정보를 저장하는 정렬 코퍼스를 포함하는 지식 데이터베이스; 및
    입력되는 어절에 대해 상기 지식 데이터베이스를 사용하여 형태소 분석을 수행하여 분석 결과를 출력하되, 입력 어절에 대한 형태소가 상기 형태소 사전에 없는 경우, 상기 입력 어절에 포함된 파괴 표현에 대해 상기 정렬 코퍼스를 사용하여 상기 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 분석기를 포함하고,
    상기 정렬 코퍼스는 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬하여 생성되며, 파괴 표현과 이 파괴 표현에 대응되는 정상 표현 사이의 정렬 확률 값인 상관 확률을 포함하는
    것을 특징으로 하는 형태소 분석 장치.
  11. 제10항에 있어서,
    상기 지식 데이터베이스가 형태소별 접속 정보를 저장하는 기 분석 사전을 더 포함하고,
    상기 분석기는,
    상기 형태소 사전을 사용하여 상기 입력 어절을 이루고 있는 형태소들을 분할하되, 상기 입력 어절을 이루고 있는 형태소가 상기 형태소 사전에 없는 경우 상기 정렬 코퍼스를 사용하여 대응되는 정상 표현을 사용하여 형태소 분할을 수행하는 형태소 분할부;
    상기 기 분석 사전을 사용하여 상기 형태소 분할부에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출하는 접속 정보 체크부; 및
    상기 접속 정보 체크부에 의해 추출되는 형태소들에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 원형 복원부
    를 포함하는 형태소 분석 장치.
  12. 제11항에 있어서
    상기 형태소 분할부는,
    상기 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성하는 후보군 생성기;
    상기 후보군 생성기에서 생성되는 형태소 후보에 대해 상기 형태소 사전을 사용하여 해당 형태소 후보의 존재 여부를 체크하는 정상 표현 체크기;
    상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 해당 형태소 후보에 대해 상기 정렬 코퍼스를 사용하여 상기 입력 어절의 파괴 표현의 존재 여부를 체크하는 파괴 표현 체크기;
    상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하는 것으로 판단되는 경우 해당 형태소 후보를 입력 어절로부터 형태소 분할 처리하는 분할 처리기; 및
    상기 후보군 생성기, 상기 정상 표현 체크기, 상기 파괴 표현 체크기 및 상기 분할 처리기를 제어하여 상기 입력 어절에 대한 형태소 분할이 수행되도록 하되, 상기 후보군 생성기에서 생성되는 형태소 후보가 상기 정상 표현 체크기에 의해 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 상기 파괴 표현 체크기를 통해 대응되는 정상 표현을 찾아서 상기 후보군 생성기로 재입력 제어하는 제어기
    를 포함하는 형태소 분석 장치.
  13. 삭제
  14. 삭제
  15. 제10항 내지 제12항 중 어느 한 항에 있어서,
    형태소 분석시 상기 형태소 사전을 통해 형태소 존재 여부를 판단하는 때에 상기 상관 확률을 사용하여 해당 각 문자열이 형태소일 확률로써 수치화하여 표현하는 것을 특징으로 하는 형태소 분석 장치.
  16. 제10항 내지 제12항 중 어느 한 항에 있어서,
    상기 정렬 코퍼스는 EM(Expectation-Maximization) 알고리즘 기반으로 생성되는 것을 특징으로 하는 형태소 분석 장치.
  17. 입력되는 어절을 형태소로 분할하여 형태소 후보를 생성하는 단계;
    형태소 후보가 형태소 사전-여기서 형태소 사전은 정상 표현에 대응되는 형태소 정보를 저장하는 사전임-에 존재하는 지의 여부를 판단하는 단계;
    형태소 후보가 상기 형태소 사전에 존재하는 경우 해당 형태소 분석을 수행하는 단계;
    형태소 후보가 상기 형태소 사전에 존재하지 않는 경우, 상기 입력되는 어절에 포함되는 파괴 표현-여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임-이 정렬 코퍼스-여기서 정렬 코퍼스는 파괴 표현에 대응되는 정상 표현 정보를 저장하는 코퍼스임-에 존재하는 지의 여부를 판단하는 단계; 및
    파괴 표현이 상기 정렬 코퍼스에 존재하는 경우, 해당 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 단계를 포함하고,
    상기 정렬 코퍼스는 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬하여 생성되며, 파괴 표현과 이 파괴 표현에 대응되는 정상 표현 사이의 정렬 확률 값인 상관 확률을 포함하는
    것을 특징으로 하는 형태소 분석 방법.
  18. 제17항에 있어서,
    상기 형태소 분석을 수행하는 단계는,
    형태소별 접속 정보를 저장하는 기 분석 사전을 사용하여 형태소에 대해 조합 가능한 형태소를 추출하는 단계; 및
    추출되는 형태소에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 단계
    를 포함하는 형태소 분석 방법.
  19. 제17항에 있어서,
    상기 형태소 후보가 형태소 사전에 존재하는 지의 여부를 판단하는 단계 전에, 상기 정렬 코퍼스를 생성하는 단계를 더 포함하는 형태소 분석 방법.
  20. 제19항에 있어서,
    상기 정렬 코퍼스를 생성하는 단계는,
    파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및
    상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계
    를 포함하는 형태소 분석 방법.
KR20130118062A 2013-10-02 2013-10-02 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 Active KR101509727B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR20130118062A KR101509727B1 (ko) 2013-10-02 2013-10-02 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
PCT/KR2014/007959 WO2015050321A1 (ko) 2013-10-02 2014-08-27 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
JP2016546716A JP6532088B2 (ja) 2013-10-02 2014-08-27 自律学習整列ベースの整列コーパス生成装置およびその方法と、整列コーパスを用いた破壊表現の形態素分析装置およびその形態素分析方法
CN201480054951.5A CN105593845B (zh) 2013-10-02 2014-08-27 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法
US15/026,275 US10282413B2 (en) 2013-10-02 2014-08-27 Device for generating aligned corpus based on unsupervised-learning alignment, method thereof, device for analyzing destructive expression morpheme using aligned corpus, and method for analyzing morpheme thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR20130118062A KR101509727B1 (ko) 2013-10-02 2013-10-02 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법

Publications (1)

Publication Number Publication Date
KR101509727B1 true KR101509727B1 (ko) 2015-04-07

Family

ID=52778882

Family Applications (1)

Application Number Title Priority Date Filing Date
KR20130118062A Active KR101509727B1 (ko) 2013-10-02 2013-10-02 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법

Country Status (5)

Country Link
US (1) US10282413B2 (ko)
JP (1) JP6532088B2 (ko)
KR (1) KR101509727B1 (ko)
CN (1) CN105593845B (ko)
WO (1) WO2015050321A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170000201A (ko) 2015-06-23 2017-01-02 (주)아크릴 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법
KR101839121B1 (ko) * 2015-09-14 2018-04-26 네이버 주식회사 사용자 질의 교정 시스템 및 방법
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
KR20200083111A (ko) * 2018-12-31 2020-07-08 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
KR20210064805A (ko) 2019-11-26 2021-06-03 고려대학교 산학협력단 뇌파 측정 기술을 이용하여 언어 능숙도를 진단하는 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
CN108205757B (zh) * 2016-12-19 2022-05-27 创新先进技术有限公司 电子支付业务合法性的校验方法和装置
US10635862B2 (en) * 2017-12-21 2020-04-28 City University Of Hong Kong Method of facilitating natural language interactions, a method of simplifying an expression and a system thereof
CN116964669A (zh) * 2021-05-14 2023-10-27 深圳市韶音科技有限公司 用于产生音频信号的系统和方法
CN113343719B (zh) * 2021-06-21 2023-03-14 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090061158A (ko) * 2007-12-11 2009-06-16 한국전자통신연구원 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
KR20100015518A (ko) * 2007-03-26 2010-02-12 구글 인코포레이티드 기계 번역에서의 대언어 모델
KR20110061209A (ko) * 2009-12-01 2011-06-09 한국전자통신연구원 후처리 지식 생성 장치

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5477448A (en) * 1994-06-01 1995-12-19 Mitsubishi Electric Research Laboratories, Inc. System for correcting improper determiners
US6708311B1 (en) * 1999-06-17 2004-03-16 International Business Machines Corporation Method and apparatus for creating a glossary of terms
US7010479B2 (en) * 2000-07-26 2006-03-07 Oki Electric Industry Co., Ltd. Apparatus and method for natural language processing
GB2366893B (en) * 2000-09-08 2004-06-16 Roke Manor Research Improvements in or relating to word processor systems or the like
US7043422B2 (en) 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
JP4947861B2 (ja) * 2001-09-25 2012-06-06 キヤノン株式会社 自然言語処理装置およびその制御方法ならびにプログラム
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
FR2841355B1 (fr) * 2002-06-24 2008-12-19 Airbus France Procede et dispositif pour elaborer une forme abregee d'un terme quelconque qui est utilise dans un message d'alarme destine a etre affiche sur un ecran du poste de pilotage d'un aeronef
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
US20050131931A1 (en) * 2003-12-11 2005-06-16 Sanyo Electric Co., Ltd. Abstract generation method and program product
JP2005251115A (ja) * 2004-03-08 2005-09-15 Shogakukan Inc 連想検索システムおよび連想検索方法
US7406416B2 (en) * 2004-03-26 2008-07-29 Microsoft Corporation Representation of a deleted interpolation N-gram language model in ARPA standard format
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム
KR100735308B1 (ko) * 2005-08-30 2007-07-03 경북대학교 산학협력단 단문 메시지에 대한 자동 띄어쓰기 프로그램이 기록된 기록매체
US7747427B2 (en) * 2005-12-05 2010-06-29 Electronics And Telecommunications Research Institute Apparatus and method for automatic translation customized for documents in restrictive domain
US8170868B2 (en) * 2006-03-14 2012-05-01 Microsoft Corporation Extracting lexical features for classifying native and non-native language usage style
EP2109832A4 (en) * 2007-01-10 2010-05-12 Ca Nat Research Council MEDIUM AND METHOD FOR THE AUTOMATIC POST-TRANSMISSION OF TRANSLATIONS
US9465791B2 (en) * 2007-02-09 2016-10-11 International Business Machines Corporation Method and apparatus for automatic detection of spelling errors in one or more documents
JP2008287406A (ja) * 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
US8229728B2 (en) * 2008-01-04 2012-07-24 Fluential, Llc Methods for using manual phrase alignment data to generate translation models for statistical machine translation
JP2009245308A (ja) * 2008-03-31 2009-10-22 Fujitsu Ltd 文書校正支援プログラム、文書校正支援方法および文書校正支援装置
KR101496885B1 (ko) * 2008-04-07 2015-02-27 삼성전자주식회사 문장 띄어쓰기 시스템 및 방법
KR100961717B1 (ko) * 2008-09-16 2010-06-10 한국전자통신연구원 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US20100076764A1 (en) * 2008-09-19 2010-03-25 General Motors Corporation Method of dialing phone numbers using an in-vehicle speech recognition system
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5436868B2 (ja) * 2009-01-13 2014-03-05 Kddi株式会社 正解判定装置、正解判定システム、正解判定方法および正解判定プログラム
WO2010100977A1 (ja) * 2009-03-03 2010-09-10 三菱電機株式会社 音声認識装置
JP2010257021A (ja) * 2009-04-22 2010-11-11 Kddi Corp 文章修正装置、文章修正システム、文章修正方法、文章修正プログラム
KR101027791B1 (ko) * 2009-08-11 2011-04-07 주식회사 케피코 직분식 연료레일의 마운트 구조체
KR101250900B1 (ko) 2009-08-17 2013-04-04 한국전자통신연구원 문서정보 학습기반 통계적 hmm 품사 태깅 장치 및 그 방법
US9020805B2 (en) * 2010-09-29 2015-04-28 International Business Machines Corporation Context-based disambiguation of acronyms and abbreviations
JP5392228B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド 番組検索装置および番組検索方法
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
US9164983B2 (en) * 2011-05-27 2015-10-20 Robert Bosch Gmbh Broad-coverage normalization system for social media language
CA2793268A1 (en) * 2011-10-21 2013-04-21 National Research Council Of Canada Method and apparatus for paraphrase acquisition
US9501759B2 (en) * 2011-10-25 2016-11-22 Microsoft Technology Licensing, Llc Search query and document-related data translation
US9311286B2 (en) * 2012-01-25 2016-04-12 International Business Machines Corporation Intelligent automatic expansion/contraction of abbreviations in text-based electronic communications
US9785631B2 (en) * 2012-03-16 2017-10-10 Entit Software Llc Identification and extraction of acronym/definition pairs in documents
JP5870790B2 (ja) * 2012-03-19 2016-03-01 富士通株式会社 文章校正装置、及び文章校正方法
US9659059B2 (en) * 2012-07-20 2017-05-23 Salesforce.Com, Inc. Matching large sets of words
KR20150024188A (ko) * 2013-08-26 2015-03-06 삼성전자주식회사 음성 데이터에 대응하는 문자 데이터를 변경하는 방법 및 이를 위한 전자 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100015518A (ko) * 2007-03-26 2010-02-12 구글 인코포레이티드 기계 번역에서의 대언어 모델
KR20090061158A (ko) * 2007-12-11 2009-06-16 한국전자통신연구원 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정방법 및 장치
KR20110061209A (ko) * 2009-12-01 2011-06-09 한국전자통신연구원 후처리 지식 생성 장치

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170000201A (ko) 2015-06-23 2017-01-02 (주)아크릴 딥-러닝 기반 형태소 분석 장치와 형태소 분석 애플리케이션의 작동 방법
KR101839121B1 (ko) * 2015-09-14 2018-04-26 네이버 주식회사 사용자 질의 교정 시스템 및 방법
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
KR20200083111A (ko) * 2018-12-31 2020-07-08 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
KR102199835B1 (ko) * 2018-12-31 2021-01-07 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법
KR20210064805A (ko) 2019-11-26 2021-06-03 고려대학교 산학협력단 뇌파 측정 기술을 이용하여 언어 능숙도를 진단하는 방법

Also Published As

Publication number Publication date
WO2015050321A8 (ko) 2015-05-14
CN105593845B (zh) 2018-04-17
US10282413B2 (en) 2019-05-07
WO2015050321A1 (ko) 2015-04-09
JP6532088B2 (ja) 2019-06-19
CN105593845A (zh) 2016-05-18
US20160217122A1 (en) 2016-07-28
JP2016538666A (ja) 2016-12-08

Similar Documents

Publication Publication Date Title
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN101002198B (zh) 用于非罗马字符和字的拼写校正系统和方法
US10073673B2 (en) Method and system for robust tagging of named entities in the presence of source or translation errors
Lawrie et al. Normalizing source code vocabulary
US9959340B2 (en) Semantic lexicon-based input method editor
US20120166942A1 (en) Using parts-of-speech tagging and named entity recognition for spelling correction
US20200301919A1 (en) Method and system of mining information, electronic device and readable storable medium
KR101500617B1 (ko) 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
Ljubešić et al. Corpus-based diacritic restoration for south slavic languages
CN114661917B (zh) 文本扩增方法、系统、计算机设备及可读存储介质
KR100911834B1 (ko) 번역 시스템에서 오류 보정 패턴을 이용한 번역 오류 수정 방법 및 장치
US8880391B2 (en) Natural language processing apparatus, natural language processing method, natural language processing program, and computer-readable recording medium storing natural language processing program
US10120843B2 (en) Generation of parsable data for deep parsing
Uthayamoorthy et al. Ddspell-a data driven spell checker and suggestion generator for the tamil language
EP3679526A1 (en) Machine learning lexical discovery
Peng et al. An empirical study of Chinese name matching and applications
CN113505889B (zh) 图谱化知识库的处理方法、装置、计算机设备和存储介质
US20210073466A1 (en) Semantic vector rule discovery
Anik et al. An approach towards multilingual translation by semantic-based verb identification and root word analysis
Ganji et al. Novel textual features for language modeling of intra-sentential code-switching data
Debnath et al. A hybrid approach to design automatic spelling corrector and converter for transliterated Bangla words
Eutamene et al. Ontologies and Bigram-based Approach for Isolated Non-word Errors Correction in OCR System.
El-Beltagy et al. A corpus based approach for the automatic creation of Arabic broken plural dictionaries
Islam Meem et al. An Indicative-Metric-Based Context-Sensitive Approach to Autocorrect Bangla Spelling

Legal Events

Date Code Title Description
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20131002

PA0201 Request for examination
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20141030

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20150323

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20150401

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20150401

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
FPAY Annual fee payment

Payment date: 20180402

Year of fee payment: 4

PR1001 Payment of annual fee

Payment date: 20180402

Start annual number: 4

End annual number: 4

FPAY Annual fee payment

Payment date: 20190329

Year of fee payment: 5

PR1001 Payment of annual fee

Payment date: 20190329

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20200325

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20210401

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20240401

Start annual number: 10

End annual number: 10

PR1001 Payment of annual fee

Payment date: 20250401

Start annual number: 11

End annual number: 11