KR101509727B1

KR101509727B1 - 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법

Info

Publication number: KR101509727B1
Application number: KR20130118062A
Authority: KR
Inventors: 지창진
Original assignee: 주식회사 시스트란인터내셔널
Priority date: 2013-10-02
Filing date: 2013-10-02
Publication date: 2015-04-07
Anticipated expiration: 2033-10-02
Also published as: JP6532088B2; CN105593845A; JP2016538666A; WO2015050321A1; WO2015050321A8; US20160217122A1; CN105593845B; US10282413B2

Abstract

자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법이 개시된다.
형태소 분석 장치는 지식 데이터 베이스와 분석기를 포함한다. 지식 데이터베이스는 언어별 형태소 분석에 사용되는 다수의 지식 정보를 저장하되, 정상 표현에 대응되는 형태소 정보를 저장하는 형태소 사전과 파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－에 대응되는 정상 표현 정보를 저장하는 정렬 코퍼스를 포함한다. 분석기는 입력되는 어절에 대해 상기 지식 데이터베이스를 사용하여 형태소 분석을 수행하여 분석 결과를 출력하되, 입력 어절에 대한 형태소가 상기 형태소 사전에 없는 경우, 상기 입력 어절에 포함된 파괴 표현에 대해 상기 정렬 코퍼스를 사용하여 상기 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행한다.

Description

자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법{APPARATUS FOR CREATING ALIGNMENT CORPUS BASED ON UNSUPERVISED ALIGNMENT AND METHOD THEREOF, AND APPARATUS FOR PERFORMING MORPHOLOGICAL ANALYSIS OF NON-CANONICAL TEXT USING THE ALIGNMENT CORPUS AND METHOD THEREOF}

본 발명은 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법에 관한 것이다.

근래에 블로그, 특히 페이스북 및 트위터로 대표되는 소셜, 카톡과 같은 모바일 메시지는 컴퓨터에서 뿐만 아니라 스마트폰에서도 일상이 되고 있고 그 사용이 나날이 늘어나고 있는 추세이다.

그런데, 이러한 메시지 사용에 있어서 맞춤법에 맞지 않는 오류가 포함된 파괴 표현들이 대량 유통되고 있다. 여기서, 파괴 표현이란 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현들을 말하며, 이러한 파괴 표현이 포함되어 있는 문장을 파괴 문장이라고 한다. 이러한 파괴 문장은 인터넷의 활성과 스마트폰의 보급으로 인해 발생된 새로운 언어 사용 패러다임이다.

파괴 문장은 정상 표현이 아닌 파괴 표현을 포함하고 있으나 문장의 뜻을 전달하는데는 지장이 없다.

한편, 기계 번역 등의 자연 언어 정보 처리, 검색, 데이터 마이닝 등에서 사용되는 형태소 분석의 경우 파괴 표현이 없는 정상 문장들을 대상으로 하고 있다. 즉, 기존의 형태소 분석은 형태소 분석시 사용될 형태소 지식이나 형태소 정보들이 저장되어 있는 형태소 사전을 사용하는데, 상기한 바와 같은 파괴 문장에 포함된 파괴된 형태소들은 그 특징상 정상적인 형태소 사전에 수록이 불가능하고, 또한 단순 파괴된 형태소들을 형태소 사전에 추가하는 방식에도 한계가 있어 파괴 표현이 포함된 파괴 문장에 대한 형태소 분석이 어렵다는 문제점을 가지고 있다.

본 발명이 이루고자 하는 기술적 과제는 파괴 표현이 포함된 파괴 문장을 정확하게 형태소 분석할 수 있는 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법을 제공하는 것이다.

본 발명의 한 특징에 따른 정렬 코퍼스 생성 방법은,

파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및 상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계를 포함한다.

여기서, 상기 병렬 코퍼스를 구축하는 단계는, 네트워크를 통해 다수의 파괴 문장을 수집하는 단계; 수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 단계; 수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 단계; 및 생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 단계를 포함한다.

또한, 상기 보편성을 판단하는 단계에서, 상기 쿼리에 따른 검색의 결과물의 양을 기준으로 기준 양을 초과하는 경우 해당 파괴 표현이 보편성을 갖는 것으로 판단하고, 상기 보편성의 판단은 다수의 포털 사이트를 통한 웹 검색을 통해 자동으로 실행되는 것을 특징으로 한다.

또한, 상기 정렬 코퍼스를 생성하는 단계는, 상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 단계; 문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 단계; 새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 단계; 및 자율 학습의 정지 조건이 만족될 때가지 상기 매치를 수행하는 단계 및 계산하는 단계를 반복 수행하고, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률－여기서 상관 확률은 상기 파괴 표현과 정상 표현의 정렬 확률 값임－을 상기 정렬 코퍼스에 저장하는 단계를 포함한다.

또한, 상기 정렬 코퍼스를 생성하고자 수행되는 자율 학습 기반으로 정렬을 구하고 정렬의 확률 값을 설정해나가기 위해 EM(Expectation-Maximization) 알고리즘이 사용되는 것을 특징으로 한다.

본 발명의 다른 특징에 따른 정렬 코퍼스 생성 장치는,

파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 병렬 코퍼스 구축부; 및 상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 자율 학습부를 포함한다.

여기서, 상기 자율 학습부는, 상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스; 및 상기 병렬 코퍼스에 대해 자율 학습 방법을 사용하여 파괴 표현과 정상 표현의 단일 음절, 다 음절 또는 단어들 사이의 최적 정렬 확률값을 학습하여 상기 정렬 코퍼스를 생성하는 자율 학습 정렬부를 포함한다.

또한, 상기 병렬 코퍼스 구축부는, 네트워크를 통해 다수의 파괴 문장을 수집하는 파괴 문장 수집기; 상기 파괴 문장 수집기에 의해 수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 보편성 판단기; 수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 정상 문장 생성기; 및 상기 정상 문장 생성기에 의해 생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 구축기를 포함한다.

또한, 상기 자율 학습 정렬부는, 상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 초기화기; 문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 E-스텝 처리기; 새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 M-스텝 처리기; 및 상기 병렬 코퍼스에 구축되어 있는 파괴 문장과 정상 문장의 문자열을 상기 초기화기로 입력시키고, 상기 M-스텝 처리기의 확률 계산 후 자율 학습의 정지 조건이 만족될 때까지 상기 E-스텝 처리기 및 M-스텝 처리기의 반복 수행을 제어하며, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률이 저장되는 상기 정렬 코퍼스를 생성하는 제어기를 포함한다.

본 발명의 또 다른 특징에 따른 형태소 분석 장치는,

언어별 형태소 분석에 사용되는 다수의 지식 정보를 저장하되, 정상 표현에 대응되는 형태소 정보를 저장하는 형태소 사전과 파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－에 대응되는 정상 표현 정보를 저장하는 정렬 코퍼스를 포함하는 지식 데이터베이스; 및 입력되는 어절에 대해 상기 지식 데이터베이스를 사용하여 형태소 분석을 수행하여 분석 결과를 출력하되, 입력 어절에 대한 형태소가 상기 형태소 사전에 없는 경우, 상기 입력 어절에 포함된 파괴 표현에 대해 상기 정렬 코퍼스를 사용하여 상기 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 분석기를 포함한다.

여기서, 상기 지식 데이터베이스가 형태소별 접속 정보를 저장하는 기 분석 사전을 더 포함하고, 상기 분석기는, 상기 형태소 사전을 사용하여 상기 입력 어절을 이루고 있는 형태소들을 분할하되, 상기 입력 어절을 이루고 있는 형태소가 상기 형태소 사전에 없는 경우 상기 정렬 코퍼스를 사용하여 대응되는 정상 표현을 사용하여 형태소 분할을 수행하는 형태소 분할부; 상기 기 분석 사전을 사용하여 상기 형태소 분할부에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출하는 접속 정보 체크부; 및 상기 접속 정보 체크부에 의해 추출되는 형태소들에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 원형 복원부를 포함한다.

또한, 상기 형태소 분할부는, 상기 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성하는 후보군 생성기; 상기 후보군 생성기에서 생성되는 형태소 후보에 대해 상기 형태소 사전을 사용하여 해당 형태소 후보의 존재 여부를 체크하는 정상 표현 체크기; 상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 해당 형태소 후보에 대해 상기 정렬 코퍼스를 사용하여 상기 입력 어절의 파괴 표현의 존재 여부를 체크하는 파괴 표현 체크기; 상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하는 것으로 판단되는 경우 해당 형태소 후보를 입력 어절로부터 형태소 분할 처리하는 분할 처리기; 및 상기 후보군 생성기, 상기 정상 표현 체크기, 상기 파괴 표현 체크기 및 상기 분할 처리기를 제어하여 상기 입력 어절에 대한 형태소 분할이 수행되도록 하되, 상기 후보군 생성기에서 생성되는 형태소 후보가 상기 정상 표현 체크기에 의해 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 상기 파괴 표현 체크기를 통해 대응되는 정상 표현을 찾아서 상기 후보군 생성기로 재입력 제어하는 제어기를 포함한다.

또한, 상기 정렬 코퍼스는 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬하여 생성된 것을 특징으로 한다.

또한, 상기 정렬 코퍼스는 파괴 표현과 이 파괴 표현에 대응되는 정상 표현 사이의 정렬 확률 값인 상관 확률을 포함하는 것을 특징으로 한다.

또한, 형태소 분석시 상기 형태소 사전을 통해 형태소 존재 여부를 판단하는 때에 상기 상관 확률을 사용하여 해당 각 문자열이 형태소일 확률로써 수치화하여 표현하는 것을 특징으로 한다.

또한, 상기 정렬 코퍼스는 EM(Expectation-Maximization) 알고리즘 기반으로 생성되는 것을 특징으로 한다.

본 발명의 또 다른 특징에 따른 형태소 분석 방법은,

입력되는 어절을 형태소로 분할하여 형태소 후보를 생성하는 단계; 형태소 후보가 형태소 사전－여기서 형태소 사전은 정상 표현에 대응되는 형태소 정보를 저장하는 사전임－에 존재하는 지의 여부를 판단하는 단계; 형태소 후보가 상기 형태소 사전에 존재하는 경우 해당 형태소 분석을 수행하는 단계; 형태소 후보가 상기 형태소 사전에 존재하지 않는 경우, 상기 입력되는 어절에 포함되는 파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－이 정렬 코퍼스－여기서 정렬 코퍼스는 파괴 표현에 대응되는 정상 표현 정보를 저장하는 코퍼스임－에 존재하는 지의 여부를 판단하는 단계; 및 파괴 표현이 상기 정렬 코퍼스에 존재하는 경우, 해당 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 단계를 포함한다.

여기서, 상기 형태소 분석을 수행하는 단계는, 형태소별 접속 정보를 저장하는 기 분석 사전을 사용하여 형태소에 대해 조합 가능한 형태소를 추출하는 단계; 및 추출되는 형태소에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 단계를 포함한다.

또한, 상기 형태소 후보가 형태소 사전에 존재하는 지의 여부를 판단하는 단계 전에, 상기 정렬 코퍼스를 생성하는 단계를 더 포함한다.

또한, 상기 정렬 코퍼스를 생성하는 단계는, 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및 상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계를 포함한다.

본 발명에 따르면, 파괴 표현이 포함된 파괴 문장을 정확하게 형태소 분석할 수 있다.

또한, 파괴 표현과 정상 표현의 정렬 정보를 보조 형태소 사전으로 사용함으로써 일반 형태소 분석기가 파괴 문장 형태소 분석뿐만 아니라 정상적인 표현으로 바꿔주는 기능까지 가능하게 하는 효과가 있다.

또한, 파괴 표현과 정상 표현의 정렬 정보 및 자율 학습을 통한 정렬을 통해 파괴 표현과 정상 표현의 다양한 관계를 수치화함으로서 여러 종류 파괴에 대한 대응을 가능하게 해준다.

도 1은 일반적인 형태소 분석 장치를 개략적으로 도시한 블록도이다.
도 2는 일반적인 형태소 분석 방법의 흐름도이다.
도 3은 본 발명의 실시예에 따른 형태소 분석 장치의 구성 블록도이다.
도 4는 도 3에 도시된 형태소 분할부의 구체적인 구성 블록도이다.
도 5는 도 3에 도시된 파괴 표현-정상 표현 정렬 코퍼스를 생성하는 장치의 구성 블록도이다.
도 6은 도 5에 도시된 병렬 코퍼스 구축부의 구성 블록도이다.
도 7은 본 발명의 실시예에 따른 형태소 분석 방법의 흐름도이다.
도 8은 다수의 언어에 통용되는 범용적인 형태소 분석 장치의 구조를 개략적으로 도시한 도면이다.
도 9는 도 8에 도시된 형태소 분석 장치에 본 발명의 실시예에 따른 파괴 표현-정상 표현 정렬 코퍼스가 적용된 예를 도시한 도면이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

먼저, 일반적인 형태소 분석 장치에 대해 설명한다.

도 1은 일반적인 형태소 분석 장치를 개략적으로 도시한 블록도이다.

도 1을 참조하면, 일반적인 형태소 분석 장치(10)에서, 형태소 분할기(13)는 사전 DB(11)의 형태소 사전(11-1)을 참조하여 입력되는 어절을 이루고 있는 모든 가능한 형태소들을 분할하고, 접속 정보 체크기(15)는 사전 DB(11)의 기 분석 사전(11-3)을 참조하여 형태소 분할기(13)에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출하여 최종 형태소 분석 결과로써 출력한다.

도 2는 일반적인 형태소 분석 방법의 흐름도이다.

도 2를 참조하면, 형태소 분할기(13)가 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성하고(S10), 생성되는 형태소 후보들에 대해 형태소 사전(11-1)을 체크하여(S20) 형태소 사전(11-1)에 있는 경우 접속 정보 체크기(15)가 접속 정보를 체크하여 최종 분석 결과를 출력한다(S30).

그런데, 이 때 상기 단계(S20)에서 형태소 후보가 형태소 사전(11-1)에 없는 경우에는 형태소 사전(11-1)에 등록되지 않은 단어(Out-of dictionary word 또는 Out-of-Vocabulary(OOV))로 인식하거나 또는 유효하지 않은 형태소로 인식하여 형태소 분석 실패로 처리된다(S40).

본 발명의 실시예에서 대상이 되는 파괴 표현들이 상기한 일반적인 형태소 분석 장치(10)에서 등록되지 않은 단어 또는 유효하지 않은 형태소로 인식될 수 있다.

이하, 본 발명의 실시예에서 대상이 되는 파괴 표현에 대해 설명한다.

한국어 메시지 사용에 있어서 맞춤법 오류가 포함된 한국어 파괴 표현들이 대량 유통되고 있고, 네티즌 특히 초등학생들 사이에 새롭게 만들어지고 유행되고 있는 "외계어" 사용의 일상으로 한글 파괴 현상은 학자들이 우려할 수준까지 이르고 있다.

이하, 상기한 한국어 파괴 문장의 파괴 유형들에 대해 설명한다.

(1) 맞춤법 오류

많은 파괴 문장들은 철자 오류를 내포하고 있다. 철자 오류는 정확한 철자를 몰라서 범하는 오류 또는 정확한 철자를 무시하여 범하는 오류이다. 예들 들면, '만났다'를 '만나따'로, '싶어졌다'를 '시퍼져따', '있어'를 '잇서', '됐어'를 '돼써'로 표현하는 파괴 표현이 있다. 이런 종류의 오류들은 음에 따라 표기하는 특징을 보이고 있으며 때로는 음에 따라 표기함으로써 새로운 뉘앙스를 나타내는 수단으로 사용된다.

다른 종류의 철자 오류는 오타로 야기 된 오류들이다. 특히, 스마트폰과 같이 상대적으로 작은 화면에 이동 중 문자 입력으로 오타가 빈번히 발생한다. 이런 오류들은 타이핑해야 할 키에 인접한 키들이 입력되는 특징을 보이고 있다. 예를 들면, '남자친구'를 '남자 틴구'로 잘못 입력하는 것으로, 이는 'ㅊ'을 'ㅌ'으로 잘못 타이핑한 경우이고, '나이'를 '니이'로 입력하여 'ㅏ'를 'ㅣ'로 잘못 타이핑한 경우이다. 특히, 'ㅈ'과 'ㄷ', 'ㅌ'과 'ㅊ', 'ㅑ'과 'ㅕ', 'ㅠ'과 'ㅜ'는 자주 서로 오타로 입력될 확률이 높다.

(2) 신조어

신조어 중 한 종류는 신생 줄임말이다. 예를 들어, '근자감'은 '근거 없는 자신감'의 줄임말이고, '고터'는 '고속터미널'의 줄임말이며, '버카'는 '버스 카드'의 줄임말이고, '여병추'는 '여기 병신 추가'의 줄임말이며, 그리고 '깜놀'은 '깜짝 놀라다'의 줄임말로 네티즌 사이에 통용되고 있다.

다른 종류의 신조어로는 '죠'를 '죵'과 같이 'ㅇ'을 붙여 조금 더 귀엽거나, 깜찍한 느낌을 전달하는데 사용된다.

상기 두 가지 유형은 아니지만, 기존의 정상 문장 기반 자연 언어 처리 시스템에 도전이 되고 있는 다른 문제점은 외국어 음역의 여러 버전의 통용이다. 예를 들어, 스타일리시 <=> 스타일리쉬, 콩구레츄레이션 <=> 콩그레츄레이션 등의 사용이 있다.

외국어와 한국어 발음의 차이로 1:1의 음역이 어려워 위와 같이 여러 음역 버전이 존재하게 되고, 또한 이러한 상황에서 음역 표준의 설정이 어려울 뿐만 아니라 표준이 설정되어 있더라도 실생활에서 지켜지지 않을 가능성이 더욱 높다.

이와 같이, 상기한 파괴 표현이 포함된 파괴 문장들이 상기한 일반적인 형태소 분석 장치(10)를 통해 형태소 분석이 이루어지는 경우, 형태소 사전(11-1)에 없어 형태소 분석이 이루어지지 못하게 됨으로써 기존의 자연 언어 처리 기술이나 기계 번역 등이 순조롭게 수행될 수 없게 된다.

이하, 상기한 문제점을 해결하기 위한 본 발명의 실시예에 대해 설명한다.

도 3은 본 발명의 실시예에 따른 형태소 분석 장치의 구성 블록도이다.

도 3에 도시된 바와 같이, 본 발명의 실시예에 따른 형태소 분석 장치(100)는 사전 데이터베이스(DB)(110), 형태소 분할부(120), 접속 정보 체크부(130) 및 원형 복원부(140)를 포함한다.

사전 DB(110)는 입력 어절에 대한 형태소 분석시 사용되는 각종의 사전 정보를 저장한다. 이러한 사전 DB(110)에는 형태소 분석시 사용되는 형태소 사전(111), 파괴 표현, 이에 대응되는 정상 표현, 그리고 파괴 표현과 정상 표현의 관련성을 수치화한 값인 상관 확률을 저장하고 형태소 분석시 사용되는 파괴 표현-정상 표현 정렬 코퍼스(113) 및 접속 정보 체크 및 원형 복원시에 사용되는 기 분석 사전(115)이 포함된다. 그 외에도 언어별로 형태소 분석에 사용되는 다양한 형태의 사전 정보가 저장될 수 있다. 여기서, 파괴 표현-정상 표현 정렬 코퍼스(corpus)(113)는 보편적으로 사용되는 파괴 표현을 포함하는 파괴 문장과 이에 대응되는 정상 문장을 포함하는 병렬 코퍼스를 구축하고, 구축된 병렬 코퍼스의 각 문장 내 파괴 표현과 정상 표현의 최적 정렬을 자율 학습하여 생성된다. 이에 대해서는 추후 구체적으로 설명한다. 한편, 언어 처리에서 사용되는 코퍼스(corpus)와 형태소 분석의 의미에 대해서는 이미 잘 알려져 있으므로 여기에서는 구체적인 설명을 생략한다.

형태소 분할부(120)는 사전 DB(110)의 형태소 사전(111)과 파괴 표현-정상 표현 정렬 코퍼스(113)를 참조하여 입력되는 어절을 이루고 있는 모든 가능한 형태소들을 분할한다. 이 때, 형태소 분할부(120)는 입력 어절에서 분할되는 형태소가 형태소 사전(111)에는 없으나 파괴 표현-정상 표현 정렬 코퍼스(113)에는 있는 경우, 해당 형태소에 대응되는 정상 표현을 사용하여 형태소 분할을 수행한다.

접속 정보 체크부(130)는 사전 DB(110)의 기 분석 사전(115)을 참조하여 형태소 분할기(120)에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출한다.

원형 복원부(140)는 접속 정보 체크부(130)에 의해 추출되는 형태소들에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력한다.

도 4는 도 3에 도시된 형태소 분할부(120)의 구체적인 구성 블록도이다.

도 4에 도시된 바와 같이, 형태소 분할부(120)는 후보군 생성기(121), 정상 표현 체크기(122), 파괴 표현 체크기(123), 분할 처리기(124) 및 제어기(125)를 포함한다.

후보군 생성기(121)는 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성한다.

정상 표현 체크기(122)는 후보군 생성기(121)에서 생성되는 형태소 후보에 대해 형태소 사전(111)을 참조하여 해당 형태소 후보의 존재 여부를 체크한다.

파괴 표현 체크기(123)는 정상 표현 체크기(122)에 의해 형태소 후보가 형태소 사전(111)에 존재하지 않는 것으로 판단되는 경우 입력 어절의 파괴 표현에 대해 파괴 표현-정상 표현 정렬 코퍼스(113)를 참조하여 해당 파괴 표현에 대응되는 정상 표현의 존재 여부를 체크한다.

분할 처리기(124)는 정상 표현 체크기(122)에 의해 형태소 후보가 형태소 사전(111)에 존재하는 것으로 판단되는 경우 해당 형태소 후보를 입력 어절로부터 형태소 분할 처리한다.

제어기(125)는 후보군 생성기(121), 정상 표현 체크기(122), 파괴 표현 체크기(123) 및 분할 처리기(124)를 제어하여, 입력 어절을 형태소들로 분할 처리하고, 최종 분할 처리된 형태소들을 접속 정보 체크부(130)로 전달한다. 특히, 제어기(125)는 파괴 표현 체크기(123)에 의해 파괴 표현에 대응되는 정상 표현이 존재하는 것으로 체크되는 경우 해당 정상 표현을 사용하여 후보군 생성기(121)가 다시 형태소 후보를 생성하고, 생성되는 형태소 후보들에 대해 정상 표현 체크기(122)가 형태소 후보의 존재 여부를 체크하도록 제어를 수행한다.

다음, 도 3에 도시된 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 내용에 대해 설명한다.

도 5는 도 3에 도시된 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 장치(200)의 구성 블록도이다.

도 5에 도시된 바와 같이, 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 장치(200)는 병렬 코퍼스 구축부(210) 및 자율 학습부(220)를 포함한다.

병렬 코퍼스 구축부(210)는 보편적으로 사용되는 파괴 표현이 포함된 파괴 문장을 수집하여 파괴 문장에 대응되는 정상 문장을 생성하여 파괴 문장과 정상 문장의 쌍들을 저장하는 파괴 문장-정상 문장 병렬 코퍼스(221)를 구축한다.

자율 학습부(220)는 병렬 코퍼스 구축부(210)에 의해 구축되는 파괴 문장-정상 문장 병렬 코퍼스(221)와, 이 파괴 문장-정상 문장 병렬 코퍼스(221)에 대해 자율 기계 학습 방법을 사용하여 파괴 표현과 정상 표현의 단일 음절, 다 음절 또는 단어들 사이의 최적 정렬 확률값을 학습하여 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 자율 학습 정렬부(222)를 포함한다.

이러한 자율 학습 정렬부(222)는 초기화기(2221), E(Expectation)-스텝 처리기(2222), M(Maximization)-스텝 처리기(2223) 및 제어기(2224)를 포함한다.

초기화기(2221)는 파괴 문장-정상 문장 병렬 코퍼스(221)에서 주어진 문자열에서 관련 부속 문자열 쌍(sub-string pair)을 랜덤이나 기타 초기화 방법론으로 설정하고 관련성 확률을 초기화한다.

E-스텝 처리기(2222)는 디코딩을 수행하며, 문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행한다.

M-스텝 처리기(2223)는 확률 계산을 수행하며, 새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산한다.

제어기(2224)는 파괴 문장-정상 문장 병렬 코퍼스(221)에 구축되어 있는 파괴 문장과 정상 문장의 문자열을 초기화기(2221)로 입력시키고, M-스텝 처리기(2223)의 확률 계산 후 자율 학습의 정지 조건이 만족될 때까지 E-스텝 처리기(2222) 및 M-스텝 처리기(2223)의 반복 수행(iteration)을 제어하며, 정지 조건이 만족되는 경우 최종 출력의 문자열, 즉 파괴 표현, 정상 표현 및 상관 확률로 이루어진 결과를 파괴 표현-정상 표현 정렬 코퍼스(113)에 저장한다.

상기한 E-스텝 처리기(2222)와 M-스텝 처리기(2223)가 각각 수행하는 E-스텝 처리 및 M-스텝 처리에 대해서는 추후 구체적으로 설명한다.

다음, 도 5에 도시된 병렬 코퍼스 구축부(210)가 파괴 문장-정상 문장 병렬 코퍼스(221)를 구축하는 내용에 대해 설명한다.

도 6은 도 5에 도시된 병렬 코퍼스 구축부(210)의 구성 블록도이다.

도 6에 도시된 바와 같이, 병렬 코퍼스 구축부(210)는 파괴 문장 수집기(211), 보편성 판단기(212), 정상 문장 생성기(213) 및 구축기(214)를 포함한다.

파괴 문장 수집기(211)는 모바일 SMS(Short Message Service) 카톡 메시지 및 인터넷 트위터 등을 통해 일정량의 파괴 문장을 수집한다. 이러한 파괴 문장으로 예를 들어 100만개의 파괴 문장이 수집되어 사용될 수 있다. 또한, 파괴 문장은 온라인을 통해 수집되거나 또는 운용자에 의해 수집된 파괴 문장들이 입력 수단을 통한 입력에 의해 수집될 수 있다.

보편성 판단기(212)는 파괴 문장 수집기(211)에 의해 수집된 파괴 문장에 포함된 파괴 표현을 쿼리로써 온라인을 통한 검색을 수행하고, 이러한 쿼리에 따른 결과물의 양을 기준으로 보편적으로 사용되는 파괴 표현 여부를 판단하여 해당 파괴 표현에 대한 보편성을 판단한다. 이러한 파괴 표현의 보편성 판단은 네이버, 다음, 구글 등의 웹 검색을 통해 자동으로 실행될 수 있다.

정상 문장 생성기(213)는 보편성 판단기(212)에 의해 보편성이 있다고 판단된 파괴 표현에 대해 대응되는 정상 표현을 생성한다. 이러한 정상 표현의 생성은 웹 검색을 통해 자동으로 수행될 수도 있고, 또는 운용자에 의해 직접 수행될 수도 있다.

구축기(214)는 정상 문장 생성기(213)에 의해 생성되는 정상 문장을 대응되는 파괴 문장과 함께 하나의 쌍으로 형성하여 파괴 문장-정상 문장 병렬 코퍼스(221)로 구축한다.

이하, 도 5에 도시된 자율 학습 정렬부(222)가 파괴 문장-정상 문장 병렬 코퍼스(221)에 대해 자율 학습 정렬을 수행하여 파괴 표현-정상 표현 정렬 코퍼스(113)를 생성하는 방법에 대해 구체적으로 설명한다.

우선, 본 발명의 실시예에 따른 파괴 문장과 정상 문장의 정렬은 자율 기계 학습 방법에 따라 자율적으로 수행되어 전체 코퍼스의 값이 최고로 되는 정렬을 구하고 정렬의 확률값을 설정해 나가는 방법이 사용된다. 이 때, 최적의 정렬을 구하고 정렬의 확률값을 설정해 나가는 방법으로 본 발명의 실시예에서는 EM(Expectation-Maximization) 알고리즘을 사용하지만, 기타 자율 및 반 자율 기반의 다른 방법을 사용하여 수행될 수도 있다.

먼저, 본 발명의 실시예에서는

가 문자열

을 나타내고,

가

을 나타내는 것으로 가정한다.

EM 알고리즘을 이용하여 정렬 작업을 수행하기 위하여, 파괴 표현과의 최적 정상 표현 문자열을 찾는 디코딩 단계(E-스텝)와 각 문자열 간 확률을 학습하는 단계(M-스텝)가 필요하다. 이러한 과정은 아래와 같이 3 단계로 진행된다.

1) 초기화 단계(스텝-1)

주어진 파괴 문자열에서 관련 부속 문자열 쌍을 랜덤이나 기타 초기화 방법론으로 설정하고 관련성 확률 값은 0으로 초기화한다. 즉 임의 파괴 문자열

와 정상 문자열

의 정렬 확률 값

로 설정한다.

2) 기대(Expectation) 단계(스텝-2)

이 단계는 입력된 파괴 문장과 정상 문장에서 파괴 문자열과 정상 문자열 쌍들을 구하는 단계이다.

이 단계에서는 현재 확률 값에 따라 동적 프로그래밍 디코딩 방법에 따라 주어진 문자열 쌍

과

에서 각각 대응되는 부속 문자열 쌍들을 구한다.

구체적인 디코딩 과정은 아래와 같다.

파괴 표현 문자열

과 정상 표현 문자열

에 대하여,

는 파괴 표현 문자열

과 정상 표현 문자열

까지의 정렬 스코어를 뜻한다. 이 경우, 파괴 표현

과 정상 표현

의 대응된 부속 문자열 쌍을 구하는 과정은 아래의 부속 단계 1 내지 3에 의해 수행된다.

<부속 단계 1>

초기화 단계로서, 어떤 문자열도 포함이 되지 않은

의 값을 0으로 설정한다.

<부속 단계 2>

파괴 표현 문자열

과 정상 표현 문자열

까지의 정렬 스코어

는 파괴 표현 문자열

와 정상 표현 문자열

까지의 정렬 스코어

와 파괴 표현 문자열

와 정상 표현 문자열

까지의 정렬 가중치 값

의 합의 최대값(max)이다.

여기서,

는

와

의 정렬 확률

의 로그(log)값이고,

는 EM 알고리즘의 상기한 스텝-1 단계와 후술할 스텝-3 단계에서 계산이 된 값이다.

<부속 단계 3>

상기한 부속 단계 2에 따라 파괴 표현 문자열에 대해 1에서 n까지, 그리고 정상 표현 문자열에 대해 1에서 m까지 순차적으로 계산된 정렬 스코어

은 파괴 표현 문자열

과 정상 표현 문자열

까지의 최고 정렬 값이다.

3) 최대화(Maximization) 단계(스텝-3)

이 단계는 상기한 스텝-2 단계에서 정렬된 파괴 표현 문자열과 정상 표현 문자열의 쌍의 통계에 따른 확률 값을 구하는 단계로서, 최고값이 되도록 정렬이 된 각 부속 문자열 쌍에 대하여 백 트래킹(back-tracking)하는 방법으로 파괴 표현 문자열에 대응되는 정상 표현 문자열을 찾아준다.

구체적으로, 스텝-2 단계 각각의 부속 문자열 쌍들을 카운트하여

에 따라 현시점에서 대응되는 문자열들의 확률 값을 추정한다. 여기서,

는 전체 병렬 코퍼스에서

과

가 함께 출현하는 회수를 나타내고,

는 전체 병렬 코퍼스에서

이 출현하는 회수를 나타낸다.

상기한 스텝-3 단계 이후, 종결 조건이 만족되지 않는 경우, 종결 조건이 만족될 때까지 상기한 스텝-2 단계와 스텝-3 단계가 반복되어 수행된다. 이 때의 반복은 이전의 스텝-3의 결과 값이 반영되어 수행된다.

상기한 종결 조건이 만족되어 파괴 표현과 정상 표현의 정렬이 완료되면, 해당 파괴 표현과 정상 표현 그리고 이들 간의 상관 확률을 표현-정상 표현 정렬 코퍼스(113)에 저장한다.

예로써, 파괴 문장-정상 문장 병렬 코퍼스(221)에 기재된 파괴 문장이 "간만에 만낫따"이고, 이에 대응되어 기재된 정상 문장이 "간만에 만났다"인 경우, 상기한 과정을 통해 파괴 표현-정상 표현 정렬 코퍼스(113)에는 "만낫따::만났다::0.5947", "낫따::났다::0.1201", "따::다::0.3210" 등이 생성되어 저장될 수 있다. 이 때, 파괴 표현-정상 표현 정렬 코퍼스(113)에 기재되는 형식은 "파괴 표현::정상 표현::상관 확률"이다. 여기서, 상관 확률은 상기한 스텝-1 및 스텝-3에서 구해진 파과 표현과 정상 표현의 정렬 확률 값이 해당될 수 있다.

이하, 도 7을 참조하여 본 발명의 실시예에 따른 형태소 분석 방법에 대해 설명한다.

도 7은 본 발명의 실시예에 따른 형태소 분석 방법의 흐름도이다.

설명 전에, 먼저 장치(200)의 병렬 코퍼스 구축부(210)에 의해 파괴 문장-정상 문장 병렬 코퍼스(221)가 구축된 후, 구축된 파괴 문장-정상 문장 병렬 코퍼스(221)에 대해 자율 학습부(220)가 자율 학습 기반의 최적 정렬을 수행하여 파괴 표현-정상 표현 정렬 코퍼스(113)를 미리 생성한 상태임을 가정한다.

도 7을 참조하면, 형태소 분석을 위한 어절이 입력되면(S100), 형태소 분할부(120)는 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성한다(S110).

그 후, 형태소 분할부(120)는 생성되는 형태소 후보들에 대해 형태소 사전(111)을 체크하여(S120) 형태소 사전(111)에 있는 경우 접속 정보 체크부(130)로 전달하여 해당 형태소에 대한 접속 정보가 체크되도록 한다(S130).

이와 같이, 접속 정보가 체크된 후에는 원형 복원부(140)가 해당 형태소에 대한 원형 복원을 수행하여(S140) 최종 분석 결과를 출력한다.

그런데, 이 때 입력 어절이 파괴 표현에 해당되는 경우에는 상기 단계(S120)에서 형태소 후보가 형태소 사전(111)에 없으므로, 형태소 분할부(120)는 해당 형태소 후보에 대해 파괴 표현-정상 표현 정렬 코퍼스(113)를 체크한다(S150).

만약 입력 어절의 파괴 표현이 이전의 자율 학습 기반의 최적 정렬을 통해 파괴 표현-정상 표현 정렬 코퍼스(113) 내에 있는 경우, 형태소 분할부(120)는 해당 파괴 표현에 대응되는 정상 표현을 확인한 후(S160), 확인되는 정상 표현에 대해 상기한 형태소 후보를 생성하는 단계(S110)부터 반복 수행한다. 이 때, 확인되는 정상 표현에 대해서 생성되는 형태소 후보들은 이미 형태소 사전(111)에 있으므로 상기 형태소 사전(111)을 체크하는 단계에서 해당 형태소가 있는 것으로 체크되어 그 이후의 단계(S130, S140)가 계속 수행되어 최종 분석 결과가 출력될 수 있게 된다.

한편, 입력 어절이 파괴 표현이나 상기한 바와 같은 자율 학습 기반의 최적 정렬을 통해 파괴 표현-정상 표현 정렬 코퍼스(113)에 생성되어 있지 않거나 또는 기타 오류의 어절에 해당되는 경우에는, 상기 단계(S150)에서 해당 어절이 파괴 표현-정상 표현 정렬 코퍼스(113)에 없으므로 이들 어절에 대해서는 형태소 사전(111)에 등록되지 않은 단어(Out-of dictionary word 또는 Out-of-Vocabulary(OOV))로 인식하거나 또는 유효하지 않은 형태소로 인식하여 형태소 분석 실패로 처리된다(S170).

이와 같이, 기존의 형태소 분석에서는 파괴 표현들이 포함된 파괴 문장에 대해 행태소 분석시 해당 형태소가 형태소 사전에 없다는 이유로 OOV 단어로 판단되어 파괴 표현에 대하여 오인식되지만, 본 발명의 실시예에서는 파괴 표현들에 대해 자율 학습 기반의 최적 정렬을 통해 파괴 표현에 대응되는 정상 표현을 파괴 표현-정상 표현 정렬 코퍼스(113) 형태로 구축해둠으로써, 이들 파괴 표현들에 대해 형태소 사전(111)에 없더라도 파괴 표현-정상 표현 정렬 코퍼스(113)에 대한 파괴 표현 체크를 수행하여 대응되는 정상 표현을 찾아서 정확한 형태소 분석을 수행할 수 있다.

한편, 본 발명의 실시예에서는 파괴 표현에 대응되는 정상 표현으로의 복원을 위하여 파괴 표현-정상 표현 정렬 코퍼스(113) 구축시에 파괴 문장 내 파괴 표현과 정상 표현의 최적 정렬을 자율 학습하여 확률 값으로 구하여 파괴 표현과 정상 표현에 대한 상관 확률로써 제공함으로써 파괴 표현의 다양성을 수치화할 수 있다. 즉, 형태소 분석시 형태소 사전(111)을 통하여 형태소 있음 여부를 판단하는 때에 각 문자열이 형태소일 확률로써 수치화하여 표현한다. 예를 들어, 형태소 있음과 없음으로 판단하던 것을 0(없음)과 1(있음) 사이의 수치로 표현하여 형태소 분석시 중의성 해결을 위한 수치화된 정보를 제공할 수 있게 된다.

한편, 상기에서는 한국어에 대한 형태소 분석에 대해서 설명하였으나, 영어 등 기타 언어에서도 한국어와 같이 파괴 표현들이 빈번히 사용되고 있고, 파괴 표현이 포함된 파괴 문장 처리에 있어 기존의 정상 문장 기반 언어 처리 방법론으로는 분명히 한계가 있다. 예를 들어, 첨부한 도 8에 도시된 바와 같이, 일반적인 형태소 분석 장치의 경우 형태소 분석을 수행하는 형태소 분석기(300)가 형태소 분석에 참조할 지식(400)을 참조하여 해당 언어에 대한 형태소 분석을 수행한다. 이 때, 형태소 분석에 참조할 지식(400)으로는 예를 들어 형태소 사전이 포함된다.

언어와 언어 간 형태론적 차이로 인해 언어별 형태소 분석에 있어서 구체적인 분석 과정 및 각 분석 과정에 필요한 지식은 서로 다를 수 있다. 예를 들어, 한국어의 경우에는 상기한 도 1에서와 같이 형태소 분할, 접속 정보 체크 및 원형 복원 등의 구성요소 또는 과정으로 나뉠 수 있고, 참조 지식(400)도 형태소 사전(11-1)과 같이 구체화될 수 있다.

따라서, 영어 등 기타 언어에 대해서도 한국어에 대해 상기에서 설명한 바와 같은 내용을 참조하여 대응시키는 경우, 도 9에 도시된 바와 같이 파괴 문장과 정상 문장의 병렬 코퍼스를 구축한 후, 구축된 파괴 문장과 정상 문장의 병렬 코퍼스에 대해 자율 학습 기반의 최적 정렬을 수행하여 파괴 표현-정상 표현 정렬 코퍼스(620)를 생성하여 적용함으로써 형태소 분석기(500)가 형태소 사전(610)에 없는 파괴 표현들에 대해 파괴 표현-정상 표현 정렬 코퍼스(620)를 체크하여 파괴 표현에 해당하는 정상 표현을 찾아서 정상적인 형태소 분석을 수행할 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및
상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계를 포함하고,
상기 병렬 코퍼스를 구축하는 단계는,
네트워크를 통해 다수의 파괴 문장을 수집하는 단계;
수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 단계;
수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 단계; 및
생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 단계를 포함하는
것을 특징으로 하는 정렬 코퍼스 생성 방법.
삭제
제1항에 있어서,
상기 보편성을 판단하는 단계에서,
상기 쿼리에 따른 검색의 결과물의 양을 기준으로 기준 양을 초과하는 경우 해당 파괴 표현이 보편성을 갖는 것으로 판단하고,
상기 보편성의 판단은 다수의 포털 사이트를 통한 웹 검색을 통해 자동으로 실행되는
것을 특징으로 하는 정렬 코퍼스 생성 방법.
제1항에 있어서,
상기 정렬 코퍼스를 생성하는 단계는,
상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 단계;
문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 단계;
새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 단계; 및
자율 학습의 정지 조건이 만족될 때가지 상기 매치를 수행하는 단계 및 계산하는 단계를 반복 수행하고, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률－여기서 상관 확률은 상기 파괴 표현과 정상 표현의 정렬 확률 값임－을 상기 정렬 코퍼스에 저장하는 단계
를 포함하는 정렬 코퍼스 생성 방법.
제1항 및 제3항 내지 제4항 중 어느 한 항에 있어서,
상기 정렬 코퍼스를 생성하고자 수행되는 자율 학습 기반으로 정렬을 구하고 정렬의 확률 값을 설정해나가기 위해 EM(Expectation-Maximization) 알고리즘이 사용되는 것을 특징으로 하는 정렬 코퍼스 생성 방법.
파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 병렬 코퍼스 구축부; 및
상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 자율 학습부를 포함하고,
상기 병렬 코퍼스 구축부는,
네트워크를 통해 다수의 파괴 문장을 수집하는 파괴 문장 수집기;
상기 파괴 문장 수집기에 의해 수집되는 파괴 문장에 포함되는 파괴 표현을 쿼리로써 네트워크를 통한 검색을 수행하여 해당 파괴 문장에 대한 보편성을 판단하는 보편성 판단기;
수집되는 파괴 문장이 보편성을 갖는 것으로 판단되는 경우 해당 파괴 문장에 대응되는 정상 문장을 생성하는 정상 문장 생성기; 및
상기 정상 문장 생성기에 의해 생성되는 정상 문장과, 이에 대응되는 파괴 문장을 하나의 쌍으로 형성하여 상기 병렬 코퍼스를 구축하는 구축기를 포함하는
것을 특징으로 하는 정렬 코퍼스 생성 장치.
제6항에 있어서,
상기 자율 학습부는,
상기 병렬 코퍼스 구축부에 의해 구축되는 병렬 코퍼스; 및
상기 병렬 코퍼스에 대해 자율 학습 방법을 사용하여 파괴 표현과 정상 표현의 단일 음절, 다 음절 또는 단어들 사이의 최적 정렬 확률값을 학습하여 상기 정렬 코퍼스를 생성하는 자율 학습 정렬부
를 포함하는 정렬 코퍼스 생성 장치.
삭제
제7항에 있어서,
상기 자율 학습 정렬부는,
상기 병렬 코퍼스에서 주어진 문자열에서 부속 문자열 쌍(sub-string pair)을 랜덤이나 초기화 방법론으로 설정하고 관련성 확률을 초기화하는 초기화기;
문자열들 매치 및 해당 매치 확률 값에 따라 파괴 문장과 정상 문장 사이가 최적화될 수 있도록 파괴 표현과 정상 표현들 사이의 매치를 수행하는 E-스텝 처리기;
새로운 정렬에 따른 각 부속 문자열 쌍간 확률을 다시 계산하는 M-스텝 처리기; 및
상기 병렬 코퍼스에 구축되어 있는 파괴 문장과 정상 문장의 문자열을 상기 초기화기로 입력시키고, 상기 M-스텝 처리기의 확률 계산 후 자율 학습의 정지 조건이 만족될 때까지 상기 E-스텝 처리기 및 M-스텝 처리기의 반복 수행을 제어하며, 상기 정지 조건이 만족되는 경우 최종 출력의 파괴 표현, 정상 표현 및 상관 확률이 저장되는 상기 정렬 코퍼스를 생성하는 제어기
를 포함하는 정렬 코퍼스 생성 장치.
언어별 형태소 분석에 사용되는 다수의 지식 정보를 저장하되, 정상 표현에 대응되는 형태소 정보를 저장하는 형태소 사전과 파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－에 대응되는 정상 표현 정보를 저장하는 정렬 코퍼스를 포함하는 지식 데이터베이스; 및
입력되는 어절에 대해 상기 지식 데이터베이스를 사용하여 형태소 분석을 수행하여 분석 결과를 출력하되, 입력 어절에 대한 형태소가 상기 형태소 사전에 없는 경우, 상기 입력 어절에 포함된 파괴 표현에 대해 상기 정렬 코퍼스를 사용하여 상기 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 분석기를 포함하고,
상기 정렬 코퍼스는 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬하여 생성되며, 파괴 표현과 이 파괴 표현에 대응되는 정상 표현 사이의 정렬 확률 값인 상관 확률을 포함하는
것을 특징으로 하는 형태소 분석 장치.
제10항에 있어서,
상기 지식 데이터베이스가 형태소별 접속 정보를 저장하는 기 분석 사전을 더 포함하고,
상기 분석기는,
상기 형태소 사전을 사용하여 상기 입력 어절을 이루고 있는 형태소들을 분할하되, 상기 입력 어절을 이루고 있는 형태소가 상기 형태소 사전에 없는 경우 상기 정렬 코퍼스를 사용하여 대응되는 정상 표현을 사용하여 형태소 분할을 수행하는 형태소 분할부;
상기 기 분석 사전을 사용하여 상기 형태소 분할부에 의해 분할된 형태소들에 대해 조합 가능한 형태소들을 추출하는 접속 정보 체크부; 및
상기 접속 정보 체크부에 의해 추출되는 형태소들에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 원형 복원부
를 포함하는 형태소 분석 장치.
제11항에 있어서
상기 형태소 분할부는,
상기 입력 어절을 형태소들로 분할하여 형태소 후보들을 생성하는 후보군 생성기;
상기 후보군 생성기에서 생성되는 형태소 후보에 대해 상기 형태소 사전을 사용하여 해당 형태소 후보의 존재 여부를 체크하는 정상 표현 체크기;
상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 해당 형태소 후보에 대해 상기 정렬 코퍼스를 사용하여 상기 입력 어절의 파괴 표현의 존재 여부를 체크하는 파괴 표현 체크기;
상기 정상 표현 체크기에 의해 형태소 후보가 상기 형태소 사전에 존재하는 것으로 판단되는 경우 해당 형태소 후보를 입력 어절로부터 형태소 분할 처리하는 분할 처리기; 및
상기 후보군 생성기, 상기 정상 표현 체크기, 상기 파괴 표현 체크기 및 상기 분할 처리기를 제어하여 상기 입력 어절에 대한 형태소 분할이 수행되도록 하되, 상기 후보군 생성기에서 생성되는 형태소 후보가 상기 정상 표현 체크기에 의해 상기 형태소 사전에 존재하지 않는 것으로 판단되는 경우 상기 파괴 표현 체크기를 통해 대응되는 정상 표현을 찾아서 상기 후보군 생성기로 재입력 제어하는 제어기
를 포함하는 형태소 분석 장치.
삭제
삭제
제10항 내지 제12항 중 어느 한 항에 있어서,
형태소 분석시 상기 형태소 사전을 통해 형태소 존재 여부를 판단하는 때에 상기 상관 확률을 사용하여 해당 각 문자열이 형태소일 확률로써 수치화하여 표현하는 것을 특징으로 하는 형태소 분석 장치.
제10항 내지 제12항 중 어느 한 항에 있어서,
상기 정렬 코퍼스는 EM(Expectation-Maximization) 알고리즘 기반으로 생성되는 것을 특징으로 하는 형태소 분석 장치.
입력되는 어절을 형태소로 분할하여 형태소 후보를 생성하는 단계;
형태소 후보가 형태소 사전－여기서 형태소 사전은 정상 표현에 대응되는 형태소 정보를 저장하는 사전임－에 존재하는 지의 여부를 판단하는 단계;
형태소 후보가 상기 형태소 사전에 존재하는 경우 해당 형태소 분석을 수행하는 단계;
형태소 후보가 상기 형태소 사전에 존재하지 않는 경우, 상기 입력되는 어절에 포함되는 파괴 표현－여기서 파괴 표현은 맞춤법으로 틀렸거나 정규화 및 표준화되지 않은 표현임－이 정렬 코퍼스－여기서 정렬 코퍼스는 파괴 표현에 대응되는 정상 표현 정보를 저장하는 코퍼스임－에 존재하는 지의 여부를 판단하는 단계; 및
파괴 표현이 상기 정렬 코퍼스에 존재하는 경우, 해당 파괴 표현에 대응되는 정상 표현을 찾아서 형태소 분석을 수행하는 단계를 포함하고,
상기 정렬 코퍼스는 파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬하여 생성되며, 파괴 표현과 이 파괴 표현에 대응되는 정상 표현 사이의 정렬 확률 값인 상관 확률을 포함하는
것을 특징으로 하는 형태소 분석 방법.
제17항에 있어서,
상기 형태소 분석을 수행하는 단계는,
형태소별 접속 정보를 저장하는 기 분석 사전을 사용하여 형태소에 대해 조합 가능한 형태소를 추출하는 단계; 및
추출되는 형태소에 대해 원형 복원을 수행하여 형태소 분석 결과로써 출력하는 단계
를 포함하는 형태소 분석 방법.
제17항에 있어서,
상기 형태소 후보가 형태소 사전에 존재하는 지의 여부를 판단하는 단계 전에, 상기 정렬 코퍼스를 생성하는 단계를 더 포함하는 형태소 분석 방법.
제19항에 있어서,
상기 정렬 코퍼스를 생성하는 단계는,
파괴 표현이 포함된 파괴 문장과 이 파괴 문장에 대응되는 정상 문장으로 이루어진 쌍들이 저장된 병렬 코퍼스를 구축하는 단계; 및
상기 병렬 코퍼스에 대해 자율 학습 기반의 정렬을 수행하여 파괴 표현 및 이 파괴 표현에 대응되는 정상 표현으로 정렬된 정렬 코퍼스를 생성하는 단계
를 포함하는 형태소 분석 방법.