CN1554058A - 借助多语文本输入的第三语言文本生成算法及其设备和程序 - Google Patents
借助多语文本输入的第三语言文本生成算法及其设备和程序 Download PDFInfo
- Publication number
- CN1554058A CN1554058A CNA02817660XA CN02817660A CN1554058A CN 1554058 A CN1554058 A CN 1554058A CN A02817660X A CNA02817660X A CN A02817660XA CN 02817660 A CN02817660 A CN 02817660A CN 1554058 A CN1554058 A CN 1554058A
- Authority
- CN
- China
- Prior art keywords
- language
- text
- analysis
- information
- lingual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
通过输入众多多语文本并通过使用多语文集,生成比迄今为止出现的只输入单语文本更准确的第三语言文本的一种技术。在输入文本后,执行分析处理,转换处理和生成处理,然后输出目标语言文档文本。由于能够自动获取语言的信息特征,所以生成目标语言文档文本不需要大规模文集。
Description
技术领域
本发明涉及使用机器翻译生成高准确度目标语言文本的技术。更确切地说,本发明涉及通过输入多种语言并合并语言信息,从而提高目标语言文本生成的准确度的技术。
背景技术
近来,已经在计算机上记录了大量信息,并且因特网的使用也相当普遍。特别地,由于因特网的使用越来越广泛,产生的一个更大问题是能够访问此类数字数据的人员与不能访问此类数字数据人员之间的隔阂,即所谓的数字鸿沟。
另外,因特网上记录的大部分信息是用诸如英语之类的大语种书写的,并且理解此语种的人员与不理解此语种的人员之间的隔阂也是一个大问题。
为了消除上述语言障碍引起的数字鸿沟,国内外的许多公司和实验室迄今为止一直在各种场合进行机器翻译的研究。
例如,使用文集研究机器翻译,其中文集使用双语输入语言输出语言获取将某种语言翻译为另一种语言所需的知识。然而,只有提供大规模双语文本数据的语言,上述翻译才是可行的。此外,翻译有助于比到目前为止更准确的机器翻译,但是只能用于大语种,因为仅仅获取知识。
如上所述,迄今为止研究的大部分技术只能互译大语种,因此上述技术无助于消除语言障碍引起的数字鸿沟。包含因特网在内的信息技术进一步扩大了上述隔阂,迫切需要在致命隔阂出现前解决上述问题。然而,发展中国家无法承担开发语言资源和技术的费用,因此信息产业很难进行大量没有利润的投资。即使发达国家也不可能承担独立处理许多小语种的费用。
为了解决上述问题,人们试图开发能够以较低费用处理小语种的语言处理技术,但是迄今为止此类技术的开发很慢。
另外,目前机器翻译的准确度尚未达到广泛实用的程度。有一句话说得好:一句话本身是不能完全理解的,只有理解其上下文后才能理解一句话。然而,现有自然语言处理技术还不足以处理上下文。
发明内容
本发明旨在克服现有技术的上述问题。本发明的目的在于提供用于生成第三语言文本的技术,从而机器翻译不仅能够互译大语种,而且能够互译大语种和小语种。本发明的另一个目的在于提供生成文本的技术,该技术能够以比以往准确度更高的准确度生成文本。
为了解决上述问题,本发明使用以下第三语言文本生成算法。更确切地说,本发明的创新技术为通过使用众多多语文本生成新的第三语言文本的技术。本发明的算法包括以下步骤:
(1)输入用不同语言书写的两个或更多多语文本,不同语言包括作为源语言的第一语言和将第一语言翻译成的至少一种第二语言;
(2)以每种语言或任意两种或多种语言之组合的方式,在每个多语文本上执行包括至少相依分析和语义分析的语言分析,从而获取有关至少相依结构和语义表示的语言信息;以及
(3)生成第三语言文本,
其中生成步骤通过使用分析步骤获取的语言信息生成第三语言文本,或者
该算法还包括以下步骤,根据分析步骤获得的分析结果,或者根据分析结果和第三语言的转换知识特征,执行语言转换,转换步骤在分析步骤之后,
其中生成步骤通过使用分析步骤获取的语言信息或转换步骤获取的转换结果,生成第三语言文本。
在本发明中,分析步骤包括为确定构成多语文本的单词之间的对应,构成多语文本的短语之间的对应以及构成多语文本的句子之间的对应而执行关联处理的关联步骤;通过使用先前准备的分析模块分析至少第一语言文本的分析处理;以及通过使用先前准备的分析模块,根据关联处理的结果,分析与第一语言文本相对应的至少第二语言文本中的各个部分,然后合并分析结果的合并处理。
分析、转换和生成步骤中的至少一个步骤可以使用基于规则的信息,该信息包含至少每种语言的词典信息或语法信息,以及基于从文集中的实际数据中获得的学习结果的经验信息。
生成步骤包括自动获取至少第三语言句法结构信息的部分或全部信息,或有关现有第三语言文集的第三语言单词用法信息;以及根据自动获取的第三语言的信息特征,生成第三语言文本。
本发明能够提供使用上述方法的第三语言文本生成设备。本发明能够提供使用上述方法的第三语言文本生成程序。
附图说明
图1为生成转换语言文档文本的常规处理的流程图;
图2为根据本发明生成目标语言文档文本的处理的流程图;
图3表示根据本发明的第三语言文本生成设备的输入装置的配置;
图4表示根据本发明的第三语言文本生成设备的分析系统的配置;
图5表示根据本发明的第三语言文本生成设备的转换系统的配置;以及
图6表示根据本发明的第三语言文本生成设备的生成系统的配置。
参考号数表示的部件如下。数字20表示双语文档文本,数字21表示多语文档文本分析系统,数字22表示转换系统,数字23表示生成系统,数字24表示目标语言文档文本,数字25表示转换知识,数字26表示用于生成的语言知识,数字27表示双语文集,数字28表示单语文集,数字29表示小规模目标语言数据,数字30表示箭头,箭头代表从双语文集中获取转换知识的过程。
具体实施方式
以下参照附图表示的典型实施方式描述本发明的实施方式。
本发明提供以比常规机器翻译之准确度更高的准确度生成目标第三语言文本(以下称为目标语言)的技术,该技术包括:从手工准备的众多多语文档文本中,例如从日语和英语文档文本中,获取内容信息;从双语词典中获取归约规则;以及从目标语言文档文本中获取语言特征,从而生成准确的目标语言文本。
自然语言处理的常规技术模拟人类的普通行为,例如读一个句子,然后翻译概括该句子。
然而,其致命缺陷是难以保证允许计算机处理上下文的技术。本发明包括以总和或乘积的形式从诸如日英之类的双语文档文本中抽取信息,从而深入理解上下文。
用于其他信息处理的技术包括上述为增加信息量而以总和形式抽取信息的方法。然而,本发明的技术是全新技术,因为使用多语文本来消除句子的歧义,这正是本发明的最显著的特征。
本发明的技术是全新技术的另一个原因是,为生成表面文本而从单语目标语言文集中根据综合理解获取每种语言的信息特征。
图1表示将单语文档文本转换为目标语言并生成此时以前产生的目标语言文档文本的过程的流程图。图2表示将日英双语文档文本转换为目标语言并根据本发明生成目标语言文档文本的过程的流程图。
在常规方法中,通常通过分析系统(11),转换系统(12)和生成系统(13),执行将单语文档文本(10)翻译成目标语言文档文本(14)的过程,其中系统(11)、(12)和(13)划分该过程。开发系统(11)、(12)和(13)必须手工建立规则(15),并且开发高准确度的系统要求分析大规模文档文本。例如,用于学习的大规模文集需要大量费用和研究,目前,正在逐渐准备大语种的文集,但是很难准备小语种的文集。
在本发明中,正如图2所示,使用至少两种语言(如大语种)准备文集,然后利用分析系统(21)、转换系统(22)和生成系统(23)进行处理,以便生成目标语言文档文本(24)。更确切地说,第三语言文本生成设备使用图3所示的用于输入两个或多个多语文本的输入装置输入文档文本。
可以按以下方式输入文本:扫描仪(31)按图像数据的方式捕获文本,经由接口(32)将图像数据从扫描仪(31)输入到CPU(33),通过利用CPU(33)执行众所周知的OCR处理,将图像数据转换为文本数据,然后在硬盘(34)或存储器(35)中存储文本数据。可以读出并输入硬盘(34)中先前存储的文本数据。
作为选择,可利用计算机配备的键盘(36)输入多语文本,或者从网络上连接的其他计算机(37)中获取信息。可以利用支持的I/O设备或网络适配器等作为键盘(36)、计算机(37)和CPU(33)之间的接口。
将每种语言或任意两种或多种语言之组合形式的每个多语文本,提供给多语文档文本分析系统(21),该系统作为分析语言信息的分析装置。
第三语言文本生成设备还具有转换系统(22)和生成系统(23),其中转换系统作为至少根据分析步骤获取的分析结果,将语言转换为第三语言的转换装置,而生成系统作为根据转换步骤的转换结果生成第三语言文本的生成装置。
可以使用额外提供的输出装置(未示出)输出上述过程的结果。用于屏幕显示的监视器,诸如硬盘之类的存储设备,或网络上的其他计算机均可以作为输出装置。
例如,输入语言为彼此相对应的日英双语文档文本。在本发明中,确定第一语言作为翻译的源语言,与第一语言翻译成的第二语言一起输入第一语言。
输入语言的数目可以为两个或更多,例如,高准确度分析可使用三种语言(日语,英语,法语等)。
常规机器翻译系统不能提高准确度的一个主要原因是语言分析的困难。分析困难相当于不能消除歧义,但是使用多语文本能够进行分析。
例如,日语单词本身不能了解该单词是否为复数名词,而英语单词能够根据该单词是单数形式还是复数形式,判断该单词是单数名词还是复数名词。另一方面,英语单词本身不能了解该单词的语义功能,而日语单词能够了解该单词表示“场所”信息,因为一个虚词伴随该单词。当使用器语言结构完全不同的语言时,例如使用日语和英语的组合时,特别有效。
因此在本发明中,最好使用具有不同语言结构的语言,如日语和英语的组合,日语和汉语的组合或以上三种语言的组合,作为多语文档文本的语言的组合。相反,英语和法语的独自组合未必能够收到本发明的效果。然而,与英语和日语的独自组合相比,英语、法语和日语的组合能够生成准确度更高的文本,并且可以使用此类组合。
以下详细描述根据本发明的分析系统(21)。图4表示分析系统的配置。
分析系统(21)使用CPU(33)分析两个单词的一个单词与另一个单词的相依性(作为选择,可以利用稍微大一点的单位,如日语句子中的“文节”代替单词),前提是输入装置输入硬盘(34)中存储的日英双语文档文本(20)。如果需要,CPU(33)可以与诸如存储器(35)之类的计算机的各种设备或组件一起运行。
在典型实施方式中,首先对输入的双语文档文本(20)进行关联处理:把一个文本中的句子与另一个文本中的相应句子关联起来,以确定构成双语文档文本的句子之间的对应关系,然后利用该对应关系合并随后的分析处理获取的分析结果。
更确切地说,即使日英双语文档文本(20)逐词对应,也无需机械查找对应关系,因为句数随语言的特征,其阅读的容易程度等变化。
因此,关联部分(42)执行关联处理以确定构成双语文档文本(20)的句子之间的对应关系,从而把一个文本中的句子与另一个文本中的对应句子联系起来。按下述方式在硬盘(34)中存储关联数据,例如,标记日语文本以表示日语文本中的第十句与英语文本中的第十一句相对应。
尽管可以使用抽取两个文本之间的相关关系的公知语言处理技术作为关联处理方法,但是可以使用跨语言信息检索实现上述关联处理方法。
接着,CPU(33)执行至少相依分析(40)和语义分析(41)。尽管上述分析是众所周知的并且可以使用任何方法进行上述分析,但是可以对日语和英语应用申请人等先前推荐的日语相依模型(参见KiyotakaUchimoto,Masaki Murata,Satoshi Sekine和Hitoshi Isahara的“Dependency Model Using Posterior Context”,Journal of NaturalLanguage Processing,Vol.7,No.5,pp 3-17(2000)),以确定相依关系。该模型用来学习两个单词(或两个短语)中的一个单词是否与另一个单词存在相依关系,并且该模型是使用机器学习模型实现的。确定相依关系的目的是学习模型计算的概率积是所有句子中最高的。
首先在作为源语言的日语文本上执行相依分析(40),以便顺序分析构成日语文本的所有句子。在标记感兴趣的日语句子并且日语句子具有其英语翻译时,对感兴趣的英语句子进行相依分析(40),并且合并部分(43)确定两个句子中的最高概率积为感兴趣句子的相依分析的结果。因此,与只输入日语文本相比,输入日语文本和其他语言文本允许合并其他语言的分析结果,由此获得具有最高概率的结果,从而显著改善分析结果。
另外,上述相依结构进行实例分析(即语义分析)。可以利用相依结构中相依关系的正确解释增加率,度量相依分析中双语文本的输入的有效性。
语义分析按照与以上相依分析相同的方式发生。更确切地说,语义分析首先获取日语文本的分析结果,并且当英语文本包含与感兴趣的日语句子相对应的英语句子时,合并部分(43)比较日语和英语句子的分析结果,然后使用具有较高概率的语义分析的结果。
如上所述,本发明允许简单采用具有较高概率的分析结果,因此通过输入更多语言有助于提高分析的准确度。
申请人提交的日本专利申请2001-139563也公开了相依分析(40)和语义分析(41),其中相对于作为语义分析(41)之实例的指定实体抽取给出详细说明。指定实体抽取为翻译时选择严格相等项的一种重要语义分析,并且对翻译成第三语言特别有效。
然而,本发明的目的是第三语言文本生成,包括迄今尚未提出申请的输入两个或更多多语文档文本的步骤,以及分析、转换和生成步骤。因此,可以使用任何分析方法。例如,可以进行众所周知的形态分析,以合并多语文档文本的分析结果,并且也可以选择任何合并方法,因为合并方法随分析方法变化。
在硬盘(34)中存储上述相依分析和语义分析的结果。
如上所述,分析系统(21)包括在每种语言上执行至少相依分析(40)和语义分析(41)的分析模块(45),并且还包括为执行更高准确度的分析而提供的关联部分(42)和合并部分(43),上述结构组件执行相应处理。
此外,本发明的分析模块(45)支持基于实际数据的分析,其方法是,在根据诸如词典和语法之类的先前建立的规则执行分析时,执行用于确定对应关系的关联处理以及用于合并分析结果的合并处理。
如上所述,通过合并分析处理根据规则获得的基于规则的信息以及基于实际数据的分析处理获得的经验信息,本发明有助于实现更高准确度的分析系统(21)。
接着,给出有关转换系统(22)的详细描述。图5表示转换系统的配置。
如上所述,使用计算机将一种语言转换为另一种语言需要适合于计算的语言信息。由于手工建立所需信息需要理解两种语言的专家的大量工作,所以对于一对大语种之外的语种,此类工作是不切实际的。
如上所述,尽管提供从大量双语文集中自动获取语言信息的方法,但是不太可能准备一对大语种之外的语种的大量多语文集。
因此,本发明使用作为源语言的两种语言的双语文集(27),目标语言(如泰语)的单语文集(28),以及诸如日泰和英泰词典之类的源语言和目标语言的小规模双语词典的小规模数据(29)的组合,以便获取语言信息。
单语文集(28)可以为小规模文集,并且能够有效处理不可能为语言处理而进行足够研究或分析的语言。
由此获取的信息为用于生成的转换知识(25)和语言知识(26),并且根据本发明的转换系统(22)基于转换知识(25),控制将一种语言转换为另一种语言。
为了在不使用大规模语言文集的情况下生成高准确度的输出,本发明包括:比较输入的双语文集(27)与单语第三语言文集(28),自动获取第三语言的语言信息特征,以及生成转换知识数据库(54)。
例如,当构成复合词或复合短语的每个单词进行基于词典的简单转换时,该转换通常导致不自然表示。特别地,翻译时选择等价项,选择词序等是第三语言的信息特征,并且转换知识最好包含该信息。
因此,本发明的转换系统(22)包括用于确定日英短语和泰语短语之间的对应关系的部分(51),对应关系确定部分(51)比较日英双语文集(27)和文档文本(20)与泰语文集(28),然后抽取与日英短语意思相同的泰语短语。在转换知识生成器(52)的控制下,在转换知识数据库(54)中存储抽取的泰语短语。例如,可以从统计上确定与彼此对应的两个日语和英语短语的最高概率相对应的第三语言短语,因为使用日英双语文集作为源语言文集。
转换知识不限于上述信息,转换知识可以包含关联数据,其中通过从统计上把日英双语文集(27)中经常出现的句法结构和泰语文集中经常出现的句法结构联系起来,获取关联数据。从而能够将分析系统(21)获取的分析结果转换为泰语的句法结构特征。
此外,转换器(53)从转换知识数据库(54)中读出在当前翻译期间存储的转换知识,或先前翻译生成的转换知识,并且转换分析系统(21)在硬盘(34)中存储的有关相依结构和语义表示的语言信息。只需利用与第三语言转换知识一致的新数据重写关于单词相依或指定实体的数据,就能实现转换方法。
再次将转换信息存储到硬盘(34)中。
最后,给出有关生成系统(23)的详细描述。图6表示生成系统的配置。
到现在为止,还没有系统执行有关生成的技术开发。当人们直接读取准备的文档文本时,文档文本的准确性与“他或她阅读的文档文本”有关。考虑到生成系统(23)是语言处理系统的最重要的要素,本发明使用以下技术。
更确切地说,提供用于获取单语文集(28)中的单词用法的信息的技术,以及用于获取有关句法结构的信息的技术。为了转换为第三语言文本,通过使用两种或更多语言的信息获取的理解结果,有关第三语言的知识是必须的。
改善所生成的文本的质量还需要获取第三语言的信息特征。然而,当第三语言方面的研究人员基于其特有的语感建立此类信息的规则时,是一项大规模工作,因此,建立大语种之外的语种的规则是不切实际的。
因此,根据本发明的第三语言文本生成设备通过使用众所周知的技术,基于各种语言的数据,自动获取有关各种语言的信息。
更确切地说,当CPU(33)与存储器(35)一起运行时,CPU(33)使用句法结构获取部分(60)从泰语文集(28)中自动获取与词序有关的句法结构。尽管获取方法包括语言处理领域中的各种公知技术,但是也可以使用从文集中获取的词序(参见Kiyotaka Uchimoto,Masaki Murata,Qing Ma,Satoshi Sekine和Hitoshi Isahara,“Word Order Acquisition fromCorpora”,Journal of Natural Language Processing,Vol.7,No.4,pp.163-180(2000))。
特别地,根据分析系统(21)和转换系统(22)获取的单词相依结构,生成具有自然词序的表句。在典型实施方式中,应用词序模型确定单词是否是按自然顺序排列的。
当众多修饰语修饰同一单词时,该模型用来学习修饰语的自然顺序,并且该模型是使用众所周知的机器学习模型实现的。确定自然词序的目的是使学习模型计算的概率积是所有句子中最高的。
此时,可以在用于生成的语言知识数据库(64)中存储自动获取的信息,如学习模型计算的概率值,并用于随后的生成过程。
在确定基本句法结构后,表面表示确定部分(61)确定句子中各单词的适当表面表示。尽管可以使用常规语言处理的公知生成方法来确定表面表示,但是也可以将申请人早先提议的用于确定句子结尾的情态的方法,应用于包括实例表示在内的其他表面表示。
更确切地说,用于获取句子结尾的时态信息的方法(参见MasakiMurata,Qing Ma,Kiyotaka Uchimoto和Hitoshi Isahara,“AnExample-Based Approach to Japanese-to-English Translation of Tense.Aspect,and Modality”,Journal of Japanese Society of ArtificialIntelligence,Vol.16,No.1,pp.20-27(2000))为第一种方法,其中将基于实例的方法应用于时态、体态和情态的翻译问题。该方法包括从双语文本数据库中抽取与正在分析的时态、体态和情态表示非常相似的双语文本的示例(即用法示例),并且从数据库中输出作为结果的翻译。该方法可以实现简单配置,也可以应用于其他表面表示,因为使用从句子结尾开始的匹配字符串(或包含分类词汇表中的分类号的字符串中的匹配)作为用法示例之间的相似性的定义。
上述方法能够将迄今为止通常以不自然的文本的形式输出的计算机生成的文档文本,提高到基于文集中的实际句子的流畅程度的水平。
此外,可以从单语文集中自动获取单词用法信息,以便将该信息添加到用于生成的语言知识(26)中。
尽管参照根据本发明的第三语言文本生成设备的分析装置,转换装置和生成装置给出详细说明,但是执行本发明不要求必须提供转换装置。
更确切地说,本发明的转换装置具有输出语言的转换知识特征,但是并不要求明确提供转换装置。例如,当使用分析装置和生成装置拥有的有关语言信息的知识和信息足以执行生成处理时,生成装置能够根据分析装置获取的分析结果直接生成第三语言,而无需使用独立装置作为转换装置。
在本发明的设备中,可以以各种形式实现输入装置和输出装置。
输入装置能够输入通过各种介质分发的信息。例如,输入装置具有能够将一张纸或一本书之类的文档文本转换为电磁记录的文档文本捕获/转换装置。通过使用扫描仪以及光学字符阅读器和有关软件,能够轻而易举地实现上述装置,可以将该装置包含到本发明的设备中,可以配置该装置以便读取利用日语和英语之类的两种语言书写的双语书籍,从而输出诸如泰语文本之类的第三语言文本。可以使用任何输出装置,例如,可以在显示设备上显示文本,可以将文本写入到记录设备上,可以在诸如因特网之类的网络上发布,或以其他方式输出。
可以更容易地读出或输入从诸如硬盘、光存储器或存储器之类的电磁记录设备中读取的计算机数据。特别地,已经开发了诸如Unicode之类的供多种语言使用的字符码,从而能够同时处理多种语言,特别是小语种。
使用此类编码允许同时流畅地处理多种语言,并且便于将数据记录到上述电磁记录设备上,或读取电磁记录设备上的数据。
此外,允许本发明实现巨大作用的应用程序包括:输入可从诸如因特网之类的网络上的计算机上安装的电磁存储设备中获取的计算机数据。
在因特网上,大部分分发信息均是用大语种书写的,因为在使用大语种的区域内计算机的使用特别广泛。
另外,跨国公司的主页提供大语种之间的高准确度的手工翻译,因此,通过使用本发明的技术,能够将大语种转换为许多尚未翻译的小语种。因此,以下操作非常有效:本发明的设备的输入装置从与因特网之类的网络相连的电磁记录设备中获取计算机数据,然后将获取的数据输入到本发明的设备中。
尽管上述说明是参照根据本发明之某一实施方式的第三语言文本生成设备进行的,但是本发明可以仅仅提供在计算机中使用的算法,或者提供能够在任何计算机上运行的程序。
可以通过网络分发根据本发明配置的程序。
工业应用的可能性
根据本发明,上述配置允许同时分析用多种语言书写的具有相同内容的句子,由此准确地理解句子,并生成准确的第三语言文本。此外,如果需要,上述配置还包括转换处理,从而有助于提高准确度。因此,可以使用发展中国家使用的小语种为这些国家提供信息。再者,当获得本发明的技术时,开发处理新语言的主要因素是获取有关该语言的语言信息,从而所有国家均能从事此类开发。
将来人们会不断将大量用英语准备的文档文本手工翻译为高准确度的日语文档文本。然而,不太可能将此类文档文本高质量地翻译为许多其他亚洲语言文本。
本发明能够显著提高翻译成诸如泰语之类的各种亚洲语言的翻译水平。通过获得本发明的技术,具有数字鸿沟问题的许多发展中国家都能通过其自己的努力和少量帮助解决该问题。
此外,与使用单语文本的翻译相比,本发明能够以较低费用生成具有很高准确度的第三语言文本。本发明可以提供安装有上述算法的设备,或者提供可通过网络分发的程序。
Claims (13)
1.一种供基于计算机的语言处理使用的第三语言文本生成算法,通过使用众多双语文本生成一种新的第三语言文本,该算法包括以下步骤:
输入用不同语言书写的两个或更多多语文本,不同语言包括作为源语言的第一语言和将第一语言翻译成的至少一种第二语言;
以每种语言或任意两种或多种语言之组合的方式,在每个多语文本上执行包括至少相依分析和语义分析的语言分析,从而获取有关至少相依结构和语义表示的语言信息;以及
生成第三语言文本,
其中生成步骤通过使用分析步骤获取的语言信息生成第三语言文本,或者
该算法还包括以下步骤,根据分析步骤获得的分析结果,或者根据分析结果和第三语言的转换知识特征,执行语言转换,转换步骤在分析步骤之后,
其中生成步骤通过使用分析步骤获取的语言信息或转换步骤获取的转换结果,生成第三语言文本。
2.根据权利要求1的第三语言文本生成算法,其中分析步骤包括:
为确定构成多语文本的单词之间的对应,构成多语文本的短语之间的对应和构成多语文本的句子之间的对应而执行关联处理的关联步骤;
通过使用先前准备的分析模块分析至少第一语言文本的分析步骤;以及
通过使用先前准备的分析模块,根据关联处理的结果,分析与第一语言文本相对应的至少第二语言文本中的各个部分,然后合并分析结果的合并步骤。
3.根据权利要求1或2的第三语言文本生成算法,其中分析、转换和生成步骤中的至少一个步骤可以使用基于规则的信息,该信息包含至少每种语言的词典信息或语法信息,以及基于从文集中的实际数据中获得的学习结果的经验信息。
4.根据权利要求1到3的第三语言文本生成算法,其中生成步骤包括:
自动获取至少第三语言句法结构信息的部分或全部信息,或有关现有第三语言文集的第三语言单词用法信息;以及
根据自动获取的第三语言的信息特征,生成第三语言文本。
5.一种供语言处理使用的第三语言文本生成设备,通过使用众多语言生成一种新的第三语言文本,该设备包括:
输入装置,用于输入用不同语言书写的两个或更多多语文本,不同语言包括作为源语言的第一语言和将第一语言翻译成的至少一种第二语言;
分析装置,用于以每种语言或任意两种或多种语言之组合的方式,在每个多语文本上执行包括至少相依分析和语义分析的语言分析,从而获取有关至少相依结构和语义表示的语言信息;
用于生成第三语言文本的生成装置;以及
能够输出生成装置生成的第三语言文本的输出装置,
其中生成装置通过使用分析装置获取的语言信息生成第三语言文本,或者
该设备还包括转换装置,该装置根据分析装置获得的分析结果,或者根据分析结果和第三语言的转换知识特征,执行语言转换,
其中生成装置通过使用至少分析装置获取的语言信息或转换装置获取的转换结果,生成第三语言文本。
6.根据权利要求5的第三语言文本生成设备,其中分析装置包括:
为确定构成多语文本的单词之间的对应,构成多语文本的短语之间的对应和构成多语文本的句子之间的对应而执行关联处理的关联部分;
分析至少第一语言文本的分析模块;以及
通过使用先前准备的分析模块,根据关联处理的结果,分析与第一语言文本相对应的至少第二语言文本中的各个部分,然后合并分析结果的合并部分。
7.根据权利要求5或6的第三语言文本生成设备,还包括信息存储装置,用于存储包含至少每种语言的词典信息或语法信息的基于规则的信息,以及基于从文集中的实际数据中获得的学习结果的经验信息,
其中分析装置、转换装置和生成装置中的至少一个装置,根据信息存储装置中存储的基于规则的信息和经验信息,执行分析处理。
8.根据权利要求5到7的第三语言文本生成设备,还包括至少第三语言信息获取装置或第三语言信息存储装置,前者用于自动获取至少第三语言句法结构信息的部分或全部信息,或有关现有第三语言文集的第三语言单词用法信息,后者能够保存先前自动获取的第三语言的信息特征,
其中生成装置根据第三语言的信息特征,生成第三语言文本。
9.根据权利要求5到8的第三语言文本生成设备,其中输入装置能够将至少一种计算机数据输入到该设备中,计算机数据为:将一张纸或一本书之类的文档文本转换为电磁记录的文档文本捕获/转换装置转换的计算机数据;从硬盘、光存储器或存储器之类的电磁记录设备中读取的计算机数据;以及可从因特网之类的网络上的电磁存储设备中获得的计算机数据。
10.供基于计算机的语言处理使用的一种第三语言文本生成程序,通过使用众多多语文本生成一种新的第三语言文本,该程序包括:
输入部分,用于从计算机的存储设备或输入设备中获得用不同语言书写的两个或更多多语文本,不同语言包括作为源语言的第一语言和将第一语言翻译成的至少一种第二语言;
分析部分,用于以每种语言或任意两种或多种语言之组合的方式,在每个获得的多语文本上执行包括至少相依分析和语义分析的语言分析,并且通过使用计算机的运算器和存储设备执行算术运算,获取有关至少相依结构和语义表示的语言信息;
生成部分,通过使用计算机的运算器和存储设备执行算术运算,生成第三语言文本;以及
输出部分,利用计算机的存储设备或输出设备输出生成部分生成的第三语言文本,
其中生成部分通过使用分析部分获取的语言信息生成第三语言文本,或者
该程序还包括转换部分,用于根据分析部分获得的分析结果,或者根据分析结果和第三语言的转换知识特征,执行语言转换,
其中生成部分通过使用至少分析部分获取的语言信息或转换部分获取的转换结果,生成第三语言文本。
11.根据权利要求10的第三语言文本生成程序,其中分析部分包括:
为确定构成多语文本的单词之间的对应,构成多语文本的短语之间的对应和构成多语文本的句子之间的对应而执行关联处理的关联例程;
分析至少第一语言文本的分析例程;以及
通过使用分析例程,根据关联处理的结果,分析与第一语言文本相对应的至少第二语言文本中的各个部分,然后合并分析结果的合并例程。
12.根据权利要求10或11的第三语言文本生成程序,其中分析部分、转换部分和生成部分中的至少一个部分使用基于规则的信息,该信息包含至少每种语言的词典信息或语法信息的基于规则的信息,以及基于从文集中的实际数据中获得的学习结果的经验信息。
13.根据权利要求10到12的第三语言文本生成程序,还包括第三语言信息读取例程,该例程读出自动获取部分获取的第三语言的信息特征,或至少有关现有第三语言文集的第三语言句法结构信息或第三语言单词用法信息的所有信息,
其中生成部分根据第三语言的信息特征,生成第三语言文本。
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP243118/2001 | 2001-08-10 | ||
| JP2001243118 | 2001-08-10 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| CN1554058A true CN1554058A (zh) | 2004-12-08 |
Family
ID=19073262
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| CNA02817660XA Pending CN1554058A (zh) | 2001-08-10 | 2002-08-09 | 借助多语文本输入的第三语言文本生成算法及其设备和程序 |
Country Status (6)
| Country | Link |
|---|---|
| US (1) | US20040254783A1 (zh) |
| EP (1) | EP1655674A2 (zh) |
| JP (1) | JP4304268B2 (zh) |
| KR (1) | KR100918338B1 (zh) |
| CN (1) | CN1554058A (zh) |
| WO (1) | WO2003014967A2 (zh) |
Cited By (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104137097A (zh) * | 2012-02-27 | 2014-11-05 | 独立行政法人情报通信研究机构 | 谓语模板收集装置、特定短语对收集装置、以及用于它们的计算机程序 |
| CN104484156A (zh) * | 2014-12-16 | 2015-04-01 | 用友软件股份有限公司 | 多语言公式的编辑方法、编辑系统和多语言公式编辑器 |
| CN110914827A (zh) * | 2017-04-23 | 2020-03-24 | 纽昂斯通讯公司 | 基于转移学习的多语言语义解析器 |
| CN112015889A (zh) * | 2020-08-18 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 通过文本摘要技术生成的阅读辅导系统 |
Families Citing this family (15)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7689412B2 (en) * | 2003-12-05 | 2010-03-30 | Microsoft Corporation | Synonymous collocation extraction using translation information |
| US20060083431A1 (en) * | 2004-10-20 | 2006-04-20 | Bliss Harry M | Electronic device and method for visual text interpretation |
| US20060282255A1 (en) * | 2005-06-14 | 2006-12-14 | Microsoft Corporation | Collocation translation from monolingual and available bilingual corpora |
| US20070016397A1 (en) * | 2005-07-18 | 2007-01-18 | Microsoft Corporation | Collocation translation using monolingual corpora |
| US7991608B2 (en) * | 2006-04-19 | 2011-08-02 | Raytheon Company | Multilingual data querying |
| JP4256891B2 (ja) | 2006-10-27 | 2009-04-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳の精度を向上させる技術 |
| CN101286094A (zh) | 2007-04-10 | 2008-10-15 | 谷歌股份有限公司 | 多模式输入法编辑器 |
| JP2010055235A (ja) * | 2008-08-27 | 2010-03-11 | Fujitsu Ltd | 翻訳支援プログラム、及び該システム |
| CN102591857B (zh) * | 2011-01-10 | 2015-06-24 | 富士通株式会社 | 一种平行语料资源获取方法及系统 |
| US10191899B2 (en) | 2016-06-06 | 2019-01-29 | Comigo Ltd. | System and method for understanding text using a translation of the text |
| US11580312B2 (en) | 2020-03-16 | 2023-02-14 | Servicenow, Inc. | Machine translation of chat sessions |
| US11385916B2 (en) * | 2020-03-16 | 2022-07-12 | Servicenow, Inc. | Dynamic translation of graphical user interfaces |
| CN113569565B (zh) * | 2020-04-29 | 2023-04-11 | 抖音视界有限公司 | 一种语义理解方法、装置、设备和存储介质 |
| CN114358025B (zh) * | 2021-08-05 | 2025-09-26 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
| CN117648410B (zh) * | 2024-01-30 | 2024-05-14 | 中国标准化研究院 | 一种多语言文本数据分析系统及方法 |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| NL9101286A (nl) * | 1991-07-23 | 1993-02-16 | Oce Nederland Bv | Werkwijze voor het verbuigen van woorden, alsmede een data-verwerkings-eenheid voor het uitvoeren van een dergelijke werkwijze. |
| US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
| JP2880601B2 (ja) * | 1992-01-22 | 1999-04-12 | シャープ株式会社 | 言語処理装置 |
| AU677605B2 (en) * | 1992-09-04 | 1997-05-01 | Caterpillar Inc. | Integrated authoring and translation system |
| US6014615A (en) * | 1994-08-16 | 2000-01-11 | International Business Machines Corporaiton | System and method for processing morphological and syntactical analyses of inputted Chinese language phrases |
| US5737734A (en) * | 1995-09-15 | 1998-04-07 | Infonautics Corporation | Query word relevance adjustment in a search of an information retrieval system |
| US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
| US6243669B1 (en) * | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
-
2002
- 2002-08-09 JP JP2002232922A patent/JP4304268B2/ja not_active Expired - Lifetime
- 2002-08-09 US US10/486,087 patent/US20040254783A1/en not_active Abandoned
- 2002-08-09 EP EP02755905A patent/EP1655674A2/en not_active Withdrawn
- 2002-08-09 CN CNA02817660XA patent/CN1554058A/zh active Pending
- 2002-08-09 WO PCT/JP2002/008192 patent/WO2003014967A2/ja not_active Ceased
- 2002-08-09 KR KR1020047002019A patent/KR100918338B1/ko not_active Expired - Fee Related
Cited By (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN104137097A (zh) * | 2012-02-27 | 2014-11-05 | 独立行政法人情报通信研究机构 | 谓语模板收集装置、特定短语对收集装置、以及用于它们的计算机程序 |
| KR20140129053A (ko) * | 2012-02-27 | 2014-11-06 | 도쿠리츠 교세이 호진 죠호 츠신 켄큐 키코 | 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램 |
| CN104137097B (zh) * | 2012-02-27 | 2017-02-22 | 独立行政法人情报通信研究机构 | 谓语模板收集装置以及特定短语对收集装置 |
| US9582487B2 (en) | 2012-02-27 | 2017-02-28 | National Institute Of Information And Communications Technology | Predicate template collecting device, specific phrase pair collecting device and computer program therefor |
| KR101972408B1 (ko) | 2012-02-27 | 2019-04-25 | 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 | 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램 |
| CN104484156A (zh) * | 2014-12-16 | 2015-04-01 | 用友软件股份有限公司 | 多语言公式的编辑方法、编辑系统和多语言公式编辑器 |
| CN104484156B (zh) * | 2014-12-16 | 2017-04-05 | 用友网络科技股份有限公司 | 多语言公式的编辑方法、编辑系统和多语言公式编辑器 |
| CN110914827A (zh) * | 2017-04-23 | 2020-03-24 | 纽昂斯通讯公司 | 基于转移学习的多语言语义解析器 |
| CN110914827B (zh) * | 2017-04-23 | 2024-02-09 | 赛伦斯运营公司 | 生成多语言语义解析器的系统和计算机实现方法 |
| CN112015889A (zh) * | 2020-08-18 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 通过文本摘要技术生成的阅读辅导系统 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR100918338B1 (ko) | 2009-09-22 |
| KR20040024619A (ko) | 2004-03-20 |
| US20040254783A1 (en) | 2004-12-16 |
| JP2003141114A (ja) | 2003-05-16 |
| WO2003014967A2 (en) | 2003-02-20 |
| JP4304268B2 (ja) | 2009-07-29 |
| EP1655674A2 (en) | 2006-05-10 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN1554058A (zh) | 借助多语文本输入的第三语言文本生成算法及其设备和程序 | |
| Seddah et al. | Overview of the SPMRL 2013 shared task: A cross-framework evaluation of parsing morphologically rich languages | |
| US20050216253A1 (en) | System and method for reverse transliteration using statistical alignment | |
| US20090094017A1 (en) | Multilingual Translation Database System and An Establishing Method Therefor | |
| Hutchins | Example-based machine translation: a review and commentary | |
| CN1834955A (zh) | 多语种翻译存储器、翻译方法以及翻译程序 | |
| CN1945562A (zh) | 训练音译模型、切分统计模型以及自动音译的方法和装置 | |
| Amin et al. | CMS-intelligent machine translation with adaptation and AI | |
| Erjavec | The goo300k corpus of historical Slovene. | |
| Simard | Building and using parallel text for translation | |
| Bamman et al. | The Latin Dependency Treebank in a cultural heritage digital library | |
| Avetisyan et al. | Large language models and low-resource languages: An examination of Armenian NLP | |
| Pradeep et al. | Sandarśana: A Survey on Sanskrit Computational Linguistics and Digital Infrastructure for Sanskrit | |
| CN101034392A (zh) | 语法分析方法、装置及存储语法分析程序的产品 | |
| Mall et al. | Developing a system for machine translation from Hindi language to English language | |
| CN100454294C (zh) | 用于将日文翻译成中文的设备 | |
| Shoba et al. | Spoken Language Translation in Low‐Resource Language | |
| Tanjila et al. | Bengali chartsumm: A benchmark dataset and study on feasibility of large language models on bengali chart to text summarization | |
| Jindal et al. | Building English–Punjabi parallel corpus for machine translation | |
| JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
| CN1064464C (zh) | 以多重评分函数为基础的语言处理系统 | |
| Jindal et al. | Building english-punjabi parallel corpus for machine translation | |
| Seretan | An integrated environment for extracting and translating collocations | |
| Batjargal et al. | An approach to named entity extraction from historical documents in traditional Mongolian script | |
| CN111401052A (zh) | 基于语义理解的多语种文本匹配方法与系统 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| C06 | Publication | ||
| PB01 | Publication | ||
| C10 | Entry into substantive examination | ||
| SE01 | Entry into force of request for substantive examination | ||
| C12 | Rejection of a patent application after its publication | ||
| RJ01 | Rejection of invention patent application after publication |
Open date: 20041208 |