书签分享收藏举报版权申诉 / 65

立即下载加入VIP,免费下载

当前位置：首页 > 自然科学 > 物理 > 分类号 TP3 密级.docx

分类号 TP3 密级.docx

文档编号：10752511
上传时间：2023-05-27
格式：DOCX
页数：65
大小：270.63KB

分类号 TP3 密级.docx

《分类号 TP3 密级.docx》由会员分享，可在线阅读，更多相关《分类号 TP3 密级.docx（65页珍藏版）》请在冰点文库上搜索。

分类号 TP3 密级.docx

分类号TP3密级

UDC编号

中国科学院研究生院

硕士学位论文

基于Web的大规模双语平行语料库

自动获取技术研究与系统实现

叶莎妮

指导教师刘群研究员

中国科学院计算技术研究所

申请学位级别工学硕士学科专业名称计算机应用技术

论文提交日期2008年4月论文答辩日期2008年6月

培养单位中国科学院计算技术研究所

学位授予单位中国科学院研究生院

答辩委员会主席

声明

我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。

尽我所知，除了文中特别加以标注和致谢的地方外，本论文中不包含其他人已经发表或撰写过的研究成果。

与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。

作者签名：

日期：

2008.4.12

论文版权使用授权书

本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档，允许本论文被查阅和借阅，可以将本论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编本论文。

（保密论文在解密后适用本授权书。

）

作者签名：

导师签名：

日期：

2008.4.12

摘要

大规模双语语料库的建设与获取存在着很大的困难，虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设，但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。

这也间接导致了目前的统计机器翻译系统仍然主要处于实验室开发研究阶段，离实际的应用还有一定的距离。

本文致力于构建一个基于Web的大规模双语平行语料库自动获取平台。

取得主要成果有以下几方面：

1.研究了双语平行资源在互联网上的存在形式并探索了相应的获取方法

互联网上虽然存在着海量的多语言文本资源，但任何系统都无法将所有的互联网文本进行处理，从而获取所需的特定双语平行的语料库。

因此需要定义一种启发式信息来概括这类多语种平行文本存在的共同特征，以此作为一个有效的入口，来获取我们关心的Web资源。

以往的系统都致力从一些双语网站中获取互为翻译的双语网页对。

但是通过观察，我们发现在Web上双语平行资源不仅存在于两个平行的单语网页中，还存在于双语对照的同一网页中。

本文对这两种资源都定义了有效的启发式信息，从而很好地解决了大规模数据的来源问题。

2.提出了基于URL命名相似性的双语候选网页获取算法

网络作者在进行双语平行网页URL命名时往往具有一定的规律性，两个URL之间一般只有与语种相关的部分字符串不相同。

以往的系统在这个环节需要预先定义在URL命名中常见的与特定语种相关的前后缀表。

本文提出了一种可以自动发现一个具有命名规律性的双语网站中双语平行网页之间命名规律的方法，不再依赖预定义。

实验表明，本文的方法不仅可以发现所有常见的URL命名规律，而且还可以找出不同的网页编辑者带个人特色的URL命名规律，从而可以找出尽可能多的可信的中英候选网页对。

综合各方面的评估与评价，该方法可以充分挖掘出具有命名相似性的双语网站中存在的双语平行网页，初步解决了双语语料库的获取难题，达到了本文预期的目的。

3.改进了双语平行句对抽取技术

双语平行的网页文本不同于一般的双语对照文本，其中不仅存在有用的双语对照信息，还存在一定的无关信息；此外，网页文本中的词汇量也大大超出任何一本双语词典的范围。

这些都造成了对双语平行网页进行句子对齐的难度。

以往的系统在这方面研究都是利用双语平行网页在其HTML结构上的相似性，但是很少双语平行网页在HTML结构上是完全一致的，其中的噪声很大。

因此，得到的双语平行句对的质量也不尽理想。

本文提出了一种双语平行句对的抽取技术，不仅可以利用双语平行网页HTML结构相似性这一优点，而且可以牢牢把握住双语平行句对互为翻译这一本质特征，从而取得到了很好的效果。

最后，我们实现了上述三个方面的技术，搭建了一个可以持续获取大规模的双语平行语料库的平台。

关键词：

双语平行语料库，网页挖掘，双语平行句对，统计机器翻译

TheResearchandSystemImplementationofAutomaticAcquisitionofLarge-scaleBilingualParallelCorpusfromWeb

YeShani

DirectedByLIUQun

Therearegreatdifficultiesinaccessingandbuildinglarge-scalebilingualparallelcorpus.Althoughalotofmanpower,materialandfinancialresourceshavebeenspentonbuildingbilingualcorpus,theexistingbilingualcorpusstillcannotmeettheneedofprocessingrealtextbecauseofsmallscale,poortimelinessandun-balanceofdomains.Inaddition,italsoindirectlylimitsthedevelopmentofthecurrentstatisticalmachinetranslationtechnology.Thisthesisfocusesonbuildingaplatformtoobtainlarge-scalebilingualparallelcorpusautomatically.Theresearchresultsofthepapercanbesummarizedasfollows:

1.ExploringtheformsofthebilingualparallelresourcesonInternetandthecorrespondingobtainingmethods.

TherearemassivemultilingualtextresourcesontheInternet,andnosinglemethodcandealwithallkindsofmultilingualtextsontheInternet.Thereforeweneedtodefineheuristicinformationtoobtainthewebresourceswhichweconcerned.Theprevioussystemsarealldevotedtoobtainbilingualparallelwebpagesfromsomebilingualwebsites.However,wefindthatparallelbilingualresourcesmayexistsnotonlyintwoparallelmonolingualwebpages,butalsoarecontainedinasinglebilingualwebpage.Inthispaper,wedefinedeffectiveheuristicinformationforthesetwokindsofresources,thusfindawaytoobtainmorebilingualdata.

2.proposingaalgorithmtodiscoverURLpatternsautomaticallyandimprovingURL-pattern-basedminingscheme

Websiteauthorsusuallyfollowsomerulesinnamingparallelbilingualwebpages.TheseURLsonlydifferinsubstringswhichareassociatedwithlanguages.Thepreviousworkusespre-definedURLpatternstodiscovercandidateparalleldocumentswithinthesites.WepresentanalgorithmwhichcanfindURL’snamingtemplatesautomatically,whichnolongerreliesonpre-defined.Experimentsshowthatourmethodcannotonlydiscoverallpre-definedURLpatterns,butalsocanmineauthor-definedpatterns,Thusimprovesthecoverageofwebmining.

3.Improvingbilingualparallelsentenceextraction

Webpagesmayconsistofnon-translationalcontentandout-of-vocabularywords,bothofwhichreducesentencealignmentaccuracyandincreasethedifficulties.Toimprovesentencealignmentperformanceonthewebdata,thesimilarityoftheHTMLtagstructuresbetweentheparallelwebdocumentsmaybehelpful.Duetothenoisynatureofwebpage，onlyusingthesimilarityoftheHTMLtagstructureswillnotworkwell.ThisthesispresentsaparallelsentencescollectionmodelwhichnotonlyfocusesonthesimilarityoftheHTMLtagstructures,butalsousecontent-basedfeatures.

Finally,webuildaplatformtominelarge-scaleparallelbilingualcorpusfromwebautomatically.

Keywords:

BilingualParallelcorpus,WebMining,BilingualparallelSentences,StatisticalMachineTranslation

摘要I

目录V

图目录IX

表目录X

第一章引言11

1.1概述11

1.1.1研究背景11

1.1.2国内外研究现状分析12

1.1.3现有系统介绍与比较14

1.2主要研究目标和内容16

1.2.1研究目标16

1.2.2研究内容17

1.3论文组织结构17

第二章基于Web的双语平行语料库获取的总体架构18

2.1基本流程18

2.2任务分析与界定19

2.2.1双语候选资源获取与预处理19

2.2.2双语候选网页获取20

2.2.3双语平行网页获取20

2.2.4双语平行句对抽取20

2.3本章小结21

第三章双语候选资源获取与预处理22

3.1研究现状22

3.2网页间平行语料获取途径22

3.3网页内部平行语料获取途径23

3.3.1基本思想23

3.3.2可行性评估实验23

3.4网页解析与去噪声24

3.4.1网页内容解析24

3.4.2去噪声处理24

3.4.2网页语种识别与编码转换25

3.5本章小结25

第四章双语网页URL命名模板的自动发现26

4.1相关研究26

4.2双语平行网页URL命名模板的抽象与定义方法27

4.2双语平行网页URL命名模板的自动发现算法29

4.3获取具有URL命名相似性的双语候选网页算法31

4.4实验与分析32

4.4.1数据描述与实验设置32

4.4.2实验结果32

4.5本章小结33

第五章双语平行网页获取34

5.1相关研究34

5.2基于最大熵分类器的双语平行网页获取35

5.2.1最大熵分类器35

5.2.2特征抽取36

5.2.3模型训练38

5.3实验与分析39

5.3.1数据描述与实验设置39

5.3.2实验结果39

5.4本章小结39

第六章双语平行句对抽取40

6.1相关研究40

6.2双语平行句对抽取模型41

6.2.1模型基本思想41

6.2.2生成双语候选句对集合41

6.2.3特征抽取42

6.2.4分类与后处理过程44

6.3实验与分析44

6.3.1数据描述与实验设置44

6.3.2实验结果44

6.4本章小结45

第七章双语平行语料库自动获取平台（PPSM）系统实现46

7.1主要进程介绍46

7.2进程间的数据传递47

7.3系统性能介绍47

7.4系统成果48

7.5本章小结48

第八章总结49

8.1总结49

8.2下一步工作50

附录一网页间平行资源-锚文本列表52

附录二网页内部平行资源-锚文本列表53

附录二HTML特殊字符转换表54

附录三可处理的网页文件类型55

参考文献56

致谢59

作者简历60

图目录

图1-1URL的pathname与basename示例15

图2-1基本流程图18

图4-1一对具有命名相似性的中英网页的URL26

图4-2模板发现算法流程图30

图4-3基于URL命名相似性的双语候选网页获取算法流程图31

图5-1词语对齐示例34

图5-2STRAND系统中的HTML对齐结果34

图5-3对齐HTML标记序列的结果示例36

图5-4词语对齐结果示例38

图6-1原始DomTree和转化后的DomTree40

图6-2带HTML首尾标记的句子序列42

图7-1系统进程图46

图7-2进程间数据传递与通讯示意图47

表目录

表1-1现有系统的差别16

表4-1应用模板的四种动作29

表4-2算法4-1中的主要函数介绍30

表4-3比较实验结果32

表6-1一般文本特征42

表6-2词语对齐相关特征43

表6-3网页结构特征43

表6-4示例43

表6-5特征组合实验45

表7-1系统三大模块的功能46

第一章引言

1.1概述

1.1.1研究背景

随着各国间政治、经济、文化等方面的交流愈来愈频繁、紧密，对世界各国语言间自动翻译需求变得日趋紧迫。

随之而来，对于机器翻译的研究也进入了空前高涨的时期，尤其是近些年兴起的统计机器翻译，吸引着世界各国研究者的目光。

而目前的统计机器翻译的发展，由于其对大规模平行语料库的依赖，还主要集中在平行语料库相对容易获得的英法（CanadianHansards），英汉等语言之间。

而且就目前来说，平行语料库的获取途径有很大的限制，主要集中在国际上大型会议的会议记录（例如UnitedNationsproceedings），宗教文本[1]，以及软件本地化的说明文档等。

由于获取途径的限制，即使像英语，汉语，法语这些常用的官方语言间的对照语料，得到的平行语料库就算是有一定的规模，也多半都是很不平衡的，主要都是政府性或新闻性的题材，其他专业领域的平行语料库则少之又少，至于其他一些国际上不常用的语言间的平行语料库，即使是这种非平衡的资源也很难获得。

而对于统计建模来说，大规模的语料是研究的基础，正所谓“Moredataarebetterdata”[2]。

近年来，互联网的普及与迅猛发展，提供了大量而丰富的电子信息。

2005年仅Google网站公布的网页搜索量就已经超过了80亿。

由于国际化的需要，越来越多的网站成为双语网站，越来越多的网上信息以多语言的形式发布，这就为双语和多语语料库提供了很大的来源。

互联网是一个取之不尽，日益增长的信息源，因此是一个潜在的巨大的多语种语料库。

研究有效的方法从互联网上自动挖掘这些海量的、真实的双语文本（即基于Web的双语语料库挖掘），无疑是解决双语语料库建设和翻译知识获取难题的有效途径。

从应用上看，由于世界经济一体化趋势的发展和互联网应用的不断深入，市场对机器翻译和跨语言信息处理的需求也更加迫切。

著名的搜索引擎Google和Yahoo等都集成了机器翻译的功能。

跨语言信息检索也成为其搜索引擎发展的一个重要方向，这些都意味着跨语言信息处理在主流的互联网的应用中已经占据了一席之地。

此外，美国政府由于反恐的需要，欧盟为适应欧盟扩大的需要，也都对机器翻译和跨语言信息处理研究非常重视。

因此，采取有效的措施推进机器翻译和跨语言信息处理研究的实用化具有重要的价值。

随着国际化交流的日趋频繁，如何消除人们之间的语言文字障碍已经成为二十一世纪的热点问题。

研究有效的大规模双语资源库构建及翻译知识自动获取技术对于推进机器翻译、跨语言信息检索等研究的实用化具有重要的意义。

1.1.2国内外研究现状分析

双语语料库建设

双语语料库的建设和应用研究得到了国内外研究者的广泛重视。

国际上已经出现了为数不少的大规模双语语料库，如加拿大的议会会议录（CanadianHansards）是非常著名的英法双语语料库，许多最初的基于双语语料的研究都是在该语料库基础上进行的。

在汉外双语语料建设方面，香港立法委员会的会议录（HongKongHansards），香港法律（HongKongLaws），香港新闻（HongKongNews），新华社新闻（XinhuaNews）等是国际上广为应用的汉英双语语料库。

可以看到，这些语料库主要集中在政府文件和新闻法律等特殊领域，双语语料库的这种领域不平衡性在一定程度上限制了相关研究在面向真实文本时的实际应用水平。

虽然国内在双语语料库建设方面起步较晚，但是近年来相关研究得到了许多研究机构的重视，也取得了比较可观的进展。

如北京大学计算语言学研究所开发了服务于新闻领域机器翻译的Bable汉英双语语料库。

Bable语料库历时约3年时间实现了20万句对齐（SentenceAlignment）汉英双语语料库的采集和标注，是目前报道的具有详细标注规范、规模最大的语料库之一。

其它规模较大的双语语料库包括中科院计算所开发的用于机器翻译评测20万句对齐的汉英双语语料库；中科院自动化所开发的14万句对齐的汉英双语语料库；哈尔滨工业大学的10万句对齐的汉英双语语料库等。

此外，中科院软件所，清华大学，东北大学，南京师范大学，国家语委等单位也建立了一定规模的汉英双语语料库。

北京大学还建立了2万句对齐的汉日双语句对齐语料库。

对于其它语言的汉外双语语料库的报道还不多见。

目前关于双语语料库的建设和研究主要侧重于语料库的对齐加工标注，多级自动对齐技术以及双语平行语料库在机器翻译和翻译知识获取等方面的应用技术，而对大规模原始双语语料库的系统性构建这一前提性工作却关注较少。

目前报道的双语语料库主要来源于电子版书籍或报刊的双语文本，部分来源于互联网上的双语文本，而在语料库的搜集和处理上大多依赖于人工挑选和判定。

这种原始语料库的获取方式大大限制了双语语料库的建设效率，制约了双语语料库在规模、领域、语言对上的快速扩展，更是难以达到时效性的要求。

各研究单位的中小规模重复建设也消耗了大量的人力、物力和财力。

因此，研究高效的，支持大规模、多领域，可持续发展的双语资源库建设方案对于减轻人工搜集双语语料库的困难，推动相关研究发展具有重要的实际意义。

基于Web的双语平行资源自动获取

近几年来，基于Web的翻译信息获取研究开始引起研究者的关注。

目前研究大多集中在翻译词典获取方面，如基于Web的命名实体翻译，未登陆词翻译，术语翻译，短语翻译获取等。

国内在这方面的相关报道，如上海交通大学的原双庆等研究了基于Web的多语翻译词典获取方法；富士通研究院方高林研究了基于Web的术语翻译的获取方法；赛迪集团推出的新一代英汉双向翻译系统中也采用了Web词典技术，等等。

在基于Web的双语网页获取方面，也有一些研究者进行了初步的探索，其中比较著名的研究是加拿大蒙特利尔大学的研究者聂建云开发的系统PTMiner[3]（ParallelTextMiner）和美国马里兰大学的研究者Resnik开发的系统STRAND[4-5]（StructuralTranslationRecognition,AcquiringNaturalData）。

他们所用的挖掘方法都是和具体的语言本身的一些知识和特性无关的，而是基于对Web文档的结构（structure-based）分析来完成挖掘的，也就是说，用他们的方法可以挖掘Web上任意语言对之间对应的平行语料库。

他们的共同特点是利用现有的搜索引擎和双语网站中的语言标志作为启发式信息（如网站中的“EnglishVersion”,“inEnglish”等）来获取候选双语平行（Parallel）网站，利用网页URL地址的相似性（如file_e.HTML和file_c.HTML）来获取平行网页，只是在具体的实现上稍有差异，像Resnik在URL匹配时采用了功能强大的正则表达式匹配，而聂建云他们则只列举出了一些简单的文档的前后缀来完成。

还有另外一种挖掘方法，在网页的采集阶段是基于结构的，但是在对采集下来的网页进行双语文本对齐时则使用了一部大词汇量的双语词典，用于计算挖掘出来的网页间内容的相似度，从而决定两个Web文档是否互为翻译，这种方法称之为Context-based（基于内容的），用这种方法实现的一个代表性系统是BITS[6]（BilingualInternetTextSearch,MaandLiberman1999）。

而BITS系统其实就是基于STRAND系统做出来的，它利用STRAND系统将潜在的候选网页下载下来，然后利用自己的方法进行对齐，这种方法加入了一定的语言相关的知识，对齐的质量也有所提高。

国内在基于Web的双语网页和双语语料库方面的研究还相对较少，香港城市大学的研究者探索了从特定双语网站（http:

//www.justice.gove.hk）上获取香港法律双语语料库的方法，取得了初步进展。

这些研究为双语资源库的自动构建提出了新的思路，证明了Web用于双语资源和翻译知识获取的可行性和重要价值。

目前这些工作还存在着一些不足，需要进一步的研究和探索。

目前大部分研究还只是实验性系统，获取双语网页的规模小，还没有真正用于到大规模双语资源库建设中，并且