基于Web的大规模中文人物信息提取研究.docx
- 文档编号:2839206
- 上传时间:2023-05-04
- 格式:DOCX
- 页数:54
- 大小:1.51MB
基于Web的大规模中文人物信息提取研究.docx
《基于Web的大规模中文人物信息提取研究.docx》由会员分享,可在线阅读,更多相关《基于Web的大规模中文人物信息提取研究.docx(54页珍藏版)》请在冰点文库上搜索。
基于Web的大规模中文人物信息提取研究
国内图书分类号:
TP301.6密级:
公开
国际图书分类号:
681.14
西南交通大学
研究生学位论文
基于Web的大规模中文人物信息提取研究
年级二〇一〇级
姓名胡万亭
申请学位级别硕士
专业计算机系统结构
指导教师杨燕教授
二〇一三年五月
ClassifiedIndex:
TP301.6
U.D.C:
681.14
SouthwestJiaotongUniversity
MasterDegreeThesis
RESEARCHONLarge-scaleChinesepeopleInformationextractionBASEDONWEB
Grade:
2010
Candidate:
WantingHu
AcademicDegreeAppliedfor:
Master
Speciality:
ComputerArchitecture
Supervisor:
Prof.YanYang
May,2013
西南交通大学
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。
本学位论文属于
1.保密□,在年解密后适用本授权书;
2.不保密□,使用本授权书。
(请在以上方框内打“√”)
学位论文作者签名:
指导老师签名:
日期:
日期:
西南交通大学硕士学位论文主要工作(贡献)声明
本人在学位论文中所做的主要工作或贡献如下:
1、采集人物相关网页数据,主要包括编写程序下载好大夫在线、评师网、XX百科等网站数百万网页,CNKI网站三千多万条论文数据。
2、对基于统计的网页正文提取算法做出一些改进,并结合DOM解析工具实现正文提取程序。
用该程序提取了网页的正文。
3、完成分词系统的组织机构名识别模块,主要工作包括:
统计词语词频并排序、整理机构后缀词词典、建立机构名词典、统计机构名组成词词频、构建数学模型并实现基于词频统计的机构名识别算法。
用该分词系统完成对网页正文的分词。
4、编程实现对半结构化和非结构化人物信息的提取,其中非结构化人物信息的提取采用基于规则的提取算法,手动建立了规则库,规则依赖于实验室分词系统对正文的分词标注。
本人郑重声明:
所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。
除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。
对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。
本人完全了解违反上述声明所引起的一切法律责任将由本人承担。
学位论文作者签名:
日期:
摘要
现代人越来越依赖于从互联网上检索信息,人物信息是人们关注检索的一个重要领域。
本文致力于抽取尽可能多的重要人物信息,构建一个人物信息的知识库,既可以作为人物搜索引擎的知识库,也可以作为语义搜索引擎的知识库的人物相关部分。
网络上有海量的人物信息,但是这些信息格式多样、内容纷乱,大量的垃圾信息又充斥其中,如何从互联网中自动高效地抽取准确的信息相对复杂,有很多问题需要解决。
本文研究了一个从网页数据采集、网页正文抽取、中文分词处理到人物信息结构化的完整过程,每个部分都对应论文的一章。
首先是网页数据的采集。
论文详述了人物信息网页来源的选取和网页的下载方法。
网页下载越来越困难,网站对爬虫程序的限制越来越严,甚至采取了各种反爬虫措施,比如对同一IP访问频率的限制。
作者自己编写程序下载网页数据,针对网站的不同情况采用了三种网页数据的下载方式:
一般下载方式、代理下载方式和动态网页数据的下载方式。
然后是对网页正文进行抽取。
论文综述了网页正文抽取的相关研究,采用了基于统计和DOM的方法进行正文抽取。
方法采用的统计信息是正文字长、超链接数和结束标点符号数。
对每个容器标签,统计三个信息值后,利用它们的数量比值判断标签是否正文标签,进而抽取正文。
接着是对网页正文进行分词处理。
常见的分词系统在实体识别方面存在不足,不能很好适用于知识抽取、自然语言处理等。
本文分词处理使用的是西南交大思维与智慧研究所开发的分词系统,该系统在实体识别方面显著优于其它分词系统。
机构名识别算法由本文作者实现,算法基于词频统计。
实验中训练数据主要通过XX百科词条整理得到。
训练时,作者利用XX百科词条名在词条文本中的频数统计,进行机构构成词的词频统计。
在此基础上,构建了数学模型,实现了组织机构名识别算法。
最后是网页人物信息的结构化。
网页上的人物信息一般以半结构化和非结构化呈现,人物信息抽取的最后部分就是抽取半结构化和非结构化的人物信息并保存为结构化的人物信息。
对于半结构化人物信息,需要正文去匹配人物属性词典,然后结合简单规则,直接提取属性值就行了,方法简单而有效。
对于非结构化人物信息的提取,采用基于规则的提取方法,过程中建立触发词库和规则库,触发词库包括基本人物属性和对应的触发词,规则库是人工定义的提取属性值的规则。
关键词:
信息抽取;结构化;分词;词频统计;正文抽取
Abstract
Currently,peopleincreasinglyrelyontheInternettoretrieveinformation.Theinformationaboutpeopleisanimportantaspect.Theaimofthisthesisisextractinginformationoffamouspeopleasmuchaspossible.Itcanbeusedasaknowledgebaseofthepeoplesearchengine,alsocanbeusedasapartoftheknowledgebaseofthesemanticsearchengine.Thisisvastpersonalinformationonthenetwork.But,theformatofinformationisdifferentandcomplex.Atthesametime,alotofspamfulloftheInternet.So,extractingaccurateinformationfromthenetworkautomaticallyandrelativelyfaceswithmanydifficulties.Thisthesisproposesacompleteprocessofpersonalinformationextraction.Itconsistsofdownloadingpage,extractingwebpagecontent,wordsegmentationandextractingstructuredpersonalinformation.
Firstly,thisthesisintroducestheprocessingofdatacollection.ThethesisnarratestheprocessofselectingWebdatasourcesandwaysofpage-downloading.Itismoredifficulttodownloadpagethaninthepast.SomeWebsitestakeavarietyofmeasuresagainstreptiles,suchaslimitingaccessfrequencyofthesameIP.Thewritermakesupthedownloadingprogramandusedthreewaysofpage-downloading:
generalway,agentdownloadwayanddynamicWebdatadownloadway.
Then,thecontentofpageshouldbeextracted.ThisthesissummarizestherelativeresearchofcontentextractionandusestheextractionwaybasedonstatisticsandDOM.Toeachcontainerlabel,thethesisgetscontentlength,thenumberoflinksandthenumberofendpunctuationandcomputestheirratio.Then,itcanbejudgedthatwhetherthelabelcontainscontent.
Thenextstepiswordsegmentation.Commonsegmentationsystemsarelesseffectiveinentityrecognitionsothattheydon’tsuiteforknowledgeextractionandnaturallanguageprocessing.ThesegmentationsystemofSouthwestJiaotongUniversityisbetterthantheothersysteminentityrecognition.And,theorganizationnamerecognitionalgorithmisimplementedinthisthesis.Therecognitionalgorithmisbasedonwordfrequencystatistics.TrainingdatamainlycomesfromBaiduencyclopediaentries.Intheprocessoftraining,theorganizationnamesaresplitintoanumberofwordsandallthewordsfrequencyarecomputed.Onthebasisofcomputationofwordsfrequency,thisthesisestablishesthemathematicalmodelandimplementsthealgorithmoforganizationnamerecognition.
Finally,themostcriticalstepisextractingthestructuredpersonalinformation.Thepersonalinformationcommonlyissemi-structuredandunstructured.Atthispart,semi-structuredandunstructuredpersonalinformationwhichcamefrompageshouldbeextractedandthensavedasstructuredinformation.Themethodofextractingsemi-structuredinformationissimpleandeffective.Thealgorithmmatchesthetexttotheattributedictionaryandthenextractsdirectlyattributevaluethroughsimplerule.Forextractionofunstructuredinformation,thisthesisproposesthealgorithmbasedonrule.Thedictionaryoftriggerwordsandrulesneedtobeestablishedintheextractionprocess.Thedictionaryoftriggerwordsincludesbasicpeopleattributesandtheirtriggerwords.Theartificialrulesareusedtoextractattributevalues.
Keywords:
Informationextractions,structuring,wordsegmentation,wordfrequencystatistics,contentextraction
目录
摘要I
AbstractII
第1章绪论1
1.1项目背景1
1.2目的和意义1
1.3研究现状分析1
1.4本文主要研究内容3
第2章人物网页数据采集5
2.1引言5
2.2爬虫概述5
2.3HttpClient介绍6
2.4网页数据下载6
2.4.1网页数据普通方式下载6
2.4.2网页数据代理方式下载7
2.4.3动态网页数据下载9
2.4.5实验结果11
2.5本章小结11
第3章基于DOM的网页正文信息提取12
3.1引言12
3.2DOM简介12
3.3Html解析器14
3.4基于DOM的正文抽取方法14
3.4.1原理分析14
3.4.2算法过程描述15
3.5实验结果15
3.6本章小结17
第4章网页正文的分词处理18
4.1引言18
4.2分词系统介绍19
4.3组织机构名识别19
4.3.1机构名的组成结构19
4.3.2机构名构成词的词频统计20
4.3.3词语频数统计排序20
4.3.4机构后缀词整理20
4.3.5机构名词典的建立21
4.3.6机构词词频的计算21
4.3.7机构名识别方法22
4.3.8算法描述22
4.4实验结果23
4.4.1机构名识别实验23
4.4.2正文分词处理实验24
4.4本章小结25
第5章人物信息结构化26
5.1引言26
5.2人物信息结构类型26
5.3半结构化人物信息提取28
5.3.1基于《知网》的语义相似度28
5.3.2属性词词典建立29
5.3.3基于词典匹配的方法31
5.4非结构化人物信息提取32
5.4.1文本分析32
5.4.2触发词库建立32
5.4.3规则库建立33
5.4.4算法描述34
5.5实验结果34
5.6本章小结35
总结36
致谢38
参考文献39
攻读硕士学位期间发表的论文和科研情况43
第1章绪论
1.1项目背景
本课题结合自然科学基金委主任项目“基于人机共建智慧平台的语义搜索引擎”开展。
语义搜索引擎是下一代的搜素引擎,旨在解决普通的搜索引擎技术的种种弊端。
语义智能搜索引擎技术的成熟可能还需要十几二十年甚至更长,但是苹果iphone手机的语音识别智能搜索技术是智能搜索引擎技术已经开始应用的实例之一。
语义搜索引擎具有智能化功能,可以理解用户的搜索意图,根据用户的意图直接给出答案,免去用户使用现在搜索引擎过程中那种繁琐的搜索查找过程。
在处理过程中,语义搜索引擎或者直接检索知识库,或者查找互联网并经过匹配、筛选、提取等一系列的处理。
用户的查询更加的方便、迅速,信息也更准确,特别适合于移动搜索用户,因为移动终端具有屏幕小、流量计费的限制。
但是,语义搜索引擎不局限于移动终端,它是一场搜索引擎的革命,终将改变的是所有网络终端中搜索引擎用户的搜索体验。
项目研究的语义搜索引擎的核心技术是知识库和智能引擎,本课题的研究成果有助于知识库中人物部分的构建。
1.2目的和意义
随着互联网的迅速发展和普及,人们越来越依赖于互联网共享和获取信息。
网络上海量的信息对人们是巨大而宝贵的资源,如何更加高效而方便的利用这些资源是摆在我们面前急需解决的问题。
这些信息格式和内容纷杂多变,又充斥着大量虚假和垃圾信息,普通的搜索引擎不能解决这些问题已经不能满足我们的需求。
从而,越来越多的人开始研究web信息抽取技术,希望能从互联网的汪洋大海中自动高效地抽取出有用的、准确的、结构化的信息。
人物信息是互联网上的重要信息,也是人们最关心的信息类型之一。
据调查,AllTheWeb搜索引擎上有5%到10%的检索词中包含人名[1]。
人物信息主要包括人物的姓名、性别、生日、籍贯、职务、工作单位以及经历等。
但是,人物信息抽取技术面临诸多问题,除了信息抽取的一般问题外,还具有人物相关的特殊性。
互联网上的人物信息既有结构化的又有非结构化的,越是普通人物,越以非结构化人物信息方式呈现。
所以,研究自动化的人物信息抽取技术很有意义。
1.3研究现状分析
信息抽取技术在国内外有了二十年左右的研究,有了成熟的发展。
信息抽取的前身是文本理解,然而信息抽取出现之前已经有大量关于自然语言处理的研究和系统,但是这些系统通常只能适用于一定的范围或领域,具有很大局限性[2]。
信息抽取技术的发展离不开消息理解会议(MUC)的召开。
从1987年到1998年,MUC会议召开了七届,会议的一项重要活动是对信息抽取系统的评测,评测主要考虑两个评价指标:
召回率和准确率[3]。
1993年,Hobbs在第五届MUC会议上提出了一个信息抽取系统的体系结构,认为信息抽取系统应该由十个模块组成[4]。
Web信息抽取技术是信息抽取技术最重要的组成部分,主要分为基于DOM树、基于包装器、基于统计理论、基于视觉特征等几类,也有了成熟的发展。
但是,人物信息抽取具有人物相关的特殊性,比如人名识别和同名消岐的问题。
最后的问题才是人物信息提取的问题。
人名识别是各种结构的正文中识别出人的姓名。
英文人名识别与中文人名识别差别较大。
首先,英文单词都是间隔的,但是中文单词混合在句子中,所以分词对中文姓名的识别很重要。
其次,中国人名数量很大,且很多人名随意性太大。
早期,研究人员主要采用的方法是基于语料库和规则库的识别方法。
很多的研究人员又提出了各种人名识别的方法,比如中科院计算所张华平提出的基于角色标注的人名识别[5],毛婷婷等人提出了一种支持向量机和概率统计模型相结合的中国人名自动识别方法[6],戴播等提出了一种基于共坐标上升算法的人名识别方法[7],文献[8]采用了最大熵统计模型进行人名的提取。
现在,人名识别虽然不能做到完全正确,但是有了很好的发展和应用,许多的分词软件已经能够实现很好的人名识别,方法研究与实现就不是本课题研究的重点了。
人名消岐简单分为单文档消岐和跨文档消歧,国内外对人名消岐有很多的研究。
2004年,G.S.Mann采用对人物属性特征进行层次凝聚式聚类的方法进行人名消歧[9]。
2005年,R.Bekkerman提出了基于页面的链接关系和基于多路分布式聚类方法的算法框架找到指向同一人物的同名页面[10]。
2011年,国内的陈晨等人也提出了一种基于社会网络的跨文本同名消歧,陈晨等使用谱聚类对社会网络中的人名进行聚类,又引入了模块度阈值作为社会网络划分的停止条件[11]。
除了人物信息提取方面的研究外,人物相关的研究还包括人物传记的生成方面[12]、人物社交网络方面[13]等。
在中文人物信息结构化提取方面,国内一些研究人员做了一定的研究,提出了一些解决方法。
但是,人物信息提取不仅要提取网页正文,还要实现非结构人物信息的结构化,这就需要对自然语言理解有一定研究,所以中文人物信息提取面临许多困难。
人物信息主要分为两类:
半结构化人物信息和非结构人物信息。
半结构化人物信息指网页中人物的信息以“字段名:
字段值”这种方式呈现,非结构化人物信息以描述性的自由文本呈现。
半结构化的人物信息抽取直接利用属性名匹配就能达到很好的抽取效果,比如天津工业大学的燕敏就是用这种方法实现对半结构化人物信息的提取[14]。
非结构化的人物信息抽取就要困难很多。
2009年,解放军电子工程学院的刘金红等提出了一种基于语义上下文分析的人物信息挖掘技术,这种方法利用语义特征词提取人物信息,但是方法有很大的局限性,因为网络上更多的非结构化人物信息没有语义特征词[15]。
2010年,兰州大学的陈晓云提出了一种基于DOM的中文人物信息提取方法,作者为网页的DOM树中的节点加入了主题相关度影响因子,达到了很好的正文提取效果,对正文再应用模式匹配的方法较好的实现了中文人物信息的抽取[16]。
这种基于匹配的方法也主要面临两个问题,一方面是对网页正文准确的提取,另一方面是知识库全面而正确的构建。
通过论文搜索尚未发现国内研究人员有做基于互联网的大规模人物信息自动提取的,这些研究人员大都是在小规模的网页数据库上做的算法研究,或者针对某一领域人物如教师信息进行抽取的,所以本文希望采集尽可能多的人物网页数据,研究通用的方法,获取大规模的人物数据。
1.4本文主要研究内容
基于互联网的大规模中文人物信息提取过程相对复杂,涉及到的问题很多。
本文介绍的是一个从网页数据下载、网页正文抽取、中文分词处理、半结构化和非结构化人物信息的结构化的完整过程。
作者结合项目需要对课题展开研究,解决了过程中遇到的每个问题并用程序实现方法,得到实验结果。
有一般方法的借鉴,有自己原创方法的提出,也有因为时间仓促、能力有限而难免挂一漏万、考虑不周的各种问题。
庆幸的是,该文实现并论述了一个完整的过程,满足了作者所在项目的需求。
作者按照实现过程的逻辑先后顺序,完成了本文的论述,每一个模块对应了一章的内容。
文章共分五章,内容如下:
第1章是绪论部分。
主要讲述了项目背景、课题的目的和意义、研究现状分析。
第2章是人物网页数据的采集。
本章详述了网站的选取和网页的下载方法。
网页下载有很多的困难,特别是现在网站对爬虫的限制越来越多。
本章结合几个网站的特点详细讲述了三种网页数据的下载方式:
一般下载方式、代理下载方式和动态网页数据的下载方式。
第3章叙述了网页的正文抽取过程。
本章首先综述了网页正文抽取的研究方法,确定了基于统计和DOM的方法进行正文抽取;然后,介绍了DOM的一般知识和HTML解析工具Jsoup;接着,结合数学公式讲解了算法的原理和实现过程;最后给出了实验结果。
第4章主要内容是对抽取的网页正文进行分词处理。
引言中给出了正文分词处理的必要性和一般分词系统在实体识别中的不足,从而引出西南交通大学思维与智慧研究所开发的中文分词系统。
本章重点讲述了基于词频统计的机构名识别算法的实现过程。
最后的实验部分,给出了识别方法的性能度量结果和分词系统对网页正文分词处理的结果。
第5章讲述网页信息的结构化。
本章给出了对网页信息呈现方式的分类:
结构化、半结构化和非结构化。
半结构化的信息提取方法简
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Web 大规模 中文 人物 信息 提取 研究
![提示](https://static.bingdoc.com/images/bang_tan.gif)