吴俊爽SY1406307情报学.docx
- 文档编号:2381303
- 上传时间:2023-05-03
- 格式:DOCX
- 页数:14
- 大小:578.26KB
吴俊爽SY1406307情报学.docx
《吴俊爽SY1406307情报学.docx》由会员分享,可在线阅读,更多相关《吴俊爽SY1406307情报学.docx(14页珍藏版)》请在冰点文库上搜索。
吴俊爽SY1406307情报学
课程代码:
081513
学时/学分:
32/2成绩:
经济管理学院研究生
课程论文
(情报分析与研究)
论文题目:
web级的知识图谱构建
课程教师:
陈淑云
学院/专业:
经济管理/情报学
学生姓名:
吴俊爽
学号:
SY1406307
2014年1月15日
摘要
摘要:
随着技术的发展,各个垂直领域对数据的处理、整理使其结果化、关联化的方式呈现在用户面前。
用户的使用体验得到了极大的提升,同时用户的预期也被抬高。
结构化、智能化成为趋势,传统的搜索结果面临很大的挑战。
自动化或半自动化的产生领域的知识图谱,以这个数据为基础可以优化该领域的搜索体验,结构化的展示查询结果,支持智能的查询。
本文主要从四个方面知识表达、知识提取、知识融合和知识存储技术介绍学术界和工业界的现有的研究方法和成果,最后提出自己的研究内容和相关基础工作。
关键词:
知识图谱,本体,知识提取,知识融合,图数据库
Abstract:
Withthedevelopmentoftechnology,theverticalfiledbegintoprocessdata,sothattheusercangetthestructuredandassociatedresults.Theuserexperiencehasbeengreatlyimproved,whiletheexpectationofusersisalsoraised.StructureandIntelligencebecomethetrendsothattraditionalsearchresultsarefacinggreatchallenges.Automatedorsemi-automatedwaythatgeneratesknowledgegraphinverticalfiledisapowerfultooltosolvethisproblem.Basedontheknowledgegraph,Experienceofverticalfiledsearchwillbeoptimized,becauseitispossibleforthesearchenginetodisplaythestructuredqueryresultsandsupportmorecomplicatedandintelligentquerygoal.Inthispaper,wefocusonintroducingknowledgeexpression,knowledgeextractionandknowledgeintegrationandknowledgestorageresearchtrendintheindustryandthescholarandoursomeresearchworkarealsomentioned.
Keywords:
Knowledgegraph,Ontology,InformationExtraction,KnowledgeFusion,GraphDatabase
1.引言
语义万维网是万维网的发明人Tim-BurnersLee倡导的下一代万维网,旨在为万维网上信息资源之间赋予语义联系,使得计算机能够借助万维网上的语义信息更加智能的替人类完成更多复杂的任务。
传统的互联网由于是HTML网页互联所以难以表达这种语义关系。
知识图谱利用语义检索从多种来源获取信息将互联网中的实体与实体间的关系抽象为图的点和边,从而将现实生活中的知识抽象为一张图,以方便计算机的理解,进而提高相关应用的质量。
因此,大规模中文知识图谱将成为新一代智能信息工程的重要基础设施。
Gartner在《2013年影响信息基础设施的十大技术趋势》中确定了语义技术作为一项顶级的技术趋势正在影响信息基础设施[1]。
知识图谱可为语义检索、知识导航、决策支持、自动问答、个性化推荐等诸多应用打来质的飞跃,故国内外各大研究机构、公司都对此领域进行了探索。
国外已在该领域取得了成熟的研究成果并将其付诸于实际应用并取得了较好的效果[2][3]。
2012年5月17日,谷歌公司推出了谷歌知识图谱智能化搜索功能,对搜索结果进行系统的知识整理[7]。
微软提出的Satori技术,致力于从无结构化的Web文档中抽取数据构建结构化的知识图谱。
国内具有代表性的系统有XX“知心”和搜狗的“知立方”等。
然而有关知识图谱的构建以及基于其的智能应用在我国仍属研究的起步阶段,相较于已经成熟的英文知识图谱,中文开源知识图谱仍然是一个空白。
这亟待我们构建一个规模化的中文知识图谱,得以在此基础上提高与优化相应智能应用的效果。
在中文知识图谱的构建与应用中,我们仍然面临着许多问题与挑战,特别是数据源繁杂,数据庞大,可信度差,知识的关联和推理复杂而困难等挑战,以及中文语言的特殊性及开放预料匮乏的难题[4][5]。
2.论文检索概况
该部分主要介绍根据关键字和高级检索技术,检索计算机相关的文献库与知识图谱的自动构建强相关的论文的情况。
使用基本检索:
包括检索入口选择(相关官网和数据库地址)、关键词(知识库、构建、信息抽取等)。
使用高级检索:
包括限制主题词扩展检索(OR、AND)、主题检索、期刊检索、作者检索、限定时间、限制学科领域。
图1是使用不同数据库检索出论文数量的统计情况。
图1论文检索数量统计
下面是使用不同的数据库检索出的数据。
图2知网检索方法
图3万方检索方法
图4IEEE检索
图5arXiv.org检索
图6Village检索
DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。
按年代列出了作者的科研成果。
包括国际期刊和会议等公开发表的论文。
但是没有提供中文文献检索接口。
DBLP所收录的期刊和会议论文质量较高,DBLP的文献更新速度很快,很好地反应了国外学术研究的前沿方向。
下面是根据四个不同的研究点(ontologymatching,predicatelinkage,entitylinkage,knowledgeextraction,knowledgefusion),利用DBLP检索出的文献数量统计。
图7DBLP检索的A类会议在四个方向的近1年的论文数量
3.课题领域技术现状分析及趋势分析
自动构建知识图谱,就是利用信息提取技术、机器学习和高质量的web数据源,使用自动、半自动的方法将非结构化、半结构化或者结构化的异构数据转换成机器可读的基于知识三元组的大规模图数据,支持高效存取算联动,支持智能查询。
在构建知识图谱过程中主要的相关技术包括:
基于本体(也称为schema)的知识表达技术、知识提取技术、知识融合技术、知识存储技术。
1)基于本体的知识表达技术:
模式(schema)是对知识的提炼,而且遵循预先给定的模式有助于知识的标注,更有利于查询等后续处理。
常用的本体有DBpedia的本体,谷歌、微软等推出schema.org的本体定义和标注规范。
Omkar等[7]探讨自定义顶级分类,然后将wikipedia中现有的分类关系归并到自定义分类中构建一个新的分类树,而利用dbpedia中的本体映射关系能够很容易的构建出新的知识本体。
在中文知识构建方面,中科院赵军等[8]指出将dbpedia和schema.org等英文知识本体在翻译和扩展到中文中,存在覆盖度不全、不够细致等问题,构建与领域无关的中文知识本体还有很多的可改进的空间。
2)知识提取(informationextraction)技术:
知识提取就是在异构的数据中发现事实,通过实体连接(entitylinkage)即判断提取出的关键词是指向本体中的那个实体、关系连接也称谓词连接(predicatelinkage),提取出表示知识的三元组<实体1,关系,实体2>或者<主语,谓语,宾语>[9]。
德国莱比锡大学JensLehmann等[10]建立DBpedia时利用基于模板的知识三元组提取技术,从信息框(Infobox)中获取大量的知识,并利用wiki网页链接信息,发现实体之间的联系紧密度等。
卡耐基梅隆大学的等[11]建立NELL时利用机器学习中半监督学习方法以及利用自身存储的日益强大的knowledge作为训练集合来提取潜在的知识三元组,在结合人工评估精确度后确定知识三元组。
图8NELL系统架构图
知识提取的难度和技术都比较复杂,XinLunaDong指出Freebase中的知识三元组的正确率只有30%,实体连接和关系连接中只有少部分(13%)具有较高的准确性,加之知识提取的数据本身的正确性和完整性都有很大的差异性,因此知识融合变得十分重要。
3)知识融合(informationfusion)技术:
给定一个丰富的知识三元组集合,其中包含三元组来源信息(provenanceinformation,PI)如URI、extractor的类型等,计算出每个知识三元组为真的概率[10]。
其中实体融合即将结构化的数据记录经过去重、推理映射到本体中的实体,吸引了国内外许多研究者的关注;SharadMehrotra等提出查询驱动的数据清理策略,能够巧妙的解决实体解析和融合问题;NileshDalvi等提出基于众包策略与基于先验经验机器学习相结合的实体融合算法;
4)知识存储技术:
知识图谱采用基于本体的知识表达体系,需要使用ontology语言即OWL(WebOntologyLanguage)对知识进行描述;底层数据存储使用RDF(ResourceDefinitionFramework)协议,因此大多使用TTL、JSON等格式文本文件存储知识三元组,也有使用4元组进行存储的。
Neo4j、Virtuoso、Freebase等NoSQL分布式数据库能够灵活的用来管理知识库。
目前比较流行Hadoop的分布式文件系统HDFS能够用于存储大容量的文件,但是目前尚未有人给出较好的在其平台上的知识库的管理框架。
4.领域知识图谱构建技术解决方案
知识图谱遵循语义网的标准,语义网能够帮助机器更好的了解网络,同时让机器更好的帮助人类理解事物,知识图谱也想实现相同的目标。
下图是W3C的语义网标准栈。
图9W3C的语义网标准栈
本论文的目标是半自动建立与领域相关的、基于本体的(ontologybased),支持查询、推理的多语言知识图谱。
整合360互动百科、维基百科、schema.org等较为完整的分类树,然后可以根据自己的需求细化相关分类,建立与领域无关的知识表达体系(schema)。
常用的工具有开源的Protégé、OWLAPI。
这部分需要相关领域的专家参与或者需要大量用户投票;这样我们定义的知识图谱的schema才具有较高的可用性和可信性。
学术界也提出了很多关于schema的对齐的算法和框架如SIGMA[12]。
图3是系统的总体架构图,清晰的表现了知识图谱构建在整合项目的基础、核心地位。
半自动构建高效、完整的知识图谱是整个系统良好运行的保障。
图4是知识图谱半自动构建的系统框架图,描述了整个构建过程的流程。
图11知识图谱构建图
知识表达体系:
通过融合多个分类来源如360百科、维基百科等领域相关网站自动构建通用的零余额知识表达体系。
第一步是自动构建分类树,目前爬取了互动百科9大分类、45个二级分类等分类信息,建立了领域词典。
但是去掉冗余分类和不合理分类的算法和策略还在实验当中。
标准schema的产生,还需要进一步的标注数据和实现相关并行机器学习的算法,目前只是做了简单的分类处理,精度还不够。
图12构建领域表达体系过程图
图13schema的提出、扩充和融合
知识三元组提取管理器:
主要是从360互动百和相关领域网站提取知识三元组,因此适合采用基于模板的知识三元组提取方法,自己编写若干解析器。
实体识别标注和关系标注依赖大量的语料库和相关机器学习算法,但目前已经有些较好的开源工具和成熟的算法[14][15][16]。
目前,我们实验采用从结构化数据、半结构化数据和纯文本三个不同格式的数据源来挖掘数据。
相关分析如下图:
图14三元组提取来源
知识三元组的提取过程中,面临实体解析、关系抽取、三元组整合等技术和研究点都需要我们阅读大量文献,选择或提出好的解决方案,基本流程如下图所示。
图15知识三元组获取流程
知识融合:
主要是判断上步中提取的三元组的可靠性,由于知识三元组提取管理器会产生大量的三元组,如果全部让人工去判断肯定会消耗大量的人力、财力,使用XinLunaDong[13]等改进现有的数据融合的方法如VOTE、ACCU、POPACCU等,通过控制不同粒度的PI来计算出三元组的正确率。
当机器学习算法判断正确后提交给人工审批即可加入知识图谱库中。
图16知识融合过程图
知识图谱数据管理:
半自动建立知识图谱,因此存在大量的图谱数据的增、删、改、查的工作[17],搭建或者使用稳定的图数据存储服务器显得非常重要,这里使用virtuoso服务器,能够高效管理RDF文件;而且上层还需要提供图计算或者图查询的接口,因此知识图谱的构建过程中,要提出高效的存储架构方案,以支持高效存取算联动,支持智能查询。
相关架构和平台如下图所示。
图17高效知识图谱存储架构
5.总结和展望
自动化或半自动化的产生领域的知识图谱,以这个数据为基础可以优化该领域的搜索体验,结构化的展示查询结果,支持智能的查询。
目前该方向还存在很多可以研究的地方,而且国内外学者也都在致力于提出相关的优化算法、策略;并且能为产业界带来很高的商业价值,该课题研究的意义和研究的空间都很广阔。
参考文献
[1]Gartner."TheTop10StrategicTechnologyTrendsfor2013"[OnlineAvailable].October23,2012.
[2]AntoineBordes,EvgeniyGabrilovich.ConstructingandMiningWeb-scaleKnowledgeGraphs[R].In:
KDD,2014,NewYork,August24.
[3]FSuchanek,GerhardWeikum.KnowledgeBasesintheAgeofBigDataAnalytics[C].
In:
ProceedingsoftheVLDBEndowment,Vol.7,No.13.
[4]WangHaofen.KnowledgeGraph101---fromGeneraltoVertical[R].InCCFADL,2014,知识图谱前沿.北京,December28.
[5]杨思洛,韩瑞珍.知识图谱研究现状及趋势的可视化分析[J].情报资料工作,2012年第4期.
[6]深度.知识图谱:
谷歌打造未来搜索.电脑爱好者.2013.3.1.
[7]OmkarDeshpande,DigvijayS.Lamba,MichelTourn,etal.Building,maintaining,andusingknowledgebases:
areportfromthetrenches[C].In:
SIGMODConference,2013:
1209-1220.
[8]赵军,刘康."中文知识图谱:
体系、获取与服务"[R].第一届全国中文知识图谱研讨会,杭州,2013.
[8]朱小燕.信息获取与知识图谱[R].第一届全国中文知识图谱研讨会,杭州,2013.
[9]XinDong,EvgeniyGabrilovich,GeremyHeitz,etal.Knowledgevault:
aweb-scaleapproachtoprobabilisticknowledgefusion.In:
KDD2014:
601-610.
[10]SebastianHellmann,ClausStadler,JensLehmann:
TheGermanDBpedia:
ASenseRepositoryforLinkingEntities.LinkedDatainLinguistics2012:
181-190.
[11]AndrewCarlson,JustinBetteridge,TomM.Mitchell.TowardanArchitectureforNever-EndingLanguageLearning[C].In:
AAAI2010.
[12]SimonLacoste-Julien,KonstantinaPalla,AlexDavies,etal.SiGMa:
SimpleGreedyMatchingforAligningLargeKnowledgeBases.arXiv,2012,1207.4525v1[cs.AI].
[13]XinLunaDong,DiveshSrivastava.BigDataIntegration[J].PVLDB2013,6(11):
1188-1189.
[14]WeiShen,JianyongWang,PingLuo,etcal.LinkingNamedEntitiesinTweetswithKnowledgeBaseviaUserInterestModeling.InKDD2014.
[15]JieXu,DmitriV.Kalashnikov,SharadMehrotra:
.QueryAwareDeterminizationofUncertainObjects[J].IEEETrans.Knowl.DataEng,2015,27
(1):
207-221.
[16]NorasesVesdapunt,KedarBellare,NileshN.Dalvi.CrowdsourcingAlgorithmsforEntityResolution[J].PVLDB2014,7(12):
1071-1082.
[17]HamidMousavi,ShiGao,CarloZaniolo.IBminer:
ATextMiningToolforConstructingandPopulatingInfoBoxDatabasesandKnowledgeBases[J]In:
ProceedingsoftheVLDBEndowment,2013,Vol.6,No.12.
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 俊爽 SY1406307 情报学