信息存储与检索复习资料2.ppt
- 文档编号:15849696
- 上传时间:2023-07-08
- 格式:PPT
- 页数:33
- 大小:740KB
信息存储与检索复习资料2.ppt
《信息存储与检索复习资料2.ppt》由会员分享,可在线阅读,更多相关《信息存储与检索复习资料2.ppt(33页珍藏版)》请在冰点文库上搜索。
第二章信息检索模型,信息存储与检索技术,第二章信息检索模型,信息存储与检索技术,第一节信息检索模型概述,一、信息检索模型的基本概念1、信息检索模型的概念信息检索模型(信息检索的数学模型):
就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和抽象,表述为某种数学公式,再经过演绎、推断、解释和实践检验,反过来指导信息检索实践。
信息检索模型由以下几部分组成:
(1)用户的需求表示
(2)文档的表示(3)匹配机制最简单的信息检索模型就是单项检索模型。
Q=TkDocA=(Ta,Tb,Tc)DocB=(Tb,Tk,Tm)信息检索模型主要从两个方面抽象地研究信息检索方法(P27):
确定在检索模型中如何表示构成检索系统的两个要素,即文档和检索式;确定在检索模型中如何定义和计算文档与检索式之间的关系。
信息存储与检索技术,第一节信息检索模型概述,一、信息检索模型的基本概念2、信息检索模型表示一般一个信息检索系统可以形式化地抽象表示为如下的四元组(P28),如下:
System=(D,Q,F,R(dj,q)D:
信息检索系统的信息资源集合Q:
用户信息需求集合F:
信息资源与信息需求的匹配处理框架R(dj,q):
(相似性)匹配函数,信息存储与检索技术,第一节信息检索模型概述,一、信息检索模型的基本概念2、信息检索模型表示
(1)信息资源集合DD:
用集合论的观点,我们可以把D表示成:
D=d1,d2,dnn=0)每篇原始文档信息在检索系统中存储时,一般都要进行必要的加工,生成文档的某种逻辑视图(logicviewofdocument)。
文档逻辑视图:
通常是由从文档中抽取出的、能表达文档内容的特征项(如索引词)所构成的,是文档的一种形式化表示。
文档逻辑视图的生成可以通过施加不同的文本操作(或转换)来实现。
可以把D看作是全体文档逻辑视图的一个集合体。
信息存储与检索技术,第一节信息检索模型概述,一、信息检索模型的基本概念2、信息检索模型表示
(2)用户信息需求集合Q用户的信息需求有不同的存在状态:
潜在真实需求(RealinformationNeed:
RIN);意识到或感知到的需求(PerceptionInformationNeed:
PIN);表达的需求(Request);提问(Query)这里,我们把用户信息需求集合(Q)简化为用户的提问集合:
Qq1,q2,qm注意:
(1)提问式也可以理解为用户信息需求的一种逻辑视图表示。
(2)在某一检索系统中,使用自然语言表达的用户需求(即Request)一般也要采用与文档类似的形式化表示方法加以表述,以形成满足系统检索语言语法要求的提问式(Query)。
信息存储与检索技术,第一节信息检索模型概述,一、信息检索模型的基本概念2、信息检索模型表示(3)信息资源与信息需求的匹配处理框架(F)匹配处理框架(F)提供对文档视图、提问式以及它们之间关系进行模型化处理的框架与规则。
布尔模型而言,匹配规则为二值相关性判断,匹配运算主要基于集合论的集合基本运算;向量空间模型而言,匹配规则采用多值相关性判断,匹配处理建立在代数论的多维向量空间操作基础之上。
信息存储与检索技术,第一节信息检索模型概述,一、信息检索模型的基本概念2、信息检索模型表示(4)匹配函数R(dj,q)匹配函数R(dj,q)用于计算任一文档dj与任一提问q形成的文档提问对(dj,q)之间的相似度的大小一般R(dj,q)的函数值为一实数,其取值区间为0,1。
从数学上来讲,匹配函数的选取,要求能够具备一下特点:
计算方法简单,计算量小;函数值在取值区间均匀分布;针对某一提问所获取的相关文档集合,能够实现合理的排序输出。
信息存储与检索技术,第一节信息检索模型概述,一、信息检索模型的基本概念3、信息检索模型的分类传统的文本信息检索模型主要有三种:
布尔模型、向量空间模型和概率模型,也称经典的信息检索模型。
经典信息检索模型的基本假设:
(1)被检索对象主要是文档对象;
(2)标引词是相互独立的、彼此无关的。
(3)所有文档的内容和所需信息的表示都是非常精确的。
信息存储与检索技术,布尔模型(集合论模型):
文献和查询用标引词集合来表示,匹配规则为二值相关性判断。
向量模型(代数模型):
文献和查询用t维空间的向量来表示,匹配规则采用多值相关性判断。
概率模型(概率模型):
检索是文献和查询之间匹配程度的概率估计问题。
经典模型(如集合论,代数,概率模型)的各种不同的改进模式:
集合论模型:
模糊集合论和扩展布尔模型;代数模型:
广义向量模型、潜语义标引模型和神经网络模型。
大多数检索系统往往将各种检索模型混合以达到最佳的检索效果。
信息存储与检索技术,第二节布尔检索模型,一、布尔逻辑模型的概念文献表示:
每一文献用一组标引词表示,标引词可以是关键词、作者、篇名等能反映文档特征的词。
提问表示:
每个提问都表示为提问词(检索词)的布尔组配,称其为布尔逻辑表达式。
布尔逻辑表达式指采用布尔运算符(逻辑与“and”、逻辑或“or”、逻辑非“not”等)来连接运算分量(检索词),以及表示运算优先级的括号组成的一种表达检索要求的一种算式,简称提问逻辑式。
匹配函数:
布尔模型对于任一篇文档djD,定义dj与用户提问q的匹配函数为:
Sim(dj,q)1:
dj中包含有Q的合取向量,dj与Q相关Sim(dj,q)0:
dj中不包含有Q的合取向量,dj与Q不相关,信息存储与检索技术,第二节布尔检索模型,二布尔逻辑运算符及其运算含义常用的布尔逻辑运算符有三种,它们是逻辑或“or”、逻辑与“and”、逻辑非“not”。
(1)逻辑或(“or”,逻辑加,)逻辑或可使检索命中结果的区域扩大,达到了扩检的目的,从而增强了检全率。
(2)逻辑与(“and”,逻辑乘,)通过对检索词之间的与运算,增强了查找的专指性,可提高查准率。
以网络搜索引擎为例:
见P30。
(3)逻辑非“not”(实质上为与非),信息存储与检索技术,第二节布尔检索模型,二布尔逻辑运算符及其运算含义(4)布尔逻辑运算符的运算次序绝大多数检索系统是按照如下规则进行检索运算的:
同级运算是从左向右进行的;括号内的逻辑运算优先执行,括号有多层时,最内层括号中的运算最先执行;当检索提问式含有截词符、位置算符、限制符时,布尔运算最后执行;但对于运算符or、and、not,它们的运算优先次序在不同的系统中有着不同的规定:
DIALOG的RECON软件:
not最先执行,and其次执行,or最后执行;STAIRS软件、ORBIT软件:
and与not同级,并高于or,它们依其自然顺序执行,or最后执行;在UNIVAS上运行的UNIDAS软件:
and最先执行,not其次执行,or最后执行。
信息存储与检索技术,第二节布尔检索模型,三、传统布尔查询的评价优点:
(1)与思维习惯相一致;
(2)方便扩检与缩检;(3)易于计算机实现。
缺点:
(1)信息集合的标引问题无权重设计
(2)用户需求的表示问题逻辑运算符的理解和应用;提问词的选择(例如整体与部分)(3)匹配问题:
二值匹配策略问题相关性排序以及检索结果输出量控制;匹配标准不尽合理。
信息存储与检索技术,第三节向量空间检索模型,20世纪60年代末期,GerardSalton(现代信息检索的奠基人),SMART系统。
向量空间检索模型:
VectorSpaceModel,简称VSM向量空间模型是用提问词和标引词的向量空间来表示用户的查询要求和文档信息,根据向量空间的相似度,排列查询结果。
向量空间方法的基本思想要点是:
(1)将文档D和查询Q都用向量表示;
(2)检索的过程就是计算文档向量和查询向量之间的相似度;(3)根据相似度的不同,对检索结果进行排序。
信息存储与检索技术,第三节向量空间检索模型,一向量空间模型的基本原理
(1)文档向量的构造考虑到一个有n个记录(文献)的集合:
D=d1,d2,dn对一条属于该集合的特定的文档记录di,可以用属性向量把它表示成:
di(ti1,ti2,tim)di就称为文档向量,其中:
m:
用于描述这些记录的属性的个数,一般情况下,该属性为主题词;tij:
表示文献di中具有属性tj(j1,2,m)的程度。
把这种程度用数值的形式表示出来,就是人们常说的“加权”。
一般来讲,若文献di具有属性tj,则tij1;否则tij0。
我们称向量di(ti1,ti2tim)为文档向量。
信息存储与检索技术,第三节向量空间检索模型,一向量空间模型的基本原理
(1)文档向量的构造把文档向量di(i1,2,n)看成矩阵C的第i行,那么整个文献集合可以用矩阵C来表示:
C=(cij)nm(i1,2,n;j1,2,m)N:
是文献集合中文献的篇数;M:
是用来标引文献的主题词的个数。
我们把矩阵C叫做文献集合的文献属性相关矩阵。
信息存储与检索技术,第三节向量空间检索模型,一向量空间模型的基本原理
(2)提问向量的构造对于一个特定的提问Q也可以用属性向量把它表示成:
Q(q1,q2qm)这里qj(j1,2,m)表示提问Q包含属性tj的程度。
信息存储与检索技术,第三节向量空间检索模型,一向量空间模型的基本原理(3)匹配函数的选择及相似度阈值的确定较常采用的相似度计算指标是两个向量夹角的余弦值。
按照两个向量夹角余弦的计算含义,文档dj和提问q的相似度值可以通过下面的计算公式获得(P31):
1)简单匹配系数:
2)余弦系数:
信息存储与检索技术,第三节向量空间检索模型,一向量空间模型的基本原理(3)匹配函数的选择及相似度阈值的确定利用相关性计算结果,可以:
计算系统中所有文档与某一提问的相似度,并能够按照其相似度值的降序排列方式输出命中的结果文档。
量化地判断系统文档两两之间的相似程度文档相关矩阵D;量化地判断系统中标引词(属性)两两之间的相似程度属性相关矩阵T;,信息存储与检索技术,第三节向量空间检索模型,量化地判断系统文档两两之间的相似程度文档相关矩阵D;文献相关矩阵D:
为了表示文献之间的相关关系,分别计算C矩阵中第i行与第j行之间的相关系数dij,由dij构成的一个nn的矩阵就称作文献相关矩阵。
当C矩阵中的值取1和0时,dijk,说明这两篇文献中有k个相同的标引词。
矩阵中dij元可以理解成第i篇文献与第j篇文献包含的属性词的重复面的大小,dij越大,说明第i篇文献与第j篇文献包含的相同主题越多,因此两篇文献的相关程度也就越大。
信息存储与检索技术,第三节向量空间检索模型,量化地判断系统中标引词(属性)两两之间的相似程度属性相关矩阵T;标引词(属性)相关矩阵T:
分别计算文献集合中第i列和第j列之间的相关系数tij,由tij构成的mm矩阵T称标引词相关矩阵。
当C矩阵中的值取1和0时:
tijk,则说明有k篇文献同时用第i个词和第j个词标引。
T矩阵中tij元可以理解成第i个属性词与第j个属性词在整个文献库中存在于同一文献中的“相遇机会”的大小,tij越大,表示第i个属性词与第j个属性词在同一篇文献中相遇的次数愈多,它们二者的相关性一般也就越大。
信息存储与检索技术,第三节向量空间检索模型,已知主题词表:
A汽车a1,拖拉机a2,摩托车a3,发动机a4,废气a5,传动结构a6,处理a7,修理a8文献集合:
Dd1,d2,d3d1取标引词:
汽车、发动机、废气、处理;d2取标引词:
拖拉机、传动结构;d3取标引词:
汽车、拖拉机、摩托车、发动机、修理。
提问Q取提问词“汽车、拖拉机、发动机、废气、处理”要求写出(相关系数的计算采用简单匹配系数的方法):
1)文献向量;2)提问向量;3)属性文献相关矩阵C;4)文献相关矩阵D;5)标引词相关矩阵T。
问:
1)哪篇文献最符合提问要求?
2)哪两篇文献内容比较接近?
信息存储与检索技术,第三节向量空间检索模型,二、向量空间模型的技术特征分析与应用
(1)向量空间模型技术特征分析部分匹配策略;词加权处理模式;对检索结果排序输出。
(2)向量空间模型的应用典型的基于VSM理论的文本信息处理主要包括以下几个分支领域:
文本检索、文本分类、文本过滤、文本挖掘、文本浏览与可视化等。
应用前提:
VSM的量化处理思想充分发挥了计算机的计算特长;VSM理论没有对其特征项(即属性词)的权值评价、文档向量与提问向量的相似度计算等问题做出统一的规定;VSM理论的文本语种无关性。
各检索词之间的关系是相互独立的(两两正交假设)。
信息存储与检索技术,第三节向量空间检索模型,三向量空间模型实际应用中的局限性
(1)信息检索系统的向量模型要求用于检索的计算机的内存容量是相当大的。
解决方法:
稀疏矩阵的存储与处理。
(2)上述理论要求属性词表是相对稳定的-不但其个数不能变,且其位置也不能变。
解决方法:
预留空号。
(3)提问向量反应不出提问式主题词之间的多种逻辑组配关系。
解决方法:
提问式变换。
例如:
根据7个主题词A,B,C,D,E,F,G的主题词,有:
QA*D*-EQ(A+D)*-E.,信息存储与检索技术,第四节扩展布尔检索模型,一、扩展布尔检索模型的概念例子:
有以下检索式:
Q1k1andk2andk3andandk8Q2k1ork2ork3orork81983,Salton,扩展的布尔检索模型。
该模型中巧妙地引入了一个参数,通过适当调节这个参数,Salton模型可以分别为布尔模型、向量模型和模糊模型。
信息存储与检索技术,第四节扩展布尔检索模型,二、扩展布尔模型的工作原理基本思想:
将所检索的文档信息中的标引词与用户的查询表达式进行相似度的比较,按照相关的优先次序排列查询结果。
扩展布尔检索模型常用的方法:
MMM模型;Paice模型;P-Norm模型。
本课以P-Norm模型为例。
信息存储与检索技术,第四节扩展布尔检索模型,二、扩展布尔模型的工作原理假设文本集中仅有两个标引词t1和t2,并且t1和t2允许赋以权值,其权值范围为0,1。
在扩展布尔检索模型中,上述情形用平面坐标系上某点代表某一文本和用户给出的检索式。
如P39图2-2所示。
信息存储与检索技术,第四节扩展布尔检索模型,信息存储与检索技术,第四节扩展布尔检索模型,二、扩展布尔模型的工作原理可以将上述只包含两个项目的查询式的相似度计算进一步扩展:
(1)可将检索词的个数扩充为m个;
(2)将该式用于对检索词加权的情况下。
P-Norm模型公式如下:
Xm:
表示第m个标引词在文献d中的权重;P:
表示检索词间逻辑关系严格的程度。
信息存储与检索技术,第四节扩展布尔检索模型,二、扩展布尔模型的工作原理P1:
P:
当P1时,布尔逻辑式中算符“or”和“and”之间的差别消失,模型等价于向量空间模型;当P时,提问式中的逻辑算符又符合模糊逻辑的形式,可以看作是布尔逻辑的一种泛化,相对应的模型是布尔模型/模糊逻辑模型;P值取1到之间的值时:
“or”:
提问式中多出现几个提问词总比少出现好;“and”:
提问式中所有词都出现总比仅出现几个词更有价值,但同时又不苛求所有提问词都出现。
信息存储与检索技术,第四节扩展布尔检索模型,二、扩展布尔模型的工作原理
(1)P值的大小,表达了对布尔逻辑算符的约束强度,取值越小约束越松,取值越大约束越严。
(2)P的实际值通常可以在1.59之间选择。
三、扩展布尔模型的优缺点扩展布尔模型是常规布尔模型和向量模型相结合的产物。
1、扩展布尔模型的优点
(1)与传统布尔检索中的倒排档检索技术相兼容,支持使用标准布尔逻辑表达的提问式结构;
(2)允许在文档和提问式中进行词加权处理;(3)支持按相似度大小排序输出检索结果;(4)通过调整参数P的值,可以灵活选择并得到不同的检索结果。
2、扩展布尔检索模型的缺点“集成化模型”臃肿、不够简洁不是很普及。
ThankYou!
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息 存储 检索 复习资料